随着OpenAI等AI实验室推出所谓的"推理"AI模型,这些模型能够逐步"思考"问题,在特定领域表现出更强的能力。然而,这些模型的基准测试成本也大幅上涨,使得独立验证变得困难。第三方测试机构Artificial Analysis的数据显示,评估OpenAI的o1推理模型在7个流行基准测试上的成本高达2767美元,而非推理模型GPT-4o仅需109美元。高昂的测试成本可能会影响学术界复现结果的能力。