数据分析

OpenAI 翻车！o3 模型实测成绩远低于官宣，AI 界数据迷雾又起？

2025-04-21 15:01:20 Pea 阅读：43

在 AI 技术竞争白热化的当下，模型性能数据往往成为各家公司抢占舆论高地的 “武器”。然而，OpenAI 最新推出的 o3 模型，却因实测成绩与官宣数据的巨大落差，陷入了一场公信力危机。这场风波不仅揭开了 AI 行业数据迷雾的一角，更引发了人们对企业技术宣传真实性的深度思考。

去年 12 月，OpenAI 高调发布 o3 模型，并放出 “王炸” 数据：在 FrontierMath 这一极具挑战性的数学问题集测试中，o3 能正确解答超过四分之一的题目。当时 OpenAI 首席研究官马克・陈在直播中自信宣称：“目前市面上所有产品在 FrontierMath 的得分都不到 2%，而我们的 o3 在激进计算配置下，能突破 25%。” 这一成绩瞬间碾压竞争对手 —— 第二名模型的正确率仅徘徊在 2% 左右，让 o3 成为行业焦点。

但事实很快打脸。FrontierMath 背后的 Epoch AI 研究所在上周五公布独立测试结果，o3 的实际得分仅约 10%，与 OpenAI 宣称的最高成绩相差甚远。这不禁让人质疑：OpenAI 是否夸大其词？

深入分析后发现，事情并非简单的 “说谎” 定论。OpenAI 去年 12 月公布的测试数据，其实是一个下限分数，与 Epoch 的实测结果相符。Epoch 也指出，双方测试存在差异：OpenAI 可能使用了更强大的内部架构、更多测试计算资源，甚至测试题目子集都不同 ——OpenAI 用的是 2024 年 11 月 26 日的 180 道题，而 Epoch 采用的是 2025 年 2 月 28 日更新后的 290 道题。

ARC Prize 基金会也出面佐证，该组织曾测试 o3 预发布版本，其表示公开版 o3 是 “专为聊天 / 产品使用调整的不同模型”，且 “所有公开版本的计算规模都小于我们测试的版本”。毕竟在 AI 领域，计算资源越强，模型性能往往越出色。OpenAI 技术人员周文达在直播中也坦言：“生产环境中的 o3 更侧重实际应用和速度优化，因此会出现性能差异。”

不过，即便 o3 的 “翻车” 不影响大局 ——OpenAI 后续推出的 o3-mini-high 和 o4-mini 已超越 o3，o3-pro 也即将登场 —— 但这场风波仍敲响了警钟。它再次证明：在 AI 行业，模型测试数据绝不能轻信，尤其是来自商业公司的宣传。

事实上，类似的 “跑分争议” 早已不是新鲜事。今年 1 月，Epoch 就因在 OpenAI 宣布 o3 后才披露接受其资助而饱受批评，许多参与 FrontierMath 开发的学者对此毫不知情。马斯克的 xAI 前不久也被指发布误导性的 Grok 3 模型成绩图表；本月，Meta 同样承认宣传的模型分数，与实际开放给开发者的版本存在差异。

这些乱象背后，是 AI 企业对流量与市场份额的激烈争夺。为了抢占舆论高地，企业往往倾向于展示模型的 “理想成绩”，却很少解释数据背后的复杂条件。但对普通用户和开发者而言，这些经过 “美颜” 的数据不仅无法真实反映技术水平，还可能误导行业发展方向。

当 AI 模型性能逐渐成为企业竞争的核心筹码，或许我们需要更透明、统一的测试标准。毕竟，在这场技术狂飙中，唯有拨开数据迷雾，才能看清 AI 发展的真实轨迹。