在 AI 技术竞争白热化的当下,模型性能数据往往成为各家公司抢占舆论高地的 “武器”。然而,OpenAI 最新推出的 o3 模型,却因实测成绩与官宣数据的巨大落差,陷入了一场公信力危机。这场风波不仅揭开了 AI 行业数据迷雾的一角,更引发了人们对企业技术宣传真实性的深度思考。去年 12 月,OpenAI 高调发布 o3 模型,并放出 “王炸” 数据:在 FrontierMath 这一极具挑战性的数学问题集测试中,o3 能正确解答超过四分之一的题目。当时 OpenAI 首席研究官马克・陈在直播中自信宣称:“目前市面上所有产品在 FrontierMath 的得分都不到 2%,而我们的 o3 在激进计算配置下,能突破 25%。” 这一成绩瞬间碾压竞争对手 —— 第二名模型的正确率仅徘徊在 2% 左右,让 o3 成为行业焦点。但事实很快打脸。FrontierMath 背后的 Epoch AI 研究所在上周五公布独立测试结果,o3 的实际得分仅约 10%,与 OpenAI 宣称的最高成绩相差甚远。这不禁让人质疑:OpenAI 是否夸大其词?深入分析后发现,事情并非简单的 “说谎” 定论。OpenAI 去年 12 月公布的测试数据,其实是一个下限分数,与 Epoch 的实测结果相符。Epoch 也指出,双方测试存在差异:OpenAI 可能使用了更强大的内部架构、更多测试计算资源,甚至测试题目子集都不同 ——OpenAI 用的是 2024 年 11 月 26 日的 180 道题,而 Epoch 采用的是 2025 年 2 月 28 日更新后的 290 道题。ARC Prize 基金会也出面佐证,该组织曾测试 o3 预发布版本,其表示公开版 o3 是 “专为聊天 / 产品使用调整的不同模型”,且 “所有公开版本的计算规模都小于我们测试的版本”。毕竟在 AI 领域,计算资源越强,模型性能往往越出色。OpenAI 技术人员周文达在直播中也坦言:“生产环境中的 o3 更侧重实际应用和速度优化,因此会出现性能差异。”不过,即便 o3 的 “翻车” 不影响大局 ——OpenAI 后续推出的 o3-mini-high 和 o4-mini 已超越 o3,o3-pro 也即将登场 —— 但这场风波仍敲响了警钟。它再次证明:在 AI 行业,模型测试数据绝不能轻信,尤其是来自商业公司的宣传。事实上,类似的 “跑分争议” 早已不是新鲜事。今年 1 月,Epoch 就因在 OpenAI 宣布 o3 后才披露接受其资助而饱受批评,许多参与 FrontierMath 开发的学者对此毫不知情。马斯克的 xAI 前不久也被指发布误导性的 Grok 3 模型成绩图表;本月,Meta 同样承认宣传的模型分数,与实际开放给开发者的版本存在差异。这些乱象背后,是 AI 企业对流量与市场份额的激烈争夺。为了抢占舆论高地,企业往往倾向于展示模型的 “理想成绩”,却很少解释数据背后的复杂条件。但对普通用户和开发者而言,这些经过 “美颜” 的数据不仅无法真实反映技术水平,还可能误导行业发展方向。当 AI 模型性能逐渐成为企业竞争的核心筹码,或许我们需要更透明、统一的测试标准。毕竟,在这场技术狂飙中,唯有拨开数据迷雾,才能看清 AI 发展的真实轨迹。