Skip to main content

OpenAI 推理增强模型 O1:探索与思考

2024 年 9 月 12 日,OpenAI 正式开放了推理增强模型 O1 预览版的使用。这一举措引起了广泛关注,本期文章将对这个新模型进行深入测试并从多个角度进行全面解读。

O1 模型简介

OpenAI 首席技术官 Mira 曾在三个月前的采访中表示,下一代达到博士级别推理能力的模型可能还需要一年半左右的时间才能推出。此次放出的 O1 预览版,可以视为下代模型的先行试水之作。 值得一提的是,上个月 27 日,The Information 透露,猎户座才是 OpenAI 真正对标 GPT5 的旗舰模型,而目前所谓的草莓模型只是被用来生成高质量合成数据,供猎户座训练。 那么,对应草莓模型的 O1 究竟采用了怎样的技术?它的实际性能如何?这种新路线是否存在发展上限?能否生成质量足够高的合成数据供下一代模型使用?

  1. 版本与特点:目前 Plus 用户可以使用到的 O1 分两个版本,一个是 preview 预览版,更擅长推理,但处理速度更慢;一个是 mini 经济版,推理能力差些,但速度更快。需要注意的是,这里所说的差主要限于推理任务,并不意味着在所有方面预览版都会优于迷你版。同样,在当前阶段,O1 也并非 GPT4 的完全替代品,推理之外有大量更适合 GPT4 做的任务,这也是 O1 系列没有承袭 GPT 名号的原因之一。
  2. 成本与限制:根据 API 定价,O1 的调用成本约为 GPT4 的四倍,而且存在收费陷阱,实际花费可不止四倍。目前,由于 O1 高昂的成本,不得不加上速率限制,预览版限制为每周 30 次,迷你版因为更经济一些,限制提到了 50 次。至于有没有不限制使用但收费更高的订阅档,目前尚无定论。此前,中文互联网曾盛传存在 200 美元的 ChatGPT Pro,但除了中文媒体外,未找到任何海外媒体或平台提到过这一说法。The Information 的爆料原文仅仅是说在定价上将不同于现行付费模式,很可能额外收费。海外流行的传闻则是更加昂贵的 2000 美元一个月。
  3. 性能提升:O1 是一个在推理方面做了大幅强化的模型,这使得它在理科方面的表现有显著提升。比如在国际数学奥林匹克资格考试中,GPT4 只能正确解决 13% 的问题,而 O1 能达到 83%。此外,在各种科学相关的基准测试中,O1 的表现也都普遍优于 GPT4 模型。

在提示词使用方面,官方明确建议不要再搞提示工程,对 O1 需要直接说问题,而且问题越简单越清晰越好。

技术原理

O1 的技术思路并不难理解,先基于大语言模型生成思维链,思维链本身作为推理 token 使用并同时生成一份摘要,推理 token 的部分隐藏起来不给看,只把摘要部分返回给用户。然后结合推理 token 作为输入进入下一轮,如此不断往复,直到最终输出结果并裁剪后返回给用户。

O1 的核心创新点在于把思维链和强化学习结合在一起,传统的人工反馈强化学习只是奖励最终回答,而 O1 的训练过程则是同时奖励中间的思维链步骤,这使得模型在实际推理时能够生成更细致、更高质量的思维链,可以通过线性的思维链模拟出树搜索的效果,从而使推理能力显著提升。

实现的难点主要在于工程层面的问题,比如数据从哪儿弄、奖励函数是什么、推导步数怎么收敛等等。此外,隐藏起来的推理 token 也隐含了大量线索,OpenAI 声称把推理 token 隐藏起来是出于安全考虑,但也有人猜测是怕暴露线索被其他厂商复现。

性能测试

  1. 测试误区:在测试 O1 模型时,常犯的三个误区。一是很多人揪着一些特定问题不放,争论正确与否,而忽略了模型是概率性的,总有可能犯错。二是太多人拿现成题目来测做题能力,而做题能力并不等同于实际解决问题的能力。三是不少人拿文科题目来测 O1,然后说它不行,而 O1 是专门针对 STEM 领域进行强化的模型。
  2. 基础能力测试:测试了字符反转题、括号闭合问题和大数乘法。字符反转题回答正确,但存在小瑕疵;括号闭合问题导致 O1 卡死;大数乘法耗时半分钟但结果正确。
  3. 完整题目测试:包括自编数学题、空间推理题和加密解密题。自编数学题 GPT 无需借助外部工具就能解答;空间推理题回答错误;加密解密题虽然能看出是维吉尼亚加密,但解法错误。最后测试了爱因斯坦谜题和变种五女献血,爱因斯坦谜题回答正确,五女献血存在错误。

总体来说,O1 在推理和数学等方面是个进步,但对一些非试卷问题或非常规问题依旧很难正确对应,过拟合现象也比较严重。

未来展望

  1. O1 路线的意义与发展空间:OpenAI 为提高推理能力采用类 agent 结构包裹模型,把更多计算资源投入到预训练外的思维链,增加搜索空间的深度和广度,理论上推理效果会更好。但这张图之所以成立,很大程度归结于 O1 所强化的任务几乎都是可以像围棋一样具有清晰判定规则的任务,对于其他领域的问题恐怕很难取得类似效果,这也是 O1 不得不另开一条产品线的原因之一。

至于 O1 能不能和 GPT 系列合二为一,虽然 O1 生成的数据将被用于训练下一代 GPT 猎户座,但从直觉来讲,这样做的效果恐怕并不会越来越好。

  1. 能否通向 AGI:每个人对 AGI 的理解不一样,能不能实现完全取决于如何定义 AGI 以及用什么标准来衡量。按照 OpenAI 的 AGI5 级定义,当前的目标是实现二级推理者不使用工具,实现高级推理,这一点 O1 确实兑现了。但继续纠结 OpenAI 的这套定义已经没多大意义,未来几年,只要 OpenAI 针对某个学科的某个特定问题把思维树搜索的计算资源拉满,并得到超越人类的结果,随时都可以宣称自己实现了 AGI。
  2. OpenAI 的挑战:O1 所采用的是一种比之前更烧钱的方式,隐藏 token 带来的巨额成本让用户承担不是长久之计。而且 O1 所使用的方法技术壁垒不高,其他厂商跟进速度会很快。此外,O1 恐怕不会给 OpenAI 带来太多用户增量,对于从事文字相关工作的轻度用户来说,现在免费的选择很多,很难再让他们掏钱。而且擅长刷题并不意味着能够妥善解决现实问题,幻觉减轻也不意味着能够彻底消除幻觉,现实业务场景中的风险和信任问题依旧存在,这些都是实现真正落地的阻碍。

思考与总结

OpenAI 的 O1 模型发布后,引起了广泛关注。虽然国内外不少人对他的类 Agent 形态持有非议,但不可否认的是,O1 是 OpenAI 在预训练 scaling law 开始逐渐受挫后,在开拓新方向上的重要尝试。在思维链搜索求解上投入更多的计算资源,也的确还有继续进步的空间。

当然,O1 也存在一些问题,如过拟合现象严重,距离解决现实世界各种非常规问题和复杂推理还有很长一段路要走。从短期来看,商业落地方面也不会带来本质性的改变。对于学生和科研人员来说,O1 是个非常好用的工具,但前提是使用者自身必须具备分辨结果正确与否的能力。