OpenAI o1
開發者 | OpenAI |
---|---|
首次发布 | 2024年12月5日 |
前任 | GPT-4o |
类型 | |
许可协议 | 专有软件 |
网站 | openai |
OpenAI o1是一个基于转换器的生成式预训练模型。 2024年9月12日,OpenAI发布了o1的预览版,完整版本于2024年12月5日发布。[1] o1在回答问题之前会进行“思考”,使得它在处理复杂的任务、科学和编程方面比GPT-4o更优秀。[2]
历史
背景
据泄露的信息显示,o1以前在OpenAI内部被称为“Q*”,后来更名为“草莓”。[3] 代号“Q*”于2023年11月首次披露,大约是在萨姆·阿尔特曼被罢免并随后复职的时期。据称这个实验模型在数学基准测试方面表现出更加理想的结果。[4]
2024年7月,路透社报道称OpenAI正在开发名为“草莓”的生成式预训练模型。[3]
发布
o1-preview和o1-mini于2024年9月12日面向ChatGPT Plus用户和ChatGPT for Teams用户发布。[2] GitHub在发布当天开始测试将o1-preview集成到Copilot服务中。[5] 2024年12月5日,o1完整版发布。[6] 同一天,ChatGPT Pro订阅服务发布,该订阅服务包括访问o1的专业版,该版本使用更多算力来提供更好的答案。 [6]
OpenAI指出,o1是一系列“推理”模型中的第一个。o1-preview的API比GPT-4o贵好几倍。[7] OpenAI计划向免费用户提供o1-mini版模型,但在发布时尚未公布具体时间。[8]
功能
OpenAI称o1使用了一种新的优化算法和专门的数据集进行了训练,同时还将强化学习融入到其训练中。[7] OpenAI形容o1为GPT-4o的增强版。[9][10]
OpenAI-o1在回答问题前会花更多时间思考,这使得它在处理复杂思维任务时更加有效,特别是在科学和数学方面。[2] 与之前的模型相比,o1被训练为可以在输出最终答案之前生成较长的“思路链”。[11][12]据米拉·穆拉蒂称,这种先思考后回答的能力代表了一种新的、额外的范例,通过在生成答案前使用更多的算力来改善模型输出,而模型扩展(model scaling paradigm)则通过增加模型大小、训练数据和训练算力来改进输出。[9] OpenAI的测试结果表明,准确率与回答前思考所花费的计算量之间存在相关性。[12][11]
o1-preview在物理、化学和生物相关的基准测试中的表现达到了博士水平。在美国数学邀请赛中,它解决了83%(12.5/15)的问题,而GPT-4o仅解决了13%(1.8/15)。它还在Codeforces编程竞赛中优于89%的参赛者。[13] o1-mini比o1-preview更快且便宜80%,它特别适合编程和理工科相关的任务,但没有o1-preview“广博”。[14]
OpenAI指出,o1的推理能力使其能更好地遵守上下文窗口中提供的安全规则。 OpenAI报告称,在一次测试中o1-preview的一个实例利用错误配置成功完成了一项本无法完成的任务。[15][16] OpenAI还授予英国和美国的人工智能安全研究所早期访问(early access)权限,以进行研究、评估和测试。根据OpenAI的评估,o1-preview和o1-mini在CBRN(生物、化学、放射和核武器)中属于“中等风险”。人工智能安全中心的主任丹·亨德里克斯(Dan Hendrycks)称:“模型在回答与生物武器相关的问题时的表现在大多数时候已经超过了博士科学家”,他表示,“这些令人担忧的能力还将继续增强”。 [17]
局限性
o1通常需要比OpenAI的其他GPT模型更多的计算时间和电力,因为它会在做出最终回答前生成长思路链。 [11]
OpenAI表示,o1生成错误回答(fake alignment)的可能性小于0.38%。[18]
OpenAI禁止用户试图透露o1的思路链,该思路链被设计为是隐藏的,并且未经训练以遵守公司政策。用户的输入是受到监控的,有意或无意违反此规定的用户可能会失去对o1的访问权限。 OpenAI以人工智能安全性和竞争为由实施了这一限制,而使用大型语言模型(LLM)的开发人员则认为这会导致透明度的丧失。[19]
2024年10月,苹果公司的研究人员提交了一份预印本报告,称o1之类的大型语言模型可能会重复模型自身训练数据中的推理步骤[20]。 通过改变数学问题中使用的数字和名称,或者只是再次运行相同的问题,大型语言模型的表现会比其最佳基准的结果差。添加逻辑上的无关信息会导致性能大幅下降,其中o1-preview下降了17.5%,o1-mini下降了29.1%。而已测试的最差的模型则下降了65.7%。[21]
参考资料
- ^ Introducing OpenAI o1. OpenAI. [6 December 2024].
- ^ 2.0 2.1 2.2 Metz, Cade. OpenAI Unveils New ChatGPT That Can Reason Through Math and Science. The New York Times. September 12, 2024 [September 12, 2024].
- ^ 3.0 3.1 Tong, Anna; Paul, Katie. Exclusive: OpenAI working on new reasoning technology under code name 'Strawberry'. Reuters. July 15, 2024 [September 12, 2024].
- ^ OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say. Reuters. November 23, 2023.
- ^ Peters, Jay. GitHub has started testing OpenAI's o1-preview in GitHub Copilot.. The Verge. September 12, 2024 [September 12, 2024].
- ^ 6.0 6.1 Robison, Kylie. OpenAI is charging 00 a month for an exclusive version of its o1 ‘reasoning’ model. The Verge. December 5, 2024 [December 5, 2024].
- ^ 7.0 7.1 Robison, Kylie. OpenAI releases o1, its first model with ‘reasoning’ abilities. The Verge. September 12, 2024 [September 15, 2024] (英语).
- ^ Introducing OpenAI o1. openai.com. [2024-12-09] (美国英语).
- ^ 9.0 9.1 Knight, Will. OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step. Wired. [September 15, 2024]. ISSN 1059-1028 (美国英语).
- ^ New reasoning models: OpenAI o1-preview and o1-mini. OpenAI Developer Forum. 2024-09-12 [2024-10-17] (英语).
- ^ 11.0 11.1 11.2 Learning to Reason with LLMs. OpenAI. [September 13, 2024]. (原始内容存档于September 12, 2024).
- ^ 12.0 12.1 Kahn, Jeremy. Here are 9 things you need to know about OpenAI's o1 model. Fortune. [September 15, 2024] (英语).
- ^ Franzen, Carl. Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance. VentureBeat. September 12, 2024 [September 15, 2024] (美国英语).
- ^ OpenAI o1-mini. OpenAI. September 12, 2024.
- ^ Coombes, Lloyd. OpenAI's new ChatGPT o1 model 'cheated' on an impossible test — here's what happened. Tom's Guide. September 13, 2024 [September 15, 2024] (英语).
- ^ OpenAI o1 System Card (PDF). OpenAI: 16-17. September 12, 2024.
- ^ Boran, Marie. OpenAI o1 model warning issued by scientist: "Particularly dangerous". Newsweek. September 13, 2024 [September 15, 2024] (英语).
- ^ Robison, Kylie. OpenAI’s new model is better at reasoning and, occasionally, deceiving. The Verge. 17 September 2024 (英语).
- ^ Edwards, Benj. Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model. Ars Technica. 16 September 2024 (美国英语).
- ^ Mirzadeh, Iman; Alizadeh, Keivan; Shahrokhi, Hooman; Tuzel, Oncel; Bengio, Samy; Farajtabar, Mehrdad. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. arXiv. 2024 [15 October 2024].
- ^ Orland, Kyle. Apple study exposes deep cracks in LLMs’ “reasoning” capabilities. Ars Technica. 14 October 2024 [15 October 2024].