OpenAI o1
開發者 | OpenAI |
---|---|
首次發佈 | 2024年12月5日 |
前任 | GPT-4o |
類型 | |
許可協議 | 專有軟件 |
網站 | openai |
OpenAI o1是一個基於轉換器的生成式預訓練模型。 2024年9月12日,OpenAI發佈了o1的預覽版,完整版本於2024年12月5日發佈。[1] o1在回答問題之前會進行「思考」,使得它在處理複雜的任務、科學和編程方面比GPT-4o更優秀。[2]
歷史
背景
據泄露的信息顯示,o1以前在OpenAI內部被稱為「Q*」,後來更名為「草莓」。[3] 代號「Q*」於2023年11月首次披露,大約是在薩姆·阿爾特曼被罷免並隨後復職的時期。據稱這個實驗模型在數學基準測試方面表現出更加理想的結果。[4]
2024年7月,路透社報道稱OpenAI正在開發名為「草莓」的生成式預訓練模型。[3]
發佈
o1-preview和o1-mini於2024年9月12日面向ChatGPT Plus用戶和ChatGPT for Teams用戶發佈。[2] GitHub在發佈當天開始測試將o1-preview集成到Copilot服務中。[5] 2024年12月5日,o1完整版發佈。[6] 同一天,ChatGPT Pro訂閱服務發佈,該訂閱服務包括訪問o1的專業版,該版本使用更多算力來提供更好的答案。 [6]
OpenAI指出,o1是一系列「推理」模型中的第一個。o1-preview的API比GPT-4o貴好幾倍。[7] OpenAI計劃向免費用戶提供o1-mini版模型,但在發佈時尚未公佈具體時間。[8]
功能
OpenAI稱o1使用了一種新的優化算法和專門的數據集進行了訓練,同時還將強化學習融入到其訓練中。[7] OpenAI形容o1為GPT-4o的增強版。[9][10]
OpenAI-o1在回答問題前會花更多時間思考,這使得它在處理複雜思維任務時更加有效,特別是在科學和數學方面。[2] 與之前的模型相比,o1被訓練為可以在輸出最終答案之前生成較長的「思路鏈」。[11][12]據米拉·穆拉蒂稱,這種先思考後回答的能力代表了一種新的、額外的範例,通過在生成答案前使用更多的算力來改善模型輸出,而模型擴展(model scaling paradigm)則通過增加模型大小、訓練數據和訓練算力來改進輸出。[9] OpenAI的測試結果表明,準確率與回答前思考所花費的計算量之間存在相關性。[12][11]
o1-preview在物理、化學和生物相關的基準測試中的表現達到了博士水平。在美國數學邀請賽中,它解決了83%(12.5/15)的問題,而GPT-4o僅解決了13%(1.8/15)。它還在Codeforces編程競賽中優於89%的參賽者。[13] o1-mini比o1-preview更快且便宜80%,它特別適合編程和理工科相關的任務,但沒有o1-preview「廣博」。[14]
OpenAI指出,o1的推理能力使其能更好地遵守上下文窗口中提供的安全規則。 OpenAI報告稱,在一次測試中o1-preview的一個實例利用錯誤配置成功完成了一項本無法完成的任務。[15][16] OpenAI還授予英國和美國的人工智能安全研究所早期訪問(early access)權限,以進行研究、評估和測試。根據OpenAI的評估,o1-preview和o1-mini在CBRN(生物、化學、放射和核武器)中屬於「中等風險」。人工智能安全中心的主任丹·亨德里克斯(Dan Hendrycks)稱:「模型在回答與生物武器相關的問題時的表現在大多數時候已經超過了博士科學家」,他表示,「這些令人擔憂的能力還將繼續增強」。 [17]
局限性
o1通常需要比OpenAI的其他GPT模型更多的計算時間和電力,因為它會在做出最終回答前生成長思路鏈。 [11]
OpenAI表示,o1生成錯誤回答(fake alignment)的可能性小於0.38%。[18]
OpenAI禁止用戶試圖透露o1的思路鏈,該思路鏈被設計為是隱藏的,並且未經訓練以遵守公司政策。用戶的輸入是受到監控的,有意或無意違反此規定的用戶可能會失去對o1的訪問權限。 OpenAI以人工智能安全性和競爭為由實施了這一限制,而使用大型語言模型(LLM)的開發人員則認為這會導致透明度的喪失。[19]
2024年10月,蘋果公司的研究人員提交了一份預印本報告,稱o1之類的大型語言模型可能會重複模型自身訓練數據中的推理步驟[20]。 通過改變數學問題中使用的數字和名稱,或者只是再次運行相同的問題,大型語言模型的表現會比其最佳基準的結果差。添加邏輯上的無關信息會導致性能大幅下降,其中o1-preview下降了17.5%,o1-mini下降了29.1%。而已測試的最差的模型則下降了65.7%。[21]
參考資料
- ^ Introducing OpenAI o1. OpenAI. [6 December 2024].
- ^ 2.0 2.1 2.2 Metz, Cade. OpenAI Unveils New ChatGPT That Can Reason Through Math and Science. The New York Times. September 12, 2024 [September 12, 2024].
- ^ 3.0 3.1 Tong, Anna; Paul, Katie. Exclusive: OpenAI working on new reasoning technology under code name 'Strawberry'. Reuters. July 15, 2024 [September 12, 2024].
- ^ OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say. Reuters. November 23, 2023.
- ^ Peters, Jay. GitHub has started testing OpenAI's o1-preview in GitHub Copilot.. The Verge. September 12, 2024 [September 12, 2024].
- ^ 6.0 6.1 Robison, Kylie. OpenAI is charging 00 a month for an exclusive version of its o1 ‘reasoning’ model. The Verge. December 5, 2024 [December 5, 2024].
- ^ 7.0 7.1 Robison, Kylie. OpenAI releases o1, its first model with ‘reasoning’ abilities. The Verge. September 12, 2024 [September 15, 2024] (英語).
- ^ Introducing OpenAI o1. openai.com. [2024-12-09] (美國英語).
- ^ 9.0 9.1 Knight, Will. OpenAI Announces a New AI Model, Code-Named Strawberry, That Solves Difficult Problems Step by Step. Wired. [September 15, 2024]. ISSN 1059-1028 (美國英語).
- ^ New reasoning models: OpenAI o1-preview and o1-mini. OpenAI Developer Forum. 2024-09-12 [2024-10-17] (英語).
- ^ 11.0 11.1 11.2 Learning to Reason with LLMs. OpenAI. [September 13, 2024]. (原始內容存檔於September 12, 2024).
- ^ 12.0 12.1 Kahn, Jeremy. Here are 9 things you need to know about OpenAI's o1 model. Fortune. [September 15, 2024] (英語).
- ^ Franzen, Carl. Forget GPT-5! OpenAI launches new AI model family o1 claiming PhD-level performance. VentureBeat. September 12, 2024 [September 15, 2024] (美國英語).
- ^ OpenAI o1-mini. OpenAI. September 12, 2024.
- ^ Coombes, Lloyd. OpenAI's new ChatGPT o1 model 'cheated' on an impossible test — here's what happened. Tom's Guide. September 13, 2024 [September 15, 2024] (英語).
- ^ OpenAI o1 System Card (PDF). OpenAI: 16-17. September 12, 2024.
- ^ Boran, Marie. OpenAI o1 model warning issued by scientist: "Particularly dangerous". Newsweek. September 13, 2024 [September 15, 2024] (英語).
- ^ Robison, Kylie. OpenAI’s new model is better at reasoning and, occasionally, deceiving. The Verge. 17 September 2024 (英語).
- ^ Edwards, Benj. Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model. Ars Technica. 16 September 2024 (美國英語).
- ^ Mirzadeh, Iman; Alizadeh, Keivan; Shahrokhi, Hooman; Tuzel, Oncel; Bengio, Samy; Farajtabar, Mehrdad. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. arXiv. 2024 [15 October 2024].
- ^ Orland, Kyle. Apple study exposes deep cracks in LLMs’ “reasoning” capabilities. Ars Technica. 14 October 2024 [15 October 2024].