当前位置：网站首页技术文章正文

O1规划能力首次测试！不只聊天，这次preview真的赢了mini

来源：互联网发布时间：2024-10-01 07:02:13

在人工智能领域，尤其是大型语言模型的竞争中，o1-preview终于展现出了它独特的优势，成功在规划任务上超越了o1-mini，这一成果得到了亚利桑那州立大学最新研究的支持。

研究指出，o1-preview不仅在处理复杂任务时的表现远超传统模型，而且在某些极端困难的任务上，其准确率甚至达到了Llama3.1-405B的11倍之多。

回顾历史，o1-preview曾因性能不及完整版且成本高于mini版而处于尴尬境地。然而，此次突破性进展无疑为其正名，尤其是在连续思考（Chain of Thought, CoT）方面，o1-preview已经实现了从“近似检索”到“近似推理”的质的飞跃。

值得注意的是，论文中多次将o1称为大型推理模型（Large Reasoning Model, LRM），而非通常意义上的大型语言模型（LLM），这一称呼的变化体现了o1在逻辑推理能力上的显著增强。

o1团队的关键成员Noam Brown对这一研究成果给予了高度评价，并通过社交媒体平台积极推广o1-preview的成就。

与此同时，这一进展也让人们想起了不久前Meta公司的LeCun关于大模型缺乏规划能力的言论，OpenAI的o1似乎是对这一观点的有力反驳。

为了更准确地评估o1系列模型的规划能力，研究人员采用了一个名为PlanBench的评估标准，该标准由Karthik Valmeekam及其导师Subbarao Kambhampati等人提出，专门用于衡量模型在计划生成、成本最优规划及计划验证等方面的能力。

O1规划能力首次测试！不只聊天，这次preview真的赢了mini

实验选取了来自国际规划竞赛（IPC）的Blocksworld游戏及其变体作为测试对象，这些任务要求模型能够有效规划如何从一个初始状态转换至目标状态，同时遵守特定的规则限制。

在这些挑战性的任务中，o1-preview展现了其卓越的规划能力，特别是在Blocksworld任务中，取得了高达98%的准确率，远超o1-mini的56.6%以及Llama3.1-405B的62.6%。

即便是在增加了混淆因素的Mystery Blocksworld任务中，o1-preview依然表现出色，零样本设置下的准确率达到51.3%，比Llama3.1-405B高出11倍有余。

然而，o1-preview并非完美无缺。随着规划步骤的增长，模型的性能出现了明显的下滑趋势，尤其是在面对无法解决的问题时，o1的判断准确率仍有待提高。

此外，o1-preview的运行成本相较于其他模型较高，这对于资源有限的开发者来说可能是一个需要权衡的因素。

尽管存在上述不足，o1-preview在规划任务上的突出表现无疑为人工智能领域的未来发展开辟了新的道路。对于开发者而言，是否愿意为了获得更强的规划能力而承担更高的成本，这将是一个值得深思熟虑的问题。

O1规划能力首次测试！不只聊天，这次preview真的赢了mini

论文链接：https://arxiv.org/abs/2409.13373相关讨论：https://x.com/rao2z/status/1838245261950509170

相关教程

樱花16Q06A：游戏爱好者的不二之选！樱花16Q06A：游戏爱好者的不二之选！在游戏的世界里，视觉体验是至关重要的。樱花16Q06A显示器以其卓越的性能和设计，成为了游戏爱好者的理
技术文章 09-15
AI翻译码友Smartcat获4300万美元融资服务1000家企业客户近日，总部位于波士顿的初创公司 Smartcat 宣布在 C 轮融资中成功筹集了4300万美元，这笔资金将进一步推动其人工智能翻译平台的发展。S
技术文章 09-29
如何修复Windows 10/11添加打印机出现的0x0000007c错误代码尽管微软在本月发布的累积更新里已经解决打印机多个问题，但事实证明还是有些问题变成了漏网之鱼困扰企业。这就是添加网络打印机出现的0x00
技术文章 09-04

产业资讯

游戏下载 +

近期热点 +

最新技术文章 +

10-01

OpenAI高层大换血：CEO不顾安全急推GPT-4，员工加班加点赶工，追求名利放弃初心近日，OpenAI内部的动荡逐渐浮出水面，CTO Mira Murati的离职再次引发业界关注。这一连串事件背后，与GPT-4o的匆忙发布有着千丝万缕的联
10-01

腾势Z9GT开卖了，33.48万起，自带高级智能驾驶功能腾势汽车旗下的“D级智能豪华旗舰GT”腾势Z9GT正式亮相市场，带来了易三方插混和易三方纯电共7款不同配置的车型，其中包括2款首发限量版，
10-01

全球首个多模态地理科学大模型“坤元”发布，中国科学院打造中国科学院地理科学与资源研究所、中国科学院青藏高原研究所、中国科学院自动化研究所等单位 9 月 19 日正式发布全球首个多模态地理科
10-01

神秘蓝莓称霸文生图大赛，粉丝猜是Flux新作：全来打广告了在数字艺术创作领域，又一款神秘的图像生成模型悄然崛起，成为了新的焦点。这款被称为“蓝莓”的模型，在最新的文生图排行榜上，以惊人的实
10-01

阿里通义千问开源 Qwen2.5 大模型，号称性能超越 Llama 在 2024 云栖大会上，阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2 5，其中，旗舰模型 Qwen2 5-72B 号称性能超越 Llama 40