在人工智能领域,尤其是大型语言模型的竞争中,o1-preview终于展现出了它独特的优势,成功在规划任务上超越了o1-mini,这一成果得到了亚利桑那州立大学最新研究的支持。
研究指出,o1-preview不仅在处理复杂任务时的表现远超传统模型,而且在某些极端困难的任务上,其准确率甚至达到了Llama3.1-405B的11倍之多。
回顾历史,o1-preview曾因性能不及完整版且成本高于mini版而处于尴尬境地。然而,此次突破性进展无疑为其正名,尤其是在连续思考(Chain of Thought, CoT)方面,o1-preview已经实现了从“近似检索”到“近似推理”的质的飞跃。
值得注意的是,论文中多次将o1称为大型推理模型(Large Reasoning Model, LRM),而非通常意义上的大型语言模型(LLM),这一称呼的变化体现了o1在逻辑推理能力上的显著增强。
o1团队的关键成员Noam Brown对这一研究成果给予了高度评价,并通过社交媒体平台积极推广o1-preview的成就。
与此同时,这一进展也让人们想起了不久前Meta公司的LeCun关于大模型缺乏规划能力的言论,OpenAI的o1似乎是对这一观点的有力反驳。
为了更准确地评估o1系列模型的规划能力,研究人员采用了一个名为PlanBench的评估标准,该标准由Karthik Valmeekam及其导师Subbarao Kambhampati等人提出,专门用于衡量模型在计划生成、成本最优规划及计划验证等方面的能力。
实验选取了来自国际规划竞赛(IPC)的Blocksworld游戏及其变体作为测试对象,这些任务要求模型能够有效规划如何从一个初始状态转换至目标状态,同时遵守特定的规则限制。
在这些挑战性的任务中,o1-preview展现了其卓越的规划能力,特别是在Blocksworld任务中,取得了高达98%的准确率,远超o1-mini的56.6%以及Llama3.1-405B的62.6%。
即便是在增加了混淆因素的Mystery Blocksworld任务中,o1-preview依然表现出色,零样本设置下的准确率达到51.3%,比Llama3.1-405B高出11倍有余。
然而,o1-preview并非完美无缺。随着规划步骤的增长,模型的性能出现了明显的下滑趋势,尤其是在面对无法解决的问题时,o1的判断准确率仍有待提高。
此外,o1-preview的运行成本相较于其他模型较高,这对于资源有限的开发者来说可能是一个需要权衡的因素。
尽管存在上述不足,o1-preview在规划任务上的突出表现无疑为人工智能领域的未来发展开辟了新的道路。对于开发者而言,是否愿意为了获得更强的规划能力而承担更高的成本,这将是一个值得深思熟虑的问题。
论文链接:https://arxiv.org/abs/2409.13373相关讨论:https://x.com/rao2z/status/1838245261950509170