备受期待的OpenAI“草莓”版本已正式发布!
此版本不仅能够处理更为复杂的推理挑战,在数学、编程以及科学领域的难题上亦展现出更强的解决能力。
OpenAI的这一“突然发布”让科技界为之震动,公司首席执行官奥特曼甚至将其视为开启了一个全新的技术时代。
随着发布,各界高手及网友们立即通过各种问题来检验OpenAI新版o1的实际表现:
有人尝试了创意十足的测试,结果被o1卓越的推理技巧所折服。
量子位也进行了详尽的评测,让我们一起深入了解。
推理能力显著提升,但仍需面对复杂问题的挑战
不得不承认,尽管o1在推理能力上取得了显著的进步,但当遇到那些设计巧妙、旨在迷惑的难题时,仍然会落入人为设置的陷阱。
当然,对于常规问题,o1依然表现出色,首先让我们来看看其逻辑推理能力。
在解决一道逻辑题时,preview与mini版本分别耗时21秒与14秒,但从文字输出上看,mini似乎思考得更加深入。
期间出现了一些西里尔字母的干扰,但并未对整体理解造成太大影响。
最终,两个版本都给出了正确答案——选项丙。
特别值得一提的是,在mini(右侧)的解答过程中,还能看到其自我校正的痕迹。
接下来,我们看看o1在大学数理化科目上的表现。
首先是一道涉及曲面积分和高斯定理的研究生数学题目:
我们同样比较了preview与mini的解答过程,可以看出mini的解答较preview更为简洁,同时也更快得出答案。
然而,preview的解答过程中再次出现了语言混杂现象,这一次是泰语的意外介入。
尽管如此,preview提供的解答过程更为详尽,虽然使用了英文作答,但最终答案正确无误。
在最终简化结果的方式上有所不同,但数值上是一致的,且答案正确。
相比之下,4o版本先是试图走捷径,随后又尝试借助代码解释器的帮助,结果却给出了错误的答案。
第二道数学题则涉及概率论。
对于这道题,preview依然用英文提供了详细的解答步骤,而mini的解答虽然简洁但也准确无误。
至于4o,尽管其解答过程大部分正确,但在最后的求解阶段出了差错,仅给出一个不正确的答案。
物理学方面,我们选取了一道光学题目作为测试对象:
preview(左侧)与mini都给出了正确的解答方案,解答内容也几乎相同。
化学部分则是一道涉及物理化学,特别是电化学的题目。
在此我们将AgCl/Ag标准电极电位一并输入模型作为已知条件。
preview(左侧)与mini的解题思路相似,只是在计算步骤上存在些许顺序差异,但最终结果准确无误。
最后,我们不再采用考试题型,而是检验模型编写代码的能力。
此次选取的编程题目难度极高,真人通过率仅为14%。
以下是preview(左侧)与mini的解题策略:
从代码实现上看,两者的逻辑基本一致,但在细节处理上各有特色。
两种代码方案均顺利通过测试,内存消耗相近,而mini提供的代码运行时间更短(38毫秒)。
除了用于解题之外,o1的编程能力还可以迅速开发实用应用程序。
知名AI声音合成工具ElevenLabs的设计主管Ammaar Reshi便利用o1配合Cursor Composer,仅花费不到十分钟即开发出一款iOS平台的天气预报应用。