当前位置: 网站首页 技术文章 正文

实测OpenAI顶尖模型o1:搞定大学数理化,但弱智吧还是难搞定

来源:互联网 发布时间:2024-09-17 21:51:45

备受期待的OpenAI“草莓”版本已正式发布!

实测OpenAI顶尖模型o1:搞定大学数理化,但弱智吧还是难搞定

此版本不仅能够处理更为复杂的推理挑战,在数学、编程以及科学领域的难题上亦展现出更强的解决能力。

OpenAI的这一“突然发布”让科技界为之震动,公司首席执行官奥特曼甚至将其视为开启了一个全新的技术时代。

随着发布,各界高手及网友们立即通过各种问题来检验OpenAI新版o1的实际表现:

有人尝试了创意十足的测试,结果被o1卓越的推理技巧所折服。

量子位也进行了详尽的评测,让我们一起深入了解。

推理能力显著提升,但仍需面对复杂问题的挑战

不得不承认,尽管o1在推理能力上取得了显著的进步,但当遇到那些设计巧妙、旨在迷惑的难题时,仍然会落入人为设置的陷阱。

当然,对于常规问题,o1依然表现出色,首先让我们来看看其逻辑推理能力。

在解决一道逻辑题时,preview与mini版本分别耗时21秒与14秒,但从文字输出上看,mini似乎思考得更加深入。

期间出现了一些西里尔字母的干扰,但并未对整体理解造成太大影响。

最终,两个版本都给出了正确答案——选项丙。

特别值得一提的是,在mini(右侧)的解答过程中,还能看到其自我校正的痕迹。

接下来,我们看看o1在大学数理化科目上的表现。

首先是一道涉及曲面积分和高斯定理的研究生数学题目:

我们同样比较了preview与mini的解答过程,可以看出mini的解答较preview更为简洁,同时也更快得出答案。

然而,preview的解答过程中再次出现了语言混杂现象,这一次是泰语的意外介入。

实测OpenAI顶尖模型o1:搞定大学数理化,但弱智吧还是难搞定

尽管如此,preview提供的解答过程更为详尽,虽然使用了英文作答,但最终答案正确无误。

在最终简化结果的方式上有所不同,但数值上是一致的,且答案正确。

相比之下,4o版本先是试图走捷径,随后又尝试借助代码解释器的帮助,结果却给出了错误的答案。

第二道数学题则涉及概率论。

对于这道题,preview依然用英文提供了详细的解答步骤,而mini的解答虽然简洁但也准确无误。

至于4o,尽管其解答过程大部分正确,但在最后的求解阶段出了差错,仅给出一个不正确的答案。

物理学方面,我们选取了一道光学题目作为测试对象:

preview(左侧)与mini都给出了正确的解答方案,解答内容也几乎相同。

化学部分则是一道涉及物理化学,特别是电化学的题目。

在此我们将AgCl/Ag标准电极电位一并输入模型作为已知条件。

preview(左侧)与mini的解题思路相似,只是在计算步骤上存在些许顺序差异,但最终结果准确无误。

最后,我们不再采用考试题型,而是检验模型编写代码的能力。

此次选取的编程题目难度极高,真人通过率仅为14%。

以下是preview(左侧)与mini的解题策略:

从代码实现上看,两者的逻辑基本一致,但在细节处理上各有特色。

两种代码方案均顺利通过测试,内存消耗相近,而mini提供的代码运行时间更短(38毫秒)。

除了用于解题之外,o1的编程能力还可以迅速开发实用应用程序。

实测OpenAI顶尖模型o1:搞定大学数理化,但弱智吧还是难搞定

知名AI声音合成工具ElevenLabs的设计主管Ammaar Reshi便利用o1配合Cursor Composer,仅花费不到十分钟即开发出一款iOS平台的天气预报应用。

相关教程