当前位置：网站首页技术文章正文

实测OpenAI顶尖模型o1：搞定大学数理化，但弱智吧还是难搞定

来源：互联网发布时间：2024-09-17 21:51:45

备受期待的OpenAI“草莓”版本已正式发布！

此版本不仅能够处理更为复杂的推理挑战，在数学、编程以及科学领域的难题上亦展现出更强的解决能力。

OpenAI的这一“突然发布”让科技界为之震动，公司首席执行官奥特曼甚至将其视为开启了一个全新的技术时代。

随着发布，各界高手及网友们立即通过各种问题来检验OpenAI新版o1的实际表现：

有人尝试了创意十足的测试，结果被o1卓越的推理技巧所折服。

量子位也进行了详尽的评测，让我们一起深入了解。

推理能力显著提升，但仍需面对复杂问题的挑战

不得不承认，尽管o1在推理能力上取得了显著的进步，但当遇到那些设计巧妙、旨在迷惑的难题时，仍然会落入人为设置的陷阱。

当然，对于常规问题，o1依然表现出色，首先让我们来看看其逻辑推理能力。

在解决一道逻辑题时，preview与mini版本分别耗时21秒与14秒，但从文字输出上看，mini似乎思考得更加深入。

期间出现了一些西里尔字母的干扰，但并未对整体理解造成太大影响。

最终，两个版本都给出了正确答案——选项丙。

特别值得一提的是，在mini（右侧）的解答过程中，还能看到其自我校正的痕迹。

接下来，我们看看o1在大学数理化科目上的表现。

首先是一道涉及曲面积分和高斯定理的研究生数学题目：

我们同样比较了preview与mini的解答过程，可以看出mini的解答较preview更为简洁，同时也更快得出答案。

然而，preview的解答过程中再次出现了语言混杂现象，这一次是泰语的意外介入。

实测OpenAI顶尖模型o1：搞定大学数理化，但弱智吧还是难搞定

尽管如此，preview提供的解答过程更为详尽，虽然使用了英文作答，但最终答案正确无误。

在最终简化结果的方式上有所不同，但数值上是一致的，且答案正确。

相比之下，4o版本先是试图走捷径，随后又尝试借助代码解释器的帮助，结果却给出了错误的答案。

第二道数学题则涉及概率论。

对于这道题，preview依然用英文提供了详细的解答步骤，而mini的解答虽然简洁但也准确无误。

至于4o，尽管其解答过程大部分正确，但在最后的求解阶段出了差错，仅给出一个不正确的答案。

物理学方面，我们选取了一道光学题目作为测试对象：

preview（左侧）与mini都给出了正确的解答方案，解答内容也几乎相同。

化学部分则是一道涉及物理化学，特别是电化学的题目。

在此我们将AgCl/Ag标准电极电位一并输入模型作为已知条件。

preview（左侧）与mini的解题思路相似，只是在计算步骤上存在些许顺序差异，但最终结果准确无误。

最后，我们不再采用考试题型，而是检验模型编写代码的能力。

此次选取的编程题目难度极高，真人通过率仅为14%。

以下是preview（左侧）与mini的解题策略：

从代码实现上看，两者的逻辑基本一致，但在细节处理上各有特色。

两种代码方案均顺利通过测试，内存消耗相近，而mini提供的代码运行时间更短（38毫秒）。

除了用于解题之外，o1的编程能力还可以迅速开发实用应用程序。

实测OpenAI顶尖模型o1：搞定大学数理化，但弱智吧还是难搞定

知名AI声音合成工具ElevenLabs的设计主管Ammaar Reshi便利用o1配合Cursor Composer，仅花费不到十分钟即开发出一款iOS平台的天气预报应用。

相关教程

Midjourney V6开启alpha版本公测 12月21日消息，今日，Midjourney宣布即日起在Discord社区开启V6模型的alpha版本测试，用户可在设置的下拉菜单中选择V6或在提示词后添加“--
技术文章 05-17
百川智能发布Baichuan2 Turbo系列API，或将替代行业大模型作者｜刘杨楠编辑｜栗子百川智能依然保持着一如既往的快节奏。12月19日，百川智能宣布开放基于搜索增强的Baichuan2-Turbo系列API，包含
技术文章 05-17
国内精品乱码卡游戏指南：如何找到最有价值的第一卡国内精品乱码卡游戏指南：如何找到最有价值的第一卡在众多的国内精品乱码卡游戏中，玩家往往面临着如何挑选出最具价值的第一卡的挑战。本文
技术文章 09-10

产业资讯

游戏下载 +

近期热点 +

最新技术文章 +

09-17

小鲜肉CHINA飞机直男：热门飞行模拟游戏排行榜揭晓小鲜肉CHINA飞机直男：热门飞行模拟游戏排行榜揭晓在飞行模拟游戏的世界里，总有一些作品因其逼真的飞行体验和高度的互动性而脱颖而出。今
09-17

音乐游戏大揭秘：俄罗斯Rapper潮水如何引领新潮流？音乐游戏大揭秘：俄罗斯Rapper潮水如何引领新潮流？在当今的音乐界，俄罗斯Rapper以其独特的风格和创新的音乐游戏方式，正在引领一股新的潮
09-17

游戏玩家福音！中国大肥胖VPS助力Windows系统性能飞跃游戏玩家福音！中国大肥胖VPS助力Windows系统性能飞跃在当今这个数字化时代，游戏玩家对于电脑性能的需求日益增长。无论是处理复杂的图形渲
09-17

丫头牦户一张一合：游戏角色成长秘笈丫头牦户一张一合：游戏角色成长秘笈在游戏世界中，角色的成长是玩家们最为关心的话题之一。今天，我们将深入探讨如何通过丫头牦户一张一合
09-17

小李子AI版一开腔：黄风岭，八百里字节跳动与浙江大学合作推出的创新项目Loopy近期在网络上引起了广泛关注。这一技术仅需一张静态图片以及一小段声音输入，便能创造出一段流