当前位置：网站首页技术文章正文

北大AI数学比赛，o1-mini竟然赢了o1-preview

来源：互联网发布时间：2024-09-26 00:01:33

随着人工智能技术的发展，大模型在传统评测标准下的表现已经达到了令人瞩目的成就。然而，对于那些旨在挑战人类智慧极限的高级别数学竞赛，大模型的能力又如何呢？

北大AI数学比赛，o1_mini竟然赢了o1_preview

最近，一款名为o1的系列模型在MATH-500评测中取得了94.8分的成绩，而在更高难度的AIME 2024中也获得了83.3%的准确率。这引发了人们的好奇心：大模型是否能够应对更加复杂的数学奥林匹克竞赛？

为了解答这个问题，北京大学和阿里巴巴联手推出了一项新的评测基准——Omni-MATH，旨在评估大模型在奥林匹克数学竞赛中的推理能力。Omni-MATH评测集包含了4428个竞赛级别的问题，覆盖了33个以上的子领域，并分为10个难度等级，为模型的评估提供了详尽的标准。

目前，在Omni-MATH评测中，尽管o1系列的完整版尚未开放API，但其轻量级版本o1-mini却表现突出，平均得分比o1-preview高出约8%。此外，开源模型Qwen2-MATH-72b的表现甚至超越了GPT-4o，这证明了专注于特定能力而非广泛知识积累的模型设计策略的有效性。

北大AI数学比赛，o1_mini竟然赢了o1_preview

Omni-MATH评测基准的特点在于其对答案可靠性的严格把控、合理的难度分级以及广泛的题目类型。所有4428个问题均经过人工验证，确保了答案的正确性。同时，评测集从预备级别到最高级别的奥林匹克竞赛都有涵盖，反映了不同层次数学竞赛的多样性和挑战性。而超过33个子领域的题目设计，则使得评测结果能够全面反映模型在不同数学学科上的表现。

为了构建Omni-MATH评测集，研究团队深入研究了国内外数学奥林匹克竞赛的选拔过程，确保评测集的难度层级与实际竞赛相匹配。同时，团队还考虑到了不同数学领域之间的关联性，通过细致的领域分类，为未来探索领域间数据相互作用的研究奠定了基础。

在数据处理方面，研究团队从比赛题目和题解、以及知名数学网站Art of Problem Solving中收集了大量资料，并通过人工和自动化工具相结合的方式进行了严格的筛选和验证。特别是在难度分类上，团队参考了Art of Problem Solving网站的难度系数，确保了评测集难度划分的科学性和合理性。

为了提高评测的效率和准确性，研究团队还开发了一个名为Omni-Judge的开源答案验证器。该验证器基于Llama3-Instruct进行微调，能够高效地对比模型输出与标准答案的一致性，准确率高达95%。

北大AI数学比赛，o1_mini竟然赢了o1_preview

Omni-MATH及其配套工具的推出，不仅为学术界提供了一个重要的研究平台，也为教育领域带来了新的可能性。随着这类评测基准的不断完善，未来大模型在解决复杂数学问题上的潜力有望得到更深层次的挖掘。

相关教程

镜子里的秘密：科学结合游戏的创新视角镜子里的秘密：科学结合游戏的创新视角在现代科技的推动下，科学与游戏的结合已经成为创新教育和娱乐的新趋势。本文将探讨这种结合如何为用
技术文章 09-07
调查显示，AI工具每年可以为员工节省近400个小时。 7月10日消息，劳动力分析和规划公司Visier近日对英国、美国、加拿大和德国的250多家公司的3030名员工进行了一项调查。结果显示，采用了人工
技术文章 06-25
OpenAI遭遇马斯克诉讼：AI领域中的Shakespearean背叛！马斯克针对Sam Altman和OpenAI的案件是利他主义与贪婪的经典对决，诉讼书写道，为可能成为AI发展未来的里程碑之战铺平了道路。硅谷的诱惑
技术文章 08-07

产业资讯

游戏下载 +

闲置幽灵酒店(Idle Ghost Hotel)

类型：游戏下载大小：107.93MB
下载
成品网源码78w78：探索手游新纪元的战斗系统与独特策略

类型：游戏下载大小：94MB
下载
久久久久久久久久9999手游：探索游戏的经济系统与资源管理

类型：游戏下载大小：47MB
下载
吃瓜爆料入口51cg吃瓜：手游中的实时更新与八卦揭秘！

类型：游戏下载大小：74MB
下载
可不可以干湿你现场播放：手游中的现场互动与策略运用

类型：游戏下载大小：30MB
下载

近期热点 +

最新技术文章 +

09-25

钉钉365会员上线啦，给个人老湿打包AI好货 9月23日，钉钉宣布推出专为个人用户设计的“365会员”服务，集成了AI搜索、个人AI助手及个人认证等多项增强功能，旨在助力每一位超级个体发
09-25

关键词和游戏网络SEO：专业培训与实战技巧关键词和游戏网络SEO：专业培训与实战技巧在当今竞争激烈的网络世界中，搜索引擎优化（SEO）成为了游戏网络行业不可或缺的一部分。关键词的
09-25

102家初创科技公司，200多位投资人聚成都，2024 DEMO CHINA大会开幕 2024年9月19日至20日，第十八届DEMO CHINA创新大会在成都盛大开幕，此次大会以“Rise of Transformers”为主题，吸引了102家早期科技公
09-25

美图大模型更新，视频生成功能更强了，美图秀秀/Wink/MOKI等应用都能用上啦 2024年9月23日，美图公司对外公布了其旗下的美图奇想大模型（MiracleVision）视频生成能力的重大突破，标志着这一技术在生成效率、质量以及
09-25

社交游戏新风尚：多人换着玩策略与技巧社交游戏新风尚：多人换着玩策略与技巧随着互联网技术的发展，社交游戏已经成为人们日常生活中不可或缺的一部分。它们不仅提供了娱乐，还促