随着人工智能技术的发展,大模型在传统评测标准下的表现已经达到了令人瞩目的成就。然而,对于那些旨在挑战人类智慧极限的高级别数学竞赛,大模型的能力又如何呢?
最近,一款名为o1的系列模型在MATH-500评测中取得了94.8分的成绩,而在更高难度的AIME 2024中也获得了83.3%的准确率。这引发了人们的好奇心:大模型是否能够应对更加复杂的数学奥林匹克竞赛?
为了解答这个问题,北京大学和阿里巴巴联手推出了一项新的评测基准——Omni-MATH,旨在评估大模型在奥林匹克数学竞赛中的推理能力。Omni-MATH评测集包含了4428个竞赛级别的问题,覆盖了33个以上的子领域,并分为10个难度等级,为模型的评估提供了详尽的标准。
目前,在Omni-MATH评测中,尽管o1系列的完整版尚未开放API,但其轻量级版本o1-mini却表现突出,平均得分比o1-preview高出约8%。此外,开源模型Qwen2-MATH-72b的表现甚至超越了GPT-4o,这证明了专注于特定能力而非广泛知识积累的模型设计策略的有效性。
Omni-MATH评测基准的特点在于其对答案可靠性的严格把控、合理的难度分级以及广泛的题目类型。所有4428个问题均经过人工验证,确保了答案的正确性。同时,评测集从预备级别到最高级别的奥林匹克竞赛都有涵盖,反映了不同层次数学竞赛的多样性和挑战性。而超过33个子领域的题目设计,则使得评测结果能够全面反映模型在不同数学学科上的表现。
为了构建Omni-MATH评测集,研究团队深入研究了国内外数学奥林匹克竞赛的选拔过程,确保评测集的难度层级与实际竞赛相匹配。同时,团队还考虑到了不同数学领域之间的关联性,通过细致的领域分类,为未来探索领域间数据相互作用的研究奠定了基础。
在数据处理方面,研究团队从比赛题目和题解、以及知名数学网站Art of Problem Solving中收集了大量资料,并通过人工和自动化工具相结合的方式进行了严格的筛选和验证。特别是在难度分类上,团队参考了Art of Problem Solving网站的难度系数,确保了评测集难度划分的科学性和合理性。
为了提高评测的效率和准确性,研究团队还开发了一个名为Omni-Judge的开源答案验证器。该验证器基于Llama3-Instruct进行微调,能够高效地对比模型输出与标准答案的一致性,准确率高达95%。
Omni-MATH及其配套工具的推出,不仅为学术界提供了一个重要的研究平台,也为教育领域带来了新的可能性。随着这类评测基准的不断完善,未来大模型在解决复杂数学问题上的潜力有望得到更深层次的挖掘。