当前位置：网站首页技术文章正文

GPT-4o mini排名大跳水，大模型比赛规则变了，奥特曼刷分招数失灵

来源：互联网发布时间：2024-09-21 11:33:28

大型语言模型竞赛规则迎来了一轮重大更新，随之而来的是GPT-4o mini排名出现大幅下滑，跌出了前十的位置。

GPT_4omini排名大跳水，大模型比赛规则变了，奥特曼刷分招数失灵

新的评分体系降低了对回答长度与风格等非核心要素的重视程度，转而更加注重模型解决实际问题的能力。

那些曾经依靠美观的排版设计、频繁使用小标题等手段来吸引用户、提升排名的做法，在新规则面前已不再奏效。

随着新规的实施，诸如奥特曼推出的GPT-4o mini以及马斯克旗下的Grok-2系列等模型的评分均出现了明显的下滑趋势，而谷歌的Gemini-1.5-flash小型模型亦未能幸免，表现有所减弱。

与此同时，Claude系列以及Llama-3.1-405b等大型模型的得分则呈现上升态势。

当仅考量复杂任务（Hard Prompt）时，大型模型在风格控制上的优势更为突出。

过去，GPT-4o mini这一小型模型曾短暂占据榜首位置，与完整的GPT-4o版本并驾齐驱，然而这显然与用户的实际体验相去甚远。

作为曾经被Karpathy赞誉过的评价标准，Lmsys大模型竞技场的声誉一度因为过于偏向用户喜好而非真实模型能力而受损。

面对质疑，Lmsys团队深刻反思，并首次公布了GPT-4o mini参与的一千场对决的数据分析结果，揭示出模型的拒绝回答率、生成内容长度以及格式编排等因素是如何影响最终投票结果的。

值得一提的是，在GPT-4o mini发布之前，奥特曼方面就已经透露，该模型的设计理念正是基于人类审美的偏好进行了优化。

GPT_4omini排名大跳水，大模型比赛规则变了，奥特曼刷分招数失灵

如今，Lmsys已经采取行动，推出了一套旨在减少这些因素干扰的新算法，而这仅仅是他们改革计划的第一步。

假设存在这样两种模型：模型A擅长生成代码、事实陈述及客观答案，但其输出往往十分简练；而模型B虽然在内容准确性等方面表现不佳，却能够生成冗长且格式精美的回答。

那么，哪一种模型更胜一筹呢？这个问题并没有唯一答案。Lmsys正在运用数学方法来量化不同模型的得分中究竟有多少是由内容质量或是风格所贡献的。

最新的研究显示，人们似乎更倾向于接受那些格式美观且内容详尽的回答。通过在Bradley-Terry回归模型中引入诸如回答长度、Markdown小标题数量、列表及加粗文本数量等风格特征作为自变量，这一技术最近被AlpacaEval LC等应用于大型模型的评估当中。

在回归分析过程中加入任何潜在的混淆变量（如回答长度），便能够将评分增长的原因归结于这些混淆因素，而非模型本身的能力。

目前，相关的代码已经在Google Colab平台上对外公布。此外，团队还分别测试了仅控制长度和仅控制格式的效果，结果显示，GPT-4o mini与谷歌Gemini系列的评分受到格式影响的程度更大。

尽管如此，这种方法仍存在一定的局限性，比如可能忽略了某些未被观察到的混淆因素，比如长度与回答质量之间可能存在正相关性，这类因素尚未被纳入考量范围（如思维链提示）。

不少用户认为，经过调整后的复杂任务排行榜单与他们的直观感受更为契合。

更有观点指出，榜单与背后模型公司的相互较量，正是推动整个行业不断前行的动力所在。

GPT_4omini排名大跳水，大模型比赛规则变了，奥特曼刷分招数失灵

您是否依然依赖大模型竞技场的结果来挑选心仪的模型？或者，您有更好的评估建议？欢迎留言分享您的看法。

相关教程

Windows游戏在中国：深入了解国内玩家的游戏喜好 Windows游戏在中国：深入了解国内玩家的游戏喜好随着中国游戏市场的快速发展，Windows游戏作为其中的重要组成部分，吸引了众多玩家的关注。
技术文章 09-15
黄仁勋最新两万字演讲:将打破摩尔定律，发布新产品，机器人时代已经到来。 6月2日，英伟达联合创始人兼CEO黄仁勋在Computex 2024(台北国际计算机展2024)发表主题演讲，分享人工智能时代如何助推全球新工业革命。以
技术文章 06-24
用ChatGPT秒构建大模型，OpenAI的新插件很疯狂，访问代码解释器一键搞定。上周五，OpenAI刚刚宣布了一个令人震惊的消息:ChatGPT可以联网，可以连接第三方插件！除了第三方插件，OpenAI还推出了自己的插件“代码解释
技术文章 06-28

产业资讯

游戏下载 +

近期热点 +

最新技术文章 +

09-21

太逼真了吧！OpenAI的机器人穿衣服做家务，用户直呼像真人演的在科技前沿，一项激动人心的进展再次引起了人们的广泛关注。1X Technologies，这家来自挪威的机器人制造商，最近推出了他们的新一代家用机
09-21

MIT科学家意外发现：纯数学方法揭示量子纠缠竟会瞬间消失！在计算机科学领域，一项意料之外的重大发现正悄然改变着我们对量子物理现象的认知。麻省理工学院的一群科研人员，通过纯数学手段揭示了一个
09-21

谷歌曝内幕：大模型仅有软件难筑壁垒发布不足一周，OpenAI的顶尖模型o1的领先地位似乎已不再稳固。据发现，早在8月份，谷歌DeepMind就有一篇论文揭示了与其相似的工作原理。该
09-21

秋蝉游戏玩家集结：羞羞的漫画免费入口全解析！秋蝉游戏玩家集结：羞羞的漫画免费入口全解析！秋蝉游戏以其独特的游戏机制和丰富的故事情节，吸引了众多玩家的关注。在这篇文章中，我们将
09-21

马腾宇等姚班成员证明：只要有足够多的推理token，O1方法就能搞定任何问题在人工智能领域，一项关于Transformer模型的新研究揭示了其在解决复杂问题方面的巨大潜力。斯隆奖得主马腾宇与Google Brain推理团队创始人