当前位置: 网站首页 技术文章 正文

GPT-4o mini排名大跳水,大模型比赛规则变了,奥特曼刷分招数失灵

来源:互联网 发布时间:2024-09-21 11:33:28

大型语言模型竞赛规则迎来了一轮重大更新,随之而来的是GPT-4o mini排名出现大幅下滑,跌出了前十的位置。

GPT_4omini排名大跳水,大模型比赛规则变了,奥特曼刷分招数失灵

新的评分体系降低了对回答长度与风格等非核心要素的重视程度,转而更加注重模型解决实际问题的能力。

那些曾经依靠美观的排版设计、频繁使用小标题等手段来吸引用户、提升排名的做法,在新规则面前已不再奏效。

随着新规的实施,诸如奥特曼推出的GPT-4o mini以及马斯克旗下的Grok-2系列等模型的评分均出现了明显的下滑趋势,而谷歌的Gemini-1.5-flash小型模型亦未能幸免,表现有所减弱。

与此同时,Claude系列以及Llama-3.1-405b等大型模型的得分则呈现上升态势。

当仅考量复杂任务(Hard Prompt)时,大型模型在风格控制上的优势更为突出。

过去,GPT-4o mini这一小型模型曾短暂占据榜首位置,与完整的GPT-4o版本并驾齐驱,然而这显然与用户的实际体验相去甚远。

作为曾经被Karpathy赞誉过的评价标准,Lmsys大模型竞技场的声誉一度因为过于偏向用户喜好而非真实模型能力而受损。

面对质疑,Lmsys团队深刻反思,并首次公布了GPT-4o mini参与的一千场对决的数据分析结果,揭示出模型的拒绝回答率、生成内容长度以及格式编排等因素是如何影响最终投票结果的。

值得一提的是,在GPT-4o mini发布之前,奥特曼方面就已经透露,该模型的设计理念正是基于人类审美的偏好进行了优化。

GPT_4omini排名大跳水,大模型比赛规则变了,奥特曼刷分招数失灵

如今,Lmsys已经采取行动,推出了一套旨在减少这些因素干扰的新算法,而这仅仅是他们改革计划的第一步。

假设存在这样两种模型:模型A擅长生成代码、事实陈述及客观答案,但其输出往往十分简练;而模型B虽然在内容准确性等方面表现不佳,却能够生成冗长且格式精美的回答。

那么,哪一种模型更胜一筹呢?这个问题并没有唯一答案。Lmsys正在运用数学方法来量化不同模型的得分中究竟有多少是由内容质量或是风格所贡献的。

最新的研究显示,人们似乎更倾向于接受那些格式美观且内容详尽的回答。通过在Bradley-Terry回归模型中引入诸如回答长度、Markdown小标题数量、列表及加粗文本数量等风格特征作为自变量,这一技术最近被AlpacaEval LC等应用于大型模型的评估当中。

在回归分析过程中加入任何潜在的混淆变量(如回答长度),便能够将评分增长的原因归结于这些混淆因素,而非模型本身的能力。

目前,相关的代码已经在Google Colab平台上对外公布。此外,团队还分别测试了仅控制长度和仅控制格式的效果,结果显示,GPT-4o mini与谷歌Gemini系列的评分受到格式影响的程度更大。

尽管如此,这种方法仍存在一定的局限性,比如可能忽略了某些未被观察到的混淆因素,比如长度与回答质量之间可能存在正相关性,这类因素尚未被纳入考量范围(如思维链提示)。

不少用户认为,经过调整后的复杂任务排行榜单与他们的直观感受更为契合。

更有观点指出,榜单与背后模型公司的相互较量,正是推动整个行业不断前行的动力所在。

GPT_4omini排名大跳水,大模型比赛规则变了,奥特曼刷分招数失灵

您是否依然依赖大模型竞技场的结果来挑选心仪的模型?或者,您有更好的评估建议?欢迎留言分享您的看法。

相关教程