当前位置: 网站首页 技术文章 正文

最牛开源模型遭打脸,CEO出来道歉,英伟达科学家:现在的评测标准不行了

来源:互联网 发布时间:2024-09-18 05:04:28

一款由初创团队推出的开源模型Reflection,在发布初期便遭遇了信任危机——

最牛开源模型遭打脸,CEO出来道歉,英伟达科学家:现在的评测标准不行了

先是官方公布的成绩在独立评测中未能重现,紧接着又被指摘为Claude的“伪装版”。面对舆论压力,公司CEO虽发表道歉声明,但否认了所有指控,并承诺将深入调查事件原委。

这场风波的主角,正是号称能够超越GPT-4o的70B开源巨制Reflection。

质疑之声首先围绕于其官方宣称的性能指标,团队试图以上传错误版本作为解释,但这一说辞未能平息争议。

随后,更为严重的指控浮出水面:Reflection疑似为Claude的变种版本,使得事态进一步复杂化。

Reflection曾声称在多项测试中超越了Llama 3.1 405B、GPT-4o、Claude 3 Opus及Gemini 1.5 Pro等先进模型。然而,仅发布两天后,独立评测机构Artificial Analysis即指出,Reflection在MMLU、GPQA及MATH等基准测试中的表现远不及官方数据,甚至逊色于Llama 3.1-70B。

最牛开源模型遭打脸,CEO出来道歉,英伟达科学家:现在的评测标准不行了

针对上述质疑,Reflection团队辩称Hugging Face上发布的版本存在错误,并承诺更新修复。尽管如此,后续提供的模型API测试结果显示,Reflection在GPQA上的得分仍不及Claude 3.5 Sonnet。

Artificial Analysis随后删除了关于第二次测试的帖子,目前只能通过转发记录窥见一二。

此外,Reflection还被指控并非基于官方所述的Llama 3.1,而是通过LoRA技术改造自Llama 3。在Hugging Face平台上,Reflection的相关文件中亦未显示使用Llama 3.1。

更有甚者,有人发现Reflection在某些情境下的回答与Claude 3.5 Sonnet高度相似,甚至在特定条件下自称为Claude,以及对“Claude”一词进行过滤处理。

面对种种质疑,Glaive AI创始人Sahil Chaudhary回应称,他们并未抄袭任何模型,并正积极准备证据澄清事实。

与此同时,Reflection的托管服务商Hyperbolic平台CTO Yuchen Jin详细阐述了双方合作的始末。在Reflection上线前后,Hyperbolic多次协助测试及部署,但始终未能达到预期表现。最终,鉴于持续的争议,Hyperbolic决定停止提供Reflection的API服务。

最牛开源模型遭打脸,CEO出来道歉,英伟达科学家:现在的评测标准不行了

这场风波反映出当前模型评测标准的局限性。英伟达高级科学家Jim Fan指出,部分基准测试已不足以准确衡量模型的真实能力,第三方独立评测或许更为可靠。

相关教程