当前位置：网站首页技术文章正文

最牛开源模型遭打脸，CEO出来道歉，英伟达科学家：现在的评测标准不行了

来源：互联网发布时间：2024-09-18 05:04:28

一款由初创团队推出的开源模型Reflection，在发布初期便遭遇了信任危机——

先是官方公布的成绩在独立评测中未能重现，紧接着又被指摘为Claude的“伪装版”。面对舆论压力，公司CEO虽发表道歉声明，但否认了所有指控，并承诺将深入调查事件原委。

这场风波的主角，正是号称能够超越GPT-4o的70B开源巨制Reflection。

质疑之声首先围绕于其官方宣称的性能指标，团队试图以上传错误版本作为解释，但这一说辞未能平息争议。

随后，更为严重的指控浮出水面：Reflection疑似为Claude的变种版本，使得事态进一步复杂化。

Reflection曾声称在多项测试中超越了Llama 3.1 405B、GPT-4o、Claude 3 Opus及Gemini 1.5 Pro等先进模型。然而，仅发布两天后，独立评测机构Artificial Analysis即指出，Reflection在MMLU、GPQA及MATH等基准测试中的表现远不及官方数据，甚至逊色于Llama 3.1-70B。

最牛开源模型遭打脸，CEO出来道歉，英伟达科学家：现在的评测标准不行了

针对上述质疑，Reflection团队辩称Hugging Face上发布的版本存在错误，并承诺更新修复。尽管如此，后续提供的模型API测试结果显示，Reflection在GPQA上的得分仍不及Claude 3.5 Sonnet。

Artificial Analysis随后删除了关于第二次测试的帖子，目前只能通过转发记录窥见一二。

此外，Reflection还被指控并非基于官方所述的Llama 3.1，而是通过LoRA技术改造自Llama 3。在Hugging Face平台上，Reflection的相关文件中亦未显示使用Llama 3.1。

更有甚者，有人发现Reflection在某些情境下的回答与Claude 3.5 Sonnet高度相似，甚至在特定条件下自称为Claude，以及对“Claude”一词进行过滤处理。

面对种种质疑，Glaive AI创始人Sahil Chaudhary回应称，他们并未抄袭任何模型，并正积极准备证据澄清事实。

与此同时，Reflection的托管服务商Hyperbolic平台CTO Yuchen Jin详细阐述了双方合作的始末。在Reflection上线前后，Hyperbolic多次协助测试及部署，但始终未能达到预期表现。最终，鉴于持续的争议，Hyperbolic决定停止提供Reflection的API服务。

最牛开源模型遭打脸，CEO出来道歉，英伟达科学家：现在的评测标准不行了

这场风波反映出当前模型评测标准的局限性。英伟达高级科学家Jim Fan指出，部分基准测试已不足以准确衡量模型的真实能力，第三方独立评测或许更为可靠。

相关教程

亚洲白色白色白白发布：游戏角色的流行色分析游戏角色的流行色分析在游戏设计领域，角色的视觉呈现是吸引玩家的关键因素之一。颜色作为视觉元素的重要组成部分，不仅能够影响玩家的情感
技术文章 09-11
如果你用不了ChatGPT，推荐试试讯飞星火，免费又好用自打2022年底，ChatGPT发布后，2个月，1亿注册用户，各个国家、投资机构、企业和个人纷纷加入，引发全球科技狂潮。经常就有人问我怎么才能
技术文章 05-21
马斯克发布Grok-1.5，强化推理和上下文，HumanEval得分超GPT-4 AIHub最新消息，继开源
技术文章 05-19

产业资讯

游戏下载 +

社死模拟器最新版

类型：游戏下载大小：82.00M
下载
天诺奥传存档版

类型：游戏下载大小：810MB
下载
铁血攻沙游戏

类型：游戏下载大小：95.41M
下载
瓦罗兰特(Project C)

类型：游戏下载大小：2.7MB
下载
重装无限(内置菜单)

类型：游戏下载大小：114.22MB
下载

近期热点 +

最新技术文章 +

09-18

SpaceX又搞大事，首次商业太空行走成功啦 SpaceX近日再创辉煌：“北极黎明”任务指挥官贾里德·艾萨克曼，在距离地球表面700余公里处完成了人类历史上的首次商业太空行走。北京时间
09-18

CIO新动向：ROI成关注点，谨慎评估生成式AI成本随着生成式人工智能（AI）技术的不断发展，首席信息官（CIO）们正在逐步将注意力转向更具商业价值的项目评估上。他们不仅关注于技术本身的
09-17

实测OpenAI顶尖模型o1：搞定大学数理化，但弱智吧还是难搞定备受期待的OpenAI“草莓”版本已正式发布！此版本不仅能够处理更为复杂的推理挑战，在数学、编程以及科学领域的难题上亦展现出更强的解决能
09-17

小鲜肉CHINA飞机直男：热门飞行模拟游戏排行榜揭晓小鲜肉CHINA飞机直男：热门飞行模拟游戏排行榜揭晓在飞行模拟游戏的世界里，总有一些作品因其逼真的飞行体验和高度的互动性而脱颖而出。今
09-17

音乐游戏大揭秘：俄罗斯Rapper潮水如何引领新潮流？音乐游戏大揭秘：俄罗斯Rapper潮水如何引领新潮流？在当今的音乐界，俄罗斯Rapper以其独特的风格和创新的音乐游戏方式，正在引领一股新的潮