当前位置：网站首页技术文章正文

新开源大模型超越GPT-4，自带纠错技能，数学成绩99.2惊艳全场

来源：互联网发布时间：2024-09-19 21:52:43

影视领域迎来了一个令人震惊的消息，一款名为Reflection 70B的开源大模型横空出世，其背后的推手竟然是一个小规模的创业团队，这无疑给整个行业带来了不小的震动。

新开源大模型超越GPT_4，自带纠错技能，数学成绩99.2惊艳全场

这款新模型采用了革新性的训练技术——Reflection-Tuning，使得AI能够在推理的过程中识别并修正自身的错误和幻觉，从而显著提升了模型的准确性和可靠性。

在最近的一项测试中，Reflection 70B在处理数学问题时，起初也出现了与其他模型类似的失误，但它迅速在<反思>标签中进行了自我纠正，展现了强大的自我修复能力。

经过官方评估，70B模型在多项指标上全面超越了诸如最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro等竞争对手，尤其在数学基准GSM8K上的表现几乎完美，取得了99.2%的高分。

此番成就令OpenAI的科学家、德州扑克AI领域的权威Noam Brown兴奋不已，他对此给予了高度评价。

随着模型的上线，众多网友蜂拥而至，体验平台一度因访问量过大而出现拥堵。对此，Meta公司慷慨解囊，提供了额外的算力支持以缓解压力。

网友们发现，Reflection 70B不仅能正确解答GSM8K数据集中的问题，即便是那些原本答案就有误的题目，它也能给出正确的答案。甚至对于一些生造词，如“drirrrngrrrrn”，其中有多少个字母“r”，它都能准确无误地数出来。

这款由小团队研发的开源模型，其卓越的表现让许多人感到意外，同时也标志着最顶尖的开源模型已经可以在本地环境中运行。

新开源大模型超越GPT_4，自带纠错技能，数学成绩99.2惊艳全场

更令人期待的是，这仅仅是Reflection系列的开端，官方宣布将在下周推出更大规模的Reflection 405B模型。

目前，Reflection 70B的权重已被公开，Hyperbolic Labs也将于稍晚提供API接口供开发者使用。

Reflection 70B的核心在于其独特的训练方法，即Reflection-Tuning技术。这项技术使模型能够在生成文本前，先进行自我审查，检测并修正推理中的错误。训练数据来源于GlaiveAI平台生成的合成资料。

基于Llama 3.1 70B Instruct构建的Reflection 70B，兼容其他Llama模型的代码和流水线，用户可以从Reflection Llama-3.1 70B中采样。

Reflection 70B在输出时引入了特殊的tokens，将推理过程和最终答案区分开来。在<thinking>和</thinking>标签之间输出推理过程，而在<output>和</output>标签之间输出最终的答案。这不仅提高了连贯性思维的效果，还保证了输出的简洁。

为了进一步验证其性能，所有基准测试均通过了LMSys的LLM Decontaminator检查，确保了测试环境的纯净。

官方还分享了一些使用Reflection 70B的小贴士，包括建议的参数设置和优化提示，以帮助用户获得更好的体验。

站在Reflection 70B背后的是一个小型创业团队，由HyperWriteAI的首席执行官Mutt Shumer领导。Shumer是一位经验丰富的连续创业者，他的团队致力于开发先进的AI工具，如能够模拟人类操作浏览器完成各种任务的HyperWrite。

新开源大模型超越GPT_4，自带纠错技能，数学成绩99.2惊艳全场

尽管有Meta的支持，但目前体验平台暂时仍无法访问。有兴趣的朋友可以先收藏网址：https://reflection-playground-production.up.railway.app/，随时关注最新动态。

相关教程

[技巧] 修改Windows 11此电脑默认位置不要每次打开都是主文件夹在Windows 11 22H2版中微软带来主文件夹 , 主文件夹集成云端文件、收藏的文件、推荐的文件和其他等。而且系统默认情况下打开资源管理
技术文章 08-25
Midjourney微调动漫模型Nijijourney APP正式上架App Store Midjourney微调动漫模型Nijijourney APP已经在App Store上正式亮相，成为数字艺术家和创意工作者的新创作伙伴。这个由独立研究实验室开发
技术文章 06-30
微软将放宽必应聊天的字符限制，增加到 8000 个字符 9 月 13 日消息，微软方面确认，将在消费者版和企业版的必应聊天中放宽字符限制。目前的限制是 4000 个字符，但在未来将增加到 8000
技术文章 07-01

产业资讯

游戏下载 +

近期热点 +

最新技术文章 +

09-19

阿里巴巴国际站总裁张阔：要让全球贸易像网购一样简单，全靠AI来实现 “我们的目标是让全球贸易如同网上购物般便捷。”9月5日，在美国举行的CoCreate 2024大会上，阿里巴巴国际站总裁张阔向世界各地的中小企业
09-19

高通用异构计算和低功耗NPU加速终端AI发展 9月6日，2024年度全球AI芯片峰会在京隆重开幕。作为国内最具规模与影响力的行业盛会，此次峰会以“智算纪元共筑芯路”为核心议题，汇聚了
09-19

40年难题！业余高手用软件app，陶哲轩说这改变了游戏规则在计算机科学领域，一个长期困扰着科学家们的难题——忙碌海狸问题，最近取得了重大突破。一群非专业的爱好者们，通过共同努力，解决了这一
09-19

太火爆！我在外滩用Deepfake挑战机器人，结果居然…… 在外滩大会体验了一把Deepfake生成技术，结果竟然没能逃过机器人的火眼金睛……几乎是瞬间，机器人就准确无误地识别出了伪造的照片和视频。
09-19

绿巨人游戏福建地区玩家，大菠萝导航APP是你的新伙伴绿巨人游戏福建地区玩家，大菠萝导航APP是你的新伙伴在福建地区，绿巨人游戏已经成为了众多玩家的热门选择。这款游戏以其独特的玩法和引人