当前位置: 网站首页 技术文章 正文

新开源大模型超越GPT-4,自带纠错技能,数学成绩99.2惊艳全场

来源:互联网 发布时间:2024-09-19 21:52:43

影视领域迎来了一个令人震惊的消息,一款名为Reflection 70B的开源大模型横空出世,其背后的推手竟然是一个小规模的创业团队,这无疑给整个行业带来了不小的震动。

新开源大模型超越GPT_4,自带纠错技能,数学成绩99.2惊艳全场

这款新模型采用了革新性的训练技术——Reflection-Tuning,使得AI能够在推理的过程中识别并修正自身的错误和幻觉,从而显著提升了模型的准确性和可靠性。

在最近的一项测试中,Reflection 70B在处理数学问题时,起初也出现了与其他模型类似的失误,但它迅速在<反思>标签中进行了自我纠正,展现了强大的自我修复能力。

经过官方评估,70B模型在多项指标上全面超越了诸如最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro等竞争对手,尤其在数学基准GSM8K上的表现几乎完美,取得了99.2%的高分。

此番成就令OpenAI的科学家、德州扑克AI领域的权威Noam Brown兴奋不已,他对此给予了高度评价。

随着模型的上线,众多网友蜂拥而至,体验平台一度因访问量过大而出现拥堵。对此,Meta公司慷慨解囊,提供了额外的算力支持以缓解压力。

网友们发现,Reflection 70B不仅能正确解答GSM8K数据集中的问题,即便是那些原本答案就有误的题目,它也能给出正确的答案。甚至对于一些生造词,如“drirrrngrrrrn”,其中有多少个字母“r”,它都能准确无误地数出来。

这款由小团队研发的开源模型,其卓越的表现让许多人感到意外,同时也标志着最顶尖的开源模型已经可以在本地环境中运行。

新开源大模型超越GPT_4,自带纠错技能,数学成绩99.2惊艳全场

更令人期待的是,这仅仅是Reflection系列的开端,官方宣布将在下周推出更大规模的Reflection 405B模型。

目前,Reflection 70B的权重已被公开,Hyperbolic Labs也将于稍晚提供API接口供开发者使用。

Reflection 70B的核心在于其独特的训练方法,即Reflection-Tuning技术。这项技术使模型能够在生成文本前,先进行自我审查,检测并修正推理中的错误。训练数据来源于GlaiveAI平台生成的合成资料。

基于Llama 3.1 70B Instruct构建的Reflection 70B,兼容其他Llama模型的代码和流水线,用户可以从Reflection Llama-3.1 70B中采样。

Reflection 70B在输出时引入了特殊的tokens,将推理过程和最终答案区分开来。在<thinking>和</thinking>标签之间输出推理过程,而在<output>和</output>标签之间输出最终的答案。这不仅提高了连贯性思维的效果,还保证了输出的简洁。

为了进一步验证其性能,所有基准测试均通过了LMSys的LLM Decontaminator检查,确保了测试环境的纯净。

官方还分享了一些使用Reflection 70B的小贴士,包括建议的参数设置和优化提示,以帮助用户获得更好的体验。

站在Reflection 70B背后的是一个小型创业团队,由HyperWriteAI的首席执行官Mutt Shumer领导。Shumer是一位经验丰富的连续创业者,他的团队致力于开发先进的AI工具,如能够模拟人类操作浏览器完成各种任务的HyperWrite。

新开源大模型超越GPT_4,自带纠错技能,数学成绩99.2惊艳全场

尽管有Meta的支持,但目前体验平台暂时仍无法访问。有兴趣的朋友可以先收藏网址:https://reflection-playground-production.up.railway.app/,随时关注最新动态。

相关教程