当前位置: 网站首页 技术文章 正文

谷歌曝内幕:大模型仅有软件难筑壁垒

来源:互联网 发布时间:2024-09-21 01:50:22

发布不足一周,OpenAI的顶尖模型o1的领先地位似乎已不再稳固。

谷歌曝内幕:大模型仅有软件难筑壁垒

据发现,早在8月份,谷歌DeepMind就有一篇论文揭示了与其相似的工作原理。

该研究指出,在测试阶段增加计算量可能比单纯扩展模型参数更为有效。

依据论文所建议的计算最优测试阶段计算扩展策略,较小规模的基础模型在某些任务上的表现可以超越其14倍大小的模型。

网友们对此纷纷表达了自己的看法:

而OpenAI最近也宣布提高了o1-mini的运行速度至原来的7倍,用户每天可以使用50次;o1-preview版本则调整为每周可用50次。

计算效率提升了四倍。

这篇来自谷歌DeepMind的研究题为《优化LLM测试阶段计算比扩大模型参数规模更高效》。

研究团队认为,就像人在面对复杂问题时会花更多时间思考来做出更好的决策,大型语言模型(LLM)或许也可以采取类似的方法。

换句话说,在处理复杂的任务时,LLM能否通过更有效地利用测试阶段的额外计算来提高准确度。

之前的若干研究表明,这一方向是可行的,但成效有限。

该研究旨在探究在使用相对较少的额外推理计算时,模型性能能提升到何种程度。

研究者们进行了试验,使用PaLM2-S*模型在MATH数据集上进行了测试。

主要分析了两种方法:

(1)迭代自我修正:让模型多次尝试解答同一个问题,并在每次尝试后进行修正以获得更好的答案。(2)搜索:在此方法中,模型生成多个可能的答案选项。

从实验结果来看,当采用自我修正的方法时,随着测试阶段计算量的增加,标准的最佳N策略(Best-of-N)与计算最优扩展策略之间的差异变得更为显著。

谷歌曝内幕:大模型仅有软件难筑壁垒

而在使用搜索方法时,计算最优扩展策略在初始阶段就显示出较为明显的优势。并且在某些情况下,它能达到与最佳N策略相同的效果,但所需计算量仅为后者的四分之一。

在与预训练计算量相等的FLOPs评估中,将使用计算最优策略的PaLM 2-S*模型与一个14倍大的预训练模型(未进行额外推理)进行对比。

结果显示,当推理token的数量远小于预训练token数量时,采用测试阶段计算策略的效果优于单纯的预训练效果。但在token比率增加或遇到更难的问题时,预训练的效果仍然更胜一筹。

这意味着,在这两种情况下,测试阶段计算扩展方法的有效性取决于提示的难度。

此外,研究还对不同的PRM搜索方法进行了比较,结果显示前向搜索(最右侧)需要更多的计算量。

在计算量较少的情况下,使用计算最优策略最多可以节省四倍的资源。

与OpenAI的o1模型相比,这项研究得出了类似的结论。

o1模型能够完善自身的思维过程,尝试不同的策略,并识别出自身的错误。并且随着更多的强化学习(训练阶段计算)以及更多的思考时间(测试阶段计算),o1的表现持续改进。

尽管OpenAI率先发布了其模型,但谷歌方面则是使用了PaLM2模型,并且尚未在Gemini2平台上更新发布。

网友纷纷评论道,如今的技术壁垒可能只剩下硬件了?

这一新的发现不禁让人联想到去年谷歌内部文件中提出的一个观点:

目前看来,各家公司都在快速推进研究,谁都无法保证能够一直保持领先。

唯一可能的壁垒,或许是硬件本身。

(难道这就是马斯克大力投资建设算力中心的原因吗?)

有评论指出,现在英伟达掌握了算力分配的主导权。那么如果谷歌或微软开发出了更有效的定制芯片,局面将会怎样变化呢?

值得一提的是,不久前OpenAI的首款芯片被曝光,这款芯片将采用台积电最先进的A16纳米级工艺,专门用于支持Sora视频应用。

谷歌曝内幕:大模型仅有软件难筑壁垒

显然,在大模型的竞争中,单纯依赖模型本身的优化已经不够了。

相关教程