发布不足一周,OpenAI的顶尖模型o1的领先地位似乎已不再稳固。
据发现,早在8月份,谷歌DeepMind就有一篇论文揭示了与其相似的工作原理。
该研究指出,在测试阶段增加计算量可能比单纯扩展模型参数更为有效。
依据论文所建议的计算最优测试阶段计算扩展策略,较小规模的基础模型在某些任务上的表现可以超越其14倍大小的模型。
网友们对此纷纷表达了自己的看法:
而OpenAI最近也宣布提高了o1-mini的运行速度至原来的7倍,用户每天可以使用50次;o1-preview版本则调整为每周可用50次。
计算效率提升了四倍。
这篇来自谷歌DeepMind的研究题为《优化LLM测试阶段计算比扩大模型参数规模更高效》。
研究团队认为,就像人在面对复杂问题时会花更多时间思考来做出更好的决策,大型语言模型(LLM)或许也可以采取类似的方法。
换句话说,在处理复杂的任务时,LLM能否通过更有效地利用测试阶段的额外计算来提高准确度。
之前的若干研究表明,这一方向是可行的,但成效有限。
该研究旨在探究在使用相对较少的额外推理计算时,模型性能能提升到何种程度。
研究者们进行了试验,使用PaLM2-S*模型在MATH数据集上进行了测试。
主要分析了两种方法:
(1)迭代自我修正:让模型多次尝试解答同一个问题,并在每次尝试后进行修正以获得更好的答案。(2)搜索:在此方法中,模型生成多个可能的答案选项。
从实验结果来看,当采用自我修正的方法时,随着测试阶段计算量的增加,标准的最佳N策略(Best-of-N)与计算最优扩展策略之间的差异变得更为显著。
而在使用搜索方法时,计算最优扩展策略在初始阶段就显示出较为明显的优势。并且在某些情况下,它能达到与最佳N策略相同的效果,但所需计算量仅为后者的四分之一。
在与预训练计算量相等的FLOPs评估中,将使用计算最优策略的PaLM 2-S*模型与一个14倍大的预训练模型(未进行额外推理)进行对比。
结果显示,当推理token的数量远小于预训练token数量时,采用测试阶段计算策略的效果优于单纯的预训练效果。但在token比率增加或遇到更难的问题时,预训练的效果仍然更胜一筹。
这意味着,在这两种情况下,测试阶段计算扩展方法的有效性取决于提示的难度。
此外,研究还对不同的PRM搜索方法进行了比较,结果显示前向搜索(最右侧)需要更多的计算量。
在计算量较少的情况下,使用计算最优策略最多可以节省四倍的资源。
与OpenAI的o1模型相比,这项研究得出了类似的结论。
o1模型能够完善自身的思维过程,尝试不同的策略,并识别出自身的错误。并且随着更多的强化学习(训练阶段计算)以及更多的思考时间(测试阶段计算),o1的表现持续改进。
尽管OpenAI率先发布了其模型,但谷歌方面则是使用了PaLM2模型,并且尚未在Gemini2平台上更新发布。
网友纷纷评论道,如今的技术壁垒可能只剩下硬件了?
这一新的发现不禁让人联想到去年谷歌内部文件中提出的一个观点:
目前看来,各家公司都在快速推进研究,谁都无法保证能够一直保持领先。
唯一可能的壁垒,或许是硬件本身。
(难道这就是马斯克大力投资建设算力中心的原因吗?)
有评论指出,现在英伟达掌握了算力分配的主导权。那么如果谷歌或微软开发出了更有效的定制芯片,局面将会怎样变化呢?
值得一提的是,不久前OpenAI的首款芯片被曝光,这款芯片将采用台积电最先进的A16纳米级工艺,专门用于支持Sora视频应用。
显然,在大模型的竞争中,单纯依赖模型本身的优化已经不够了。