只需简短的几行代码,就能显著提升大模型的数学问题解决能力!
几位独立研究者提出了一种新颖的大模型采样优化方案,迅速吸引了开源社区的目光。
这一技术已经在Mistral-7B模型上证实有效,同时在Llama3-70B上的验证工作也正紧锣密鼓地展开。
此方法被称为最小p采样(min-p sampling),旨在确保生成文本既具有一致性又不失多样性。
换句话说,就是在面对事实性问题时能保持准确性,在创作性任务中则能够展现更多创造性。
该技术已经在Mistral-7B上展示了其实力,而在Llama-70B上的应用也指日可待。
根据研究者的报告,min-p采样法已经被开源社区广泛采纳。
此外,像Anthropic和谷歌这样的闭源模型开发商也已经或将要开始测试min-p采样。
谷歌方面对此予以了确认,从OpenAI转投谷歌的开发者社区负责人Logan Kilpatrick回应称:“已经在处理中。”
来自微软Copilot团队的研究员Abram Jackson评价道,这是他所见的第一个针对推理过程中token采样方法的改进,并认为这一领域仍有巨大的发展潜力。
值得注意的是,这项备受瞩目的研究的主要贡献者Minh Nhat Nguyen并没有接受过正规的计算机科学教育,而是通过自学达到了今天的成就。
在一家名为Apart Research的AI安全研究组织的支持下,Minh和他的团队完成了这个项目。
动态调整采样阈值
min-p采样是一种动态的截断方法,其关键是依据每次生成token时的概率分布最大值来调整最小概率阈值。
这样做是为了在高temperature条件下保持生成内容的一致性和丰富性之间的平衡。
具体而言,min-p设定了一个基础概率阈值p_base,作为进入候选池的最低概率标准。
在每一轮生成token的过程中,min-p将p_base与当前最高概率p_max相乘,得出一个调整后的绝对阈值p_scaled。
只有那些概率不低于p_scaled的token才会被考虑在内。
如果某个token的概率非常高,则p_scaled也会相应提高,这将大幅减少候选池中的选项,从而保证输出的一致性;
相反,如果所有token的概率都较为平均,则p_scaled会降低,允许更多中等概率的token加入候选池,增加模型的创新性。
在确定了候选池之后,min-p会基于temperature参数对概率分布进行调整。
通过对log-probability除以温度参数τ并重新标准化,生成temperature调整后的概率分布。
当τ大于1时,低概率token被选中的几率增加;
τ小于1则使高概率token更占优势。
最后,min-p从调整后的候选池中按新的概率分布随机选取下一个token。
既要稳定性又要创意
min-p采样的实际效果如何?研究者们使用Mistral-7B作为基准模型进行了测试,下面来看看具体的成果。
在推理任务中,采用GPQA数据集,当temperature设为1时,min-p表现出轻微优于传统的top-p采样。
随着temperature上升,GPQA得分普遍下降,但min-p的下降速度明显较慢。
直到temperature达到3时,min-p才出现明显的下滑,而此时top-p的得分几乎归零。
这表明,在推理任务中,min-p比top-p更能维持所需的稳定性。
对于数学类任务,研究者使用GSM8K数据集进行了检验,min-p的表现同样优于top-p。
第三种任务是创意写作,这时需要的不再是稳定性,而是更多的创造性。
这一部分测试利用AlpacaEval数据集进行,数据显示,在temperature=1.5、min-p=0.1的设定下,min-p表现出色,生成了其他方法难以匹敌的创意文本。
在此参数配置下,min-p生成的内容在人类评审中获得了58.12%的首选率,远超其他方法在相同条件下的表现。
论文地址:https://arxiv.org/abs/2407.01082GitHub:https://github.com/menhguin/minp_paper/参考链接:https://x.com/menhguin/status/1826132708508213629