当前位置: 网站首页 技术文章 正文

O1基石论文火了,Ilya还是那个关键人物!核心项目里清华北大校友亮眼

来源:互联网 发布时间:2024-09-20 22:01:56

自从Ilya Sutskever的名字出现在OpenAI o1背后团队名单中,人们纷纷对他在这项突破性项目中的角色产生了浓厚兴趣。机器学习工程师Rohan Paul近期在社交媒体上分享了一篇由Ilya共同撰写的论文,引起了广泛关注。

O1基石论文火了,Ilya还是那个关键人物!核心项目里清华北大校友亮眼

这篇名为“Let’s Verify Step by Step”的研究文献,不仅是众多OpenAI o1贡献者的心血结晶,也被一些人誉为继“Attention is all you need”之后AI领域的又一里程碑。

与此同时,OpenAI科学家Noam Brown澄清了自己并未主导草莓/OpenAI o1项目的传言,但确认该项目是多年研究的结晶,并在去年10月进入了快速发展的阶段。

鉴于此,Ilya Sutskever作为OpenAI o1的基础贡献者之一的身份显得合情合理。OpenAI o1以执行复杂的通用推理为特点,在生成答案前会形成一系列详细的思维链条,从而提升模型的表现力。

O1基石论文火了,Ilya还是那个关键人物!核心项目里清华北大校友亮眼

Ilya与其合著者们探讨了增强大语言模型多步推理能力的方法,特别是对比了结果监督与过程监督这两种训练奖励模型的方式。结果监督关注的是最终输出的准确性,而过程监督则注重模型在推理过程中每一步的正确性,能够明确指出错误所在。

研究小组利用GPT-4基础模型,在MATH数据集上进行了实验。为了实施过程监督,他们构建了PRM800K数据集,包含了80万个步级标签。研究结果表明,过程监督训练的模型性能显著优于结果监督模型,解决MATH测试集代表性子集上78.2%的问题,而结果监督模型和多数投票基线分别为72.4%和69.6%。

此外,研究还证明了大型奖励模型可以有效地模拟人类监督的影响,并且提高了数据收集的效率。采用主动学习策略的过程监督方法更是提高了约2.6倍的数据使用效率。

除了Ilya Sutskever,OpenAI o1团队还包括其他许多知名研究人员。其中包括毕业于清华大学并在斯坦福大学获得博士学位的Shengjia Zhao,以及毕业于北京大学并在斯坦福深造的任泓宇等。

O1基石论文火了,Ilya还是那个关键人物!核心项目里清华北大校友亮眼

OpenAI首席执行官Sam Altman在接受采访时提到,o1模型不仅在国际信息学奥林匹克竞赛(IOI)和国际数学奥林匹克(IMO)中表现出色,更重要的是,它可以协助科研人员加快新材料的发现及疾病治疗方法的研发。Altman展望未来时表示,智慧与能源将成为两大基本商品,而OpenAI已经在大模型的发展中占据了未来几年的领先地位。

相关教程