由姚期智院士带领的研究团队,近日推出了一种创新的大模型推理框架——思维图(Diagram of Thought, DoT),挑战了现有的CoT(Chain of Thought)模型在逻辑推理领域的主导地位。
DoT的设计理念在于模拟人类的思考模式,通过引入一种更为直观的图形结构,即有向无环图(Directed Acyclic Graph, DAG),来捕捉人类推理的复杂性和非线性特点。
不同于CoT将推理过程视为简单的线性序列,DoT能够更加灵活地处理复杂的推理任务,无需额外的控制机制或多个模型的协同作用,从而简化了模型的训练与部署流程。
其核心在于,DoT能够在单一的大语言模型(LLM)内部构建一个DAG,其中每个节点代表一个命题、批评、精炼或是验证的过程,而边则表示这些节点之间的逻辑联系或依赖关系。
这种设计避免了循环依赖的问题,确保了推理过程的逻辑一致性,同时也更贴近人类的思维方式。
例如,当面对“9.11和9.8哪个数字更大?”或者“单词strawberry中包含几个字母‘r’?”这样的问题时,DoT能够提供更为准确和高效的解决方案。
值得注意的是,DoT的出现或许预示着未来大模型发展方向的一个重要转折点。随着OpenAI的o1等先进模型已经具备了生成CoT的能力,DoT的引入无疑为强化学习提供了一条新的路径,有望进一步提升模型的推理能力和效率。
这项研究自公布以来,迅速吸引了学术界和工业界的广泛关注,许多人认为DoT代表了正确的前进方向。
具体来说,DoT框架通过三个关键角色的互动实现高效推理:
提议者负责提出新的命题或推理步骤,相当于在DAG中添加新的节点。批评者则对这些命题进行评估,识别可能存在的错误或逻辑缺陷,并在必要时添加批评节点。最后,总结者会整合所有经过验证的命题,通过执行DAG的拓扑排序,生成最终的推理结果。整个过程中,LLM通过识别特殊的标记符(如、、)来区分不同的角色,实现了角色间的平滑转换,利用其自回归特性根据上下文预测下一个动作。
这种方法不仅能够促进模型从错误中学习,还能够通过自然语言的形式提供丰富的反馈,帮助模型逐步完善其推理过程。
此外,DoT的训练过程采用了特制的数据集,其中包含了角色特定标记符和DAG表示,确保了模型能够有效学习并应用这一推理框架。
通过这种方式,DoT不仅简化了模型的部署,还与现有的LLM训练方法保持了良好的兼容性,易于集成到当前的工作流程中。
为了给DoT提供坚实的理论支撑,研究团队还运用了拓扑斯理论(Topos Theory)对其进行形式化描述,确保了推理过程的逻辑严密性和一致性。
在这一框架下,命题被视为拓扑中的子对象,逻辑关系和推理步骤通过态射来表达,批评和改进过程则分别对应于子对象分类器的态射以及命题间态射的转换。
借助PreNet范畴的概念,研究团队成功捕捉到了推理过程中的动态变化和并发特性,为开发下一代专门针对推理任务的人工智能模型奠定了坚实的基础。
这项研究的主要贡献者包括来自清华大学交叉信息研究院的姚期智、袁洋以及张伊凡等人。
张伊凡,作为论文的第一作者,现为清华大学交叉信息学院的博士研究生,其研究兴趣涵盖了基础模型理论与算法、自监督学习及可信人工智能等多个方面。
袁洋,作为张伊凡的导师,是清华大学交叉信息学院的助理教授,专注于智能医疗、AI可解释性等领域,并在非凸优化理论等方面取得了显著成果。
而姚期智教授,作为中国科学院院士,不仅是“图灵奖”的首位亚裔获得者,也是清华大学交叉信息研究院的创始人之一,其在算法、密码学和量子计算等领域的贡献无可估量。
值得一提的是,DoT可以看作是对去年提出的累积推理(Cumulative Reasoning, CR)方法的一种深化和发展。
相较于CR,DoT不仅简化了模型架构,还通过提供详细的自然语言反馈,增强了模型的学习效果。
此外,DoT的数学基础更加牢固,明确了推理过程与范畴逻辑之间的关系,从理论上保证了推理的可靠性和一致性。
对于那些对这一前沿技术感兴趣的朋友,可以通过访问论文链接深入了解:https://arxiv.org/abs/2409.10038。