当前位置: 网站首页 技术文章 正文

陶哲轩提前试用满血版o1:能当研究生用

来源:互联网 发布时间:2024-09-17 08:36:14

让人羡慕不已的是,陶哲轩早在今年8月便已体验到了OpenAI的o1模型,而且还是那个众人期盼已久的满血版本。他带着一些模糊措辞的数学问题向o1发起了挑战,结果发现o1不仅能准确识别出克莱姆定理,还能给出令人满意的解答。

陶哲轩提前试用满血版o1:能当研究生用

陶哲轩不仅停留在初次体验上,他还进一步进行了多项测试,包括对比了o1与之前的模型,如ChatGPT和GPT-4,在处理数学问题上的表现差异。尽管新模型在处理某些复杂问题时依然会犯错,未能展现出独立思考的能力,但其表现明显优于先前的版本。

在一系列的测试中,陶哲轩首先重复了此前对ChatGPT的测试,询问了一个涉及克莱姆法则的问题。与以往不同的是,o1不仅条理清晰地回答了问题,还准确找到了克莱姆定理,并给出了令人满意的答案。

接下来的测试中,他提出了一个复杂分析课程中的问题,以及要求将质数定理转换为Lean定理的任务。虽然o1在后者的解答中出现了一些小错误,但整体而言,模型展现了对任务的良好理解和合理的初步分解。

陶哲轩提前试用满血版o1:能当研究生用

陶哲轩认为,如果对模型进行针对性的微调,并整合进IDE中,那么在公式化项目方面将变得更为实用。同时,他也提到,在日常研究工作中,使用大模型如GPT 4o等,已经成为一种常态,特别是在运筹学领域,这些模型可以提供有价值的MIP公式。

尽管如此,陶哲轩也指出了使用大模型的一些局限性,强调了有效使用提示的重要性。而对于那些觉得大模型不够好用的用户,他认为可能是因为没有充分利用其潜力,或是期望过高。

面对外界对其评价的争议,陶哲轩解释说,他所提到的大模型相当于“平庸但不完全不称职的研究生”的说法,更多是一种形象的比喻,而非实际的等价关系。他认为,随着技术的进步,大模型将在数学研究中发挥更大的作用。

陶哲轩提前试用满血版o1:能当研究生用

最后,不少用户也分享了自己的心得,认为虽然难以精确衡量使用大模型节省了多少时间,但随着个人提示词工程技能的提升,可以更高效地利用这些工具。

相关教程