美媒:人工智能战胜30位全球顶尖数学家
参考消息网7月14日报道 据美国趣味科学网站7月12日报道,5月中旬的一个周末,美国加利福尼亚州的伯克利召开了一次秘密的闭门数学会议。30位全世界最著名的数学家来到这里,其中有些人从英国远道而来。他们在这里与一个“推理”聊天机器人展开对决,后者的任务是解答数学家们为测试其数学能力而设计的问题。
研究人员在两天时间里向机器人抛出教授级别的问题,然后惊讶地发现,它能够回答全世界最难解决的一些问题。
弗吉尼亚大学的数学家、此次会议的牵头人和评委小野健(音)说:“我的同事们确实说,这些模型接近数学天才的水平。”
他讨论的聊天机器人由o4-mini——一个所谓的推理大型语言模型(LLM)——提供支持。美国开放人工智能研究中心(OpenAI)对它进行了训练,使它能够进行高度复杂的推理。谷歌的同类产品——Gemini 2.5 Flash——也有类似功能。就像为早期版本聊天生成预训练转换器(ChatGPT)提供支持的LLM一样,o4-mini学会了预测序列中的下一个单词。然而,与早期的LLM相比,o4-mini及其同类模型更轻量,更灵活,可以在专门的数据集上进行训练,并获得人类更强的强化。这种方法使得聊天机器人能够远比传统的LLM更深入研究复杂的数学问题。
为了追踪o4-mini的进展,OpenAI之前委托美国人工智能时代研究所(一家对LLM进行基准测试的非营利组织)提出300道尚未公布答案的数学问题。就连传统的LLM都能正确回答许多复杂的数学问题。不过,当人工智能时代研究所向几个这样的模型提出这些问题(与它们训练过的问题不同)时,最成功的模型能够解决的问题不到2%,表明这些LLM缺乏推理能力。但事实会证明,o4-mini完全不同。
人工智能时代研究所于2024年9月聘请刚刚拿到数学博士学位的埃利奥特·格拉泽加入了名为FrontierMath的新基准合作项目。该项目收集了不同难度级别的新问题,前三个级别涵盖了本科、研究生和研究级别的挑战。到2025年4月,格拉泽发现o4-mini可以解决大约20%的问题。然后,他进入了第四个级别:一组甚至会对学术数学家构成挑战的问题。全世界只有一小部分人有能力提出这样的问题,更不要说回答了。参与的数学家必须签署一份保密协议,要求他们只能通过即时通讯应用软件“信号”进行交流。其他联系方式——比如传统的电子邮件——可能会被LLM扫描并在无意中训练它,从而污染数据集。
每提出一个o4-mini解答不了的问题,想出这个问题的数学家就会得到7500美元的奖励。该小组在寻找问题方面取得了缓慢而稳步的进展。但格拉泽希望加快进度,所以人工智能时代研究所在5月17日和18日举行了面对面的会议。会上,参与者确定最后一批挑战问题。30名与会者被分成六人一组。在两天的时间里,学者们相互竞争,设计出他们自己能够解决但会让人工智能推理机器人出错的问题。
在那个星期六的夜晚结束时,这个机器人出人意料的数学能力阻碍了小组的进展。小野说:“我想出了一个问题,我这个领域的专家会认为这是数论中的开放问题——一个很好的博士级问题。”他要求o4-mini解答这个问题。
在接下来的10分钟里,小野瞠目结舌地看着机器人实时展示解法,还展示了它的推理过程。机器人先是花了两分钟时间查找并掌握该领域的相关文献。然后,它在屏幕上写道,它想尝试解决一个比较简单的“游戏”版本问题,以便学习。数分钟后,它写道,它终于准备好解答比较难的问题了。五分钟后,o4-mini拿出了正确但俏皮的解法。同时也是人工智能时代研究所的自由数学顾问的小野说:“它开始变得非常厚脸皮。最后,它说:‘不需要引用,因为神秘数字是我算出来的!’”(编译/葛雪蕾)
北京清大云博科技有限公司
地址:
中国·北京
北京市海淀区颐和园路100号
中国•天津
天津市西青区万卉路5号
中国•上海
上海市杨浦区国权北路1688弄,湾谷科技园B5栋
中国•安徽
界首市东城园区光武大道689号创新创业园11栋
中国•广东
珠海市香洲区银桦路400号10栋
中国•广西
桂林市七星区七里店路122号湖塘总部经济园
英国•伦敦
54 Welbeck Street, London W1G 9XS
加拿大•多伦多
9225 Leslie Street Unit 201 Richmond Hill ON L4B 3H6 Canada
电话:010-86477199
邮箱:qdyb@bjqdyb.com
微信公众号:清大云博