美国奥数题撕碎AI数学神话 顶级模型现场翻车
via cnBeta全文版
via cnBeta全文版
Telegraph
美国奥数题撕碎AI数学神话 顶级模型现场翻车
在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。3月26号,ETH等团队的一项研究一经发布,就引起了圈内热议。这项研究彻底撕开遮羞布,直接击碎了“LLM会做数学题”这个神话! 论文地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf 鉴于此前它们在AIME上的出色表现,MathArena团队使用最近的2025年美国…