18:50 · 2025年2月6日 · 周四 研究人员使用公共广播电台的"星期日之谜"问题为AI推理模型设定基准via cnBeta全文版 Telegraph 研究人员使用公共广播电台的"星期日之谜"问题为AI推理模型设定基准 每周日,美国国家公共广播电台(NPR)主持人、《纽约时报》填字游戏大师威尔-肖茨(Will Shortz)都会在一个名为"周日谜题"(Sunday Puzzle)的长时段节目中向成千上万的听众提问。 虽然这些谜题是在没有太多预知知识的情况下就能解开的,但即使对于熟练的参赛者来说,这些脑筋急转弯通常也是具有挑战性的。 这就是为什么一些专家认为它们是测试人工智能解决问题能力极限的一种有前途的方法。在一项新研究中,来自韦尔斯利学院、欧柏林学院、德克萨斯大学奥斯汀分校、东北大学和初创公司 Cursor 的研究团…