10:20 · 2025年5月21日 · 周三 基本物理任务,全球顶级AI均失败,普通零件加工,o3不如老师傅via 36氪 - 24小时热榜 Telegraph 基本物理任务,全球顶级AI均失败,普通零件加工,o3不如老师傅 在基本物理任务上,前沿AI模型仍会失败!ML研究院的测试案例显示白领将被Ai替代,而制造业等蓝领工作不受影响。未来已来,只是分布得不均匀。 基于AI研究、机器人以及实际制造等过往经验,Adam Karvonen在零件制造任务上,测评了顶尖模型的表现。 包括OpenAI o3、Gemini 2.5 Pro等顶尖LLM,全部失败,没有一个让他满意! 即便o3的智商高达136,超越GeminI 2.5 Pro和90%的人类,但在这次测试中,不如Gemini 2.5 Pro,更不要提经验丰富的工人老师傅了。 基…