19:36 · 2025年5月6日 · 周二 大模型集体“挂科” 最新中文网页检索测试结果显示GPT-4o准确率仅6.2%via cnBeta全文版 Telegraph 大模型集体“挂科” 最新中文网页检索测试结果显示GPT-4o准确率仅6.2% 你以为大模型已经能轻松“上网冲浪”了?新基准测试集BrowseComp-ZH直接打脸主流AI。BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”: GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%。 目前,BrowseComp-ZH的全部数据已开源发布。 研究团队直言: “当前主流模型,距离成为真正懂中文互联网的智能体,还差得远。”…