大模型集体“挂科” 最新中文网页检索测试结果显示GPT-4o准确率仅6.2%via cnBeta全文版 | RayNews

Skip to main content

19:36 · 2025年5月6日 · 周二

大模型集体“挂科” 最新中文网页检索测试结果显示GPT-4o准确率仅6.2%

via cnBeta全文版
Telegraph

大模型集体“挂科” 最新中文网页检索测试结果显示GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了？新基准测试集BrowseComp-ZH直接打脸主流AI。BrowseComp-ZH是一项由港科大（广州）、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集，让20多个中外主流大模型集体“挂科”： GPT-4o在测试中准确率仅6.2%；多数国产/国际模型准确率跌破10%；即便是目前表现最好的OpenAI DeepResearch，也仅得42.9%。目前，BrowseComp-ZH的全部数据已开源发布。研究团队直言： “当前主流模型，距离成为真正懂中文互联网的智能体，还差得远。”…

👀 open eyes to see the world. 丨 site views: -