3月5日发布于arXiv的论文对17个被187篇论文使用的第三方中转API进行审计。这类API并非官方提供,而是由第三方转接官方大模型接口。研究通过性能测试和模型指纹识别核查其是否实际调用所标称模型 。
结果显示,在24个测试端点中,45.83%未通过模型身份验证。部分接口在医学和法律等测试中表现明显低于官方版本。例如在MedQA测试中,Gemini-2.5-flash官方准确率为83.82%,通过相关中转API调用后平均降至约36.95%。论文认为,这可能影响科研结果的可靠性
arXiv
🍀在花频道 🍵茶馆聊天 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel