OpenAI 新推理模型幻觉率和错误率激增，行业难题待解OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升，但幻觉率显著高于前代

13:15 · 2025年4月19日 · 周六

OpenAI 新推理模型幻觉率和错误率激增，行业难题待解

OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升，但幻觉率显著高于前代。内部测试显示，o3在人物知识基准中33%回答虚构，o4-mini达48%。第三方测试指出o3编造代码执行细节，用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存，原因未明。

行业转向推理模型以降低训练成本，但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性（如GPT-4o搜索版准确率90%），但需权衡隐私风险。

TechCrunch

📮投稿 ☘️频道 🌸聊天

via 科技圈🎗在花频道📮 - Telegram Channel