Skip to main content

OpenAI 新推理模型幻觉率和错误率激增,行业难题待解OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升,但幻觉率显著高于前代

  1. OpenAI 新推理模型幻觉率和错误率激增,行业难题待解

    OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升,但幻觉率显著高于前代。内部测试显示,o3在人物知识基准中33%回答虚构,o4-mini达48%。第三方测试指出o3编造代码执行细节,用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存,原因未明。

    行业转向推理模型以降低训练成本,但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性(如GPT-4o搜索版准确率90%),但需权衡隐私风险。

    TechCrunch

    📮投稿 ☘️频道 🌸聊天

    via 科技圈🎗在花频道📮 - Telegram Channel
👀 open eyes to see the world. 丨 site views: -