OpenAI爆出硬伤:o3越强越“疯” 幻觉率狂飙
via cnBeta全文版
via cnBeta全文版
Telegraph
OpenAI爆出硬伤:o3越强越“疯” 幻觉率狂飙
o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。满血o3更强了,却也更爱“胡言乱语”了。 OpenAI技术报告称,o3和o4-mini“幻觉率”远高于此前的推理模型,甚至超过了传统模型GPT-4o。 根据PersonQA基准测试,o3在33%的问题回答中产生了幻觉,几乎是o1(16%)的2倍。 而o4-mini的表现更加糟糕,幻觉率高达48%。 技术报告:https://cdn.openai.com/pdf/2221c875…