苹果与 UCSD 的研究者提出 LaDiR 框架,在推理阶段用扩散过程并行探索多个推理路径,最后自回归生成答案,避免过早收敛。在 LLaMA 3.1 8B 的数学推理测试中,分布外任务仍保持更高准确率;用于 Qwen3-8B-Base 的代码生成,HumanEval 等基准明显优于标准微调。谜题规划任务中探索的解空间更广,通用场景下找到正确解的可靠性更高,但单次准确率不及专用模型。
9To5Mac
🌸 在花频道 · 茶馆讨论 · 投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel