这可能是下一个周经帖：国产大模型哪个编程能力最顶？kaesi0:如题，在不考虑价格的情况，目前国产大模型哪个编程能力最顶呢，以及各自的擅长领域,参赛的选手有：GLM-4.6：说是 Claude Sonnet 4.5 和 GPT-5 ，但价格仅需要 Sonnet 1/7Qwen3-Code：SWE-bench Live 测试中得分 54.7 ，超越 GPT-4.1 （ 48.6 ），中文 API 文档理解准确率达 92%DeepSeek-V3.2-Exp：说是被 GLM4.6 超过，但在 Vercel 、Windsurf 等编程平台接入MiniMax M2：每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ，专为 Agent 工作流设计via V2EX-最热主题 (author: kaesi0)

09:31 · 2025年12月16日 · 周二

这可能是下一个周经帖：国产大模型哪个编程能力最顶？

kaesi0:

如题，在不考虑价格的情况，目前国产大模型哪个编程能力最顶呢，以及各自的擅长领域,参赛的选手有：

GLM-4.6：说是 Claude Sonnet 4.5 和 GPT-5 ，但价格仅需要 Sonnet 1/7

Qwen3-Code：SWE-bench Live 测试中得分 54.7 ，超越 GPT-4.1 （ 48.6 ），中文 API 文档理解准确率达 92%

DeepSeek-V3.2-Exp：说是被 GLM4.6 超过，但在 Vercel 、Windsurf 等编程平台接入

MiniMax M2：每 token 成本仅为 Claude Sonnet 的 8%、在 Terminal-Bench 测试中得分 37.5 ，专为 Agent 工作流设计

via V2EX-最热主题 (author: kaesi0)