当大模型失去“品牌光环”，你还能分辨出谁更聪明吗？——我做了一个 AI 盲测竞技场最近我在死磕 AI Agent 的评估技术，看了市面上五花八门的评测榜单，又去深入研究了各种复杂的 AI 辅助评估体系（比如让 GPT-4 当裁判）、RAGAS 等等

10:15 · 2026年3月29日 · 周日

当大模型失去“品牌光环”，你还能分辨出谁更聪明吗？——我做了一个 AI 盲测竞技场

最近我在死磕 AI Agent 的评估技术，看了市面上五花八门的评测榜单，又去深入研究了各种复杂的 AI 辅助评估体系（比如让 GPT-4 当裁判）、RAGAS 等等。

但看来看去，总觉得心里缺点什么。

现在的模型评测痛点真的太明显了：

1. 指标太冰冷：各种学术化的分数堆叠在一起，当模型真正面对普通用户的闲聊、吐槽或者是各种稀奇古怪的需求时，那些干瘪的指标根本体现不出哪个模型更有“人情味”和灵性。
2. AI 当裁判的偏见：用强模型做评委（ LLM-as-a-Judge ）不仅贵，而且这些模型特别喜欢“给自己打高分”（也就是自我偏好），或者是哪个答案长就选哪个。
3. 真实声音太少：其实最有效、最能反映用户诉求的评测，就是真实用户的“用脚投票”（ RLHF 人类偏好数据），然而市面上能让普通人低门槛参与进来的开源趣味测评并不多。

所以，我索性自己动手糊了一个小项目：AI Evolution Arena （ AI 进化竞技场）。

👉 体验地址在这里： https://arena.angrach.top/

简单来说，这是一个 大模型盲测与评测平台。

它是怎么玩的？

● 双开盲盒：当你进入竞技场，系统会自动在幕后随机抽选两个匿名大模型（可能是通义、GPT 、或者是某个黑马模型）。
● 匿名对战：你可以尽情地抛给它们任何问题——写代码、讲笑话、甚至情感咨询。两个模型会同时流式输出答案，这个时候你是看不到它们名字的。
● 必须站队：抛开了排版和品牌的先入为主，你只能单凭“谁这盘回答得好”来选择偏好（左边好 / 右边好 / 都好 / 都烂）。
● 揭开真名：当你投完票，才会揭晓这两位选手的“真面目”。那一刻你可能会惊呼：“什么？我刚才居然觉得 XXX 比 GPT 还要顺眼？”

我最初做这个项目的初衷真的就是为了 撕掉大模型的厂牌标签，回归到“回答内容本身”。

它没有任何登录注册的门槛，即开即用。所有的流式渲染、打字机效果我都做了仔细的优化，只为给你最流畅的对阵体验。希望你能来玩一玩，哪怕只是偶尔遇到了什么无解的问题，顺手丢进竞技场，看看两个神秘模型谁能给你更好的启示。

平台刚上线，后续我还会把胜率排行榜（ Leaderboard ）慢慢完善起来。你的每一次投票，其实都在帮我们沉淀一份最真实、最宝贵的人类偏好数据。

via V2EX - 技术 (author: lanweizhujiao)