Skip to main content

当大模型失去“品牌光环”,你还能分辨出谁更聪明吗?——我做了一个 AI 盲测竞技场最近我在死磕 AI Agent 的评估技术,看了市面上五花八门的评测榜单,又去深入研究了各种复杂的 AI 辅助评估体系(比如让 GPT-4 当裁判)、RAGAS 等等

  1. 当大模型失去“品牌光环”,你还能分辨出谁更聪明吗?——我做了一个 AI 盲测竞技场

    最近我在死磕 AI Agent 的评估技术,看了市面上五花八门的评测榜单,又去深入研究了各种复杂的 AI 辅助评估体系(比如让 GPT-4 当裁判)、RAGAS 等等。

    但看来看去,总觉得心里缺点什么。

    现在的模型评测痛点真的太明显了:

    1. 指标太冰冷:各种学术化的分数堆叠在一起,当模型真正面对普通用户的闲聊、吐槽或者是各种稀奇古怪的需求时,那些干瘪的指标根本体现不出哪个模型更有“人情味”和灵性。
    2. AI 当裁判的偏见:用强模型做评委( LLM-as-a-Judge )不仅贵,而且这些模型特别喜欢“给自己打高分”(也就是自我偏好),或者是哪个答案长就选哪个。
    3. 真实声音太少:其实最有效、最能反映用户诉求的评测,就是真实用户的“用脚投票”( RLHF 人类偏好数据),然而市面上能让普通人低门槛参与进来的开源趣味测评并不多。

    所以,我索性自己动手糊了一个小项目:AI Evolution Arena ( AI 进化竞技场)

    👉 体验地址在这里: https://arena.angrach.top/

    简单来说,这是一个 大模型盲测与评测平台

    它是怎么玩的?

    ● 双开盲盒:当你进入竞技场,系统会自动在幕后随机抽选两个匿名大模型(可能是通义、GPT 、或者是某个黑马模型)。
    ● 匿名对战:你可以尽情地抛给它们任何问题——写代码、讲笑话、甚至情感咨询。两个模型会同时流式输出答案,这个时候你是看不到它们名字的。
    ● 必须站队:抛开了排版和品牌的先入为主,你只能单凭“谁这盘回答得好”来选择偏好(左边好 / 右边好 / 都好 / 都烂)。
    ● 揭开真名:当你投完票,才会揭晓这两位选手的“真面目”。那一刻你可能会惊呼:“什么?我刚才居然觉得 XXX 比 GPT 还要顺眼?”

    我最初做这个项目的初衷真的就是为了 撕掉大模型的厂牌标签,回归到“回答内容本身”

    它没有任何登录注册的门槛,即开即用。所有的流式渲染、打字机效果我都做了仔细的优化,只为给你最流畅的对阵体验。希望你能来玩一玩,哪怕只是偶尔遇到了什么无解的问题,顺手丢进竞技场,看看两个神秘模型谁能给你更好的启示。

    平台刚上线,后续我还会把胜率排行榜( Leaderboard )慢慢完善起来。你的每一次投票,其实都在帮我们沉淀一份最真实、最宝贵的人类偏好数据。

    via V2EX - 技术 (author: lanweizhujiao)
👀 open eyes to see the world. 丨 site views: -