Skip to main content

【吐槽】大模型太强了,以至于很多人感觉自己行了最近在搞 RAG,疯狂找文章、跑 demo

  1. 【吐槽】大模型太强了,以至于很多人感觉自己行了

    最近在搞 RAG,疯狂找文章、跑 demo。
    结果越跑越觉得:这些东西完全没讲到点子上。
    现在的 RAG 教程基本有个共同套路:
    跟着官方示例走一遍 → 跑起来了 → 完事。
    但真正关键的东西,全都没写到(或者不会)。

    大多数教程的内容就是:

    文档随便加载、chunk 大小照抄默认、top-k 恒定 5、embedding 不解释、检索不分析、不做 rerank、不做 query rewrite、不谈 evaluation、不讲 error case、不讲优化

    最后整个系统确实能跑,但仅限于能跑起来。
    真正难的地方,全都避而不谈,RAG 的痛点其实在:

    chunk 怎么切才不会丢信息
    如何减少噪声检索
    如何做混合检索(BM25 + embedding)
    是否需要 rerank
    如何提升召回
    多文档融合怎么做
    用户问句要不要改写
    最终回答怎么 ground
    怎么评测 RAG 好坏

    这些才是 RAG 的核心,但教程基本不写。

    写得最多的是:
    “pip install 一下即可。”
    现在模型本身太强了,有时候你检索不到东西,它也能凭本事瞎猜个八九不离十。

    于是很多人看到模型回得还行,就以为:
    “哇,我这个 RAG 好厉害!”
    其实是模型自己懂,跟你检索没关系。

    我发现不少标榜企业级 RAG 的项目:

    chunk 策略没有
    rerank 没有
    多文档处理没有
    query rewrite 没有
    metadata 过滤没有
    结构化知识处理没有

    跑起来的效果跟“PDF 搜索 + LLM 总结”几乎没区别,但标题往往写得特别高调。

    基本没人写 RAG 的评测和观测

    但这其实是最重要的一块。

    你需要知道:

    召回率到底多少
    捞不到内容时模型会怎么答
    噪声 chunk 有多少
    排序是否有效
    文档融合是否混乱
    prompt 是否引导正确
    哪类问题容易出错

    结果教程一片空白。

    如果你也在做 RAG 项目,那些入门文章看看就行,真正有价值的点是:

    chunk 策略
    多阶段检索
    rerank
    query rewrite
    文档融合
    evaluation
    observability
    以及如何避免模型胡说八道

    这些才决定一个 RAG 到底能不能上线。
    纯吐槽,切勿对号入座
    看来吐槽到大家痛点上了 有点回复不过来 白天还要上班,佬友们先自行讨论互通有无 🫠
    110 posts - 57 participants

    Read full topic

    via LINUX DO - 热门话题 (author: 温州程序员劝退师)

    Invalid media: image
👀 open eyes to see the world. 丨 site views: -