【吐槽】大模型太强了，以至于很多人感觉自己行了最近在搞 RAG，疯狂找文章、跑 demo

12:16 · 2025年12月11日 · 周四

【吐槽】大模型太强了，以至于很多人感觉自己行了

最近在搞 RAG，疯狂找文章、跑 demo。
结果越跑越觉得：这些东西完全没讲到点子上。
现在的 RAG 教程基本有个共同套路：

跟着官方示例走一遍 → 跑起来了 → 完事。

但真正关键的东西，全都没写到（或者不会）。

大多数教程的内容就是：

文档随便加载、chunk 大小照抄默认、top-k 恒定 5、embedding 不解释、检索不分析、不做 rerank、不做 query rewrite、不谈 evaluation、不讲 error case、不讲优化

最后整个系统确实能跑，但仅限于能跑起来。
真正难的地方，全都避而不谈，RAG 的痛点其实在：

● chunk 怎么切才不会丢信息
● 如何减少噪声检索
● 如何做混合检索（BM25 + embedding）
● 是否需要 rerank
● 如何提升召回
● 多文档融合怎么做
● 用户问句要不要改写
● 最终回答怎么 ground
● 怎么评测 RAG 好坏

这些才是 RAG 的核心，但教程基本不写。

写得最多的是：

“pip install 一下即可。”

现在模型本身太强了，有时候你检索不到东西，它也能凭本事瞎猜个八九不离十。

于是很多人看到模型回得还行，就以为：

“哇，我这个 RAG 好厉害！”

其实是模型自己懂，跟你检索没关系。

我发现不少标榜企业级 RAG 的项目：

● chunk 策略没有
● rerank 没有
● 多文档处理没有
● query rewrite 没有
● metadata 过滤没有
● 结构化知识处理没有

跑起来的效果跟“PDF 搜索 + LLM 总结”几乎没区别，但标题往往写得特别高调。

基本没人写 RAG 的评测和观测

但这其实是最重要的一块。

你需要知道：

● 召回率到底多少
● 捞不到内容时模型会怎么答
● 噪声 chunk 有多少
● 排序是否有效
● 文档融合是否混乱
● prompt 是否引导正确
● 哪类问题容易出错

结果教程一片空白。

如果你也在做 RAG 项目，那些入门文章看看就行，真正有价值的点是：

● chunk 策略
● 多阶段检索
● rerank
● query rewrite
● 文档融合
● evaluation
● observability
● 以及如何避免模型胡说八道

这些才决定一个 RAG 到底能不能上线。

纯吐槽，切勿对号入座
看来吐槽到大家痛点上了有点回复不过来白天还要上班，佬友们先自行讨论互通有无 🫠

110 posts - 57 participants

Read full topic

via LINUX DO - 热门话题 (author: 温州程序员劝退师)

Invalid media: image