【吐槽】大模型太强了,以至于很多人感觉自己行了
最近在搞 RAG,疯狂找文章、跑 demo。
结果越跑越觉得:这些东西完全没讲到点子上。
现在的 RAG 教程基本有个共同套路:
大多数教程的内容就是:
文档随便加载、chunk 大小照抄默认、top-k 恒定 5、embedding 不解释、检索不分析、不做 rerank、不做 query rewrite、不谈 evaluation、不讲 error case、不讲优化
最后整个系统确实能跑,但仅限于能跑起来。
真正难的地方,全都避而不谈,RAG 的痛点其实在:
● chunk 怎么切才不会丢信息
● 如何减少噪声检索
● 如何做混合检索(BM25 + embedding)
● 是否需要 rerank
● 如何提升召回
● 多文档融合怎么做
● 用户问句要不要改写
● 最终回答怎么 ground
● 怎么评测 RAG 好坏
这些才是 RAG 的核心,但教程基本不写。
写得最多的是:
于是很多人看到模型回得还行,就以为:
我发现不少标榜企业级 RAG 的项目:
● chunk 策略没有
● rerank 没有
● 多文档处理没有
● query rewrite 没有
● metadata 过滤没有
● 结构化知识处理没有
跑起来的效果跟“PDF 搜索 + LLM 总结”几乎没区别,但标题往往写得特别高调。
基本没人写 RAG 的评测和观测
但这其实是最重要的一块。
你需要知道:
● 召回率到底多少
● 捞不到内容时模型会怎么答
● 噪声 chunk 有多少
● 排序是否有效
● 文档融合是否混乱
● prompt 是否引导正确
● 哪类问题容易出错
结果教程一片空白。
如果你也在做 RAG 项目,那些入门文章看看就行,真正有价值的点是:
● chunk 策略
● 多阶段检索
● rerank
● query rewrite
● 文档融合
● evaluation
● observability
● 以及如何避免模型胡说八道
这些才决定一个 RAG 到底能不能上线。
Read full topic
via LINUX DO - 热门话题 (author: 温州程序员劝退师)
Invalid media: image
最近在搞 RAG,疯狂找文章、跑 demo。
结果越跑越觉得:这些东西完全没讲到点子上。
现在的 RAG 教程基本有个共同套路:
跟着官方示例走一遍 → 跑起来了 → 完事。但真正关键的东西,全都没写到(或者不会)。
大多数教程的内容就是:
文档随便加载、chunk 大小照抄默认、top-k 恒定 5、embedding 不解释、检索不分析、不做 rerank、不做 query rewrite、不谈 evaluation、不讲 error case、不讲优化
最后整个系统确实能跑,但仅限于能跑起来。
真正难的地方,全都避而不谈,RAG 的痛点其实在:
● chunk 怎么切才不会丢信息
● 如何减少噪声检索
● 如何做混合检索(BM25 + embedding)
● 是否需要 rerank
● 如何提升召回
● 多文档融合怎么做
● 用户问句要不要改写
● 最终回答怎么 ground
● 怎么评测 RAG 好坏
这些才是 RAG 的核心,但教程基本不写。
写得最多的是:
“pip install 一下即可。”现在模型本身太强了,有时候你检索不到东西,它也能凭本事瞎猜个八九不离十。
于是很多人看到模型回得还行,就以为:
“哇,我这个 RAG 好厉害!”其实是模型自己懂,跟你检索没关系。
我发现不少标榜企业级 RAG 的项目:
● chunk 策略没有
● rerank 没有
● 多文档处理没有
● query rewrite 没有
● metadata 过滤没有
● 结构化知识处理没有
跑起来的效果跟“PDF 搜索 + LLM 总结”几乎没区别,但标题往往写得特别高调。
基本没人写 RAG 的评测和观测
但这其实是最重要的一块。
你需要知道:
● 召回率到底多少
● 捞不到内容时模型会怎么答
● 噪声 chunk 有多少
● 排序是否有效
● 文档融合是否混乱
● prompt 是否引导正确
● 哪类问题容易出错
结果教程一片空白。
如果你也在做 RAG 项目,那些入门文章看看就行,真正有价值的点是:
● chunk 策略
● 多阶段检索
● rerank
● query rewrite
● 文档融合
● evaluation
● observability
● 以及如何避免模型胡说八道
这些才决定一个 RAG 到底能不能上线。
纯吐槽,切勿对号入座110 posts - 57 participants
看来吐槽到大家痛点上了 有点回复不过来 白天还要上班,佬友们先自行讨论互通有无 🫠
Read full topic
via LINUX DO - 热门话题 (author: 温州程序员劝退师)
Invalid media: image