17:39 · 2026年3月18日 · 周三 马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」via 爱范儿 (author: 莫崇宇) Telegraph 马斯克下场点赞!Kimi 这篇论文撬动了大模型的「祖传地基」 同样的算力,同样的数据,凭什么效果不一样?大多数人的直觉是:模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案。 3 月 16 日,月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》(注意力残差)。 这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造,并在实验中证明,用同样多的算力,新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果。 报告发布后,也毫无意外得到了许多硅谷顶尖 AI 人物的点赞背书。 ▲附 GitHub…