DeepSeek甩出了一张“王炸”via cnBeta全文版 | RayNews

Skip to main content

18:48 · 2024年12月28日 · 周六

DeepSeek甩出了一张“王炸”

via cnBeta全文版
Telegraph

DeepSeek甩出了一张“王炸”

12月26日消息，国产大模型DeepSeek推出DeepSeek-V3，一个强大的混合专家（Mixture-of-Experts， MoE）语言模型。主要的技术迭代是671B的MoE，37B的激活参数，在14.8万亿个高质量token上进行了预训练。AI圈表示，“圣诞节真的来了”。翻译翻译，首先，从训练时间看，正如DeepSeek在发布报告中指出的那样，“尽管其表现出色，DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。” 打个比方，如果对标Llama 3 系列模型，其计算预算为…

👀 open eyes to see the world. 丨 site views: -