DeepSeek甩出了一张“王炸”
via cnBeta全文版
via cnBeta全文版
Telegraph
DeepSeek甩出了一张“王炸”
12月26日消息,国产大模型DeepSeek推出DeepSeek-V3,一个强大的混合专家(Mixture-of-Experts, MoE)语言模型。主要的技术迭代是671B的MoE,37B的激活参数,在14.8万亿个高质量token上进行了预训练。AI圈表示,“圣诞节真的来了”。 翻译翻译,首先,从训练时间看,正如DeepSeek在发布报告中指出的那样,“尽管其表现出色,DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。” 打个比方,如果对标Llama 3 系列模型,其计算预算为…