全部带「scaling-laws」标签的内容——汇聚自公众号文章、方法论、产品、模板与工具,共 1 项。
DeepSeek 以 560 万美元训练出比肩 GPT-4 的开源模型,引发英伟达股价暴跌。其 MoE 架构、FP8 低精度训练与强化学习路径,证明效率驱动可挑战硅谷资源堆砌范式,为中国 AI 探出另一条路。