DeepSeek开源周第三天：专为FP8设计的DpGEMM来了核心内核代码仅300行！

发布日期：2025-02-26　　浏览次数：

　　R2被曝将在5月或更早推出，而刚刚，DeepSeek开源了DeepGEMM，九游娱乐入口官网一个专为简洁高效的FP8通用矩阵乘法（GEMMs）设计的库，具有细粒度缩放功能（如DeepSeek-V3中提出的方案）。

　　该库采用 CUDA 编写，采用轻量级即时编译（JIT）模块，安装时无需编译（所有内核在运行时编译）。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

　　目前，DeepGEMM 仅支持 NVIDIA Hopper 张量核心，该库使用CUDA核心两级累加（promotion）（晋升）策略来解决FP8张量核心累加不精确问题。尽管DeepGEMM借鉴了 CUTLASS 和 CuTe 的一些理念，但避免了过度依赖模板或复杂的代数结构。该库设计简洁，仅包含一个核心内核函数，九游娱乐入口官网代码大约只有 300 行左右。

　　按照 CUTLASS 设计，DeepGEMM 中的内核经过了 warp 专门化，可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子，以及存储输出矩阵。

　　尽管设计轻量，DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

　　DeepSeek在配备NVCC 12.8的H800计算卡上对DeepSeek-V3/R1推理流程（包含预填充和解码阶段，除了张量并行场景）可能涉及的所有矩阵形状进行全量测试，所有加速性能指标均基于CUTLASS 3.6深度优化的内部实现作为基准对比（见图2-4）。DeepGEMM在部分特定矩阵形状上的性能表现仍有提升空间。

　　“虽然 FP8 在生产中还处于相对早期阶段，但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们，这真是太酷了。”有网友评价。

　　特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

　　理想汽车高管汤靖疑似暗讽华为：把别人的电池、底盘拿过来起个山海经名字就算技术突破，是不是自己研发的每个人都有一杆秤

　　巩俐在1986年中戏写的论文得了个“良”，看看她写的这字能拿个“优”吗？

　　妈妈每天为女儿“花样”扎头发，真是难为妈妈了把“方圆百里”的头发都凑过来了，网友：试试宝宝假发啊！

　　荣耀MagicBook Pro 14笔记本评测：源自手机的技术跨界 AI PC新高度

　　续航超12小时比肩MacBook！荣耀MagicBook Pro 14搭载全球首款92Wh巨量电池

　　be quiet! 推出 Pure Rock 3 风冷，含单塔标准和双塔 Pro 款式

标签：象棋资讯

上一篇：888693_888693V
下一篇：而今迈步从头越！国奥体育入驻省体育中心开启传统棋院变革之路

News棋界资讯

DeepSeek开源周第三天：专为FP8设计的DpGEMM来了核心内核代码仅300行！

13933990923