发布日期:2025-02-26 浏览次数:
R2被曝将在5月或更早推出,而刚刚,DeepSeek开源了DeepGEMM,九游娱乐入口官网一个专为简洁高效的FP8通用矩阵乘法(GEMMs)设计的库,具有细粒度缩放功能(如DeepSeek-V3中提出的方案)。
该库采用 CUDA 编写,采用轻量级即时编译(JIT)模块,安装时无需编译(所有内核在运行时编译)。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。
目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心,该库使用CUDA核心两级累加(promotion)(晋升)策略来解决FP8张量核心累加不精确问题。尽管DeepGEMM借鉴了 CUTLASS 和 CuTe 的一些理念,但避免了过度依赖模板或复杂的代数结构。该库设计简洁,仅包含一个核心内核函数,九游娱乐入口官网代码大约只有 300 行左右。
按照 CUTLASS 设计,DeepGEMM 中的内核经过了 warp 专门化,可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子,以及存储输出矩阵。
尽管设计轻量,DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。
DeepSeek在配备NVCC 12.8的H800计算卡上对DeepSeek-V3/R1推理流程(包含预填充和解码阶段,除了张量并行场景)可能涉及的所有矩阵形状进行全量测试,所有加速性能指标均基于CUTLASS 3.6深度优化的内部实现作为基准对比(见图2-4)。DeepGEMM在部分特定矩阵形状上的性能表现仍有提升空间。
“虽然 FP8 在生产中还处于相对早期阶段,但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们,这真是太酷了。”有网友评价。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
理想汽车高管汤靖疑似暗讽华为:把别人的电池、底盘拿过来起个山海经名字就算技术突破,是不是自己研发的每个人都有一杆秤
巩俐在1986年中戏写的论文得了个“良”,看看她写的这字能拿个“优”吗?
妈妈每天为女儿“花样”扎头发,真是难为妈妈了把“方圆百里”的头发都凑过来了,网友:试试宝宝假发啊!
荣耀MagicBook Pro 14笔记本评测:源自手机的技术跨界 AI PC新高度
续航超12小时比肩MacBook!荣耀MagicBook Pro 14搭载全球首款92Wh巨量电池
be quiet! 推出 Pure Rock 3 风冷,含单塔标准和双塔 Pro 款式