您好,欢迎访问这里是您的网站名称官网!

九游娱乐

News棋界资讯

您当前所在位置: 主页 > 棋界资讯 > 棋坛动态

DeepSeek开源周第三天:专为FP8设计的DpGEMM来了核心内核代码仅300行!

发布日期:2025-02-26  浏览次数:

  R2被曝将在5月或更早推出,而刚刚,DeepSeek开源了DeepGEMM,九游娱乐入口官网一个专为简洁高效的FP8通用矩阵乘法(GEMMs)设计的库,具有细粒度缩放功能(如DeepSeek-V3中提出的方案)。

  该库采用 CUDA 编写,采用轻量级即时编译(JIT)模块,安装时无需编译(所有内核在运行时编译)。它支持普通 GEMMs 以及专家混合 (MoE) 分组 GEMMs。

  目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心,该库使用CUDA核心两级累加(promotion)(晋升)策略来解决FP8张量核心累加不精确问题。尽管DeepGEMM借鉴了 CUTLASS 和 CuTe 的一些理念,但避免了过度依赖模板或复杂的代数结构。该库设计简洁,仅包含一个核心内核函数,九游娱乐入口官网代码大约只有 300 行左右。

  按照 CUTLASS 设计,DeepGEMM 中的内核经过了 warp 专门化,可实现重叠数据移动、张量核心 MMA 指令和 CUDA 核心提升。DeepGEMM 使用 TMA 加载 LHS、RHS 和缩放因子,以及存储输出矩阵。

  尽管设计轻量,DeepGEMM 的性能在各种矩阵形状下均能匹配或超越经过专家调优的库。

  DeepSeek在配备NVCC 12.8的H800计算卡上对DeepSeek-V3/R1推理流程(包含预填充和解码阶段,除了张量并行场景)可能涉及的所有矩阵形状进行全量测试,所有加速性能指标均基于CUTLASS 3.6深度优化的内部实现作为基准对比(见图2-4)。DeepGEMM在部分特定矩阵形状上的性能表现仍有提升空间。

  “虽然 FP8 在生产中还处于相对早期阶段,但 DeepGEMM 代表着在使 FP8 成为大规模 MoE 模型的可行选择方面迈出了重要一步。朋友们,这真是太酷了。”有网友评价。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  理想汽车高管汤靖疑似暗讽华为:把别人的电池、底盘拿过来起个山海经名字就算技术突破,是不是自己研发的每个人都有一杆秤

  巩俐在1986年中戏写的论文得了个“良”,看看她写的这字能拿个“优”吗?

  妈妈每天为女儿“花样”扎头发,真是难为妈妈了把“方圆百里”的头发都凑过来了,网友:试试宝宝假发啊!

  荣耀MagicBook Pro 14笔记本评测:源自手机的技术跨界 AI PC新高度

  续航超12小时比肩MacBook!荣耀MagicBook Pro 14搭载全球首款92Wh巨量电池

  be quiet! 推出 Pure Rock 3 风冷,含单塔标准和双塔 Pro 款式

标签:象棋资讯
在线客服
服务热线

服务热线

13933990923

微信咨询
返回顶部
X

截屏,微信识别二维码

微信号:wxjiuyouninegame

(点击微信号复制,添加好友)

打开微信

微信号已复制,请打开微信添加咨询详情!