手机扫描下载
DeepEP通信库是一款MoE(Mixture of Experts)模型的训练和推理的通信库,专为分布式系统设计,支持多种通信协议帮助实现专家之间的高效通信和数据交换,提供低延迟、高吞吐量的数据传输,适用于实时数据处理、微服务架构等场景。
在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。
在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。
在上周DeepSeek宣布本周将是开源周(OpenSourceWeek),并将连续开源五个软件库后。DeepSeek今日向公众开源了DeepEP。据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。
同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。
目前,在宣布开源20分钟左右,GitHub上DeepEP已获得超1000Star收藏。
deepep开源驱动fp8技术分享给大家!在这里是第一个用于MoE模型训练和推理的开源EP通信库,高效且优化的全对全通信,通过NVLink和RDMA支持节点内和节点间,用于训练和推理预填充的高量内核,用于推理解码的低延迟内核,原生FP8调度支持,灵活的GPU资源控制,用于计算通信重叠。
高效、优化的 all-to-all 通信
节点内和节点间(intranode and internode)均支持 NVLink 和 RDMA
用于训练和推理预填充的高吞吐量内核
用于推理解码的低延迟内核
原生 FP8 调度支持
灵活的 GPU 资源控制,实现计算-通信重叠
AI工具箱软件
Pydroid3中文版appv7.2_arm64_q_cn 最新版
立即下载咕咕音乐app手机版v1.0 最新版
立即下载零跑app最新版v1.22.16 安卓版
立即下载艺图语壁纸app安卓版v3.1.5 手机版
立即下载盖世游戏app官方版(原GameHub)v2.0.6 最新版
立即下载曹操出行appv6.0.8 最新版
立即下载探月校园版appv2.4.8 安卓版
立即下载秒懂短视频app最新版v5.25.9 安卓版
立即下载数据发送工具安卓版v1.1.1 最新版
立即下载Bookingcom缤客app手机版v53.7.0.1 安卓版
立即下载星空透明壁纸app安卓版v1.4.2 手机版
立即下载ZipXtract解压app手机版v5.1 最新版
立即下载东方甄选app官方版v2.17.0 最新版
立即下载铁塔换电电动车改装app手机版v5.4.1 安卓版
立即下载