开源AI新突破:SGLang团队提升DeepSeek-R1性能26倍

AI快讯 11个月前 热搜帮
403 0
开源AI新突破:SGLang团队提升DeepSeek-R1性能26倍

来自SGLang英伟达等机构的联合团队最新发布的技术报告显示,他们成功在短短4个月内将DeepSeek-R1在H100上的性能提升了惊人的26倍。这一开源复现版本的吞吐量已非常接近DeepSeek官方数据,标志着开源AI社区在大型语言模型优化方面取得了重大突破。

团队通过全面升级SGLang推理系统,实现了多项技术创新:

  • 支持PD(并行-分布式)分离架构
  • 大规模EP(专家并行)技术
  • DeepEP深度专家并行优化
  • DeepGEMM高效矩阵计算
  • EPLB(专家并行负载均衡)机制

系统架构与优化策略

在硬件配置方面,团队在12个节点共96块GPU的集群上成功复现了DeepSeek的推理系统。优化后的方案在处理2000个token的输入序列时,实现了每个节点每秒52.3k输入token和22.3k输出token的惊人吞吐量。

团队特别强调了以下关键优化策略:

  1. 注意力层优化‌:采用混合精度计算和内存高效注意力机制
  2. 稠密FFN优化‌:通过张量并行和算子融合提升计算密度
  3. 稀疏FFN优化‌:利用专家并行和动态路由减少冗余计算
  4. LM头优化‌:实现高效词汇表投影和采样策略

成本效益:商业化应用的新可能

最引人注目的是,该优化方案在本地部署的成本可降至0.20美元/1M输出token,约为DeepSeek Chat API官方定价的五分之一。这一突破性进展为AI技术的商业化应用开辟了新的可能性,使得中小企业和研究机构也能负担得起高性能的AI推理服务。

Hugging Face联创、首席科学家Thomas Wolf对此评价道:"DeepSeek的出现,是开源AI领域的ChatGPT时刻。正如ChatGPT让全世界认识到AI的存在,DeepSeek则让全世界意识到,原来还有着这样一个充满活力的开源社区。"

行业影响与未来展望

这一成果不仅证明了开源社区在AI领域的创新能力,也展示了产学研合作在推动技术进步中的关键作用。DeepSeek-R1的性能已经媲美甚至超越美国最顶尖的闭源AI模型,对于全球AI生态的发展具有深远意义。

随着这一优化方案的公开,预计将有更多机构基于此开展进一步研究和应用开发,推动开源AI生态进入新的发展阶段。英伟达等硬件厂商也在同步推进相关优化,如最新展示的Blackwell平台和NVLink互连技术,将为AI计算提供更强大的基础设施支持。

版权声明:文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。热搜帮 发表于 2025-05-08 22:04:35。
转载请注明:开源AI新突破:SGLang团队提升DeepSeek-R1性能26倍 | AI热搜帮

暂无评论

暂无评论...