Deekseek比想象更炸裂,绕过了英伟达引以为傲的CUDA,使用更底层的编程语言做优化

本帖于 2025-01-30 07:05:18 时间, 由普通用户 成功的洋葱 编辑

DeepSeek绕过了英伟达引以为傲的CUDA,使用更底层的编程语言做优化

这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。

 

 

 

V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”

在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务,变相绕过了硬件对通信速度的限制。

这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的,而不是CUDA。

PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级别的调整。

这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。

换句话说,他们把优化做到了极致。

 

“首先要明确的是,PTX仍然是英伟达GPU架构中的技术,它是CUDA编程模型中的中间表示,用于连接CUDA高级语言代码和GPU底层硬件指令。

 

CUDA起到了提供高级编程接口和工具链的作用,可以简化开发者的工作。而PTX作为中间层,充当高级语言和底层硬件之间的桥梁。

 

所以说,DeepSeek做了PTX级别的优化不意味着完全脱离了CUDA生态,但确实代表他们有优化其他GPU的能力。我们不知道DeepSeek内部是否使用AI辅助编写了PTX代码——但是确实刚刚见证DeepSeek-R1编写的代码显著提升大模型推理框架的运行速度。”

 

也许是DeepSeek团队,先教会Deepseek用PTX,然后引导Deepseek直接用汇编编程, 他们只需要监督就行。 通过并行部分的程序,再让DeepSeek去蒸馏这个过程,学会如何编PTX重写 numpy, scipy

所有跟帖: 

UCB AI研究团队声称以30美元复现DeepSeek核心技术 -Knight_2024- 给 Knight_2024 发送悄悄话 (221 bytes) () 01/30/2025 postreply 07:01:19

哈哈,,, -Pilsung- 给 Pilsung 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:21:20

Sorry! Page not found. -zaocha2002- 给 zaocha2002 发送悄悄话 zaocha2002 的博客首页 (0 bytes) () 01/30/2025 postreply 07:26:04

Google: AI research team claims to reproduce DeepSeek core -Knight_2024- 给 Knight_2024 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:36:57

用汇编 速度肯定快不少 -Zhivago- 给 Zhivago 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:05:20

汇编不是关键,关键的是思路的改变。对于DS是不是全新的model,还是抄袭,甚至偷窃。看了几个专家的分析,包括OpenA -雾蒙蒙雨霏霏- 给 雾蒙蒙雨霏霏 发送悄悄话 雾蒙蒙雨霏霏 的博客首页 (1815 bytes) () 01/30/2025 postreply 14:53:14

英伟达的护城河要崩塌,股价大可能到$60,警惕! -青裁- 给 青裁 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:08:00

趕快short啊 -violinpiano- 给 violinpiano 发送悄悄话 (167 bytes) () 01/30/2025 postreply 07:14:13

当然,这次nvda大跌我赚的不少 -青裁- 给 青裁 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:34:00

太牛了 敢玩short -violinpiano- 给 violinpiano 发送悄悄话 (167 bytes) () 01/30/2025 postreply 07:36:27

你们这些不相信DS的人当然不会做 -青裁- 给 青裁 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:44:00

不管用不用cuda,用的都还是nvidia的gpu啊,lol,而且用的也是nvidia提供的底层编程语言 -touchlife- 给 touchlife 发送悄悄话 (91 bytes) () 01/30/2025 postreply 07:22:07

对硬件的依赖没变 相当于绕开了Java 直接汇编上 -Zhivago- 给 Zhivago 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:24:03

只要是印度人搞不定的,就好了 -成功的洋葱- 给 成功的洋葱 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:25:41

网上疯传过几天就是印度版的DS了,他们要忽悠钱。LOL -jenda123- 给 jenda123 发送悄悄话 (186 bytes) () 01/30/2025 postreply 07:43:27

哈哈。网上都摸清印度人的思路了。 -Bailey4321- 给 Bailey4321 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:58:42

真心觉得犹太印度可以组建最大诈骗集团 -想做土家人- 给 想做土家人 发送悄悄话 (0 bytes) () 01/30/2025 postreply 08:06:05

那美国公司为什么没干呢?中国靠偷靠抢,美国大中小 startup 有这么好的条件,为啥乖乖让NVDA 蹂躏? -Bailey4321- 给 Bailey4321 发送悄悄话 (62 bytes) () 01/30/2025 postreply 07:26:43

因为这几年美国的聪明孩子都一窝蜂去学CS,没人学EE了 -touchlife- 给 touchlife 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:31:09

中国哪里都不缺聪明的孩子.呵呵 -Pilsung- 给 Pilsung 发送悄悄话 (0 bytes) () 01/30/2025 postreply 07:34:01

如果没有编过高度并行程序的,就不要一惊一乍的扯淡了 -ClearCase- 给 ClearCase 发送悄悄话 ClearCase 的博客首页 (0 bytes) () 01/30/2025 postreply 07:37:00

如果是真的话就是重大工程突破了。再进一步就是ASIC -Lisland_2013- 给 Lisland_2013 发送悄悄话 (0 bytes) () 01/30/2025 postreply 10:58:52

请您先登陆,再发跟帖!