训练数据和工艺是低成本的关键

昨天李飞飞团队用不到50刀的成本训练出跟OpenA1-o1和DeepSeek一样水平的模型,在网上迅速传开。

前段时间兴奋了很久用低成本只花600万做出DS,而李飞飞团队的S1只花了不到50刀,就做出同样水平的东西。

很多人觉得不可能,咋不可能呢?

我一直在说DS的低成本没啥可吹的:在别人的模型基础上,用好的训练数据,加上点工艺,当然能低成本了

现在李飞飞团队用50刀成本训练出来,好像倒是可以吹一下,哈哈

 

我大概看了一下李飞飞团队s1论文,大概就是下面这个样子,对比一下DS,是不是很类似?

李飞飞团队的S1 = 阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法(1000个精心策划微小数据集)+ 在云计算蒸馏出来(云计算成本低于50刀)

DS = Meta 模型为基础 + OpenAI数据集(被怀疑)+ 自己的方法 + 花600万蒸馏出来

 

s1秘诀是什么?用了一种名为 “预算强迫 ”的技术,再加上监督微调(SFT)技术,在一个经过精心策划的、只有 1000 个示例的微小数据集上实现。

1000个精心策划微小数据集(训练数据),和“预算强迫 ”的技术(工艺)是关键。

今天早上,下载了s1的代码看了一下,训练s1需要的模块和库,竟然还有openai, 哈哈

所有跟帖: 

抬下扛,50刀属于吹牛了。。 -种西瓜- 给 种西瓜 发送悄悄话 (332 bytes) () 02/07/2025 postreply 08:49:52

训练的运算成本,你以为DS的那个600万算的啥成本?是运算成本吧, -未完的歌- 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (0 bytes) () 02/07/2025 postreply 09:05:17

那就再扛一下。。。 -种西瓜- 给 种西瓜 发送悄悄话 (101 bytes) () 02/07/2025 postreply 09:45:25

抬杠要切中要点,还需自己做功课。知道DS号称的6百万是啥费用吗?对比要同样的事做对比啊。给你看一下吧,GPUhours -未完的歌- 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (157 bytes) () 02/07/2025 postreply 11:00:10

你想简单了。。咱的扛正是切中了要害。。。 -种西瓜- 给 种西瓜 发送悄悄话 (344 bytes) () 02/07/2025 postreply 11:55:06

那说明你不了解AI届说成本是啥意思啊,比的就是训练一个模型需要的运算成本,用多少GPU时间 -未完的歌- 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (212 bytes) () 02/07/2025 postreply 13:16:36

嗯.咱就欣赏杠精。杠精同学,咱说的就是只比拼电脑gpu时间不公平 -种西瓜- 给 种西瓜 发送悄悄话 (259 bytes) () 02/07/2025 postreply 15:23:01

一个是SFT 一个是基础模型 你50美元训练个基础模型试试 -林诚毅德-Lincoln- 给 林诚毅德-Lincoln 发送悄悄话 (827 bytes) () 02/08/2025 postreply 09:27:31

发贴的"未完的歌"根本不懂AI, 他习惯性网上搜些数据编个贴到处造谣 -常有理是对- 给 常有理是对 发送悄悄话 常有理是对 的博客首页 (0 bytes) () 02/08/2025 postreply 11:29:31

你一个一窍不通的人,还起一个ID常有理是对的。前些日子你造谣被我抓住,怀恨在心了吧,到现在还不认错,哈哈 -未完的歌- 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (81 bytes) () 02/10/2025 postreply 04:15:34

DS基础模型的基础是啥?知道这个大佬吧 -未完的歌- 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (81 bytes) () 02/08/2025 postreply 19:34:19

DeepSeek技术创新主要是在它的基础模型V3 -林诚毅德-Lincoln- 给 林诚毅德-Lincoln 发送悄悄话 (1850 bytes) () 02/09/2025 postreply 11:09:45

最新的Math500模型测试准确率对比 -林诚毅德-Lincoln- 给 林诚毅德-Lincoln 发送悄悄话 (750 bytes) () 02/14/2025 postreply 15:27:52

请您先登陆,再发跟帖!