DeepSeek 反映了中国研究工作的多快好省特点

本帖于 2025-01-28 12:01:20 时间, 由普通用户 viBravo5 编辑

DeepSeek一直于用别的AI模型产生的synthetic数据去训练大型语言模型(LLM):

https://arxiv.org/abs/2405.14333

 

去年 OpenAI  推出ChatGPT o1版, 其特点是用 reinforcement learning(RL)  训练让 LLM 去“想”

https://platform.openai.com/docs/guides/reasoning

 

接着,DeepSeek学的很快,并把 synthetic data 与 reinforcement learning 结合起来推出 DeepSeek r1

https://api-docs.deepseek.com/news/news250120

 

这就是中国研究工作的多快好省特点.

 

请您先登陆,再发跟帖!