DeepSeek一直于用别的AI模型产生的synthetic数据去训练大型语言模型(LLM):
https://arxiv.org/abs/2405.14333
去年 OpenAI 推出ChatGPT o1版, 其特点是用 reinforcement learning(RL) 训练让 LLM 去“想”
https://platform.openai.com/docs/guides/reasoning
接着,DeepSeek学的很快,并把 synthetic data 与 reinforcement learning 结合起来推出 DeepSeek r1
https://api-docs.deepseek.com/news/news250120
这就是中国研究工作的多快好省特点.