Unsloth训练自己的R1推理模型 - DeepSeek GRPO

01Coder 15,820 lượt xem 1 week ago

Video Not Working? Fix It Now

#unsloth #deepseek #r1

推荐一个目前全网价格最实惠的合租平台，ChatGPT，MidJourney，奈飞，迪士尼，苹果TV等热门软件应有尽有 - https://dub.sh/unibus ，首单9折优惠 - 优惠码 01Coder

- 加入我的知识星球：https://t.zsxq.com/W5Oj7
- 关注我的Twitter: https://twitter.com/verysmallwoods
- 关注我的Bilibili: https://space.bilibili.com/615957867/
- 如果您有任何问题或者建议，欢迎通过邮件联系我：0001coder@gmail.com

Unsloth是一款非常流行的高效大模型训练与微调工具。近期Unsloth也宣布支持GRPO。本期视频基于Unsloth官方博客的介绍，分享如何用Unsloth，利用GRPO，训练一款类似DeepSeek R1的具有自主思考推理能力的大模型。

R1 Reasoning | Unsloth Blog
https://unsloth.ai/blog/r1-reasoning

Unsloth GRPO notebook: Llama 3.1 (8B) on Colab
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

OpenAI GSM8K数据集
https://huggingface.co/datasets/openai/gsm8k

如果您喜欢这个视频并希望请我喝一杯咖啡，欢迎前往我的BuyMeACoffee页面
👉 https://www.buymeacoffee.com/01coder

【Unsloth】播放列表
https://www.youtube.com/playlist?list=PL2fGiugrNooiyqhdLpFMZVU86_4FYvxH6

章节
00:00 用Unsloth训练自己的R1推理模型
01:08 Unsloth与GRPO简介
03:38 Colab环境准备
05:16 加载预训练模型
06:03 配置PEFT模型
06:42 准备训练数据集，定义奖励函数
07:52 设置GRPO训练配置
09:42 创建训练器
11:43 训练后的推理测试
12:03 保存训练后的模型
13:30 总结

Comment