#unsloth #deepseek #r1
推荐一个目前全网价格最实惠的合租平台,ChatGPT,MidJourney,奈飞,迪士尼,苹果TV等热门软件应有尽有 - https://dub.sh/unibus ,首单9折优惠 - 优惠码 01Coder
- 加入我的知识星球:https://t.zsxq.com/W5Oj7
- 关注我的Twitter: https://twitter.com/verysmallwoods
- 关注我的Bilibili: https://space.bilibili.com/615957867/
- 如果您有任何问题或者建议,欢迎通过邮件联系我:0001coder@gmail.com
Unsloth是一款非常流行的高效大模型训练与微调工具。近期Unsloth也宣布支持GRPO。本期视频基于Unsloth官方博客的介绍,分享如何用Unsloth,利用GRPO,训练一款类似DeepSeek R1的具有自主思考推理能力的大模型。
R1 Reasoning | Unsloth Blog
https://unsloth.ai/blog/r1-reasoning
Unsloth GRPO notebook: Llama 3.1 (8B) on Colab
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb
OpenAI GSM8K数据集
https://huggingface.co/datasets/openai/gsm8k
如果您喜欢这个视频并希望请我喝一杯咖啡,欢迎前往我的BuyMeACoffee页面
👉 https://www.buymeacoffee.com/01coder
【Unsloth】播放列表
https://www.youtube.com/playlist?list=PL2fGiugrNooiyqhdLpFMZVU86_4FYvxH6
章节
00:00 用Unsloth训练自己的R1推理模型
01:08 Unsloth与GRPO简介
03:38 Colab环境准备
05:16 加载预训练模型
06:03 配置PEFT模型
06:42 准备训练数据集,定义奖励函数
07:52 设置GRPO训练配置
09:42 创建训练器
11:43 训练后的推理测试
12:03 保存训练后的模型
13:30 总结