开个新坑,从无名小卒到大模型(LLM)大英雄~ 欢迎关注B站后续更新!!!
- 完全从零手写,边写边讲知识点,致敬 Andrej Karpathy
- 体系化,具有完整的实践路线
- 配套视频讲解,B站视频
- 配套镜像 GPU,用于模型的训练,有演示和展示 Demo
- 最小使用 3090,4090 即可训练~
大家可以用我的 AIStackDC 注册链接获得额外的 GPU 优惠券,2 张 1 折优惠券(5 小时)和 3 张 5 折优惠券(36 小时)。
- 大模型基础,介绍大模型训练的流程
- Dense Model (B站视频)
- MOE Model,(B站视频)
- ...
- 完全从零到一训练 LLM (Pre-Training)
- 完全从零到一微调 LLM (Supervised Fine-Tuning, SFT)
- 完全从零到一微调 LLM (Direct Preference Optimization, DPO)
- 完全从零到一微调 LLM (Reinforcement Learning from Human Feedback, RLHF)
- 用于写 Python 代码的 Code-LLM
- 大模型的部署
- 推理优化,量化等
- ...
如果本套教程对你有难度,可以看看 Hands-On Large Language Models CN(ZH) -- 动手学大模型,先使用
transformers
入门,然后再来手把手自己实现大模型。
章节 | 文章解读 | 中文 Notebook 复制后可直接运行 |
视频讲解 (可点击) |
---|---|---|---|
完全从零手写一个nanoGPT | todo | ||
LLM MOE 的进化之路 | LLM MOE的进化之路,从普通简化 MOE,到 sparse_moe,再到 deepseek 使用的 share_expert_sparse_moe | ||
激活函数优化 | LLM activate function激活函数的进化之路,从 ReLU,GELU 到 swishGLU | todo | todo |
├── chapter01 # 不同章节的学习笔记,最终会形成一本书籍
│ ├── README.md
│ ├── ...
├── chapter02
│ ├── README.md
│ ├── train.py
│ ├── ...
├── src/
│ ├── hero/ # 最终自研实现的大模型等会放到这个地方;
│ ├── chapter01/ # 这里会存放 chapter01 的代码;
│ ├── chapter02/ # 这里会存放 chapter02 的代码;
│ ├── video/ # 录制视频的时候用到的代码;
├── README.md
陆续会更新,欢迎关注!!!
- 方式 1:可以加我 wx: bbruceyuan (扫码链接) 来群里催更或者反馈问题~
- 方式 2:关注我的博客:chaofa用代码打点酱油 (推荐)
- 方式 3: 关注我的公众号: chafa用代码打点酱油
公众号是 blog 的备份,也是一种提醒方式,也可以➕我好友,但是更好的阅读体验需要是 blog。
最后欢迎大家使用 AIStackDC 算力平台,主打一个便宜方便(有专门的客服支持),如果你需要的话可以使用我的邀请链接: https://aistackdc.com/phone-register?invite_code=D872A9