2023年11月10日 | 蜂巢智库

2023 年 11 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

2023年11月10日

【LLM】从零开始训练大模型

在这篇文章中，我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练（Pretrain）、Tokenizer 训练、指令微调（Instruction Tuning）、奖励模型（Reward Model）和强化学习（RLHF）等环节。由于内容比较多，我们将逐步整理并完善这个文档。1. 预训练阶段（Pretraining Stage）工欲善其事，必先利其器。当前，不少工作选择在一个较强的基座模型上进行微调，且通常效果不错（如：[alpaca]、[vicuna] 等）。这种成功的前提在于：预训…

进一步了解

知乎精选

近期文章

10 11 月, 2023

【LLM】从零开始训练大模型