10 11 月, 2023

2023年11月10日

【LLM】从零开始训练大模型

在这篇文章中,我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练(Pretrain)、Tokenizer 训练、指令微调(Instruction Tuning)、奖励模型(Reward Model)和强化学习(RLHF)等环节。由于内容比较多,我们将逐步整理并完善这个文档。1. 预训练阶段(Pretraining Stage)工欲善其事,必先利其器。当前,不少工作选择在一个较强的基座模型上进行微调,且通常效果不错(如:[alpaca]、[vicuna] 等)。这种成功的前提在于:预训…

进一步了解