Megatron-LM论文阅读
最近对于大模型的研究越来越多,笔者也对一些大模型的技术报告进行阅读,但是感觉对于大模型的认识仍然不够清晰,究其原因是没有自己亲手走一下训练大模型的流程,所以想要先对训练大模型的框架进行学习,然后等到有机会之后(有显卡)再上手训练一个大模型。经过调研之后,笔者打算首先从Megatron-LM框架开始学习,于是选择了这篇Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism论文进行阅读。