用于训练/微调中型 GPT 的最简单、最快的存储库。这是对[color=var(--color-accent-fg)]
minGPT的重写,它优先考虑牙齿而不是教育。仍在积极开发中,但目前该文件train.py
在 OpenWebText 上重现 GPT-2 (124M),在 38 小时的训练中在单个 8XA100 40GB 节点上运行。代码本身简单易读:train.py
是一个约 300 行的样板训练循环和model.py
一个约 300 行的 GPT 模型定义,可以选择从 OpenAI 加载 GPT-2 权重。就是这样。因为代码非常简单,所以很容易破解您的需求,从头开始训练新模型,或微调预训练检查点(例如,目前可用的最大一个起点是来自 OpenAI 的 GPT-2 1.3B 模型)。
git URL: https://github.com/karpathy/nanoGPT