训练数据集与词元统计 训练数据集与词元统计 | Zhiwei Li

训练数据集与词元统计 | AI生成和翻译

Home 2026.04

数据集大小

文件 大小 内容
train_fineweb.txt 16 GB 8960万行原始文本(上方示例文档为新闻/网络文本)
train.bin 7.36 GB 36.8亿 GPT-2 BPE 词元(uint16)
val.bin 12 KB 5,675 词元 — 极少量,因此验证损失波动较大

训练覆盖情况

  • 已处理词元:12,000 次迭代 × 524,288 = 62.9亿词元
  • 遍历 train.bin 的轮次:约1.71次(每个词元平均被看到<2次)

说明

  • 约2.2倍的压缩率(16 GB 文本 → 7.36 GB 词元)对 GPT-2 BPE 属于正常范围 —— 约每词元对应3.7字符。
  • val.bin ä»…5,675词元,体量异常小(在 block_size=1024 设置下约等于5个评估批次)。当 eval_iters=200 时,多数评估会重复采样相同数据块。如需重新准备数据,建议划分真实保留集(例如从 train.bin 抽取0.5% ≈ 1800万词元)—— 这样验证损失数值会更可靠。
  • 参考数据:对于1.24亿参数模型,Chinchilla最优训练量约为25亿词元,而当前63亿词元的训练量已超过计算最优值。本次训练效果的瓶颈在于模型规模而非数据量 —— 若要在不扩大模型的情况下进一步降低验证损失,延长训练时间收效甚微。