è®ç»è¿åº¦ä¸é¢è®¡å®ææ¶é´ | AIçæåç¿»è¯
以䏿¯å¯¹è¿è¡è®ç»åé¢è®¡å®ææ¶é´çåæã
è¿è¡ç¶æ
- è¿ç¨: å¨
tmux 1:ä¸è¿è¡python3 train.py config/train_fineweb.py(äº 4æ29æ¥ææä¸ 13:46 HKT å¯å¨) - å½å: 4æ29æ¥ 22:20 HKT â å·²è¿è¡çº¦ 8 å°æ¶ 34 åé
- ææ°æ¥å¿è¡:
iter 3200: loss 3.4117, time 9332ms, mfu 13.57% - ææ°æ£æ¥ç¹:
out-fineweb/ckpt.ptäº 21:35 åå ¥ (第 3000 æ¥ä¿å)ãå¤§å° 1,492,570,892 B â 1.39 GiBï¼ä¸ä¿åäºä¼åå¨ç¶æç 125M GPT-2 颿ç¸ç¬¦ (fp32 模å约 0.5 GB + AdamW m/v 约 1.0 GB)ã
å½å使ç¨çé
ç½® (config/train_fineweb.py)
å æ¤ï¼è®ç»å®ææ¶çæ» token æ° â 12000 à 524,288 â 62.9 亿个token (注éä¸ç â~30 亿â å·²è¿æ¶)ã
æå¤±è¶å¿
step train val
0 10.997 10.991
500 5.451 5.508
1000 4.379 4.391
1500 4.063 4.010
2000 3.906 3.852
2500 3.813 3.774
3000 3.744 3.691
ä»ä»¥æ¯ 500 æ¥çº¦ä¸é 0.07 çé度åå°ï¼ä¸éªè¯æå¤± < è®ç»æå¤± ââ ç¶æå¥åº·ï¼æ è¿æå迹象ãä»æè¶³å¤ä¸é空é´ï¼å¨ FineWeb è§æ¨¡çæ°æ®ä¸ï¼ä¸ä¸ª 125M ç GPT-2 模å颿æç»ä¼ç¨³å®å¨éªè¯æå¤±çº¦ 3.0â3.1ã
é¢è®¡ä½æ¶å®æï¼
- æ¯æ¬¡è¿ä»£æ¶é´: 9.33 ç§ (æ£å¸¸) + æ¯ 500 次è¿ä»£çº¦ 20 ç§è¯ä¼°æ¶é´ â ææå¹³å约 ~9.37 ç§/次è¿ä»£
- 宿´è¿è¡: 12000 à 9.37 â 112,400 ç§ â 31.2 å°æ¶ æéæ¶é´
- ä¼°ç®æªæ¢ 22:20 çå½åè¿ä»£: 30,840 / 9.37 â è¿ä»£æ¬¡æ° ~3290
- å©ä½: ~8700 次è¿ä»£ à 9.37 ç§ â 22.6 å°æ¶
- é¢è®¡å®ææ¶é´ (ETA): 4æ30æ¥ææå, 约 20:50 HKT (±30 åéï¼åå³äºè¯ä¼°å¼é)
ä¸ä¸ä¸ªæ£æ¥ç¹ä¿åå°å¨ç¬¬ 3500 æ¥è§¦åï¼çº¦çäºè¿ä»£æ¬¡æ° 3290 + 210 â ä»ç°å¨èµ·çº¦ 33 åéå (约 22:53)ã
å¼å¾æ³¨æçäºé¡¹
- MFU ç¥æä¸é (15.4 % â 13.6 %)ï¼æ éæ å¿ï¼è¿æ¯è¯ä¼°æ¥éª¤åæ»å¨å¹³åçæ£å¸¸ç°è±¡ã
- å GPU ä¸
gradient_accumulation_steps = 64ä¸batch_size = 8ï¼æå³çæ¯æ¬¡è¿ä»£å å« 64 ä¸ªå¾®æ¹æ¬¡ ââ è¿å°±æ¯ä¸ºä»ä¹æè§ 9.3 ç§/次è¿ä»£è¾é¿ï¼ä½ååéå®é è¯å¥½ (~56 K tok/s)ã - 注éä¸å
³äº
max_itersç â~30 亿个tokenå¤çâ æ¯ä¸æ£ç¡®çï¼å¨ block 大å°ä¸º 1024ãæææ¹æ¬¡ä¸º 512 çæ åµä¸ï¼12K 次è¿ä»£åºå¤ç约 62.9 亿个tokenã妿æ¨å¨æï¼å¼å¾ä¿®æ£ï¼ä½è¿ä¸å½±åæ¬æ¬¡è¿è¡ã
æ¨å¸ææç»§ç»çæ§å¹¶å¨ä¸ä¸ä¸ªæ£æ¥ç¹æ¶éç¥æ¨ï¼è¿æ¯ä»å½åæ£æ¥ç¹éæ ·ä»¥æ£æ¥çæææï¼
