iframe-proxy | Sunbelt Computer Software

è®ç»ƒè¿›åº¦ä¸Žé¢„è®¡å®Œæˆæ—¶é—´ | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.04

ä»¥ä¸‹æ˜¯å¯¹è¿è¡Œè®ç»ƒå’Œé¢„è®¡å®Œæˆæ—¶é—´çš„åˆ†æžã€‚

è¿è¡ŒçŠ¶æ€

è¿›ç¨‹: åœ¨ tmux 1: ä¸è¿è¡Œ python3 train.py config/train_fineweb.py (äºŽ 4æœˆ29æ—¥æ˜ŸæœŸä¸‰ 13:46 HKT å¯åŠ¨)
å½“å‰: 4æœˆ29æ—¥ 22:20 HKT â†’ å·²è¿è¡Œçº¦ 8 å°æ—¶ 34 åˆ†é’Ÿ
æœ€æ–°æ—¥å¿—è¡Œ: iter 3200: loss 3.4117, time 9332ms, mfu 13.57%
æœ€æ–°æ£€æŸ¥ç‚¹: out-fineweb/ckpt.pt äºŽ 21:35 å†™å…¥ (ç¬¬ 3000 æ¥ä¿å˜)ã€‚å¤§å° 1,492,570,892 B â‰ˆ 1.39 GiBï¼Œä¸Žä¿å˜äº†ä¼˜åŒ–å™¨çŠ¶æ€çš„ 125M GPT-2 é¢„æœŸç›¸ç¬¦ (fp32 æ¨¡åž‹çº¦ 0.5 GB + AdamW m/v çº¦ 1.0 GB)ã€‚

å½“å‰ä½¿ç”¨çš„é…ç½® (`config/train_fineweb.py`)

Â	Â
dataset	fineweb
model	12L / 12H / 768d, ~1.236 äº¿å‚æ•°
block_size	1024
batch / grad_accum	8 Ã— 64 â†’ æœ‰æ•ˆæ‰¹æ¬¡ 512 åºåˆ— â†’ æ¯è¿ä»£ 524,288 ä¸ªtoken
max_iters / lr_decay_iters	12000
warmup	500
lr	3e-4 â†’ 3e-5
eval_interval	500 (always_save_checkpoint=True)
compile	True

å› æ¤ï¼Œè®ç»ƒå®Œæˆæ—¶çš„æ€» token æ•° â‰ˆ 12000 Ã— 524,288 â‰ˆ 62.9 äº¿ä¸ªtoken (æ³¨é‡Šä¸çš„ â€œ~30 äº¿â€ å·²è¿‡æ—¶)ã€‚

æŸå¤±è¶‹åŠ¿

step    train    val
     10.997   10.991
    5.451    5.508
   4.379    4.391
   4.063    4.010
   3.906    3.852
   3.813    3.774
   3.744    3.691

ä»ä»¥æ¯ 500 æ¥çº¦ä¸‹é™ 0.07 çš„é€Ÿåº¦å‡å°‘ï¼Œä¸”éªŒè¯æŸå¤± < è®ç»ƒæŸå¤± â€”â€” çŠ¶æ€å¥åº·ï¼Œæ— è¿‡æ‹Ÿåˆè¿¹è±¡ã€‚ä»æœ‰è¶³å¤Ÿä¸‹é™ç©ºé—´ï¼šåœ¨ FineWeb è§„æ¨¡çš„æ•°æ®ä¸Šï¼Œä¸€ä¸ª 125M çš„ GPT-2 æ¨¡åž‹é¢„æœŸæœ€ç»ˆä¼šç¨³å®šåœ¨éªŒè¯æŸå¤±çº¦ 3.0â€“3.1ã€‚

é¢„è®¡ä½•æ—¶å®Œæˆï¼Ÿ

æ¯æ¬¡è¿ä»£æ—¶é—´: 9.33 ç§’ (æ£å¸¸) + æ¯ 500 æ¬¡è¿ä»£çº¦ 20 ç§’è¯„ä¼°æ—¶é—´ â†’ æœ‰æ•ˆå¹³å‡çº¦ ~9.37 ç§’/æ¬¡è¿ä»£
å®Œæ•´è¿è¡Œ: 12000 Ã— 9.37 â‰ˆ 112,400 ç§’ â‰ˆ 31.2 å°æ—¶ æŒ‚é’Ÿæ—¶é—´
ä¼°ç®—æˆªæ¢ 22:20 çš„å½“å‰è¿ä»£: 30,840 / 9.37 â‰ˆ è¿ä»£æ¬¡æ•° ~3290
é¢„è®¡å®Œæˆæ—¶é—´ (ETA): 4æœˆ30æ—¥æ˜ŸæœŸå››, çº¦ 20:50 HKT (Â±30 åˆ†é’Ÿï¼Œå–å†³äºŽè¯„ä¼°å¼€é”€)

ä¸‹ä¸€ä¸ªæ£€æŸ¥ç‚¹ä¿å˜å°†åœ¨ç¬¬ 3500 æ¥è§¦å‘ï¼Œçº¦ç‰äºŽè¿ä»£æ¬¡æ•° 3290 + 210 â†’ ä»ŽçŽ°åœ¨èµ·çº¦ 33 åˆ†é’ŸåŽ (çº¦ 22:53)ã€‚

å€¼å¾—æ³¨æ„çš„äº‹é¡¹

MFU ç•¥æœ‰ä¸‹é™ (15.4 % â†’ 13.6 %)ï¼›æ— éœ€æ‹…å¿ƒï¼Œè¿™æ˜¯è¯„ä¼°æ¥éª¤åŽæ»šåŠ¨å¹³å‡çš„æ£å¸¸çŽ°è±¡ã€‚
å• GPU ä¸Š gradient_accumulation_steps = 64 ä¸” batch_size = 8ï¼Œæ„å‘³ç€æ¯æ¬¡è¿ä»£åŒ…å« 64 ä¸ªå¾®æ‰¹æ¬¡ â€”â€” è¿™å°±æ˜¯ä¸ºä»€ä¹ˆæ„Ÿè§‰ 9.3 ç§’/æ¬¡è¿ä»£è¾ƒé•¿ï¼Œä½†åžåé‡å®žé™…è‰¯å¥½ (~56 K tok/s)ã€‚
æ³¨é‡Šä¸å…³äºŽ max_iters çš„ â€œ~30 äº¿ä¸ªtokenå¤„ç†â€ æ˜¯ä¸æ£ç¡®çš„ï¼›åœ¨ block å¤§å°ä¸º 1024ã€æœ‰æ•ˆæ‰¹æ¬¡ä¸º 512 çš„æƒ…å†µä¸‹ï¼Œ12K æ¬¡è¿ä»£åº”å¤„ç†çº¦ 62.9 äº¿ä¸ªtokenã€‚å¦‚æžœæ‚¨åœ¨æ„ï¼Œå€¼å¾—ä¿®æ£ï¼Œä½†è¿™ä¸å½±å“æœ¬æ¬¡è¿è¡Œã€‚

æ‚¨å¸Œæœ›æˆ‘ç»§ç»ç›‘æŽ§å¹¶åœ¨ä¸‹ä¸€ä¸ªæ£€æŸ¥ç‚¹æ—¶é€šçŸ¥æ‚¨ï¼Œè¿˜æ˜¯ä»Žå½“å‰æ£€æŸ¥ç‚¹é‡‡æ ·ä»¥æ£€æŸ¥ç”Ÿæˆæ•ˆæžœï¼Ÿ

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

è®­ç»ƒè¿›åº¦ä¸Žé¢„è®¡å®Œæˆæ—¶é—´ | AIç”Ÿæˆå’Œç¿»è¯‘

è¿è¡ŒçŠ¶æ€

å½“å‰ä½¿ç”¨çš„é…ç½® (config/train_fineweb.py)

æŸå¤±è¶‹åŠ¿

é¢„è®¡ä½•æ—¶å®Œæˆï¼Ÿ

å€¼å¾—æ³¨æ„çš„äº‹é¡¹