æœ€å¤§åŒ–GPUå†…å­˜çš„å®‰å…¨ä½¿ç”¨

æœ€å¤§åŒ–GPUå†…å˜çš„å®‰å…¨ä½¿ç”¨ | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.05

åˆ†æžï¼šå°† 4070 æ˜¾å˜ä»Žçº¦ 7.5 GB æŽ¨è‡³çº¦ 10â€“11 GB

æ˜¾å˜æ¥æº

åœ¨ batch_size=4, block_size=1024 æ—¶ï¼Œå ç”¨ 7538 MiBã€‚å¤§è‡´å¦‚ä¸‹ï¼š

å›ºå®šéƒ¨åˆ†ï¼šæƒé‡ + æ¢¯åº¦ + AdamW çŠ¶æ€ï¼ˆm, vï¼‰â‰ˆ çº¦ 2 GBï¼ˆé’ˆå¯¹ 124M å‚æ•°ï¼‰
æ¿€æ´»å€¼ï¼šå‰©ä½™éƒ¨åˆ†ï¼ˆçº¦ 5.5 GBï¼‰ï¼Œéš batch_size çº¿æ€§å¢žé•¿ï¼Œéš block_size å‘ˆè¿‘ä¼¼å¹³æ–¹å¢žé•¿

å› æ¤æ¯å•ä½ batch_size çš„æ¿€æ´»å€¼çº¦ 1.4 GBã€‚è¦è¾¾åˆ°çº¦ 10.5 GBï¼Œå¤§çº¦éœ€è¦ å¢žåŠ 3 GB æ¿€æ´»å€¼ â†’ batch_size â‰ˆ 6ï¼Œå¦‚æžœæ¿€è¿›ä¸€ç‚¹å¯ä»¥åˆ° 7ã€‚

ä¸»è¦æ æ†ï¼š`batch_size`ï¼ˆç¬¬ 15ã€17 è¡Œï¼‰

ä¿æŒæ¯æ¥ token æ•°ï¼ˆçº¦ 524,288ï¼‰ä¸å˜ï¼Œè¿™æ ·å¦ä¹ çŽ‡è°ƒåº¦ / warmup_iters / max_iters æ— éœ€é‡æ–°è°ƒæ•´ï¼š

`batch_size`	`gradient_accumulation_steps`	æ¯æ¥ token æ•°	é¢„è®¡æ˜¾å˜å ç”¨
4ï¼ˆå½“å‰ï¼‰	128	524,288	7.5 GB
6	85 æˆ– 86	~528K	~10 GB
8	64	524,288ï¼ˆç²¾ç¡®ï¼‰	12 GB ä¸Šå¾ˆå¯èƒ½ OOM

æˆ‘ä¼šä»Ž batch_size=6, gradient_accumulation_steps=86 å¼€å§‹ï¼Œå¹¶å…³æ³¨ nvidia-smiã€‚å¦‚æžœè¿˜æœ‰ä½™é‡ï¼Œå°è¯• 7ã€‚ä½¿ç”¨ 6 æ—¶æ¯æ¥ token æ•°ä¸ä¼šå®Œå…¨ç›¸åŒâ€”â€”æ²¡å…³ç³»ï¼Œå¦ä¹ çŽ‡è°ƒåº¦å¯¹ç™¾åˆ†ä¹‹å‡ çš„åå·®å…·æœ‰é²æ£’æ€§ã€‚

ä¸ºä»€ä¹ˆä¸ä½¿ç”¨å…¶ä»–æ æ†

block_sizeï¼šä¸Ž GPT-2 124M æž¶æž„ä»¥åŠæ•°æ®çš„ tokenization / sharding æ–¹å¼ç»‘å®šã€‚ä¸è¦æ”¹åŠ¨ã€‚
n_layer / n_head / n_embdï¼šä¼šæ”¹å˜æ¨¡åž‹ï¼Œä¸ä»…ä»…æ˜¯æ˜¾å˜ã€‚
compile=Trueï¼šå·²å¼€å¯ã€‚
ç²¾åº¦ï¼šnanoGPT åœ¨ train.py ä¸é»˜è®¤å·²ä½¿ç”¨ bf16/AMP â€”â€” å¯éªŒè¯ï¼Œä½†æ— éœ€ä¿®æ”¹é…ç½®ã€‚

æ³¨æ„äº‹é¡¹

æ˜¾ç¤º / Xorg å ç”¨çº¦ 115 MiBï¼Œå› æ¤å¯ç”¨é¢„ç®—çº¦ä¸º 12,160 MiBï¼Œè€Œéž 12,288ã€‚
é¦–æ¬¡ torch.compile æ¥éª¤ä¼šæ˜¾å˜å°–å³°ï¼›å¦‚æžœä»…åœ¨ç¼–è¯‘æ—¶ OOMï¼Œè¿™ä¸æ˜¯ç¨³æ€é—®é¢˜ï¼Œä½†ä»ç„¶æ— æ³•è¿è¡Œã€‚è¯·ä¿å®ˆå¤„ç†ã€‚
ä»Ž 128 é™åˆ° 86 ä¸ªæ¢¯åº¦ç´¯ç§¯æ¥éª¤æ„å‘³ç€ æ¯ä¸ª wall-clock ç§’å†…çš„ä¼˜åŒ–å™¨æ›´æ–°æ¬¡æ•°å‡å°‘ï¼Œä½† æœ‰æ•ˆ batch ç›¸åŒï¼Œå› æ¤æŸå¤±æ›²çº¿åº”ä¿æŒä¸€è‡´ã€‚æ¯æ¥åžåé‡ï¼ˆtoken/ç§’ï¼‰é¢„è®¡ä¼šç•¥æœ‰æå‡ï¼Œå› ä¸ºæ¯ä¸ª token çš„ Python/PyTorch å¼€é”€å‡å°‘ã€‚

æ€»ç»“

å°† batch_size ä»Ž 4 æå‡åˆ° 6ï¼Œgradient_accumulation_steps ä»Ž 128 é™åˆ° 86ã€‚å…¶ä»–ä¿æŒä¸å˜ã€‚é¢„è®¡æ˜¾å˜çº¦ 10 GBï¼Œåžåé‡ç•¥æœ‰æå‡ã€‚

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support