iframe-proxy | Sunbelt Computer Software

GPT-2 124M GitHub ä»£ç è®ç»ƒ | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.06

é—®é¢˜ï¼š åŸºäºŽ lzwjava/zz ä¸çš„è®ç»ƒç¬”è®°å’Œé…ç½®/è„šæœ¬ï¼Œæä¾›GPT-2 124Måœ¨GitHubä»£ç ä¸Šè®ç»ƒè¿è¡Œçš„å…¨é¢æŠ€æœ¯æ€»ç»“ã€‚

GPT-2 124M åœ¨ GitHub ä»£ç ä¸Šçš„è®ç»ƒ â€”â€” å…¨é¢æ€»ç»“

1. æµæ°´çº¿æ¦‚è§ˆ

ä¸‰æ®µå¼æµæ°´çº¿ï¼Œå…¨éƒ¨åœ¨ lzwjava/zz ä¸è‡ªå®šä¹‰æž„å»ºï¼š

codeparrot/github-code (HuggingFace)
        â†“ download_github_code.py
   38 ä¸ª parquet åˆ†ç‰‡ï¼ˆå…± 1126 ä¸ªï¼‰ï¼Œçº¦ 27 GB
        â†“ tokenize_github_code.py
   282 ä¸ª .npy åˆ†ç‰‡ï¼ˆé€šè¿‡ tiktoken ä½¿ç”¨ GPT-2 BPEï¼‰
   140 ä¸ªè®­ç»ƒåˆ†ç‰‡ + 1 ä¸ªéªŒè¯åˆ†ç‰‡
        â†“ train.py + config/train_github_code_124m.py
   nanoGPT è®­ç»ƒå¾ªçŽ¯ï¼Œ427k æ­¥

æ•°æ®é›†ï¼š codeparrot/github-code æ˜¯ä¸€ä¸ªå¤§è§„æ¨¡å¼€æºä»£ç æ•°æ®é›†ã€‚ä½ ä¸‹è½½äº† 1126 ä¸ª parquet åˆ†ç‰‡ä¸çš„ 38 ä¸ªï¼Œè¦†ç›–çº¦ 140 äº¿ tokenï¼Œåˆ†å¸ƒåœ¨ 140 ä¸ªè®ç»ƒåˆ†ç‰‡ä¸ã€‚éªŒè¯åˆ†ç‰‡æ˜¯ 1 ä¸ªæ–‡ä»¶â€”â€”å¾ˆå¯èƒ½æ˜¯ä¿ç•™çš„è¯è¨€æˆ–åˆ†ç‰‡ç´¢å¼•ï¼Œæä¾›äº†ä¸€ä¸ªå¹²å‡€çš„ã€ç±»ä¼¼åˆ†å¸ƒå¤– (OOD) çš„éªŒè¯ä¿¡å·ã€‚

2. æ¨¡åž‹æž¶æž„

æ ‡å‡† GPT-2 124M â€”â€” æœªä½œä¿®æ”¹ï¼š

è¶…å‚æ•°	å€¼
`n_layer`	12
`n_head`	12
`n_embd`	768
`block_size`	1024
`dropout`	0.0
`bias`	False
æ€»å‚æ•°é‡	~1.63äº¿ï¼ˆ1.24äº¿éžåµŒå…¥å‚æ•°ï¼‰

å‚æ•°é‡å·®å¼‚ï¼ˆå‘½åçš„ 1.24äº¿ ä¸Ž æ€»å‚æ•°é‡ 1.63äº¿ï¼‰ï¼šåµŒå…¥è¡¨å¤§å°ä¸º 50257 Ã— 768 â‰ˆ 3860ä¸‡ å‚æ•°ï¼Œä¸è®¡å…¥â€œ124Mâ€æ ‡ç¾ã€‚å‰å‘ä¼ æ’ä¸ºæ ‡å‡†å› æžœ transformerï¼štoken + ä½ç½®åµŒå…¥ â†’ 12 ä¸ªä»…è§£ç å™¨æ³¨æ„åŠ›å— â†’ LM å¤´ï¼ˆæƒé‡ä¸ŽåµŒå…¥ç»‘å®šï¼‰ã€‚bias=False éµå¾ª GPT-3 è®ºæ–‡çš„å‘çŽ°ï¼Œå³åç½®åœ¨å¤§è§„æ¨¡ä¸‹ä¸å¿…è¦ã€‚

3. è®ç»ƒé…ç½®

æ‰¹æ¬¡å‡ ä½•ï¼š

micro_batch = 4 ä¸ªåºåˆ— Ã— 1024 token = 4096 token
grad_accum  = 8
æœ‰æ•ˆæ‰¹æ¬¡å¤§å° = 4096 Ã— 8 = 32768 token/æ­¥

32768 token/æ¥ä¸Ž Karpathy åœ¨ nanoGPT Shakespeare/OpenWebText è¿è¡Œä¸ä½¿ç”¨çš„æœ‰æ•ˆæ‰¹æ¬¡å¤§å°ç›¸åŒâ€”â€”å¯¹äºŽå• GPU æ¥è¯´æ˜¯ä¸€ä¸ªå¯é çš„é€‰æ‹©ã€‚

ä¼˜åŒ–å™¨ï¼ˆGPT-3 é£Žæ ¼ AdamWï¼‰ï¼š

lr            = 6e-4        # å³°å€¼å­¦ä¹ çŽ‡
min_lr        = 6e-5        # é€šè¿‡ä½™å¼¦è°ƒåº¦ 10 å€è¡°å‡
warmup_iters  = 2000        # çº¿æ€§é¢„çƒ­
max_iters     = 427000
lr_decay_iters = 427000     # æ•´ä¸ªè¿è¡ŒæœŸé—´å®Œå…¨ä½™å¼¦è¡°å‡
weight_decay  = 0.1
beta1, beta2  = 0.9, 0.95  # GPT-3 é»˜è®¤å€¼
grad_clip     = 1.0

ä½™å¼¦è¡°å‡è´¯ç©¿å…¨éƒ¨ 427k æ¥â€”â€”å¦ä¹ çŽ‡åœ¨ç»“æŸæ—¶æ°å¥½è¾¾åˆ° min_lrï¼Œè¿™æ˜¯æ ‡å‡†åšæ³•ï¼ˆæ— å†·å´é˜¶æ®µï¼‰ã€‚è¿™æ£æ˜¯ GPT-3/Chinchilla é£Žæ ¼è¿è¡Œçš„åšæ³•ã€‚

Chinchilla æ¡†æž¶ï¼š Chinchilla å¯¹ 124M å‚æ•°çš„æœ€ä¼˜è®ç»ƒé‡çº¦ä¸º 25 äº¿ tokenã€‚ä½ åœ¨ 140 äº¿ token ä¸Šè®ç»ƒï¼Œè¿™ç›¸å¯¹äºŽæœ´ç´ Chinchilla æ¯”ä¾‹æ˜¯çº¦ 5.6 å€çš„è¿‡åº¦è®¡ç®—ã€‚è¿™æ˜¯ä¸ºäº†æŽ¨ç†æ•ˆçŽ‡è€Œæœ‰æ„ä¸ºä¹‹â€”â€”ä¸€ä¸ªè¿‡åº¦è®ç»ƒçš„è¾ƒå°æ¨¡åž‹åœ¨æœåŠ¡æ—¶è¿è¡Œå¾—æ›´å¿«ï¼ˆâ€œLlama å“²å¦â€ï¼‰ã€‚ä½†ä¹Ÿæ„å‘³ç€è®ç»ƒåŽæœŸæ¢¯åº¦ä¿¡å·å‡å¼±ï¼Œè¿™è§£é‡Šäº†ä¸ºä»€ä¹ˆä½ åœ¨çº¦ 7 ä¸‡æ¥åŽçœ‹åˆ° val_loss å¢žåŠ ã€‚

4. ç¡¬ä»¶ä¸Žåžåé‡

æŒ‡æ ‡	å€¼
GPU	RTX 4070 12GB
æ˜¾å˜ä½¿ç”¨	~5050 MiB
åŠŸè€—	~208W
æ¸©åº¦	~65Â°C
æ¯æ¥æ—¶é—´	å¹³å‡ ~636 ms/æ¥ï¼Œç¨³æ€ 621 ms
åžåé‡	~51900 token/ç§’
MFU	14.44%

MFU åˆ†æžï¼š åœ¨ RTX 4070 ä¸Šè¿è¡Œ nanoGPT ä¸”ä½¿ç”¨ torch.compile æ—¶ï¼Œ14.44% çš„æ¨¡åž‹ FLOP åˆ©ç”¨çŽ‡å¯¹äºŽå•ä¸ªæ¶ˆè´¹çº§ GPU æ¥è¯´æ˜¯å…¸åž‹çš„ã€‚RTX 4070 çš„ç†è®º BF16 åžåé‡çº¦ä¸º 165 TFLOPSã€‚GPT-2 124M çš„å‰å‘+åå‘ä¼ æ’å¤§çº¦éœ€è¦ 6 Ã— N Ã— D = 6 Ã— 140 äº¿ Ã— 1.63 äº¿ â‰ˆ 1.37 Ã— 10^19 æ€» FLOPsã€‚ä¸Žå³°å€¼ MFU çš„å·®è·ç”±ä»¥ä¸‹åŽŸå› è§£é‡Šï¼š

å†…å˜å¸¦å®½é¥±å’Œï¼ˆæ¿€æ´»å€¼ã€ä¼˜åŒ–å™¨çŠ¶æ€ï¼‰
ç¼–è¯‘æ¥éª¤é—´çš„ Python å¼€é”€
æ¯ 1000 æ¥è¿›è¡Œè¯„ä¼°/æ£€æŸ¥ç‚¹ I/O

torch.compile é…åˆ BF16 åœ¨æ¤å‘æŒ¥äº†å…³é”®ä½œç”¨ï¼Œå¦åˆ™ä½ å¯èƒ½ä¼šå¾—åˆ° 8-10% çš„ MFUã€‚

5. æŸå¤±æ›²çº¿ä¸Žè¿‡æ‹Ÿåˆåˆ†æž

æ¥æ•°	val_loss	è¯´æ˜Ž
0	10.87	éšæœºåˆå§‹åŒ–ï¼ˆln(vocab) â‰ˆ ln(50257) â‰ˆ 10.8 âœ“ï¼‰
14k	5.87	å‰æœŸå¿«é€Ÿä¸‹é™
25k	~3.6	è¯æ³•ç»“æž„å¼€å§‹å‡ºçŽ°
70k	2.08	æœ€ä½³æ³›åŒ–
325k	2.79	è¿‡æ‹Ÿåˆé€æ¸æ˜¾çŽ°
427k	3.47	æœ€ç»ˆæ£€æŸ¥ç‚¹ï¼ˆå·²é€€åŒ–ï¼‰

æŸå¤±ä»Žç¬¬ 70k æ¥åˆ°ç¬¬ 427k æ¥å¢žåŠ æ˜¯å…³é”®ä¿¡å·ã€‚ä¿å˜çš„ ckpt.pt æ˜¯æœ€ç»ˆæ¥æ•°ï¼Œè€Œéžæœ€ä½³ val_lossâ€”â€”ä½ åº”å½“é‡è½½å¤§çº¦ç¬¬ 60-80k æ¥çš„æ£€æŸ¥ç‚¹ä»¥èŽ·å¾—æœ€ä½³æ¨¡åž‹ã€‚ä¸€ç§ best_val_loss æ£€æŸ¥ç‚¹ä¿å˜ç–ç•¥ï¼ˆä»…åœ¨ val_loss æ”¹å–„æ—¶ä¿å˜ï¼‰æœ¬å¯ä»¥æ•æ‰åˆ°è¿™ä¸€ç‚¹ã€‚

ä¸ºä»€ä¹ˆ val_loss åœ¨è®ç»ƒæŸå¤±ä¸‹é™çš„æƒ…å†µä¸‹åè€Œå¢žåŠ ï¼Ÿ å…¸åž‹çš„è¿‡æ‹Ÿåˆ + å¦ä¹ çŽ‡è¡°å‡å¯¼è‡´çš„åˆ†å¸ƒåç§»ï¼š

éšç€å¦ä¹ çŽ‡é€šè¿‡ä½™å¼¦è¡°å‡è‡³ 6e-5ï¼Œä¼˜åŒ–å™¨æ¥é•¿å˜å°
æ¨¡åž‹è¶Šæ¥è¶Šè®°å¿† 140 ä¸ªè®ç»ƒåˆ†ç‰‡ä¸çš„ç¡®åˆ‡ token åºåˆ—
é‚£ 1 ä¸ªéªŒè¯åˆ†ç‰‡ä¸Žæ¨¡åž‹æ‰€å¦å†…å®¹å‡ºçŽ°åç¦»â€”â€”æ¨¡åž‹è¿‡äºŽç´§å¯†åœ°æ‹Ÿåˆäº†è®ç»ƒåˆ†å¸ƒ
ç”±äºŽ dropout=0.0ï¼Œé™¤äº†æƒé‡è¡°å‡å¤–æ²¡æœ‰æ£åˆ™åŒ–

åœ¨çº¦ 5.6 å€ Chinchilla æ—¶å‡ºçŽ°çš„å‘æ•£è¯å®žï¼šåœ¨æ¤æ•°æ®é›†å¤§å°ä¸‹ï¼Œæ¨¡åž‹åœ¨ç¬¬ 70k æ¥å·¦å³å·²ç»é¥±å’Œã€‚å‰©ä½™çš„ 357k æ¥æ˜¯æ¢¯åº¦ä¸‹é™åœ¨è®°å¿†åŒ–è€Œéžæ³›åŒ–ä¸Šçš„åŠªåŠ›ã€‚

6. æ€»è®¡ç®—é¢„ç®—

æ€» token æ•°ï¼š140 äº¿
è®¡ç®—é‡ï¼ˆå‰å‘+åå‘ï¼‰ï¼š~6 Ã— 140 äº¿ Ã— 1.63 äº¿ = 1.37 Ã— 10^19 FLOPs
å®žé™…æ—¶é—´ï¼š75.4 å°æ—¶
GPU å°æ—¶ï¼š75.4 GPU å°æ—¶ï¼ˆRTX 4070ï¼‰
RTX 4070 TDPï¼š200Wï¼Œå®žé™…ï¼š208W
èƒ½è€—ï¼š75.4h Ã— 0.208 kW â‰ˆ 15.7 kWh

ä¸Ž GPT-2 åŽŸå§‹è®ç»ƒå¯¹æ¯”ï¼šOpenAI ä½¿ç”¨ 256 ä¸ª TPU v3 è®ç»ƒ GPT-2 1.5Bã€‚ä½ ç”¨ä¸€å—æ¶ˆè´¹çº§ GPU åœ¨ 3 å¤©å†…è®ç»ƒäº† 124Mã€‚ç›¸å¯¹æˆæœ¬è¯´æ˜Žäº†è®¡ç®—èµ„æºå¦‚ä½•å˜å¾—æ°‘ä¸»åŒ–ã€‚

7. æ¨¡åž‹å®žé™…å¦åˆ°çš„ä¸œè¥¿

åœ¨ val_loss ~2.08ï¼ˆæœ€ä½³ï¼‰æ—¶ï¼Œæ¨¡åž‹ç”Ÿæˆçš„ä»£ç å…·æœ‰ï¼š

åˆç†çš„å‡½æ•°ç¾åå’Œå˜é‡å
åŸºæœ¬çš„æŽ§åˆ¶æµï¼ˆif/else, for, returnï¼‰

åœ¨ val_loss 3.47ï¼ˆæœ€ç»ˆï¼‰æ—¶ï¼Œç”Ÿæˆè´¨é‡åœ¨æœªè§ä»£ç ä¸Šå®žé™…ä¸Šæ›´å·®ï¼Œå°½ç®¡ç»è¿‡äº†æ›´å¤šè®ç»ƒæ¥éª¤â€”â€”æ¨¡åž‹å†…åŒ–çš„è®ç»ƒæ•°æ®ä¸ŽéªŒè¯åˆ†ç‰‡ä¹‹é—´çš„åˆ†å¸ƒå·®è·æ˜¯çœŸå®žå˜åœ¨çš„ã€‚

8. ç»éªŒæ•™è® / ä¸‹ä¸€æ¥

å½“å‰è¿è¡Œçš„å³æ—¶ä¿®å¤ï¼š

# åœ¨ train.py ä¸­æ·»åŠ ï¼šä»…åœ¨ val_loss æ”¹å–„æ—¶ä¿å­˜æ£€æŸ¥ç‚¹
if val_loss < best_val_loss:
    best_val_loss = val_loss
    torch.save(checkpoint, 'ckpt_best.pt')

å¯¹äºŽä¸‹ä¸€æ¬¡è¿è¡Œâ€”â€”ä¿®å¤è¿‡æ‹Ÿåˆï¼š

åœ¨ç¬¬ ~80k æ¥æå‰åœæ¢ â€”â€” ä½ æœ‰ 140 äº¿ tokenï¼Œä½†æ¨¡åž‹åœ¨çº¦ 25 äº¿ï¼ˆChinchillaï¼‰æ—¶é¥±å’Œã€‚åŽ‹ç¼©ç›¸åŒçš„å¦ä¹ çŽ‡è°ƒåº¦ï¼Œè®ç»ƒè‡³ 80k æ¥ï¼ˆçº¦ 26 äº¿ tokenï¼‰ã€‚
æ·»åŠ dropout â€”â€” dropout=0.1 å°†å‡ç¼“è¿‡æ‹Ÿåˆï¼Œä½†ä¼šæŸå¤±çº¦ 5% çš„åžåé‡ã€‚
æ›´å¤šéªŒè¯å¤šæ ·æ€§ â€”â€” 1 ä¸ªéªŒè¯åˆ†ç‰‡ä¿¡å·å¼±ã€‚ä½¿ç”¨ 3-5 ç§ä¸åŒè¯è¨€çš„åˆ†ç‰‡ä½œä¸ºéªŒè¯é›†ï¼Œä»¥æ•æ‰è¯è¨€ç‰¹å®šçš„è¿‡æ‹Ÿåˆã€‚
æ‰©å¤§è§„æ¨¡ â€”â€” ä½ ç”¨äºŽ GPT-2 760M çš„ AMI MI300X å¯ä»¥åœ¨çº¦ 6-8 å°æ—¶å†…ä»¥ Chinchilla æœ€ä¼˜æ–¹å¼è®ç»ƒè¿™ä¸ª 124M æ¨¡åž‹ã€‚æˆ–è€…ç”¨å®ƒåœ¨è¿™ä¸ª 140 äº¿ token æ•°æ®é›†ä¸Šè®ç»ƒä¸€ä¸ª 760M æ¨¡åž‹ï¼š6 Ã— 140 äº¿ Ã— 7.6 äº¿ â‰ˆ 6.4 Ã— 10^19 FLOPs â€”â€” åœ¨ MI300X ä¸Šçº¦éœ€ 12-15 å°æ—¶ï¼Œè€Œåœ¨ 4070 ä¸Šåˆ™éœ€è¦æ•°æœˆã€‚
æ£ç¡®è¯„ä¼° â€”â€” åœ¨ HumanEval ä»£ç ç‰‡æ®µä¸Šçš„å›°æƒ‘åº¦æˆ–ç®€å•è¡¥å…¨ä¸Šçš„ pass@k å¯ä»¥æä¾›è¶…è¶Š val_loss çš„å…·ä½“ä»£ç è´¨é‡æŒ‡æ ‡ã€‚

æ€»ç»“ï¼š å®Œæ•´çš„ç«¯åˆ°ç«¯è®ç»ƒã€‚75 å°æ—¶ï¼Œ140 äº¿ tokenï¼Œæ¶ˆè´¹çº§ç¡¬ä»¶ï¼Œè‡ªå®šä¹‰æµæ°´çº¿ã€‚çœŸæ£çš„èƒœåˆ©åœ¨äºŽåŸºç¡€è®¾æ–½ â€”â€” ä¸‹è½½ â†’ åˆ†è¯ â†’ è®ç»ƒ â†’ æ£€æŸ¥ç‚¹å‡æ£å¸¸å·¥ä½œã€‚æ¨¡åž‹åœ¨ç¬¬ ~70k æ¥è¾¾åˆ°å³°å€¼ï¼ˆval_loss 2.08ï¼‰ï¼ŒåŽæœŸé€€åŒ–æ˜¯åœ¨å›ºå®šæ•°æ®é›†ä¸Šè®ç»ƒåˆ° Chinchilla çš„ 5.6 å€ä¸”æ— æ£åˆ™åŒ–æƒ…å†µä¸‹çš„é¢„æœŸç»“æžœã€‚ä¸‹ä¸€æ¬¡è¿è¡Œï¼šæå‰åœæ¢ + åŽ‹ç¼©è°ƒåº¦ = åœ¨ 1/5 çš„æ—¶é—´å†…èŽ·å¾—æ›´å¥½çš„æ¨¡åž‹ã€‚

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

GPT-2 124M GitHub ä»£ç è®­ç»ƒ | AIç”Ÿæˆå’Œç¿»è¯‘

GPT-2 124M åœ¨ GitHub ä»£ç ä¸Šçš„è®­ç»ƒ â€”â€” å…¨é¢æ€»ç»“

1. æµæ°´çº¿æ¦‚è§ˆ

2. æ¨¡åž‹æž¶æž„

3. è®­ç»ƒé…ç½®

4. ç¡¬ä»¶ä¸Žåžåé‡

5. æŸå¤±æ›²çº¿ä¸Žè¿‡æ‹Ÿåˆåˆ†æž