GPU æ¨¡åž‹è®ç»ƒæˆæœ¬ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.03

é—®é¢˜ï¼šå…ˆåœ¨ä¾¿å®œçš„ DigitalOcean æœºå™¨ä¸Šä¸‹è½½ 100GB æ–‡æœ¬æ•°æ®ï¼Œå‡†å¤‡å°±ç»ªåŽï¼Œå†å¯åŠ¨ H200 GPU å®žä¾‹å¹¶è¿›è¡Œå†…éƒ¨æ•°æ®ä¼ è¾“ä»¥è¿›è¡Œè®ç»ƒï¼Œè¿™æ˜¯å¦æ˜¯ä¸€ä¸ªå¥½çš„çœé’±æ–¹æ³•ï¼Ÿ

å›žç”ï¼š

æ˜¯çš„â€”â€”è¿™ä¸ä»…æ˜¯ä¸€ä¸ªéžå¸¸å¥½çš„ç–ç•¥ï¼Œä¹Ÿæ˜¯æœ€å¸¸ç”¨çš„çœé’±ç–ç•¥ä¹‹ä¸€ã€‚ä½ çš„æƒ³æ³•åœ¨æŠ€æœ¯ä¸Šæ˜¯å®Œå…¨åˆç†çš„ï¼Œè®¸å¤šå›¢é˜Ÿéƒ½æ˜¯è¿™ä¹ˆåšçš„ã€‚ä»¥ä¸‹æ˜¯ä¸ºä»€ä¹ˆè¿™ä¸ªæ–¹æ¡ˆæœ‰æ•ˆä»¥åŠå¦‚ä½•æ£ç¡®æ‰§è¡Œã€‚

ä¸ºä»€ä¹ˆè¿™èƒ½çœé’±

H200 GPU å®žä¾‹æžå…¶æ˜‚è´µã€‚ä½ å¸Œæœ› GPU æ—¶é—´ = ä»…æ‰§è¡Œè®ç»ƒï¼Œä¸æ¶µç›–å…¶ä»–ä»»ä½•æ“ä½œã€‚

é”™è¯¯çš„ workflowï¼ˆå·¥ä½œæµï¼‰ï¼š

å¯åŠ¨ H200 â†’ ä¸‹è½½ 100GB â†’ é¢„å¤„ç† â†’ tokenize â†’ è®­ç»ƒ

ä½ ä¼šåœ¨æ‰§è¡Œ CPU ä»»åŠ¡æ—¶æµªè´¹æ•°å°æ—¶çš„ GPU è®¡è´¹ã€‚

æ£ç¡®çš„ workflowï¼ˆä½ çš„æƒ³æ³•ï¼‰ï¼š

ä¾¿å®œçš„ CPU æœºå™¨ï¼š
  ä¸‹è½½æ•°æ®
  æ¸…æ´—æ•°æ®
  tokenize
  æ‰“åŒ… dataset
  åˆ†ç‰‡ (shard) dataset

ç„¶åŽï¼š
å¯åŠ¨ H200 â†’ ä¼ è¾“ â†’ ç«‹å³è®­ç»ƒ

çŽ°åœ¨ GPU ä»…ç”¨äºŽè®ç»ƒã€‚

è¿™å¯ä»¥èŠ‚çœ 50â€“90% çš„æˆæœ¬ã€‚

æ›´å¥½åšæ³•ï¼šå…ˆå®Œæˆæ‰€æœ‰é¢„å¤„ç†

åœ¨ä¾¿å®œçš„æœºå™¨ä¸Šï¼Œå‡†å¤‡å¥½ä¸€åˆ‡ï¼š

ç¬¬ 1 æ¥ â€” ä¸‹è½½åŽŸå§‹æ•°æ®

100GB æ–‡æœ¬

ç¬¬ 2 æ¥ â€” æ¸…æ´—ä¸ŽåŽ»é‡ (Clean & deduplicate)

ç§»é™¤ï¼š

é‡å¤å†…å®¹
HTML åžƒåœ¾ä»£ç
é”™è¯¯çš„ç¼–ç å½¢å¼
æžçŸçš„è¡Œ

è¿™å¯ä»¥å°†æ•°æ®ä»Ž 100GB å‡å°‘åˆ° 60GB å·¦å³ã€‚

ç¬¬ 3 æ¥ â€” Tokenize (éžå¸¸é‡è¦)

åœ¨å¯åŠ¨ GPU ä¹‹å‰å®Œæˆæ¤æ“ä½œã€‚

ç¤ºä¾‹ï¼š

python tokenize.py

è¾“å‡ºï¼š

dataset.bin
dataset.idx

è¿™æ · GPU å°±ä¸ä¼šåœ¨ tokenizing ä¸Šæµªè´¹æ—¶é—´ã€‚

ç¬¬ 4 æ¥ â€” å¯¹æ•°æ®é›†è¿›è¡Œåˆ†ç‰‡ (Shard dataset)

åˆ‡åˆ†ä¸ºå¤šä¸ª chunkï¼š

train_000.bin
train_001.bin
train_002.bin
...

è¿™æ ·å¯ä»¥æé«˜ï¼š

åŠ è½½é€Ÿåº¦
åˆ†å¸ƒå¼è®ç»ƒ (distributed training) æ•ˆçŽ‡
æ¢å¤è®ç»ƒ (resume training) çš„ä¾¿åˆ©æ€§

ç¬¬ 5 æ¥ â€” å¯åŠ¨ H200

ç›´åˆ°æ¤æ—¶æ‰åˆ›å»º GPU å®žä¾‹ï¼š

H200 å¯åŠ¨
scp æ•°æ®é›†åˆ° GPU
ç«‹å³å¼€å§‹è®­ç»ƒ

å®Œç¾Žã€‚

æ›´çœé’±çš„æŠ€å·§ï¼ˆè¿›é˜¶ç‰ˆï¼‰

ç”šè‡³ä¸éœ€è¦ä¼ è¾“ï¼Œç›´æŽ¥ä½¿ç”¨ shared storageï¼š

é€‰é¡¹ Aï¼š

å°†æ•°æ®é›†ä¸Šä¼ åˆ°å¯¹è±¡å˜å‚¨ (object storage / S3)
åœ¨ GPU å®žä¾‹ä¸ŠæŒ‚è½½ (mount)

é€‰é¡¹ Bï¼š

ä½¿ç”¨å†…éƒ¨ VPC ç½‘ç»œ
é€šè¿‡ NFS æŒ‚è½½

é€‰é¡¹ Cï¼ˆæœ€ä½³ï¼‰ï¼š

å¯¹ç£ç›˜åˆ¶ä½œå¿«ç…§ (snapshot)
å°†å¿«ç…§ä½œä¸ºç£ç›˜æŒ‚è½½åˆ° H200

ç„¶åŽï¼š

å¯åŠ¨ H200
æŒ‚è½½ç£ç›˜
ç«‹å³è®­ç»ƒ

è¿™æ˜¯æœ€å¿«ä¸”æœ€ä¾¿å®œçš„æ–¹å¼ã€‚

æˆæœ¬æœ€ä¼˜åŒ–çš„ Pipeline

ç†æƒ³çš„å·¥ä½œæµï¼š

ä¾¿å®œçš„ CPU Droplet
    â†“
ä¸‹è½½æ•°æ®é›†
æ¸…æ´—æ•°æ®é›†
Tokenize æ•°æ®é›†
Shard æ•°æ®é›†
    â†“
åˆ¶ä½œç£ç›˜å¿«ç…§ (Snapshot)
    â†“
ä»Žå¿«ç…§åˆ›å»º H200 å®žä¾‹
    â†“
ç«‹å³è®­ç»ƒ

è¿™å°±æ˜¯ä¸“ä¸š LLM è®ç»ƒçš„å®žè·µæ–¹å¼ã€‚

é¢å¤–çš„ä¼˜åŒ–ï¼ˆå¤šæ•°äººä¼šå¿˜è®°ï¼‰

åŒæ—¶å‡†å¤‡å¥½ï¼š

tokenizer æ–‡ä»¶
config.yaml
è®ç»ƒè„šæœ¬ (training script)
wandb (å·²å…³é—æˆ–å·²é…ç½®å°±ç»ª)
checkpoint æ–‡ä»¶å¤¹

ç¡®ä¿ GPU åªéœ€æ‰§è¡Œï¼š

python train.py

å¹¶ç«‹åˆ»å¼€å§‹è¿è½¬ã€‚

å¯¹ä½ æƒ³æ³•çš„ç»“è®º

æ˜¯çš„ï¼Œä½ çš„æ–¹æ³•æ˜¯ï¼š

æ£ç¡®çš„ âœ…
ä¸“ä¸šçš„ âœ…
è¡Œä¸šé€šç”¨çš„ âœ…
èŠ‚çœå¤§é‡é‡‘é’±çš„ âœ…
å€¼å¾—æŽ¨èçš„ âœ…

ä½ æ£åœ¨ä»¥ GPU æ—¶é—´ä¼˜åŒ– (GPU-time optimization) çš„æ€ç»´æ€è€ƒï¼Œè¿™æ£æ˜¯äººä»¬ä½Žæˆæœ¬è®ç»ƒæ¨¡åž‹çš„æ ¸å¿ƒæ–¹å¼ã€‚

è¿™ç§æ€ç»´æ¨¡å¼åŒæ ·é€‚ç”¨äºŽè®ç»ƒï¼š

nanoGPT
Qwen å¾®è°ƒ
LLaMA å¾®è°ƒ
è‡ªå®šä¹‰ LLMs

ä½ çš„æ–¹å‘å®Œå…¨æ£ç¡®ã€‚

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

GPU æ¨¡åž‹è®ç»ƒæˆæœ¬ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

ä¸ºä»€ä¹ˆè¿™èƒ½çœé’±

æ›´å¥½åšæ³•ï¼šå…ˆå®Œæˆæ‰€æœ‰é¢„å¤„ç†

ç¬¬ 1 æ¥ â€” ä¸‹è½½åŽŸå§‹æ•°æ®

ç¬¬ 2 æ¥ â€” æ¸…æ´—ä¸ŽåŽ»é‡ (Clean & deduplicate)

ç¬¬ 3 æ¥ â€” Tokenize (éžå¸¸é‡è¦)

ç¬¬ 4 æ¥ â€” å¯¹æ•°æ®é›†è¿›è¡Œåˆ†ç‰‡ (Shard dataset)

ç¬¬ 5 æ¥ â€” å¯åŠ¨ H200

æ›´çœé’±çš„æŠ€å·§ï¼ˆè¿›é˜¶ç‰ˆï¼‰

æˆæœ¬æœ€ä¼˜åŒ–çš„ Pipeline

é¢å¤–çš„ä¼˜åŒ–ï¼ˆå¤šæ•°äººä¼šå¿˜è®°ï¼‰

å¯¹ä½ æƒ³æ³•çš„ç»“è®º

Sunbelt Computer Software

PL/B Language Development and Support

GPU æ¨¡åž‹è®­ç»ƒæˆæœ¬ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

ä¸ºä»€ä¹ˆè¿™èƒ½çœé’±

æ›´å¥½åšæ³•ï¼šå…ˆå®Œæˆæ‰€æœ‰é¢„å¤„ç†

ç¬¬ 1 æ­¥ â€” ä¸‹è½½åŽŸå§‹æ•°æ®

ç¬¬ 2 æ­¥ â€” æ¸…æ´—ä¸ŽåŽ»é‡ (Clean & deduplicate)

ç¬¬ 3 æ­¥ â€” Tokenize (éžå¸¸é‡è¦)

ç¬¬ 4 æ­¥ â€” å¯¹æ•°æ®é›†è¿›è¡Œåˆ†ç‰‡ (Shard dataset)

ç¬¬ 5 æ­¥ â€” å¯åŠ¨ H200

æ›´çœé’±çš„æŠ€å·§ï¼ˆè¿›é˜¶ç‰ˆï¼‰

æˆæœ¬æœ€ä¼˜åŒ–çš„ Pipeline

é¢å¤–çš„ä¼˜åŒ–ï¼ˆå¤šæ•°äººä¼šå¿˜è®°ï¼‰

å¯¹ä½ æƒ³æ³•çš„ç»“è®º

GPU æ¨¡åž‹è®ç»ƒæˆæœ¬ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

ä¸ºä»€ä¹ˆè¿™èƒ½çœé’±

æ›´å¥½åšæ³•ï¼šå…ˆå®Œæˆæ‰€æœ‰é¢„å¤„ç†

ç¬¬ 1 æ¥ â€” ä¸‹è½½åŽŸå§‹æ•°æ®

ç¬¬ 2 æ¥ â€” æ¸…æ´—ä¸ŽåŽ»é‡ (Clean & deduplicate)

ç¬¬ 3 æ¥ â€” Tokenize (éžå¸¸é‡è¦)

ç¬¬ 4 æ¥ â€” å¯¹æ•°æ®é›†è¿›è¡Œåˆ†ç‰‡ (Shard dataset)

ç¬¬ 5 æ¥ â€” å¯åŠ¨ H200

æ›´çœé’±çš„æŠ€å·§ï¼ˆè¿›é˜¶ç‰ˆï¼‰

æˆæœ¬æœ€ä¼˜åŒ–çš„ Pipeline

é¢å¤–çš„ä¼˜åŒ–ï¼ˆå¤šæ•°äººä¼šå¿˜è®°ï¼‰