iframe-proxy | Sunbelt Computer Software

å¤šèŠ‚ç‚¹CPUè®ç»ƒçŠ¶æ€ | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.06

ä»¥ä¸‹æ˜¯æˆ‘ä»¬çš„è¿›å±•æ€»ç»“å’Œå½“å‰çŠ¶æ€ï¼š

å¤šèŠ‚ç‚¹CPUåˆ†å¸ƒå¼è®ç»ƒè®¾ç½® â€” çŠ¶æ€æŠ¥å‘Š

æˆ‘ä»¬å‘çŽ°çš„å†…å®¹

æœºå™¨æ¸…å•ï¼š

192.168.1.36 (lzw@) â€” ä¸»èŠ‚ç‚¹
  CPU:  i9-13900KF, 24æ ¸/32çº¿ç¨‹
  å†…å­˜: 62 GB
  GPU:  RTX 4070 12GB (CUDA)
  Torch: 2.9.1+cu128

192.168.1.47 (xiaoxin@xx) â€” å·¥ä½œèŠ‚ç‚¹
  CPU:  i5-12450H, 8æ ¸/12çº¿ç¨‹
  å†…å­˜: 16 GB
  GPU:  Intel UHD (é›†æˆæ˜¾å¡ï¼Œæ— CUDA)
  Torch: 2.9.1+cpu (åˆšå®‰è£…)

å…³é”®æž¶æž„æ´žå¯Ÿï¼š Nanochat å¹¶æœªä½¿ç”¨ PyTorch çš„ DDP å°è£…å™¨ã€‚ç›¸åï¼Œå®ƒæœ‰ä¸€ä¸ªè‡ªå®šä¹‰çš„ DistMuonAdamW ä¼˜åŒ–å™¨ï¼Œç›´æŽ¥ä½¿ç”¨ dist.all_reduce / dist.reduce_scatter_tensor / dist.all_gather_into_tensor å¤„ç†æ¢¯åº¦åŒæ¥ â€”â€” è¿™æ˜¯ä¸€ç§ ZeRO-2 é£Žæ ¼çš„æ–¹æ³•ã€‚

å·²åº”ç”¨çš„ä»£ç è¡¥ä¸ï¼ˆ3ä¸ªæ–‡ä»¶ï¼‰

1. nanochat/common.py â€” compute_init() ä¸º CPU DDP æ·»åŠ äº† Gloo åŽç«¯æ”¯æŒï¼š

elif is_ddp_requested and device_type == "cpu":
    device = torch.device("cpu")
    dist.init_process_group(backend="gloo")
    dist.barrier()

2. nanochat/flash_attention.py â€” _resolve_impl() æ·»åŠ äº† NANOCHAT_FORCE_SDPA=1 çŽ¯å¢ƒå˜é‡è¦†ç›–ã€‚Flash Attention ä»…é€‚ç”¨äºŽ CUDAï¼›CPU è®ç»ƒå¿…é¡»ä½¿ç”¨ PyTorch SDPA å›žé€€æ–¹æ¡ˆã€‚

3. nanochat/optim.py â€” DistMuonAdamW æ·»åŠ äº† _AsyncWorkWrapper + _async_op() è¾…åŠ©å‡½æ•°ï¼Œå› ä¸º Gloo ä¸æ”¯æŒ Work.get_future()ï¼ˆNCCL æ”¯æŒï¼‰ã€‚æ‰€æœ‰ 5 ä¸ª .get_future() è°ƒç”¨å‡è¢«å°è£…ï¼š

class _AsyncWorkWrapper:
    def __init__(self, work):
        self._work = work
    def wait(self):
        self._work.wait()

def _async_op(work):
    try:
        return work.get_future()
    except RuntimeError:
        return _AsyncWorkWrapper(work)

4. nanochat/dataset.py æ·»åŠ äº† NANOCHAT_DATA_DIR çŽ¯å¢ƒå˜é‡è¦†ç›–ï¼Œä½¿ä¸¤å°æœºå™¨èƒ½ä½¿ç”¨å…±äº«çš„æ•°æ®åˆ†ç‰‡åé›†ã€‚

å·²ç”Ÿæ•ˆçš„éƒ¨åˆ†

åœ¨ 1.36 ä¸Šå•è¿›ç¨‹ CPU è®ç»ƒï¼š âœ…

step 00001 | loss: 10.397800 | tok/sec: 45

åœ¨ 1.36 ä¸Šå•èŠ‚ç‚¹åŒè¿›ç¨‹ CPU DDPï¼ˆGlooï¼‰ï¼š âœ…

step 00001 | loss: 10.397759 | tok/sec: 89  (2å€åŠ é€Ÿ!)

Gloo è¿žæŽ¥æˆåŠŸï¼Œæ¢¯åº¦åŒæ¥æ£å¸¸ï¼Œæ£€æŸ¥ç‚¹ä¿å˜æ£å¸¸ã€‚

ä»éœ€å®Œæˆçš„éƒ¨åˆ†

1. æ•°æ®ä¸€è‡´æ€§ï¼šä¸¤å°æœºå™¨éœ€è¦ç›¸åŒçš„ parquet æ–‡ä»¶ã€‚å½“å‰çŠ¶æ€ï¼š

1.36ï¼š~/.cache/nanochat/base_data_climbmix/ ä¸æœ‰ 201 ä¸ªåˆ†ç‰‡ï¼ˆ18GBï¼‰
1.47ï¼š~/.cache/nanochat/base_data_climbmix/ ä¸æœ‰ 4 ä¸ªåˆ†ç‰‡ï¼ˆ352MBï¼‰
å·²åœ¨ 1.36 ä¸Šåˆ›å»ºäº†åŒ…å« 4 ä¸ªåˆ†ç‰‡çš„ base_data_small/ ç¬¦å·é“¾æŽ¥ç›®å½•
éœ€è¦åœ¨ä¸¤å°æœºå™¨ä¸Šéƒ½ä»¥ NANOCHAT_DATA_DIR=~/.cache/nanochat/base_data_small è¿è¡Œ

2. ç«¯å£ 29500 è®¿é—®ï¼šä¸»èŠ‚ç‚¹ï¼ˆ1.36ï¼‰éœ€è¦ç¡®ä¿ 1.47 èƒ½è®¿é—®ç«¯å£ 29500ã€‚å·²éªŒè¯ç½‘ç»œè¿žæŽ¥æ£å¸¸ï¼ˆSSH ç«¯å£ 22 å¯è¾¾ï¼‰ã€‚

3. æœ€ç»ˆå¤šèŠ‚ç‚¹æµ‹è¯•å°šæœªè¿è¡Œã€‚æ‰€æœ‰è¡¥ä¸å·²åœ¨ä¸¤å°æœºå™¨ä¸ŠåŒæ¥ã€‚

å¦‚ä½•è¿è¡Œå¤šèŠ‚ç‚¹è®ç»ƒ

åœ¨ 1.36ï¼ˆä¸»èŠ‚ç‚¹ï¼‰â€”â€” ç»ˆç«¯ 1ï¼š

cd /mnt/data/nanochat && source .venv/bin/activate
export NANOCHAT_BASE_DIR=~/.cache/nanochat
export NANOCHAT_DATA_DIR=~/.cache/nanochat/base_data_small
export NANOCHAT_FORCE_SDPA=1
export OMP_NUM_THREADS=8
torchrun --nnodes=2 --nproc_per_node=1 --node_rank=0 \
    --master_addr=192.168.1.36 --master_port=29500 \
    -m scripts.base_train -- \
    --device-type cpu --depth 4 --max-seq-len 512 \
    --device-batch-size 2 --total-batch-size 2048 \
    --num-iterations 20 --eval-every 10 --tracker none --run dist-cpu-2node

åœ¨ 1.47ï¼ˆå·¥ä½œèŠ‚ç‚¹ï¼‰â€”â€” ç»ˆç«¯ 2ï¼š

cd ~/projects/nanochat && source .venv/bin/activate
export NANOCHAT_BASE_DIR=~/.cache/nanochat
export NANOCHAT_FORCE_SDPA=1
export OMP_NUM_THREADS=4
torchrun --nnodes=2 --nproc_per_node=1 --node_rank=1 \
    --master_addr=192.168.1.36 --master_port=29500 \
    -m scripts.base_train -- \
    --device-type cpu --depth 4 --max-seq-len 512 \
    --device-batch-size 2 --total-batch-size 2048 \
    --num-iterations 20 --eval-every 10 --tracker none --run dist-cpu-2node

å¯åŠ¨è„šæœ¬ä¹Ÿå·²ä¿å˜ï¼š

1.36 ä¸Šçš„ /mnt/data/nanochat/run_dist_cpu_master.sh
1.47 ä¸Šçš„ ~/projects/nanochat/run_dist_cpu_worker.sh

å…³é”®è¦ç‚¹

æ— éœ€ DDP å°è£…å™¨ï¼š Nanochat ä½¿ç”¨è‡ªå®šä¹‰ä¼˜åŒ–å™¨çº§åˆ«çš„æ¢¯åº¦åŒæ¥ï¼ˆZeRO-2 é£Žæ ¼ï¼‰
å¼‚æ¥æ“ä½œï¼š NCCL æ”¯æŒ get_future() å®žçŽ°å¼‚æ¥é€šä¿¡ï¼›Gloo éœ€è¦åŒæ¥å›žé€€æ–¹æ¡ˆ
Flash Attention ä»…é™ CUDAï¼š CPU è®ç»ƒå¿…é¡»å¼ºåˆ¶ä½¿ç”¨ SDPA å›žé€€æ–¹æ¡ˆ
torchrun çš„ -- åˆ†éš”ç¬¦ï¼š è„šæœ¬å‚æ•°ä¸çš„ --run ä¸Ž torchrun çš„ --run-path å†²çªï¼›ä½¿ç”¨ -- è¿›è¡Œåˆ†éš”
æ‰¹æ¬¡å¤§å°è®¡ç®—ï¼š total_batch_size å¿…é¡»èƒ½è¢« device_batch_size Ã— seq_len Ã— world_size æ•´é™¤

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

å¤šèŠ‚ç‚¹CPUè®­ç»ƒçŠ¶æ€ | AIç”Ÿæˆå’Œç¿»è¯‘

å¤šèŠ‚ç‚¹CPUåˆ†å¸ƒå¼è®­ç»ƒè®¾ç½® â€” çŠ¶æ€æŠ¥å‘Š

æˆ‘ä»¬å‘çŽ°çš„å†…å®¹

å·²åº”ç”¨çš„ä»£ç è¡¥ä¸ï¼ˆ3ä¸ªæ–‡ä»¶ï¼‰