ç†è§£ROCmå†…æ ¸ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.05

æˆ‘çŽ°åœ¨å¯¹æ•´ä¸ªä»£ç åº“æœ‰äº†é€å½»çš„ç†è§£ã€‚ä»¥ä¸‹æ˜¯å…¨é¢çš„æ¦‚å†µï¼š

ROCm å†…æ ¸ä¼˜åŒ–ï¼šå…¨è²Œæ¦‚è§ˆ

æœ¬ä»“åº“ï¼ˆ/Users/lzwjava/projects/ROCmï¼‰æ˜¯ä¸€ä¸ªå…ƒä»“åº“â€”â€”å³é€šè¿‡ Google çš„ repo å·¥å…·ç®¡ç†çº¦ 30+ åé¡¹ç›®çš„æ¸…å•æ–‡ä»¶ï¼ˆdefault.xmlï¼‰ã€‚å®žé™…çš„å†…æ ¸æºä»£ç ä½äºŽå„ä¸ªç‹¬ç«‹çš„ä»“åº“ä¸ï¼ˆå¦‚ llvm-projectã€composable_kernelã€rocm-libraries ç‰ï¼‰ï¼Œéœ€è¦é€šè¿‡ repo sync æ‹‰å–ã€‚ä»¥ä¸‹æ˜¯æ ¹æ®æ–‡æ¡£æ€»ç»“çš„ ROCm ç”Ÿæ€ç³»ç»Ÿä¸å†…æ ¸ä¼˜åŒ–çš„è¿ä½œæ–¹å¼ï¼š

å†…æ ¸ç¼–å†™â€”â€”é€‰æ‹©ä½ çš„å·¥å…·

åœ¨ ROCm ä¸Šç¼–å†™å†…æ ¸ä¸»è¦æœ‰ä¸‰æ¡è·¯å¾„ï¼š

HIP (C++)ï¼šåŽŸç”Ÿæ–¹å¼ã€‚ä½¿ç”¨ HIP çš„è¿è¡Œæ—¶ API å’Œå†…æ ¸è¯è¨€ç¼–å†™ C++ å†…æ ¸ã€‚å¯å€ŸåŠ© hipify-clang ç§»æ¤çŽ°æœ‰ CUDA ä»£ç ã€‚å†…æ ¸é€šè¿‡ AMDGPU LLVM åŽç«¯ç¼–è¯‘ä¸º GCN/RDNA ISAã€‚

OpenCL (C)ï¼šè·¨å¹³å°æ ‡å‡†ã€‚ROCm æ”¯æŒ AMD GPU ä¸Šçš„ OpenCL 2.0+ã€‚

Triton (Python)ï¼šç”¨ Python ç¼–å†™ GPU å†…æ ¸ã€‚Triton é€šè¿‡ MLIR â†’ LLVM IR â†’ AMDGPU ISA çš„ç¼–è¯‘æµç¨‹ã€‚åœ¨ AI å·¥ä½œè´Ÿè½½ä¸è¶Šæ¥è¶Šæµè¡Œã€‚æ–‡æ¡£ä¸æœ‰å¤§é‡å…³äºŽ Triton ä¼˜åŒ–çš„ç« èŠ‚ï¼ˆå‚è§ workload.rst ç¬¬ 1276-1532 è¡Œï¼‰ã€‚

å†…æ ¸ä¼˜åŒ–æµæ°´çº¿

ç¬¬ä¸€æ¥ï¼šå…ˆåšæ€§èƒ½åˆ†æž â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€ æ°¸è¿œä¸è¦çŒœæµ‹ç“¶é¢ˆåœ¨å“ªé‡Œã€‚ROCm æä¾›äº†åˆ†å±‚çš„æ€§èƒ½åˆ†æžå·¥å…·æ ˆï¼š

PyTorch Profiler â†’ é«˜çº§æ—¶é—´çº¿ï¼ˆå¯¼å‡ºåˆ° Perfetto UIï¼‰ ROCm Systems Profiler â†’ CPU+GPU è·Ÿè¸ªã€å†…å˜ã€ä¸Šä¸‹æ–‡åˆ‡æ¢ ROCProfiler (rocprof) â†’ åŽŸå§‹ GPU ç¡¬ä»¶è®¡æ•°å™¨ï¼ˆæ–‡æœ¬/CSV è¾“å‡ºï¼‰ ROCm Compute Profiler â†’ å¼•å¯¼å¼åˆ†æžï¼šroofline æ¨¡åž‹ã€å…‰é€Ÿã€å†…å˜å›¾ã€åŸºçº¿å¯¹æ¯”ï¼ˆGUI + CLIï¼‰ ROCr Debug Agent â†’ å†…å˜æ•…éšœæ•èŽ·ã€wavefront è½¬å‚¨

å¿«é€Ÿæ€§èƒ½åˆ†æžç¤ºä¾‹ï¼š rocprof â€“stats ./my_kernel_app # æ”¶é›†æ‰€æœ‰è®¡æ•°å™¨ rocprof â€“hip-trace ./my_kernel_app # HIP API è·Ÿè¸ª

ç¬¬äºŒæ¥ï¼šè¯†åˆ«ç“¶é¢ˆ â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€ æ€§èƒ½æœ¯è¯è¡¨ï¼ˆdocs/reference/glossary/performance.rstï¼‰å®šä¹‰äº†å…³é”®æ¦‚å¿µï¼š

Compute-bound â†’ å†…æ ¸å—ç®—æœ¯åžåé‡é™åˆ¶ï¼ˆALU å¿™ç¢Œï¼‰ Memory-bound â†’ å†…æ ¸å— HBM å¸¦å®½é™åˆ¶ï¼ˆåŠ è½½/å˜å‚¨å ä¸»å¯¼ï¼‰ Occupancy â†’ æ´»è·ƒ wavefront æ•°ä¸Žæ¯ä¸ª CU æœ€å¤§å¯èƒ½æ•°çš„æ¯”å€¼ Register pressure â†’ VGPR è¿‡å¤š = æ¯ä¸ª CU çš„ wave å‡å°‘ï¼Œéšè—å»¶è¿Ÿèƒ½åŠ›ä¸‹é™ Bank conflicts â†’ LDS è®¿é—®ä¸²è¡ŒåŒ–è€Œéžå¹¶è¡ŒåŒ– Wavefront divergence â†’ åŒä¸€ wave å†…çš„çº¿ç¨‹èµ°ä¸åŒåˆ†æ”¯

å¦‚æžœ GPU æ˜¯ç“¶é¢ˆï¼ˆè€Œéž CPU/å†…æ ¸å¯åŠ¨å¼€é”€ï¼‰ï¼Œåˆ™è¿›å…¥å†…æ ¸çº§æ€§èƒ½åˆ†æžã€‚ ROCm Compute Profiler ä¼šå¤šæ¬¡è¿è¡Œä½ çš„å†…æ ¸ï¼Œæ”¶é›†ä¸åŒçš„è®¡æ•°å™¨é›†åˆï¼Œç„¶åŽç»™å‡º roofline æ¨¡åž‹ï¼Œç²¾ç¡®æ˜¾ç¤ºä½ å¤„äºŽå“ªä¸ªä½ç½®ã€‚

ç¬¬ä¸‰æ¥ï¼šè‡ªåŠ¨è°ƒä¼˜ï¼ˆæœ€ç®€å• â†’ æœ€è´¹åŠ›ï¼‰ â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€

Level 1 â€” å¼€å¯è‡ªåŠ¨è°ƒä¼˜ï¼ˆé›¶ä»£ç ä¿®æ”¹ï¼‰ï¼š

PyTorch TunableOpï¼šä»Ž rocBLAS/hipBLASLt ä¸å°è¯•æ•°åƒä¸ª GEMM å†…æ ¸

PYTORCH_TUNABLEOP_ENABLED=1 python my_model.py

ç„¶åŽå›žæ”¾æœ€ä½³é…ç½®

PYTORCH_TUNABLEOP_ENABLED=1 PYTORCH_TUNABLEOP_TUNING=0 python my_model.py

TorchInductor max-autotuneï¼šè°ƒä¼˜ Triton GEMM/å·ç§¯ tile å°ºå¯¸

TORCHINDUCTOR_MAX_AUTOTUNE=1 python my_model.py

MIOpen autotuneï¼šå¯»æ‰¾æœ€ä½³å·ç§¯å†…æ ¸

MIOPEN_FIND_ENFORCE=3 MIOPEN_FIND_MODE=1 python my_model.py

Level 2 â€” Composable Kernel (CK) åŽç«¯ï¼š

å®‰è£… CK Python åŒ…è£…å™¨ï¼Œå°† CK åŠ å…¥è‡ªåŠ¨è°ƒä¼˜åŽç«¯

pip install git+https://github.com/rocm/composable_kernel@develop TORCHINDUCTOR_MAX_AUTOTUNE_GEMM_BACKENDS=â€TRITON,CK,ATENâ€

Level 3 â€” hipBLASLt æ‰‹åŠ¨è°ƒä¼˜ï¼ˆTensileLiteï¼‰ï¼š

ä¸ºèŽ·å¾—æœ€å¤§ GEMM æ€§èƒ½ï¼Œè°ƒä¼˜æ±‡ç¼–åŽç«¯ç”Ÿæˆå™¨

cd hipBLASLt/tensilelite ./Tensile/bin/Tensile config.yaml output_path

7 æ¥è°ƒä¼˜æµæ°´çº¿ï¼šåŸºå‡†æµ‹è¯•å¸¸ç”¨å‚æ•° â†’ fork â†’ join â†’ æœ€ç»ˆ

Level 4 â€” åœ¨ Triton æˆ– HIP ä¸ç¼–å†™è‡ªå®šä¹‰è°ƒä¼˜å†…æ ¸ï¼š

Triton è‡ªåŠ¨å¯è°ƒå‚æ•°ï¼ˆå…³é”®æ—‹é’®ï¼‰ï¼š BLOCK_M, BLOCK_N, BLOCK_K â†’ tile å°ºå¯¸ï¼ˆå¹³è¡¡è®¡ç®—ä¸Žå†…å˜ï¼‰ num_stages = 2 â†’ æµæ°´çº¿é˜¶æ®µï¼ˆå• GEMM è®¾ä¸º 2ï¼‰ num_warps â†’ æ¯ä¸ªå·¥ä½œç»„ä¸çš„ wave æ•°ï¼ˆå½±å“ occupancyï¼‰ waves_per_eu â†’ æç¤ºç¼–è¯‘å™¨å‡å°‘ VGPR ä½¿ç”¨ matrix_instr_nonkdim = 16 â†’ MFMA æŒ‡ä»¤å°ºå¯¸ï¼ˆåœ¨ MI300X ä¸Š 16x16 ä¼˜äºŽ 32x32ï¼‰

æ·±åº¦å†…æ ¸ä¼˜åŒ–æŠ€æœ¯

å†…å˜è®¿é—®ä¼˜åŒ–ï¼š

åˆå¹¶å…¨å±€å†…å˜è®¿é—®ï¼ˆä¼˜å…ˆä½¿ç”¨ 128 å—èŠ‚äº‹åŠ¡ï¼‰
æœ€å°åŒ–å…¨å±€â†”LDS æ•°æ®ä¼ è¾“ï¼ˆä½¿ç”¨åˆ†å—/é˜»å¡žï¼‰
é¿å… LDS ä¸çš„ bank å†²çªï¼ˆå¡«å……å…±äº«å†…å˜æ•°ç»„ï¼‰
å‘é‡åŒ–ï¼šä½¿ç”¨ global_load_dwordx4ï¼ˆ128 ä½åŠ è½½ï¼‰è€Œéžæ ‡é‡åŠ è½½
å¯¹äºŽ MI300X GEMMï¼šé¿å…æ¥é•¿ä¸º 512 å—èŠ‚çš„å€æ•°ï¼ˆTagram çƒç‚¹é—®é¢˜ï¼‰

è®¡ç®—ä¼˜åŒ–ï¼š

MI300Xï¼šä¼˜å…ˆä½¿ç”¨ mfma_16x16 è€Œéž mfma_32x32ï¼ˆæ›´å¥½çš„èƒ½æ•ˆï¼‰
ç›®æ ‡ occupancyï¼šç½‘æ ¼ä¸è‡³å°‘ 1024 ä¸ªçº¿ç¨‹å—ï¼ˆå·¥ä½œç»„ï¼‰
MI300X æœ‰ 304 ä¸ªæ´»è·ƒ CUï¼ˆ8 ä¸ª XCD Ã— æ¯ä¸ª XCD 38 ä¸ªæ´»è·ƒ CUï¼‰
ä½¿ç”¨ WorkGroupMapping ä¸º 8 çš„å€æ•°ï¼ˆXCD æ•°é‡ï¼‰ä»¥æé«˜ L2 ç¼“å˜æ•ˆçŽ‡

Occupancy è®¡ç®—ï¼ˆworkload.rst ç¬¬ 1643-1690 è¡Œï¼‰ï¼š

ä»Ž ISA ä¸æ‰¾åˆ° .vgpr_countï¼šN
æ‰¾åˆ° LDS åˆ†é…ï¼šä»Ž MLIR è½¬å‚¨ä¸ grep â€œtriton_gpu.sharedâ€ â†’ L å—èŠ‚
æ‰¾åˆ° num_warpsï¼šä»Ž MLIR ä¸ grep â€œtriton_gpu.num-warpsâ€ â†’ nW
occ_vgpr = ä»Ž VGPR/occupancy è¡¨ä¸æŸ¥æ‰¾
occ_lds = floor(65536 / L)
occ = min(floor(occ_vgpr Ã— 4 / nW), occ_lds) Ã— nW / 4

ISA æ±‡ç¼–åˆ†æžï¼š

è®¾ç½® export AMDGCN_ENABLE_DUMP=1 è½¬å‚¨ ISA
æ£€æŸ¥ global_load_dwordx4ï¼ˆå‘é‡åŒ–åŠ è½½ï¼‰
æ£€æŸ¥ LDS åŠ è½½/å˜å‚¨æ˜¯å¦ä½¿ç”¨ _b128 åŽç¼€ï¼ˆå‡å°‘æŒ‡ä»¤æ•°ï¼‰
æ£€æŸ¥ s_waitcnt(lgkmcnt, vmcnt) çš„åŒæ¥æ•ˆçŽ‡
é‡å æŒ‡ä»¤ä»¥éšè—å»¶è¿Ÿ

MLIR åˆ†æžï¼š

è®¾ç½® export MLIR_ENABLE_DUMP=1 æŸ¥çœ‹ Triton ä¸é—´è¡¨ç¤º
è¯†åˆ«å†—ä½™çš„ LDS å¾€è¿”ï¼ˆå¦‚åŠ è½½ã€è½¬ç½®ã€é‡æ–°å˜å‚¨ï¼‰
æ£€æŸ¥æ•°æ®å¸ƒå±€ï¼šblocked â†’ shared â†’ transpose â†’ blocked â†’ dot_op

ç³»ç»Ÿçº§å†…æ ¸ä¼˜åŒ–

CU æŽ©ç ï¼ˆdocs/how-to/setting-cus.rstï¼‰ï¼š # å°†ç‰¹å®š CU ç»‘å®šåˆ°ç‰¹å®š GPU HSA_CU_MASK=â€0:0-19;1:20-39â€ ./my_app # GPU 0 ä½¿ç”¨ CU 0-19ï¼ŒGPU 1 ä½¿ç”¨ 20-39 ROC_GLOBAL_CU_MASK=â€0:0-15,32-47â€ ./my_app # HIP çº§æŽ©ç

å¤š GPUï¼ˆRCCLï¼‰ï¼š - å§‹ç»ˆä½¿ç”¨å…¨éƒ¨ 8 ä¸ª GPU è¿›è¡Œé›†åˆé€šä¿¡ï¼ˆMI300X å…¨è¿žæŽ¥æ‹“æ‰‘ï¼‰ - ç¦ç”¨ NUMA è‡ªåŠ¨å¹³è¡¡ï¼šsudo sysctl kernel.numa_balancing=0 - ä½¿ç”¨æ¯ä¸ª GPU ä¸€ä¸ªè¿›ç¨‹ï¼ˆé¿å…ä¸²è¡ŒåŒ–å†…æ ¸å¯åŠ¨ï¼‰ - TORCH_NCCL_HIGH_PRIORITY=1 GPU_MAX_HW_QUEUES=2 ç”¨äºŽ FSDP - ç”Ÿäº§å·¥ä½œè´Ÿè½½ä½¿ç”¨ NCCL_MIN_NCHANNELS=112

çŽ¯å¢ƒå˜é‡é€ŸæŸ¥è¡¨ï¼š PYTORCH_TUNABLEOP_ENABLED=1 è‡ªåŠ¨é€‰æ‹©æœ€ä½³ GEMM å†…æ ¸ TORCHINDUCTOR_MAX_AUTOTUNE=1 è°ƒä¼˜ Triton tile é…ç½® TORCHINDUCTOR_FREEZING=1 å†…è”æƒé‡ã€æŠ˜å å¸¸é‡ï¼ˆæŽ¨ç†ï¼‰ MIOPEN_FIND_ENFORCE=3 è‡ªåŠ¨è°ƒä¼˜ MIOpen å·ç§¯å†…æ ¸ FLASH_ATTENTION_TRITON_AMD_ENABLE=FALSE ä½¿ç”¨ CK åŽç«¯è¿›è¡Œ Flash Attention HSA_DISABLE_FRAGMENT_ALLOCATOR=1 ç¦ç”¨å†…å˜ç¼“å˜ï¼ˆè°ƒè¯•ï¼‰ AMDGCN_ENABLE_DUMP=1 è½¬å‚¨ ISA ç”¨äºŽåˆ†æž MLIR_ENABLE_DUMP=1 è½¬å‚¨ Triton MLIR IR

å…³é”®å†…æ ¸åº“ï¼ˆå·²ä¼˜åŒ–ï¼Œä¼˜å…ˆä½¿ç”¨ï¼‰

rocBLAS/hipBLASLt â†’ GEMMï¼ˆæ”¯æŒåŽå¤„ç†ï¼šReLUã€GELUã€åç½®ç‰ï¼‰ Composable Kernel â†’ åŸºäºŽæ¨¡æ¿çš„å†…æ ¸ç”Ÿæˆï¼ˆç”¨äºŽ GEMM/å·ç§¯ï¼‰ MIOpen â†’ å·ç§¯åŽŸè¯ï¼ˆWinogradã€FFTã€ç›´æŽ¥ã€éšå¼ GEMMï¼‰ RCCL â†’ å¤š GPU é›†åˆé€šä¿¡ï¼ˆall-reduceã€all-gather ç‰ï¼‰ rocWMMA â†’ wave çŸ©é˜µä¹˜ç´¯åŠ ï¼ˆå¼ é‡æ ¸å¿ƒæ“ä½œï¼‰ rocFFT â†’ FFT è¿ç®— rocRAND â†’ GPU ä¸Šçš„éšæœºæ•°ç”Ÿæˆ rocPRIM/rocThrust â†’ å¹¶è¡ŒåŽŸè¯ï¼ˆæŽ’åºã€æ‰«æã€è§„çº¦ï¼‰

æ€»ç»“ï¼šä¼˜åŒ–è·¯å¾„ä¸ºï¼šæ€§èƒ½åˆ†æž â†’ è¯†åˆ«ç“¶é¢ˆ â†’ é¦–å…ˆå°è¯•è‡ªåŠ¨è°ƒä¼˜ â†’ å¦‚æžœä»ä¸å¤Ÿï¼Œæ‰‹åŠ¨è°ƒä¼˜ tile å°ºå¯¸/occupancy/æŒ‡ä»¤é€‰æ‹© â†’ å¦‚æžœéœ€è¦æžè‡´æ€§èƒ½ï¼Œæ·±å…¥ ISA/MLIR åˆ†æžå¹¶ç¼–å†™è‡ªå®šä¹‰å†…æ ¸ã€‚å¤§å¤šæ•°ç”¨æˆ·ä»…é€šè¿‡ TunableOp + TorchInductor max-autotune + Flash Attention å°±èƒ½èŽ·å¾—å·¨å¤§æå‡ï¼Œè€Œæ— éœ€ç¼–å†™ä¸€è¡Œå†…æ ¸ä»£ç ã€‚

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

ç†è§£ROCmå†…æ ¸ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

PyTorch TunableOpï¼šä»Ž rocBLAS/hipBLASLt ä¸å°è¯•æ•°åƒä¸ª GEMM å†…æ ¸

ç„¶åŽå›žæ”¾æœ€ä½³é…ç½®

TorchInductor max-autotuneï¼šè°ƒä¼˜ Triton GEMM/å·ç§¯ tile å°ºå¯¸

MIOpen autotuneï¼šå¯»æ‰¾æœ€ä½³å·ç§¯å†…æ ¸

å®‰è£… CK Python åŒ…è£…å™¨ï¼Œå°† CK åŠ å…¥è‡ªåŠ¨è°ƒä¼˜åŽç«¯

ä¸ºèŽ·å¾—æœ€å¤§ GEMM æ€§èƒ½ï¼Œè°ƒä¼˜æ±‡ç¼–åŽç«¯ç”Ÿæˆå™¨

7 æ¥è°ƒä¼˜æµæ°´çº¿ï¼šåŸºå‡†æµ‹è¯•å¸¸ç”¨å‚æ•° â†’ fork â†’ join â†’ æœ€ç»ˆ

Sunbelt Computer Software

PL/B Language Development and Support

ç†è§£ROCmå†…æ ¸ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

PyTorch TunableOpï¼šä»Ž rocBLAS/hipBLASLt ä¸­å°è¯•æ•°åƒä¸ª GEMM å†…æ ¸

ç„¶åŽå›žæ”¾æœ€ä½³é…ç½®

TorchInductor max-autotuneï¼šè°ƒä¼˜ Triton GEMM/å·ç§¯ tile å°ºå¯¸

MIOpen autotuneï¼šå¯»æ‰¾æœ€ä½³å·ç§¯å†…æ ¸

å®‰è£… CK Python åŒ…è£…å™¨ï¼Œå°† CK åŠ å…¥è‡ªåŠ¨è°ƒä¼˜åŽç«¯

ä¸ºèŽ·å¾—æœ€å¤§ GEMM æ€§èƒ½ï¼Œè°ƒä¼˜æ±‡ç¼–åŽç«¯ç”Ÿæˆå™¨

7 æ­¥è°ƒä¼˜æµæ°´çº¿ï¼šåŸºå‡†æµ‹è¯•å¸¸ç”¨å‚æ•° â†’ fork â†’ join â†’ æœ€ç»ˆ

ç†è§£ROCmå†…æ ¸ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

PyTorch TunableOpï¼šä»Ž rocBLAS/hipBLASLt ä¸å°è¯•æ•°åƒä¸ª GEMM å†…æ ¸

ç„¶åŽå›žæ”¾æœ€ä½³é…ç½®

TorchInductor max-autotuneï¼šè°ƒä¼˜ Triton GEMM/å·ç§¯ tile å°ºå¯¸

MIOpen autotuneï¼šå¯»æ‰¾æœ€ä½³å·ç§¯å†…æ ¸

å®‰è£… CK Python åŒ…è£…å™¨ï¼Œå°† CK åŠ å…¥è‡ªåŠ¨è°ƒä¼˜åŽç«¯

ä¸ºèŽ·å¾—æœ€å¤§ GEMM æ€§èƒ½ï¼Œè°ƒä¼˜æ±‡ç¼–åŽç«¯ç”Ÿæˆå™¨

7 æ¥è°ƒä¼˜æµæ°´çº¿ï¼šåŸºå‡†æµ‹è¯•å¸¸ç”¨å‚æ•° â†’ fork â†’ join â†’ æœ€ç»ˆ