iframe-proxy | Sunbelt Computer Software

ROCm çŸ©é˜µä¹˜æ³•æºä»£ç | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.06

çŽ°åœ¨æˆ‘å¯¹ROCmçš„çŸ©é˜µä¹˜æ³•æºä»£ç æœ‰äº†é€å½»çš„ç†è§£ã€‚ä»¥ä¸‹æ˜¯å…¨é¢çš„è§£é‡Šï¼š

ROCmå¦‚ä½•åœ¨æºä»£ç ä¸å®žçŽ°çŸ©é˜µä¹˜æ³•

ROCmä¸»è¦é€šè¿‡ä¸‰ä¸ªåº“æ¥å®žçŽ°çŸ©é˜µä¹˜æ³•ï¼Œæ¯ä¸ªåº“æä¾›ä¸åŒå±‚æ¬¡çš„æŠ½è±¡ï¼š

1. rocBLAS â€” BLASåº“å…¥å£ç‚¹

æ–‡ä»¶ï¼š library/src/blas3/rocblas_gemm.hpp

rocBLASå®žçŽ°äº†æ ‡å‡†çš„BLAS GEMMï¼ˆé€šç”¨çŸ©é˜µä¹˜æ³•ï¼‰APIï¼šC = Î±Â·op(A)Â·op(B) + Î²Â·Cã€‚

ä¸»æœºç«¯æµç¨‹ä»Žrocblas_gemm_impl()ï¼ˆä½äºŽrocblas_gemm_imp.hppï¼‰å¼€å§‹ã€‚åœ¨éªŒè¯å‚æ•°å¹¶å°†Î±/Î²å¤åˆ¶åˆ°ä¸»æœºåŽï¼Œå®ƒè°ƒç”¨ï¼š

status = ROCBLAS_API(rocblas_internal_gemm_template)(handle, trans_a, trans_b,
                     m, n, k, alpha, A, 0, lda, 0, B, 0, ldb, 0, beta, C, 0, ldc, 0, 1);

è¿™ä¼šåˆ†å‘åˆ°TensileåŽç«¯ã€‚

2. Tensile â€” å†…æ ¸ç”Ÿæˆå¼•æ“Žï¼ˆä¸»è¦GEMMåŽç«¯ï¼‰

Tensileæ˜¯ä¸€ä¸ªYAMLé©±åŠ¨çš„å†…æ ¸ç”Ÿæˆå™¨ï¼Œç”¨äºŽåˆ›å»ºæ‰‹å·¥ä¼˜åŒ–çš„æ±‡ç¼–å†…æ ¸ã€‚rocBLAS â†” Tensileçš„æŽ¥å£ä½äºŽï¼š

æ–‡ä»¶ï¼š library/src/tensile_host.cpp

åˆ†å‘æµç¨‹

rocblas_gemm()
  â†’ rocblas_internal_gemm_template()
    â†’ runContractionProblem()          [tensile_host.cpp]
      â†’ ConstructTensileProblem()       æž„å»ºTensile::ContractionProblem
      â†’ GetTensileInputs()              è®¾ç½®Aã€Bã€Cã€Dçš„GPUæŒ‡é’ˆ
      â†’ library->findBestSolution()     ä»Žé¢„è°ƒä¼˜åº“ä¸­é€‰æ‹©æœ€ä½³å†…æ ¸
      â†’ adapter.launchKernels()         å¯åŠ¨GPUå†…æ ¸

å…³é”®ä»£ç ï¼ˆæ¥è‡ªtensile_host.cppï¼‰ï¼š

// é’ˆå¯¹æ­¤é—®é¢˜è§„æ¨¡æ‰¾åˆ°æœ€ä½³GPUå†…æ ¸
solution = library->findBestSolution(tensile_prob, *hardware, fitness_query);

// å¯åŠ¨å†…æ ¸
hipError_t hip_status = adapter.launchKernels(
    solution->solve(tensile_prob, GetTensileInputs(prob), *hardware),
    handle->get_stream(), ...);

Tensileé¢„ç¼–è¯‘äº†æ•°åƒä¸ªç»è¿‡è°ƒä¼˜çš„å†…æ ¸å˜ä½“ï¼ˆé’ˆå¯¹ä¸åŒçš„Mã€Nã€Kå¤§å°ã€æ•°æ®ç±»åž‹ã€GPUæž¶æž„ï¼‰ï¼Œå¹¶å°†å…¶å˜å‚¨ä¸º.coä»£ç å¯¹è±¡æ–‡ä»¶ï¼Œä½äºŽ/opt/rocm/lib/rocblas/library/ã€‚

Tensileå†…æ ¸ç¼–å†™å™¨ï¼ˆæ±‡ç¼–ï¼‰

æ–‡ä»¶ï¼š Tensile/KernelWriterAssembly.py

Tensileç”Ÿæˆå®žé™…çš„GCN/AMDGPUæ±‡ç¼–ï¼ˆ.sæ–‡ä»¶ï¼‰ã€‚å†…æ ¸ç¼–å†™å™¨ä¼šç”Ÿæˆç±»ä¼¼v_mfma_f32_16x16x4f32çš„MFMAæŒ‡ä»¤ã€‚ä¾‹å¦‚ï¼š

# æ¥è‡ªKernelWriterAssembly.py
class KernelWriterAssembly(KernelWriter):
    def __init__(self, ...):
        self.do["MAC"] = True       # ä¹˜åŠ è¿ç®—
        self.do["GlobalReadA"] = True
        self.do["GlobalReadB"] = True
        self.do["LocalWrite"] = True
        self.do["GlobalWrite"] = True

å®ƒä¼šç”Ÿæˆç±»ä¼¼ä»¥ä¸‹çš„æ±‡ç¼–ä»£ç ï¼š

v_mfma_f32_16x16x4f32 v[0:3], v4, v5, v[0:3]  // C += A * B

3. Composable Kernel (CK) â€” çŽ°ä»£C++æ¨¡æ¿åº“ï¼ˆè¾ƒæ–°æ–¹æ³•ï¼‰

ä»“åº“ï¼š https://github.com/ROCm/composable_kernel

CKæ˜¯ä¸€ç§åŸºäºŽçŽ°ä»£C++æ¨¡æ¿çš„æ–¹æ³•ã€‚å®ƒé‡‡ç”¨åŸºäºŽtileçš„ç¼–ç¨‹æ¨¡åž‹ï¼Œæž„å»ºåœ¨AMDGPUå†…å»ºå‡½æ•°ä¹‹ä¸Šã€‚

ä¸‰å±‚å±‚æ¬¡ç»“æž„

ç¬¬ä¸€å±‚ â€” ç½‘æ ¼çº§GEMMï¼ˆå†…æ ¸å…¥å£ï¼‰ï¼š

GridGemm
  â””â”€ BlockGemm       ï¼ˆæ¯ä¸ªçº¿ç¨‹å—ï¼‰
      â””â”€ WarpGemm    ï¼ˆæ¯ä¸ªæ³¢å‰ï¼‰
          â””â”€ MFMA / WMMAæŒ‡ä»¤

ç¬¬äºŒå±‚ â€” å—çº§GEMMï¼ˆåŸºäºŽå…±äº«å†…å˜ï¼‰ï¼š

æ–‡ä»¶ï¼š ck/tutorial/ck_tile/gemm/01_naive_gemm/block_gemm_asmem_bsmem_creg.hpp

// C += A * B  ï¼ˆAå’ŒBæ¥è‡ªå…±äº«å†…å­˜ï¼ŒCåœ¨å¯„å­˜å™¨ä¸­ï¼‰
template <typename Problem, typename Policy>
struct BlockGemmASmemBSmemCReg {
    template <typename CBlockTensor, typename ABlockWindow, typename BBlockWindow>
    CK_TILE_DEVICE void operator()(CBlockTensor& c,
                                   const ABlockWindow& a,
                                   const BBlockWindow& b) const {
        // åœ¨å†…å±‚å¾ªçŽ¯ä¸­éåŽ†Kï¼š
        static_for<0, KIterPerWarp, 1>{}([&](auto kIter) {
            static_for<0, MIterPerWarp, 1>{}([&](auto mIter) {
                AWarpTensor a_warp = load_tile(a_warp_windows(mIter)(kIter));
                static_for<0, NIterPerWarp, 1>{}([&](auto nIter) {
                    BWarpTensor b_warp = load_tile(b_warp_windows(nIter)(kIter));
                    WarpGemm{}(c_warp, a_warp, b_warp);  // â† å®žé™…çš„ä¹˜åŠ è¿ç®—
                });
            });
        });
    }
};

ç¬¬ä¸‰å±‚ â€” æ³¢å‰çº§GEMMï¼ˆå®žé™…çš„MFMAæŒ‡ä»¤ï¼‰ï¼š

æ–‡ä»¶ï¼š ck/include/ck_tile/ops/gemm/warp/warp_gemm_attribute_mfma_impl.hpp

// F32 GEMMï¼šä½¿ç”¨MFMAçš„16x16x4 tile
struct WarpGemmAttributeMfmaImplF32F32F32M16N16K4 {
    // c_vec += a_vec * b_vec
    template <typename... Params>
    CK_TILE_DEVICE void operator()(CVecType& c_vec,
                                   const AVecType& a_vec,
                                   const AVecType& b_vec) const {
#if defined(__gfx9__)
        // ç›´æŽ¥ä½¿ç”¨å†…å»ºå‡½æ•°
        c_vec = __builtin_amdgcn_mfma_f32_16x16x4f32(a_vec[0], b_vec[0], c_vec, 0, 0, 0);
#else
        // æˆ–ä½¿ç”¨å†…è”æ±‡ç¼–
        asm volatile("v_mfma_f32_16x16x4f32 %0, %1, %2, %3\n"
                     : "+v"(c_vec)
                     : "v"(a_vec), "v"(b_vec), "v"(c_vec));
#endif
    }
};

4. hipBLASLt â€” è½»é‡çº§å¤‡ç”¨åŽç«¯

rocBLASè¿˜æ”¯æŒhipBLASLtä½œä¸ºè½»é‡çº§åŽç«¯ï¼ˆä½äºŽhipblaslt_host.cppï¼‰ã€‚è¿™æä¾›äº†ä½¿ç”¨hipBLASLtçš„hipblasLtMatmul() APIçš„æ›¿ä»£è·¯å¾„ã€‚

æ–‡ä»¶ï¼š rocwmma/internal/mma_impl.hpp

rocWMMAæä¾›äº†ä¸€ä¸ªåº“çº§åˆ«çš„WMMA APIï¼Œå°è£…äº†ç¡¬ä»¶MFMAæŒ‡ä»¤ï¼Œæ”¯æŒä¸åŒçš„æ•°æ®å¸ƒå±€ï¼ˆè¡Œä¸»åº/åˆ—ä¸»åºï¼‰ã€‚

æž¶æž„æ€»ç»“

PyTorch / TensorFlow / ç”¨æˆ·åº”ç”¨
         â”‚
    â”Œâ”€â”€â”€â”€â–¼â”€â”€â”€â”€â”
    â”‚ rocBLAS â”‚  â† C = Î±Â·AÂ·B + Î²Â·C  (BLAS GEMM API)
    â””â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”˜
         â”‚
    â”Œâ”€â”€â”€â”€â–¼â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”
    â”‚   Tensile     â”‚  â† YAMLå®šä¹‰ã€é¢„è°ƒä¼˜çš„æ±‡ç¼–å†…æ ¸
    â”‚  (ä¸»è¦)       â”‚     åŠ è½½ç›®æ ‡GPUçš„.coä»£ç å¯¹è±¡
    â””â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”˜
         â”‚
    â”Œâ”€â”€â”€â”€â–¼â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”
    â”‚ Composable Kernel (CK)â”‚  â† çŽ°ä»£C++æ¨¡æ¿åº“
    â”‚    (è¾ƒæ–°/å¯é€‰)        â”‚     åŸºäºŽtileï¼Œä½¿ç”¨å†…å»ºå‡½æ•°
    â””â”€â”€â”€â”€â”¬â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”˜
         â”‚
    â”Œâ”€â”€â”€â”€â–¼â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”
    â”‚   AMDGPU ISA    â”‚
    â”‚ v_mfma / v_wmma â”‚  â† ç¡¬ä»¶çŸ©é˜µæŒ‡ä»¤
    â””â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”€â”˜

åœ¨AMD GPUä¸Šï¼Œå®žé™…çš„çŸ©é˜µä¹˜æ³•æœ€ç»ˆå½’ç»“ä¸ºMFMAï¼ˆçŸ©é˜µèžåˆä¹˜åŠ ï¼‰æŒ‡ä»¤â€”â€”è¿™æ˜¯NVIDIA Tensor Coreçš„AMDç‰æ•ˆç‰©â€”â€”é€šè¿‡å†…è”æ±‡ç¼–æˆ–ç¼–è¯‘å™¨å†…å»ºå‡½æ•°ï¼ˆå¦‚__builtin_amdgcn_mfma_f32_16x16x4f32ï¼‰æ¥è°ƒç”¨ã€‚

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

ROCm çŸ©é˜µä¹˜æ³•æºä»£ç | AIç”Ÿæˆå’Œç¿»è¯‘

ROCmå¦‚ä½•åœ¨æºä»£ç ä¸å®žçŽ°çŸ©é˜µä¹˜æ³•

1. rocBLAS â€” BLASåº“å…¥å£ç‚¹

2. Tensile â€” å†…æ ¸ç”Ÿæˆå¼•æ“Žï¼ˆä¸»è¦GEMMåŽç«¯ï¼‰

åˆ†å‘æµç¨‹

Tensileå†…æ ¸ç¼–å†™å™¨ï¼ˆæ±‡ç¼–ï¼‰

3. Composable Kernel (CK) â€” çŽ°ä»£C++æ¨¡æ¿åº“ï¼ˆè¾ƒæ–°æ–¹æ³•ï¼‰

ä¸‰å±‚å±‚æ¬¡ç»“æž„

4. hipBLASLt â€” è½»é‡çº§å¤‡ç”¨åŽç«¯

5. rocWMMA â€” æ³¢å‰çŸ©é˜µä¹˜åŠ API

æž¶æž„æ€»ç»“

Sunbelt Computer Software

PL/B Language Development and Support

ROCm çŸ©é˜µä¹˜æ³•æºä»£ç  | AIç”Ÿæˆå’Œç¿»è¯‘

ROCmå¦‚ä½•åœ¨æºä»£ç ä¸­å®žçŽ°çŸ©é˜µä¹˜æ³•

1. rocBLAS â€” BLASåº“å…¥å£ç‚¹

2. Tensile â€” å†…æ ¸ç”Ÿæˆå¼•æ“Žï¼ˆä¸»è¦GEMMåŽç«¯ï¼‰

åˆ†å‘æµç¨‹

Tensileå†…æ ¸ç¼–å†™å™¨ï¼ˆæ±‡ç¼–ï¼‰

3. Composable Kernel (CK) â€” çŽ°ä»£C++æ¨¡æ¿åº“ï¼ˆè¾ƒæ–°æ–¹æ³•ï¼‰

ä¸‰å±‚å±‚æ¬¡ç»“æž„

4. hipBLASLt â€” è½»é‡çº§å¤‡ç”¨åŽç«¯

5. rocWMMA â€” æ³¢å‰çŸ©é˜µä¹˜åŠ API

æž¶æž„æ€»ç»“

ROCm çŸ©é˜µä¹˜æ³•æºä»£ç | AIç”Ÿæˆå’Œç¿»è¯‘

ROCmå¦‚ä½•åœ¨æºä»£ç ä¸å®žçŽ°çŸ©é˜µä¹˜æ³•

1. rocBLAS â€” BLASåº“å…¥å£ç‚¹

2. Tensile â€” å†…æ ¸ç”Ÿæˆå¼•æ“Žï¼ˆä¸»è¦GEMMåŽç«¯ï¼‰

åˆ†å‘æµç¨‹

3. Composable Kernel (CK) â€” çŽ°ä»£C++æ¨¡æ¿åº“ï¼ˆè¾ƒæ–°æ–¹æ³•ï¼‰

4. hipBLASLt â€” è½»é‡çº§å¤‡ç”¨åŽç«¯

5. rocWMMA â€” æ³¢å‰çŸ©é˜µä¹˜åŠ API