iframe-proxy | Sunbelt Computer Software

CUDA ä»£ç†æ›´å¥½åœ°ä¼˜åŒ– GPU å†…æ ¸ | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.03

é—®é¢˜ï¼š æ ¹æ® ByteDance çš„è®ºæ–‡ï¼ŒCUDA Agent åšä»€ä¹ˆï¼Ÿ

ç”æ¡ˆï¼š

CUDA Agent â€” æ¦‚è¿°

CUDA Agent æ˜¯ç”± ByteDance Seedï¼ˆä¸Žæ¸…åŽå¤§å¦åˆä½œï¼‰å¼€å‘çš„å¤§è§„æ¨¡ agentic reinforcement learning ç³»ç»Ÿï¼Œé€šè¿‡å¯æ‰©å±•çš„æ•°æ®åˆæˆã€æŠ€èƒ½å¢žå¼ºçš„æ‰§è¡ŒçŽ¯å¢ƒä»¥åŠç¨³å®šçš„é•¿æ—¶ç¨‹ RL è®ç»ƒï¼Œå‘å±•å‡ºé²æ£’çš„ CUDA kernel ä¼˜åŒ–èƒ½åŠ›ã€‚

å®ƒè§£å†³çš„æ ¸å¿ƒé—®é¢˜

GPU kernel ä¼˜åŒ–æ˜¯çŽ°ä»£æ·±åº¦å¦ä¹ çš„åŸºç¡€ï¼Œä½†ä»æ˜¯ä¸€é¡¹é«˜åº¦ä¸“ä¸šåŒ–çš„ä»»åŠ¡ï¼Œéœ€è¦æ·±åŽšçš„ç¡¬ä»¶ä¸“ä¸šçŸ¥è¯†ã€‚å°½ç®¡åœ¨é€šç”¨ç¼–ç¨‹æ–¹é¢è¡¨çŽ°å‡ºè‰²ï¼Œå¤§åž‹è¯è¨€æ¨¡åž‹ (LLMs) åœ¨ CUDA kernel ç”Ÿæˆä¸Šä»æ— æ³•ä¸ŽåŸºäºŽç¼–è¯‘å™¨çš„ç³»ç»Ÿï¼ˆå¦‚ torch.compileï¼‰ç«žäº‰ã€‚çŽ°æœ‰çš„ CUDA ä»£ç ç”Ÿæˆæ–¹æ³•è¦ä¹ˆä¾èµ–æ— è®ç»ƒçš„ç²¾ç‚¼ï¼Œè¦ä¹ˆåœ¨å›ºå®šçš„å¤šè½®æ‰§è¡Œåé¦ˆå¾ªçŽ¯ä¸å¾®è°ƒæ¨¡åž‹ï¼Œä½†è¿™äº›èŒƒå¼éƒ½æ— æ³•ä»Žæ ¹æœ¬ä¸Šæå‡æ¨¡åž‹çš„å†…åœ¨ CUDA ä¼˜åŒ–èƒ½åŠ›ã€‚

ä¸‰ä¸ªæ ¸å¿ƒç»„ä»¶

1. å¯æ‰©å±•çš„æ•°æ®åˆæˆ

è®ç»ƒä»»åŠ¡é€šè¿‡ä¸‰é˜¶æ®µç®¡é“æž„å»ºï¼šç§åé—®é¢˜çˆ¬å–ã€åŸºäºŽ LLM çš„ç»„åˆåˆæˆï¼Œä»¥åŠæ‰§è¡Œé©±åŠ¨çš„è¿‡æ»¤ã€‚ä»Ž torch å’Œ transformers ä¸æŒ–æŽ˜ç§åç®—åï¼Œæ¯ä¸ªç®—åè¡¨ç¤ºä¸ºå¸¦æœ‰åˆå§‹åŒ–å’Œ forward æ–¹æ³•çš„ Python ç±»ã€‚ç»„åˆåˆæˆé‡‡æ ·æœ€å¤š 5 ä¸ª torch ç®—åï¼Œå¹¶å°†å®ƒä»¬é¡ºåºç»„åˆæˆèžåˆä»»åŠ¡ã€‚æœ€ç»ˆç²¾é€‰æ•°æ®é›†åŒ…å« 6,000 ä¸ªè®ç»ƒæ ·æœ¬ï¼ˆCUDA-Agent-Ops-6Kï¼‰ï¼Œä¸“ä¸ºå¯æ‰©å±•çš„ RL è®ç»ƒè®¾è®¡ï¼Œå…·æœ‰å¹¿æ³›çš„ä»»åŠ¡å¤šæ ·æ€§å’Œé™ä½Žçš„æ±¡æŸ“é£Žé™©ã€‚

2. æŠ€èƒ½å¢žå¼ºçš„ä»£ç†çŽ¯å¢ƒ

ä»£ç†å¾ªçŽ¯éµå¾ª ReAct é£Žæ ¼çš„å·¥ä½œæµç¨‹ï¼Œé…å¤‡ç¼–ç å·¥å…·å’Œ CUDA æŠ€èƒ½è§„èŒƒï¼ˆSKILL.mdï¼‰ï¼Œæ”¯æŒè¿ä»£ç¼–ç ã€ç¼–è¯‘è°ƒè¯•å‘¨æœŸä»¥åŠ profiler å¼•å¯¼çš„ä¼˜åŒ–ã€‚æ ‡å‡†å·¥ä½œæµç¨‹æ˜¯ï¼šprofile åŽŸç”Ÿ PyTorchï¼Œå®žçŽ° CUDA kernels/bindingsï¼Œåœ¨ GPU sandbox ä¸ç¼–è¯‘ï¼Œç„¶åŽè¿ä»£ã€‚ç›®æ ‡è¦æ±‚æ˜¯ï¼šé€šè¿‡æ£ç¡®æ€§æ£€æŸ¥ï¼Œå¹¶è¶…è¿‡ torch.compile çš„ 5% åŠ é€Ÿã€‚

ä»£ç†é…å¤‡äº† BashToolã€GlobToolã€MultiEditTool å’Œ TodoWriteTool ç‰å·¥å…·ï¼Œå¹¶åœ¨å››é˜¶æ®µå¾ªçŽ¯ä¸è¿è¡Œï¼šåˆ†æžåŽŸç”Ÿ PyTorch å®žçŽ°çš„æ€§èƒ½ï¼Œé€šè¿‡é‡å†™æ¨¡åž‹å®žçŽ°è‡ªå®šä¹‰ CUDA ç®—åï¼Œåœ¨ GPU sandbox çŽ¯å¢ƒä¸ç¼–è¯‘å’Œè¯„ä¼°ï¼Œç„¶åŽé‡å¤ç›´åˆ°å®žçŽ°è¶…è¿‡ torch.compile åŸºçº¿çš„ 5% åŠ é€Ÿã€‚

3. ç¨³å®šçš„é•¿æ—¶ç¨‹ RL è®ç»ƒ

è®ç»ƒåˆ†é˜¶æ®µè¿›è¡Œï¼Œä»¥ç¨³å®š CUDA ç¼–ç çš„é•¿æ—¶ç¨‹ RLã€‚é¦–å…ˆè¿è¡Œå•è½® PPO é¢„çƒï¼Œç„¶åŽåœ¨å®Œæ•´å¤šè½® agentic RL ä¹‹å‰åˆå§‹åŒ– actor å’Œ criticã€‚Actor åˆå§‹åŒ–ä½¿ç”¨åœ¨é‡‡æ ·è½¨è¿¹ä¸Šçš„ Rejection Fine-Tuning (RFT)ï¼Œè¿™äº›è½¨è¿¹å…·æœ‰ç§¯æžç»“æžœã€‚RFT è¿‡æ»¤æŽ‰ä½Žæ•ˆå¾ªçŽ¯å’Œæ— æ•ˆçš„å·¥å…·è°ƒç”¨æ¨¡å¼ï¼Œä»¥é™ä½Žç–ç•¥å´©æºƒé£Žé™©ã€‚é€šè¿‡è¿™ç§å¤šé˜¶æ®µè®¾è®¡ï¼Œè®ç»ƒåœ¨é•¿ä¸Šä¸‹æ–‡è®¾ç½®ä¸‹ä¿æŒç¨³å®šï¼ˆæœ€å¤š 128k ä¸Šä¸‹æ–‡ã€150 ä¸ªè®ç»ƒè½®æ¬¡ï¼Œä»¥åŠè¯„ä¼°æœŸé—´æœ€å¤š 200 ä¸ªè½®æ¬¡ï¼‰ï¼Œä»Žè€Œå®žçŽ°æŒç»çš„å¥–åŠ±å¢žé•¿ã€‚

åŸºç¡€æ¨¡åž‹

CUDA Agent æ˜¯ ByteDance çš„ Seed 1.6 LLM çš„å¾®è°ƒç‰ˆæœ¬ï¼Œè¿™æ˜¯ä¸€ä¸ª Mixture-of-Experts (MoE) æ¨¡åž‹ï¼Œæ¿€æ´»å‚æ•° 23Bï¼Œæ€»å‚æ•° 230Bã€‚å¾®è°ƒåœ¨ 128 å¼ NVIDIA H20 GPU çš„é›†ç¾¤ä¸Šè¿›è¡Œã€‚

å…³é”®ç»“æžœ

CUDA Agent åœ¨ KernelBench ä¸Šå®žçŽ°äº†æœ€å…ˆè¿›çš„ç»“æžœï¼Œåœ¨ Level-1ã€Level-2 å’Œ Level-3 åˆ†å‰²ä¸Šåˆ†åˆ«æ¯” torch.compile å¿« 100%ã€100% å’Œ 92%ï¼Œæ•´ä½“é€šè¿‡çŽ‡ä¸º 98.8%ï¼Œæ•´ä½“åŠ é€Ÿ 2.11x vs. torch.compileã€‚

ä¸Ž Claude Opus 4.5 å’Œ Gemini 3 Pro åœ¨å¤æ‚ kernel ä¸Šçš„ 40 åˆ†å·®è·è¡¨æ˜Žï¼Œé€šç”¨ç¼–ç èƒ½åŠ›æ˜¯å¿…è¦çš„ä½†ä¸è¶³ä»¥å®žçŽ° GPU ä¼˜åŒ–â€”â€”ä½ éœ€è¦é’ˆå¯¹ç¡¬ä»¶åŸºç¡€å¥–åŠ±çš„é¢†åŸŸç‰¹å®š RLã€‚

ä¸ºä»€ä¹ˆé‡è¦

å…³é”®ä¸¾æŽªäº‹åŽçœ‹æ¥æ˜¾è€Œæ˜“è§ï¼šå¦‚æžœä½ å¸Œæœ›æ¨¡åž‹ç”Ÿæˆå¿«é€Ÿä»£ç ï¼Œå°±å¥–åŠ±å®ƒç”Ÿæˆå¿«é€Ÿä»£ç â€”â€”ä¸æ˜¯æ£ç¡®ä»£ç ï¼Œä¸æ˜¯çœ‹èµ·æ¥åƒå¥½ä»£ç çš„ä»£ç ï¼Œè€Œæ˜¯ profiler è¯´å¿«é€Ÿçš„ä»£ç ã€‚è¶…è¿‡ torch.compile çš„ 2.11x åŠ é€Ÿå¾ˆé‡è¦ï¼Œå› ä¸º torch.compile æ˜¯å¤§å¤šæ•° PyTorch ç”¨æˆ·çš„é»˜è®¤ä¼˜åŒ–è·¯å¾„ã€‚å¦‚æžœ RL è®ç»ƒçš„ä»£ç†èƒ½åœ¨ç›¸åŒç¡¬ä»¶ä¸ŠæŒç»å‡»è´¥ç¼–è¯‘å™¨ï¼Œå®ƒå°±ä¸ºç”Ÿäº§çŽ¯å¢ƒä¸ AI ç”Ÿæˆçš„ kernel å–ä»£æ‰‹åŠ¨è°ƒä¼˜çš„ç®—ååº“å¼€è¾Ÿäº†é“è·¯ã€‚

å‚è€ƒæ–‡çŒ®ï¼š

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

CUDA ä»£ç†æ›´å¥½åœ°ä¼˜åŒ– GPU å†…æ ¸ | AIç”Ÿæˆå’Œç¿»è¯‘