KVç¼“å˜è§£æžå†…å˜å·®å¼‚ | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.04

é—®é¢˜ï¼š ä¸ºä½•åœ¨ç›¸åŒä¸Šä¸‹æ–‡é•¿åº¦å’Œç›¸åŒé‡åŒ–æ¡ä»¶ä¸‹ï¼ŒGemma-4 E2B æ¯” A26B MoE å ç”¨æ›´å°‘å†…å˜ï¼Ÿç§»åŠ¨è®¾å¤‡èƒ½æ”¯æŒå¤šé•¿çš„ä¸Šä¸‹æ–‡ï¼ˆ32k è¿˜æ˜¯ 65kï¼‰ï¼Ÿ

å›žç”ï¼š

è¿™ç§å›°æƒ‘é€šå¸¸æºäºŽ MoE ä¸Žç¨ å¯†æ¨¡åž‹ çš„å†…å˜è¡Œä¸ºå·®å¼‚ä»¥åŠ KV ç¼“å˜çš„æ‰©å±•æ–¹å¼ã€‚ å³ä¾¿é‡åŒ–æ¯”ç‰¹æ•°ç›¸åŒï¼Œè¿è¡Œæ—¶å†…å˜ä¸»è¦ç”± KV ç¼“å˜ä¸»å¯¼ï¼Œè€Œä¸ä»…ä»…æ˜¯æƒé‡ã€‚

å…³é”®å…³ç³»å¼ï¼š

\text{KV ç¼“å˜å†…å˜} \approx 2 \times L \times H \times T \times \text{æ¯ä¸ªå…ƒç´ çš„å—èŠ‚æ•°}

å…¶ä¸ï¼š

(L) = å±‚æ•°
(H) = éšè—å±‚å¤§å°
(T) = ä¸Šä¸‹æ–‡é•¿åº¦ï¼ˆ32kã€65k ç‰ï¼‰
å› å 2 = K ç¼“å˜ + V ç¼“å˜
å—èŠ‚æ•° = å–å†³äºŽ fp16 / q8 / q4 ç‰è®¾ç½®

1. ä¸ºä»€ä¹ˆ Gemma-4 E2B æ¯” A26B MoE å ç”¨æ›´å°‘å†…å˜

å°½ç®¡ A26B æ˜¯ MoE æ¨¡åž‹ï¼Œä½†å…¶ KV ç¼“å˜ å¹¶éžç¨€ç–ã€‚

å…³é”®ç‚¹ï¼š

MoE å‡å°‘çš„æ˜¯ è®¡ç®—é‡
MoE ä¸ä¼šå‡å°‘ KV ç¼“å˜
KV ç¼“å˜å–å†³äºŽ éšè—å±‚å¤§å°ï¼Œè€Œéžæ¿€æ´»çš„ä¸“å®¶æ•°é‡

å› æ¤ï¼Œå¦‚æžœï¼š

A26B å…·æœ‰ æ›´å¤§çš„éšè—ç»´åº¦
æ›´å¤šçš„æ³¨æ„åŠ›å¤´
æ›´å¤šçš„å±‚æ•°

é‚£ä¹ˆå®ƒçš„ KV ç¼“å˜ä¼š å¤§å¾—å¤šã€‚

è¿™å°±æ˜¯ä¸ºä»€ä¹ˆï¼š

ç›¸åŒçš„é‡åŒ–çº§åˆ«
ç›¸åŒçš„ä¸Šä¸‹æ–‡é•¿åº¦ä¸‹
A26B MoE ä»ä¼šå ç”¨ æ›´å¤š RAM

åŽŸå› ï¼š

MoE çš„ç¨€ç–æ€§ä»…é€‚ç”¨äºŽ FFN æƒé‡ï¼Œ ä½† KV ç¼“å˜å˜å‚¨çš„æ˜¯ å®Œæ•´çš„æ³¨æ„åŠ›çŠ¶æ€ã€‚

2. ä¸ºä»€ä¹ˆ E2B åœ¨å†…å˜ä¸Šç‰¹åˆ«é«˜æ•ˆ

Gemma-4 E2B å¯èƒ½å…·æœ‰ï¼š

æ›´å°çš„éšè—å±‚å¤§å°
æ›´å°‘çš„å±‚æ•°
æ›´å°çš„æ³¨æ„åŠ›å¤´ç»´åº¦

å› æ¤ KV ç¼“å˜å°å¾—å¤šã€‚

ç›´è§‚ç¤ºä¾‹ï¼š

æ¨¡åž‹	éšè—å±‚å¤§å°	å±‚æ•°	KV å†…å˜
E2B	è¾ƒå°	è¾ƒå°‘	å°
A26B MoE	è¾ƒå¤§	è¾ƒå¤š	å¤§

å³ä¾¿ A26B åªæ¿€æ´» 2 ä¸ªä¸“å®¶ï¼š

KV ç¼“å˜ä»æ˜¯å®Œæ•´å¤§å°ã€‚

3. ç§»åŠ¨è®¾å¤‡ä¸Šçš„ä¸Šä¸‹æ–‡é•¿åº¦ï¼ˆ32k ä¸Ž 65kï¼‰

ä¸Šä¸‹æ–‡é•¿åº¦æŒ‰ çº¿æ€§ å…³ç³»æ‰©å±•ï¼š

32k â†’ åŸºå‡† 65k â†’ å†…å˜çº¦å¢žåŠ 2 å€

å› æ¤ï¼Œå¦‚æžœï¼š

32k å¯å®¹çº³ â†’ 65k å¾ˆå¯èƒ½ OOM

å…¸åž‹çš„ç§»åŠ¨è®¾å¤‡ / å°å†…å˜åœºæ™¯ï¼š

7B / E2B â†’ 32k å¯è¡Œ
65k â†’ ä¸´ç•Œ / OOM
A26B â†’ å³ä½¿ 32k ä¹Ÿè´Ÿæ‹…é‡

åŽŸå› ï¼š

è¶…è¿‡çº¦ 16k åŽï¼ŒKV ç¼“å˜æˆä¸ºå†…å˜ä¸»å¯¼å› ç´ ã€‚

4. ä¸ºä»€ä¹ˆé‡åŒ–åœ¨æ¤å¸®åŠ©ä¸å¤§

é‡åŒ–å‡å°‘çš„æ˜¯ï¼š

æ¨¡åž‹æƒé‡

ä½† KV ç¼“å˜é€šå¸¸ä¿æŒ fp16 / fp8

å› æ¤å†…å˜ â‰ˆ ç”± KV ç¼“å˜ä¸»å¯¼

æ‰€ä»¥ï¼š

ç›¸åŒçš„é‡åŒ–çº§åˆ« ä½†ä¸åŒçš„éšè—å±‚å¤§å° â†’ å†…å˜å·®å¼‚å·¨å¤§

5. ç®€åŒ–çš„æ€ç»´æ¨¡åž‹

ç¨ å¯†æ¨¡åž‹å†…å˜ï¼š

æƒé‡ + KV ç¼“å˜

MoE æ¨¡åž‹å†…å˜ï¼š

æƒé‡ï¼ˆæ¿€æ´»éƒ¨åˆ†è¾ƒå°ï¼‰ + ç›¸åŒçš„ KV ç¼“å˜

ç»“è®ºï¼š

MoE èŠ‚çœè®¡ç®—é‡ ä½† ä¸èŠ‚çœä¸Šä¸‹æ–‡å†…å˜

æœ€ç»ˆç›´è§‚ç†è§£

E2B æ³¨æ„åŠ›ç»´åº¦è¾ƒå° â†’ KV ç¼“å˜è¾ƒå° â†’ æ›´é•¿ä¸Šä¸‹æ–‡å¯å®¹çº³

A26B MoE æ³¨æ„åŠ›ç»´åº¦è¾ƒå¤§ â†’ KV ç¼“å˜åºžå¤§ â†’ å†…å˜æ€¥å‰§è†¨èƒ€

å› æ¤ E2B å¯æ”¯æŒï¼š

32k è¾ƒè½»æ¾
æˆ–è®¸ 65k

è€Œ A26B å³ä½¿åœ¨ 32k ä¸Šä¸‹æ–‡ä¸‹ä¹Ÿå¾ˆåƒåŠ›ã€‚

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

KVç¼“å˜è§£æžå†…å˜å·®å¼‚ | AIç”Ÿæˆå’Œç¿»è¯‘

1. ä¸ºä»€ä¹ˆ Gemma-4 E2B æ¯” A26B MoE å ç”¨æ›´å°‘å†…å˜

2. ä¸ºä»€ä¹ˆ E2B åœ¨å†…å˜ä¸Šç‰¹åˆ«é«˜æ•ˆ

3. ç§»åŠ¨è®¾å¤‡ä¸Šçš„ä¸Šä¸‹æ–‡é•¿åº¦ï¼ˆ32k ä¸Ž 65kï¼‰

4. ä¸ºä»€ä¹ˆé‡åŒ–åœ¨æ¤å¸®åŠ©ä¸å¤§

5. ç®€åŒ–çš„æ€ç»´æ¨¡åž‹

æœ€ç»ˆç›´è§‚ç†è§£

Sunbelt Computer Software

PL/B Language Development and Support

KVç¼“å­˜è§£æžå†…å­˜å·®å¼‚ | AIç”Ÿæˆå’Œç¿»è¯‘

1. ä¸ºä»€ä¹ˆ Gemma-4 E2B æ¯” A26B MoE å ç”¨æ›´å°‘å†…å­˜

2. ä¸ºä»€ä¹ˆ E2B åœ¨å†…å­˜ä¸Šç‰¹åˆ«é«˜æ•ˆ

3. ç§»åŠ¨è®¾å¤‡ä¸Šçš„ä¸Šä¸‹æ–‡é•¿åº¦ï¼ˆ32k ä¸Ž 65kï¼‰

4. ä¸ºä»€ä¹ˆé‡åŒ–åœ¨æ­¤å¸®åŠ©ä¸å¤§

5. ç®€åŒ–çš„æ€ç»´æ¨¡åž‹

æœ€ç»ˆç›´è§‚ç†è§£

KVç¼“å˜è§£æžå†…å˜å·®å¼‚ | AIç”Ÿæˆå’Œç¿»è¯‘

1. ä¸ºä»€ä¹ˆ Gemma-4 E2B æ¯” A26B MoE å ç”¨æ›´å°‘å†…å˜

2. ä¸ºä»€ä¹ˆ E2B åœ¨å†…å˜ä¸Šç‰¹åˆ«é«˜æ•ˆ

4. ä¸ºä»€ä¹ˆé‡åŒ–åœ¨æ¤å¸®åŠ©ä¸å¤§

5. ç®€åŒ–çš„æ€ç»´æ¨¡åž‹

æœ€ç»ˆç›´è§‚ç†è§£