iframe-proxy | Sunbelt Computer Software

æ‰©æ•£ä¸Žè¿ä»£ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.06

é—®é¢˜ï¼š â€œdiffusion in Transformersâ€ æ˜¯æŒ‡ç”Ÿæˆä¸€å¼ å›¾åƒï¼Œç„¶åŽåå¤å°†å…¶è¾“å…¥å›žåŽ»å†æ¬¡ç”Ÿæˆå—ï¼Ÿ

å›žç”ï¼š

ä¸å¤ªå‡†ç¡®â€”â€”ä½ æŠŠä¸¤ä»¶ä¸åŒçš„äº‹æƒ…æ··æ·†äº†ã€‚æˆ‘æ¥å¸®ä½ æ¢³ç†æ¸…æ¥šã€‚

æ‰©æ•£ï¼ˆDiffusionï¼‰è¿‡ç¨‹

æ‰©æ•£æ¨¡åž‹çš„å·¥ä½œåˆ†ä¸ºä¸¤ä¸ªé˜¶æ®µï¼š

å‰å‘è¿‡ç¨‹ï¼ˆè®ç»ƒæ—¶ï¼‰ï¼š å–ä¸€å¼ çœŸå®žå›¾åƒï¼Œåœ¨ T æ¥å†…é€æ¥æ·»åŠ é«˜æ–¯å™ªå£°ï¼Œç›´åˆ°å˜æˆçº¯å™ªå£°ã€‚è¿™ä¸ªè¿‡ç¨‹æ˜¯å›ºå®šçš„/è§£æžçš„â€”â€”ä¸éœ€è¦ç¥žç»ç½‘ç»œã€‚

åå‘è¿‡ç¨‹ï¼ˆæŽ¨ç†æ—¶ï¼‰ï¼š ä»Žçº¯å™ªå£°å¼€å§‹ï¼Œé€æ¥åŽ»å™ªâ€”â€”æ¯ä¸€æ¥é¢„æµ‹å¹¶åŽ»é™¤ä¸€å°éƒ¨åˆ†å™ªå£°ã€‚

x_Tï¼ˆçº¯å™ªå£°ï¼‰â†’ x_{T-1} â†’ x_{T-2} â†’ ... â†’ x_0ï¼ˆå¹²å‡€å›¾åƒï¼‰

æ²¡é”™ï¼Œä½ éœ€è¦è¿è¡Œæ¨¡åž‹å¤§çº¦ 50â€“1000 æ¬¡ï¼Œä½†æ¯ä¸€æ¥éƒ½æ˜¯åŽ»å™ªï¼Œè€Œä¸æ˜¯ä»Žå¤´å†ç”Ÿã€‚æ¨¡åž‹æ¯ä¸€æ¥é¢„æµ‹çš„æ˜¯å™ªå£°åˆ†é‡ Îµï¼Œè€Œéžç›´æŽ¥é¢„æµ‹æœ€ç»ˆå›¾åƒã€‚

æ ¸å¿ƒå…¬å¼ï¼ˆDDPMï¼‰ï¼š

x_{t-1} = 1/âˆšÎ±_t * (x_t - (1-Î±_t)/âˆš(1-á¾±_t) * Îµ_Î¸(x_t, t)) + Ïƒ_t * z

å…¶ä¸ Îµ_Î¸ æ˜¯ç¥žç»ç½‘ç»œï¼ˆU-Net æˆ– Transformerï¼‰ã€‚

Transformer å¦‚ä½•èžå…¥å…¶ä¸

DiTï¼ˆDiffusion Transformer, Peebles & Xie 2022ï¼‰ ç”¨ Transformer å–ä»£äº† U-Net éª¨å¹²ç½‘ç»œã€‚å…¶æž¶æž„ï¼š

å°†å¸¦å™ªæ½œåœ¨ç‰¹å¾ x_t åˆ†å—ï¼ˆpatchifyï¼‰ä¸º tokens
é€šè¿‡ adaLNï¼ˆè‡ªé€‚åº”å±‚å½’ä¸€åŒ–ï¼‰ä»¥æ—¶é—´æ¥ t å’Œç±»åˆ«æ ‡ç¾ä¸ºæ¡ä»¶
è¿è¡Œæ ‡å‡† Transformer æ¨¡å—ï¼ˆè‡ªæ³¨æ„åŠ› + FFNï¼‰
å°† tokens é‡æ–°æ‹¼å›žï¼ˆunpatchifyï¼‰æ½œåœ¨å½¢çŠ¶

# DiT å‰å‘ä¼ æ’­ç¤ºæ„
def forward(self, x, t, y):
    x = self.patchify(x)           # [B, N, D]
    x = x + self.pos_embed         # ä½ç½®ç¼–ç 
    c = self.adaln_embed(t, y)     # æ—¶é—´æ­¥ + ç±»åˆ«æ¡ä»¶
    for block in self.blocks:
        x = block(x, c)            # transformer + adaLN
    x = self.unpatchify(x)         # é¢„æµ‹å™ªå£° Îµ
    return x

è¿™ç§æ–¹æ³•è¢«ç”¨åœ¨ Stable Diffusion 3ã€FLUXã€Sora ä¸â€”â€”å®ƒä»¬éƒ½ä½¿ç”¨ DiT å–ä»£äº† U-Netã€‚

æŽ¨ç†æ—¶çš„å®žé™…å¾ªçŽ¯

x = torch.randn(latent_shape)   # ä»Žå™ªå£°å¼€å§‹

for t in reversed(range(T)):    # ä¾‹å¦‚ä½¿ç”¨ DDIM æ—¶ T=50
    eps = model(x, t, conditioning)   # transformer é¢„æµ‹å™ªå£°
    x = denoise_step(x, eps, t)       # scheduler åŽ»é™¤è¯¥å™ªå£°

image = vae.decode(x)           # å°†æ½œåœ¨ç‰¹å¾è§£ç ä¸ºåƒç´ ç©ºé—´å›¾åƒ

æ¯æ¬¡è¿ä»£ï¼šåŒä¸€ä¸ªæ¨¡åž‹ï¼Œä¸åŒçš„ tï¼Œé€æ¥å˜å¾—å¹²å‡€çš„ xã€‚è¿™ä¸æ˜¯â€œç”Ÿæˆå›¾åƒ â†’ ç”¨å›¾åƒä½œä¸ºæç¤ºâ€â€”â€”è€Œæ˜¯â€œåŽ»å™ªæ½œåœ¨ç‰¹å¾ â†’ å†æ¬¡åŽ»å™ªâ€ã€‚

ä½ å¯èƒ½æƒ³åˆ°çš„ï¼ˆè¿ä»£ç»†åŒ–ï¼‰

ç¡®å®žå˜åœ¨æ›´æŽ¥è¿‘ä½ æè¿°çš„æ¨¡åž‹ï¼š

è‡ªå›žå½’å›¾åƒæ¨¡åž‹ï¼ˆå¦‚ LlamaGenã€VARï¼‰â€”â€”é¡ºåºé¢„æµ‹å›¾åƒ tokenï¼Œæ›´åƒè¯è¨€å»ºæ¨¡

VARï¼ˆVisual AutoRegressiveï¼‰å°¤å…¶æœ‰è¶£â€”â€”å…ˆç”Ÿæˆç²—ç³™åˆ†è¾¨çŽ‡ï¼Œç„¶åŽåœ¨æ›´ç»†å°ºåº¦ä¸Šç»†åŒ–ã€‚è¿™æ›´æŽ¥è¿‘â€œç”Ÿæˆå›¾åƒ â†’ ç”¨å®ƒå†æ¬¡ç”Ÿæˆâ€ã€‚

æ€»ç»“

æ¦‚å¿µ	å®žé™…å‘ç”Ÿäº†ä»€ä¹ˆ
æ‰©æ•£	ä»Žå™ªå£°åˆ°å›¾åƒçš„è¿ä»£åŽ»å™ª
DiT	Transformer ä½œä¸ºåŽ»å™ªéª¨å¹²
ä½ çš„æè¿°	æ›´æŽ¥è¿‘è¿ä»£ç»†åŒ– / VAR

DiT ä¸çš„ Transformer åœ¨æž¶æž„ä¸Šå¹¶æ²¡æœ‰ä¸ºæ‰©æ•£åšä»€ä¹ˆç‰¹åˆ«çš„äº‹æƒ…â€”â€”å®ƒåªæ˜¯æ¯” U-Net æ›´å¥½çš„åŽ»å™ªéª¨å¹²ç½‘ç»œï¼Œå› ä¸ºè‡ªæ³¨æ„åŠ›èƒ½å¤Ÿæ•èŽ·å·ç§¯ U-Net åœ¨å¤§è§„æ¨¡ä¸‹éš¾ä»¥å¤„ç†çš„è¿œè·ç¦»ç©ºé—´ä¾èµ–ã€‚

å‚è€ƒæ–‡çŒ®ï¼š

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

æ‰©æ•£ä¸Žè¿­ä»£ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

æ‰©æ•£ï¼ˆDiffusionï¼‰è¿‡ç¨‹

Transformer å¦‚ä½•èžå…¥å…¶ä¸­

æŽ¨ç†æ—¶çš„å®žé™…å¾ªçŽ¯

ä½ å¯èƒ½æƒ³åˆ°çš„ï¼ˆè¿­ä»£ç»†åŒ–ï¼‰

æ€»ç»“

æ‰©æ•£ä¸Žè¿ä»£ä¼˜åŒ– | AIç”Ÿæˆå’Œç¿»è¯‘

Transformer å¦‚ä½•èžå…¥å…¶ä¸

æŽ¨ç†æ—¶çš„å®žé™…å¾ªçŽ¯

ä½ å¯èƒ½æƒ³åˆ°çš„ï¼ˆè¿ä»£ç»†åŒ–ï¼‰