80/10/10æ•°æ®åˆ’åˆ†è¯¦è§£

80/10/10æ•°æ®åˆ’åˆ†è¯¦è§£ | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.06

é—®é¢˜ï¼šèƒ½å¦è§£é‡ŠnanoGPTå’Œnanochatä¸ä½¿ç”¨çš„80/10/10è®ç»ƒ/éªŒè¯/æµ‹è¯•åˆ’åˆ†ï¼Œä»¥åŠè¿™ç§åˆ†ç¦»ä¸ºä½•é‡è¦ï¼Ÿ

å›žç”ï¼š

æ˜¯çš„ï¼Œå®Œå…¨æ£ç¡®ã€‚8/1/1åˆ’åˆ†ï¼ˆ80%è®ç»ƒã€10%éªŒè¯ã€10%æµ‹è¯•ï¼‰æ˜¯nanoGPT/nanochatä¸çš„æ ‡å‡†åšæ³•ã€‚ä»¥ä¸‹æ˜¯å…¶åŽŸç†å’Œå®žçŽ°æ–¹å¼ï¼š

ä¸ºä½•éœ€è¦ä¸‰ä¸ªæ•°æ®é›†ï¼Ÿ

è®ç»ƒé›†ï¼ˆ80%ï¼‰ï¼šå¦ä¹ å‚æ•°ã€‚æ¢¯åº¦æ›´æ–°ä»…åœ¨æ¤å¤„è¿›è¡Œã€‚

éªŒè¯é›†ï¼ˆ10%ï¼‰ï¼šè°ƒæ•´è¶…å‚æ•°å¹¶æ£€æµ‹è¿‡æ‹Ÿåˆã€‚è®ç»ƒè¿‡ç¨‹ä¸ï¼ˆæ¯éš”Næ¥ï¼‰åœ¨éªŒè¯é›†ä¸Šè¯„ä¼°ï¼Œè§‚å¯Ÿè®ç»ƒé›†ä¸ŽéªŒè¯é›†ä¹‹é—´çš„æŸå¤±å·®å¼‚â€”â€”è¿™å°±æ˜¯è¿‡æ‹Ÿåˆçš„ä¿¡å·ã€‚

æµ‹è¯•é›†ï¼ˆ10%ï¼‰ï¼šæœ€ç»ˆè¯„ä¼°ã€‚åœ¨æ‰€æœ‰è¶…å‚æ•°è°ƒæ•´é”å®šåŽï¼Œä»…ä¸€æ¬¡åœ¨æµ‹è¯•é›†ä¸Šè¿›è¡Œè¯„ä¼°ã€‚è¿™èƒ½æä¾›æ³›åŒ–æ€§èƒ½çš„æ— åä¼°è®¡ã€‚

å…³é”®ç‚¹åœ¨äºŽï¼šéªŒè¯é›†å’Œæµ‹è¯•é›†å¿…é¡»ä¸Žè®ç»ƒé›†å®Œå…¨åˆ†ç¦»ã€‚å¦‚æžœåœ¨è®ç»ƒè¿‡ç¨‹ä¸ä½¿ç”¨æµ‹è¯•é›†ï¼ˆä¾‹å¦‚ç”¨äºŽé€‰æ‹©è¶…å‚æ•°ï¼‰ï¼Œå°±ä¼šæ³„éœ²ä¿¡æ¯ï¼Œå¯¼è‡´æœ€ç»ˆç»“æžœå¤±åŽ»æ„ä¹‰ã€‚

nanoGPTä¸çš„å®žçŽ°

# nanoGPTä¸­çš„å…¸åž‹åˆ’åˆ†
data = np.memmap('data.bin', dtype=np.uint16, mode='r')
n = len(data)

train_data = data[:int(0.8*n)]      # 80%ç”¨äºŽè®­ç»ƒ
val_data = data[int(0.8*n):int(0.9*n)]   # 10%ç”¨äºŽéªŒè¯
test_data = data[int(0.9*n):]       # 10%ç”¨äºŽæµ‹è¯•

def get_batch(split, batch_size=32):
    """è®­ç»ƒæœŸé—´é‡‡æ ·ä¸€ä¸ªæ‰¹æ¬¡"""
    if split == 'train':
        ix = torch.randint(len(train_data) - context_length, (batch_size,))
        x = torch.stack([torch.from_numpy((train_data[i:i+context_length]).astype(np.int64)) for i in ix])
        y = torch.stack([torch.from_numpy((train_data[i+1:i+1+context_length]).astype(np.int64)) for i in ix])
    else:  # val æˆ– test
        ix = torch.randint(len(val_data) - context_length, (batch_size,))
        x = torch.stack([torch.from_numpy((val_data[i:i+context_length]).astype(np.int64)) for i in ix])
        y = torch.stack([torch.from_numpy((val_data[i+1:i+1+context_length]).astype(np.int64)) for i in ix])
    return x, y

è®ç»ƒå¾ªçŽ¯æ¨¡å¼

for iter in range(max_iters):
    # ä»Žè®­ç»ƒé›†é‡‡æ ·ï¼Œè®¡ç®—æŸå¤±ï¼Œåå‘ä¼ æ’­
    logits, loss = model(get_batch('train'))
    loss.backward()
    optimizer.step()

    # æ¯ eval_interval æ­¥ï¼Œæ£€æŸ¥éªŒè¯æŸå¤±ï¼ˆæ— æ¢¯åº¦ï¼‰
    if iter % eval_interval == 0:
        with torch.no_grad():
            val_loss = estimate_loss('val')  # ä»…åœ¨éªŒè¯é›†ä¸Šå‰å‘ä¼ æ’­
        print(f"iter {iter}: train_loss {train_loss:.4f}, val_loss {val_loss:.4f}")

éªŒè¯æŸå¤±å‘Šè¯‰ä½ æ˜¯å¦è¿‡æ‹Ÿåˆï¼š

å¦‚æžœ val_loss >> train_lossï¼šæ¨¡åž‹è®°ä½äº†è®ç»ƒæ•°æ®ï¼Œæ²¡æœ‰æ³›åŒ–èƒ½åŠ›
å¦‚æžœä¸¤è€…åŒæ¥ä¸‹é™ï¼šæ³›åŒ–è‰¯å¥½ï¼Œç»§ç»è®ç»ƒ

é’ˆå¯¹è¯è¨€æ¨¡åž‹çš„ç‰¹æ®Šè€ƒé‡

åœ¨å¤§è§„æ¨¡åœºæ™¯ä¸‹ï¼Œåˆ’åˆ†ç†å¿µç•¥æœ‰å˜åŒ–ï¼š

å¯¹äºŽå°æ¨¡åž‹ï¼ˆnanoGPTè§„æ¨¡ï¼‰ï¼š8/1/1åˆ’åˆ†å³å¯ã€‚éªŒè¯é›†å’Œæµ‹è¯•é›†è§„æ¨¡ç›¸å½“ã€‚
å¯¹äºŽå¤§æ¨¡åž‹ï¼šéªŒè¯é›†æ¯”æµ‹è¯•é›†æ›´é‡è¦ï¼š
- è®ç»ƒè¿‡ç¨‹ä¸åœ¨éªŒè¯é›†ä¸Šè¿›è¡Œçš„è¯„ä¼°æ¥éª¤å¤š10-100å€ï¼ˆå½±å“æ¢¯åº¦å†³ç–ï¼‰
- æµ‹è¯•é›†ä»…åœ¨æœ€åŽè¯„ä¼°ä¸€æ¬¡ï¼ˆä¸ç”¨äºŽè°ƒå‚ï¼‰
- æœ‰äº›å›¢é˜Ÿä½¿ç”¨9/0.5/0.5ç”šè‡³æ›´å¤§çš„è®ç»ƒé›†æ¯”ä¾‹ï¼Œå› ä¸ºæ›´å¤šæ•°æ®æ€»æ˜¯æœ‰ç›Šçš„
å¯¹äºŽç”Ÿäº§æ¨¡åž‹ï¼šå¯èƒ½ä¼šä½¿ç”¨ä¸€ä¸ªä¿ç•™çš„æµ‹è¯•åˆ†å¸ƒï¼ˆä¸åŒé¢†åŸŸ/æ—¶é—´æ®µï¼‰ï¼Œä»¥æ•æ‰éªŒè¯é›†æœªèƒ½å‘çŽ°çš„åˆ†å¸ƒåç§»ã€‚

å¤§æ•°æ®é›†çš„å®žé™…è€ƒé‡

å¦‚æžœä½ åœ¨æ•°åäº¿tokenä¸Šè®ç»ƒï¼ˆå°±åƒä½ æ£åœ¨ç”¨MI300XæŽ¢ç´¢çš„é‚£æ ·ï¼‰ï¼Œ10%çš„éªŒè¯/æµ‹è¯•é›†å¯èƒ½è¾¾åˆ°GBçº§åˆ«ã€‚ä½ å¯ä»¥æ›´æ¿€è¿›åœ°åˆ’åˆ†ï¼š

# å¯¹äºŽæ•°åäº¿tokençš„æ•°æ®é›†ï¼Œ5%éªŒè¯/5%æµ‹è¯•æ˜¯å¯ä»¥æŽ¥å—çš„
train_split = 0.90
val_split = 0.95  # 5%éªŒè¯ï¼Œ5%æµ‹è¯•

éªŒè¯/æµ‹è¯•é›†çš„ç»å¯¹å¤§å°æ¯”ç™¾åˆ†æ¯”æ›´é‡è¦â€”â€”ä½ éœ€è¦è¶³å¤Ÿçš„tokenæ¥èŽ·å¾—ç¨³å®šçš„æŸå¤±ä¼°è®¡ï¼Œä½†è¶…è¿‡çº¦1GBçš„éªŒè¯æ•°æ®åŽï¼Œæ”¶ç›Šé€’å‡ã€‚

æ€»ç»“ï¼šä¸¥æ ¼åˆ†ç¦»éªŒè¯é›†å’Œæµ‹è¯•é›†ã€‚åœ¨è®ç»ƒè¿‡ç¨‹ä¸ä½¿ç”¨éªŒè¯æŸå¤±æ¥æ£€æµ‹è¿‡æ‹Ÿåˆå¹¶è°ƒæ•´å¦ä¹ çŽ‡/dropoutç‰è¶…å‚æ•°ã€‚åœ¨æ‰€æœ‰å‚æ•°é”å®šåŽï¼Œä»…ä¸€æ¬¡ä½¿ç”¨æµ‹è¯•é›†ã€‚å¦‚æžœä½ çš„ç»“æžœè¦å…·æœ‰å¯ä¿¡åº¦ï¼Œè¿™ä¸€ç‚¹ä¸å®¹å¦¥åã€‚

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support