iframe-proxy | Sunbelt Computer Software

åˆ†è¯ä¸Žæ–‡ä»¶åŽ‹ç¼©æ¯”çŽ‡è¯¦è§£ | AIç”Ÿæˆå’Œç¿»è¯‘

Home 2026.04

æ˜¯çš„ï¼Œè¿™å®Œå…¨æ£å¸¸ï¼åŽŸå› å¦‚ä¸‹ï¼š

æ•°å¦åŽŸç†

Raw text â†’ Tokenized (uint16) è½¬æ¢ï¼š

åŽŸå§‹:  "The cat sat on the mat"
å­—ç¬¦:     20 characters Ã— 1 byte = 20 bytes
Tokens:    ~5 tokens Ã— 2 bytes = 10 bytes  (GPT-2 BPE tokenization)

åŽ‹ç¼©æ¯”çŽ‡ï¼šæ–‡æœ¬åˆ° tokens ~2-4x

æ‚¨çš„æ•°æ®

æ–‡ä»¶	å¤§å°	Token æ•°é‡	è®¡ç®—
Raw text (full)	61 GB	~15B tokens*	61GB Ã· ~4 chars/token
Raw text (sample)	477 MB	~114M tokens	477MB Ã· ~4 chars/token
`train.bin`	27 MB	14M tokens	14M Ã— 2 bytes
`val.bin`	191 MB	100M tokens	100M Ã— 2 bytes

*å‡è®¾ä½¿ç”¨ GPT-2 tokenizer çš„è‹±æ–‡æ–‡æœ¬å¹³å‡ ~4 chars/token

ä¸ºä»€ä¹ˆè¿™ä¹ˆå°ï¼Ÿ

uint16ï¼šæ¯ä¸ª token å˜å‚¨ä¸º 2 å—èŠ‚ï¼ˆç›¸è¾ƒ Python int çš„ ~4 å—èŠ‚ï¼‰
éƒ¨åˆ†æ•°æ®ï¼šæ‚¨åªå‡†å¤‡äº† 61GB æ–‡ä»¶çš„ 477MB æ ·æœ¬ï¼ˆä¸åˆ° 1%ï¼‰

çŽ°å®žä¸–ç•Œæ¯”è¾ƒ

nanoGPT çš„æ ‡å‡† Shakespeare æ•°æ®é›†ï¼š

Raw textï¼š~1MB
Tokenized train.binï¼š~1MB
FineWeb full (10B tokens)ï¼š~20GB tokenized

å› æ¤ï¼Œä»Ž 477MB æ–‡æœ¬æ ·æœ¬å¾—åˆ° 27MB train.bin = ~18x åŽ‹ç¼©ã€‚è¿™æ˜¯æ£å¸¸çš„ã€‚ å¦‚æžœæ‚¨å‡†å¤‡å®Œæ•´çš„ 61GBï¼Œå°†å¾—åˆ°æ€»è®¡ ~30GB çš„ .bin æ–‡ä»¶ã€‚

Back Donate

Sunbelt Computer Software

PL/B Language Development and Support

åˆ†è¯ä¸Žæ–‡ä»¶åŽ‹ç¼©æ¯”çŽ‡è¯¦è§£ | AIç”Ÿæˆå’Œç¿»è¯‘

æ•°å­¦åŽŸç†

æ‚¨çš„æ•°æ®

ä¸ºä»€ä¹ˆè¿™ä¹ˆå°ï¼Ÿ

çŽ°å®žä¸–ç•Œæ¯”è¾ƒ

åˆ†è¯ä¸Žæ–‡ä»¶åŽ‹ç¼©æ¯”çŽ‡è¯¦è§£ | AIç”Ÿæˆå’Œç¿»è¯‘

æ•°å¦åŽŸç†

æ‚¨çš„æ•°æ®

ä¸ºä»€ä¹ˆè¿™ä¹ˆå°ï¼Ÿ