è®ç»æ°æ®éä¸è¯å ç»è®¡ | AIçæåç¿»è¯
æ°æ®é大å°
è®ç»è¦çæ åµ
- å·²å¤çè¯å ï¼12,000 次è¿ä»£ à 524,288 = 62.9亿è¯å
- éå
train.binç轮次ï¼çº¦1.71æ¬¡ï¼æ¯ä¸ªè¯å å¹³å被çå°<2次ï¼
说æ
- 约2.2åçå缩çï¼16 GB ææ¬ â 7.36 GB è¯å ï¼å¯¹ GPT-2 BPE å±äºæ£å¸¸èå´ ââ 约æ¯è¯å 对åº3.7å符ã
val.binä» 5,675è¯å ï¼ä½éå¼å¸¸å°ï¼å¨ block_size=1024 设置ä¸çº¦çäº5个è¯ä¼°æ¹æ¬¡ï¼ãå½ eval_iters=200 æ¶ï¼å¤æ°è¯ä¼°ä¼éå¤éæ ·ç¸åæ°æ®åãå¦ééæ°å夿°æ®ï¼å»ºè®®ååçå®ä¿çéï¼ä¾å¦ä» train.bin æ½å0.5% â 1800ä¸è¯å ï¼ââ è¿æ ·éªè¯æå¤±æ°å¼ä¼æ´å¯é ã- åèæ°æ®ï¼å¯¹äº1.24äº¿åæ°æ¨¡åï¼Chinchillaæä¼è®ç»é约为25亿è¯å ï¼èå½å63亿è¯å çè®ç»éå·²è¶ è¿è®¡ç®æä¼å¼ãæ¬æ¬¡è®ç»ææçç¶é¢å¨äºæ¨¡åè§æ¨¡èéæ°æ®é ââ è¥è¦å¨ä¸æ©å¤§æ¨¡åçæ åµä¸è¿ä¸æ¥éä½éªè¯æå¤±ï¼å»¶é¿è®ç»æ¶é´æ¶æçå¾®ã
