--- id: AI-LLM-SCALE-001 category: "10_Wiki/๐Ÿ’ก Topics/AI" confidence_score: 1.0 tags: [ai, llm, scaling-laws, chinchilla, compute-optimal, deep-learning, efficiency] last_reinforced: 2026-04-26 --- # Scaling Laws for LLMs (LLM์„ ์œ„ํ•œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™) ## ๐Ÿ“Œ ํ•œ ์ค„ ํ†ต์ฐฐ (The Karpathy Summary) > "์ง€๋Šฅ์˜ ์„ฑ์žฅ์€ ๋ฌด์ž‘์œ„๊ฐ€ ์•„๋‹ˆ๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ, ๋ฐ์ดํ„ฐ, ์—ฐ์‚ฐ๋Ÿ‰์ด๋ผ๋Š” ์„ธ ์ถ•์˜ '๋ฉฑ๋ฒ•์น™(Power Law)'์„ ๋”ฐ๋ฅด๋ฉฐ, ์ตœ์ ์˜ ๋ฐฐํ•ฉ์„ ์ฐพ๋Š” ์ž๊ฐ€ ์ตœ์†Œํ•œ์˜ ๋น„์šฉ์œผ๋กœ ์ตœ๊ฐ•์˜ ์ง€๋Šฅ์„ ์–ป๋Š”๋‹ค" โ€” ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ž์› ํˆฌ์ž…๋Ÿ‰์— ๋”ฐ๋ผ ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ๋ฐฉ์‹์œผ๋กœ ํ–ฅ์ƒ๋œ๋‹ค๋Š” ํ†ต๊ณ„์  ๋ฒ•์น™. ## ๐Ÿ“– ๊ตฌ์กฐํ™”๋œ ์ง€์‹ (Synthesized Content) - **์ถ”์ถœ๋œ ํŒจํ„ด:** "Power-law Performance Scaling and Resource Balancing" โ€” ๋ชจ๋ธ ํฌ๊ธฐ($N$), ๋ฐ์ดํ„ฐ ํฌ๊ธฐ($D$), ์—ฐ์‚ฐ๋Ÿ‰($C$) ์ค‘ ์–ด๋А ํ•˜๋‚˜๋งŒ ๊ทน๋‹จ์ ์œผ๋กœ ํ‚ค์šฐ๋Š” ๊ฒƒ๋ณด๋‹ค, ์„ธ ์š”์†Œ๋ฅผ ์กฐํ™”๋กญ๊ฒŒ ํ™•์žฅํ•  ๋•Œ ์†์‹ค(Loss)์ด ๊ฐ€์žฅ ํšจ์œจ์ ์œผ๋กœ ๊ฐ์†Œํ•œ๋‹ค๋Š” ํŒจํ„ด. - **์ฃผ์š” ๋ฒ•์น™ ๋ฐ ์—ฐ๊ตฌ:** - **OpenAI Scaling Law (2020):** ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๊ฒƒ์ด ๋ฐ์ดํ„ฐ ์–‘์„ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ๋ณด๋‹ค ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋” ์œ ๋ฆฌํ•˜๋‹ค๊ณ  ์ฃผ์žฅ. - **Chinchilla Scaling Law (DeepMind, 2022):** ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์— ๋น„ํ•ด ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ–ˆ์Œ์„ ์ง€์ . ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ์–‘์„ 1:1 ๋น„์œจ๋กœ ๋Š˜๋ ค์•ผ '์—ฐ์‚ฐ ์ตœ์ (Compute Optimal)'์ž„์„ ์ž…์ฆ. - **์˜์˜:** ์ˆ˜์ฒœ์–ต ์›์ด ๋“œ๋Š” ๊ฑฐ๋Œ€ ๋ชจ๋ธ ํ•™์Šต ์ „์—, ์ž‘์€ ์‹คํ—˜๋งŒ์œผ๋กœ ์ตœ์ข… ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ •๋ฐ€ํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜์—ฌ ๋ง‰๋Œ€ํ•œ ์ž์› ๋‚ญ๋น„๋ฅผ ๋ฐฉ์ง€ํ•˜๊ฒŒ ํ•จ. ## โš ๏ธ ๋ชจ์ˆœ ๋ฐ ์—…๋ฐ์ดํŠธ (Contradictions & RL Update) - **๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ์™€์˜ ์ถฉ๋Œ:** "๋ชจ๋ธ์ด ํด์ˆ˜๋ก ๋ฌด์กฐ๊ฑด ์ข‹๋‹ค"๋Š” ์ดˆ๊ธฐ ๋ฏฟ์Œ์„ ๊นจ๊ณ , ์ด์ œ๋Š” ์ž‘์€ ๋ชจ๋ธ์— ์—„์ฒญ๋‚œ ์–‘์˜ ์–‘์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์‹œ์ผœ ํฐ ๋ชจ๋ธ์„ ์••๋„ํ•˜๋Š” '์ž‘๊ณ  ๊ฐ•ํ•œ ์ง€๋Šฅ' ์ „๋žต(์˜ˆ: Llama ์‹œ๋ฆฌ์ฆˆ)์ด ์ฃผ๋ฅ˜๊ฐ€ ๋จ. - **์ •์ฑ… ๋ณ€ํ™”:** Antigravity ํ”„๋กœ์ ํŠธ๋Š” ์ž์ฒด ์—์ด์ „ํŠธ ๋ชจ๋ธ ๋ฏธ์„ธ ์กฐ์ • ์‹œ, ์ตœ์‹  ์Šค์ผ€์ผ๋ง ๋ฒ•์น™์„ ์ ์šฉํ•˜์—ฌ ๋ณด์œ ํ•œ ์—ฐ์‚ฐ ์ž์› ๋Œ€๋น„ ๊ฐ€์žฅ ํšจ์œจ์ ์ธ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ๋ฅผ ์‚ฐ์ •ํ•จ. ## ๐Ÿ”— ์ง€์‹ ์—ฐ๊ฒฐ (Graph) - LLM-Training-Foundations, High-Performance-Computing-HPC, Data-Centric-AI, [[Optimization-in-AI|Optimization-in-AI]] - **Raw Source:** 10_Wiki/Topics/AI/Scaling-Laws-for-LLMs.md