--- id: [[P-Reinforce|P-Reinforce]]-AUTO-TRFA-001 category: Unified confidence_score: 1.00 tags: [auto-reinforced, transformer, attention-mechanism, mha, mla, self-attention, deep-learning] last_reinforced: 2026-05-04 --- # [[Transformer Architecture|Transformer Architecture]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "ν˜„λŒ€ AI의 ν‘œμ€€ 섀계도: λͺ¨λ“  데이터 μ‚¬μ΄μ˜ 관계λ₯Ό λ™μ‹œμ— νŒŒμ•…ν•˜λŠ” μ–΄ν…μ…˜(Attention) λ©”μ»€λ‹ˆμ¦˜μ„ ν•΅μ‹¬μœΌλ‘œ ν•˜μ—¬, λ¬Έμž₯의 순차적 처리λ₯Ό νƒˆν”Όν•˜κ³  병렬 μ—°μ‚°μ˜ μ‹œλŒ€λ₯Ό μ—΄μ–΄μ –νžŒ κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈμ˜ κ·Όκ°„ μ•„ν‚€ν…μ²˜." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) νŠΈλžœμŠ€ν¬λ¨ΈλŠ” 2017λ…„ "Attention Is All You Need" λ…Όλ¬Έμ—μ„œ μ œμ•ˆλœ 이후, 거의 λͺ¨λ“  ν˜„λŒ€ μƒμ„±ν˜• AI의 기반이 된 신경망 κ΅¬μ‘°μž…λ‹ˆλ‹€. 1. **핡심 ꡬ성 μš”μ†Œ**: * **Self-Attention (자기 주의 집쀑)**: λ¬Έμž₯ λ‚΄μ˜ 각 단어가 λ‹€λ₯Έ λͺ¨λ“  λ‹¨μ–΄λ“€κ³Όμ˜ 연관성을 κ³„μ‚°ν•˜μ—¬ λ¬Έλ§₯을 νŒŒμ•…ν•©λ‹ˆλ‹€. * **Multi-Head Attention (MHA)**: μ—¬λŸ¬ 개의 μ–΄ν…μ…˜μ„ λ³‘λ ¬λ‘œ μˆ˜ν–‰ν•˜μ—¬, 단어 κ°„μ˜ λ‹€μ–‘ν•œ 관계(문법적, 의미적 λ“±)λ₯Ό λ™μ‹œμ— ν•™μŠ΅ν•©λ‹ˆλ‹€. * **Feed-Forward Network (FFN)**: μ–΄ν…μ…˜ 결과물을 λΉ„μ„ ν˜• λ³€ν™˜ν•˜μ—¬ νŠΉμ§•μ„ μΆ”μΆœν•©λ‹ˆλ‹€. * **Positional Encoding**: μˆœμ„œ 정보가 μ—†λŠ” μ–΄ν…μ…˜μ— λ‹¨μ–΄μ˜ μœ„μΉ˜ 정보λ₯Ό μ£Όμž…ν•©λ‹ˆλ‹€. ([[Positional Embeddings (RoPE & Variants)|RoPE]] λ“± ν™œμš©) 2. **μ§„ν™”λœ μ–΄ν…μ…˜ - MLA (Multi-Head Latent Attention)**: * **νŠΉμ§•**: Key와 Valueλ₯Ό μ••μΆ•λœ 잠재 곡간(Latent Space)으둜 νˆ¬μ˜ν•˜μ—¬ [[KV Cache|KV Cache]] λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰μ„ 획기적으둜 μ€„μž…λ‹ˆλ‹€. * **의의**: μ„±λŠ₯ μ €ν•˜λ₯Ό μ΅œμ†Œν™”ν•˜λ©΄μ„œλ„ 백만 토큰 μ΄μƒμ˜ 초μž₯거리 λ¬Έλ§₯ 처리λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. (DeepSeek λ“± μ΅œμ‹  λͺ¨λΈ 적용) 3. **병렬 μ—°μ‚°μ˜ 이점**: * μ΄μ „μ˜ RNN 방식과 달리 λ¬Έμž₯을 ν•œκΊΌλ²ˆμ— μ²˜λ¦¬ν•  수 μžˆμ–΄, GPUλ₯Ό ν™œμš©ν•œ λŒ€κ·œλͺ¨ ν•™μŠ΅μ— μ΅œμ ν™”λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. ## βš–οΈ Trade-offs & Caveats * **λ©”λͺ¨λ¦¬ 폭발**: μ–΄ν…μ…˜ 연산은 μž…λ ₯ 길이에 λΉ„λ‘€ν•˜μ—¬ λ©”λͺ¨λ¦¬ μš”κ΅¬λŸ‰μ΄ 제곱($O(n^2)$)으둜 λŠ˜μ–΄λ‚©λ‹ˆλ‹€. * **MLA의 μ™œκ³‘**: MLA와 같은 μ••μΆ• 기법은 λ©”λͺ¨λ¦¬λŠ” μ ˆμ•½ν•˜μ§€λ§Œ, λ¬Έλ§₯이 κ·Ήλ„λ‘œ κΈΈμ–΄μ§ˆ 경우 μ •λ³΄μ˜ λ―Έμ„Έν•œ μ™œκ³‘μ΄ λ°œμƒν•˜μ—¬ 닀쀑 정보 검색 μ„±λŠ₯이 λ–¨μ–΄μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€. ## πŸ”— 지식 μ—°κ²° (Graph) * **μƒμœ„ κ°œλ…**: [[Deep Learning|Deep Learning]], [[Natural Language Processing (NLP)|NLP]] * **μ΅œμ ν™” 기술**: [[Attention Mechanisms|Attention Mechanisms]], [[Flash Attention|Flash Attention]], [[Mixture of Experts (MoE) & Sparse Architectures|MoE]] * **μœ„μΉ˜ 정보**: [[Positional Embeddings (RoPE & Variants)|Positional Embeddings]] --- *Last updated: 2026-05-04*