--- id: wiki-2026-0508-transformer-architecture-and-llm title: Transformer Architecture and LLM Foundations category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-CANONICAL-TRANSFORMER-LLM] duplicate_of: none source_trust_level: A confidence_score: 0.92 tags: [canonical, transformer, llm, attention, bert, gpt] raw_sources: [] last_reinforced: 2026-05-08 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # [[Transformer_Architecture_and_LLM_Foundations|Transformer Architecture & LLM Foundations]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "데이터 κ°„μ˜ λͺ¨λ“  관계λ₯Ό λ³‘λ ¬λ‘œ νŒŒμ•…ν•˜μ—¬ μ‹œν€€μŠ€μ˜ ν•œκ³„λ₯Ό λŒνŒŒν•˜λΌ." νŠΈλžœμŠ€ν¬λ¨ΈλŠ” 순차적 처리λ₯Ό 버리고 μ…€ν”„ μ–΄ν…μ…˜(Self-Attention) λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 λ°μ΄ν„°μ˜ λ§₯락을 μ „μ—­μ μœΌλ‘œ νŒŒμ•…ν•˜λ©°, ν˜„λŒ€ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 폭발적인 μ„±λŠ₯ ν–₯상을 이끈 ν‘œμ€€ μ•„ν‚€ν…μ²˜μž…λ‹ˆλ‹€. --- ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) ### 1. 트랜슀포머의 핡심: μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜ (Attention Mechanism) * **Self-Attention:** μž…λ ₯ λ¬Έμž₯의 각 단어가 λ¬Έλ§₯ λ‚΄ λ‹€λ₯Έ λͺ¨λ“  단어듀과 μ–΄λ–€ 관계λ₯Ό λ§Ίκ³  μžˆλŠ”μ§€ 점수λ₯Ό λ§€κΉλ‹ˆλ‹€. νŠΉμ • 단어λ₯Ό μ΄ν•΄ν•˜κΈ° μœ„ν•΄ μ–΄λ–€ 단어에 '주의(Attention)'λ₯Ό κΈ°μšΈμ—¬μ•Ό ν•˜λŠ”μ§€ κ³„μ‚°ν•©λ‹ˆλ‹€. * **Multi-Head Attention:** μ—¬λŸ¬ 개의 μ–΄ν…μ…˜ 루프λ₯Ό λ³‘λ ¬λ‘œ μ‹€ν–‰ν•˜μ—¬, 단어 κ°„μ˜ λ‹€μ–‘ν•œ 의미적(문법, 의미, λŒ€μš©μ–΄ λ“±) 관계λ₯Ό λ™μ‹œμ— ν¬μ°©ν•©λ‹ˆλ‹€. * **Query, Key, Value (Q, K, V):** 정보λ₯Ό μ°ΎμœΌλ €λŠ” 주체(Q), μ •λ³΄μ˜ 인덱슀(K), μ‹€μ œ 정보 κ°’(V)으둜 데이터λ₯Ό λ²‘ν„°ν™”ν•˜μ—¬ 관계λ₯Ό μ—°μ‚°ν•©λ‹ˆλ‹€. ### 2. μ•„ν‚€ν…μ²˜ ꡬ성 μš”μ†Œ * **Positional Encoding:** νŠΈλžœμŠ€ν¬λ¨ΈλŠ” 데이터λ₯Ό ν•œκΊΌλ²ˆμ— μž…λ ₯λ°›μœΌλ―€λ‘œ μˆœμ„œ 정보가 μ—†μŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 단어 벑터에 μœ„μΉ˜ 정보(Sine/Cosine ν•¨μˆ˜ λ“±)λ₯Ό 더해 μˆœμ„œ 감각을 λΆ€μ—¬ν•©λ‹ˆλ‹€. * **Feed-Forward Network (FFN):** μ–΄ν…μ…˜ μΈ΅ 이후에 각 μœ„μΉ˜μ—μ„œ λ…λ¦½μ μœΌλ‘œ μ μš©λ˜λŠ” μ‹ κ²½λ§μœΌλ‘œ, λΉ„μ„ ν˜•μ„±μ„ μΆ”κ°€ν•˜κ³  정보λ₯Ό μ •μ œν•©λ‹ˆλ‹€. * **Layer Normalization & Residual Connections:** ν•™μŠ΅μ„ μ•ˆμ •ν™”ν•˜κ³  κΉŠμ€ μΈ΅μ—μ„œλ„ 기울기 μ†Œμ‹€ 문제 없이 정보가 잘 μ „λ‹¬λ˜λ„λ‘ λ•μŠ΅λ‹ˆλ‹€. ### 3. LLM의 λ°œμ „κ³Ό νŒŒμ΄ν”„λΌμΈ * **Encoder-Only (BERT):** λ¬Έμž₯의 μ–‘λ°©ν–₯ λ§₯락을 μ΄ν•΄ν•˜λŠ” 데 νŠΉν™”. λΆ„λ₯˜, 개체λͺ… 인식 등에 μ‚¬μš©λ©λ‹ˆλ‹€. * **Decoder-Only (GPT):** 이전 단어듀을 λ°”νƒ•μœΌλ‘œ λ‹€μŒ 단어λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 데 νŠΉν™”. ν…μŠ€νŠΈ μƒμ„±μ˜ ν‘œμ€€μž…λ‹ˆλ‹€. * **Encoder-Decoder (T5, BART):** λ²ˆμ—­μ΄λ‚˜ μš”μ•½μ²˜λŸΌ μž…λ ₯을 λ°›μ•„ λ‹€λ₯Έ ν˜•νƒœμ˜ 좜λ ₯을 λ§Œλ“œλŠ” μž‘μ—…μ— μ‚¬μš©λ©λ‹ˆλ‹€. ### 4. μ΅œμ‹  μ΅œμ ν™” 기법 * **Flash Attention:** λ©”λͺ¨λ¦¬ μ ‘κ·Ό νŒ¨ν„΄μ„ μ΅œμ ν™”ν•˜μ—¬ μ–΄ν…μ…˜ μ—°μ‚° 속도λ₯Ό λΉ„μ•½μ μœΌλ‘œ 높이고 λ©”λͺ¨λ¦¬ μ‚¬μš©λŸ‰μ„ μ€„μž…λ‹ˆλ‹€. * **KV Cache:** 생성 μž‘μ—… μ‹œ 이전 λ‹¨κ³„μ˜ Key/Value 벑터λ₯Ό μž¬μ‚¬μš©ν•˜μ—¬ μΆ”λ‘  속도λ₯Ό κ°€μ†ν™”ν•©λ‹ˆλ‹€. * **MoE (Mixture of Experts):** λͺ¨λΈ 전체λ₯Ό ν™œμ„±ν™”ν•˜λŠ” λŒ€μ‹  데이터에 λ§žλŠ” 일뢀 μ „λ¬Έκ°€ λ„€νŠΈμ›Œν¬λ§Œ ν™œμ„±ν™”ν•˜μ—¬ νš¨μœ¨μ„±μ„ κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€. --- ## βš–οΈ νŠΈλ ˆμ΄λ“œμ˜€ν”„ 및 μ£Όμ˜μ‚¬ν•­ (Trade-offs) * **μ—°μ‚° λ³΅μž‘λ„:** μ–΄ν…μ…˜μ€ λ¬Έμž₯ 길이의 제곱($N^2$)에 λΉ„λ‘€ν•˜λŠ” μ—°μ‚°λŸ‰μ„ κ°€μ§‘λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ Sparse Attentionμ΄λ‚˜ Ring Attention λ“±μ˜ 기법이 μ—°κ΅¬λ˜κ³  μžˆμŠ΅λ‹ˆλ‹€. * **데이터 μ˜μ‘΄μ„±:** νŠΈλžœμŠ€ν¬λ¨ΈλŠ” μ–Έμ–΄μ˜ κ·œμΉ™μ„ 슀슀둜 ν•™μŠ΅ν•΄μ•Ό ν•˜λ―€λ‘œ, μΆ©λΆ„ν•œ μ„±λŠ₯을 λ‚΄κΈ° μœ„ν•΄ λ°©λŒ€ν•œ μ–‘μ˜ ν•™μŠ΅ 데이터가 ν•„μš”ν•©λ‹ˆλ‹€. --- ## πŸ”— 지식 μ—°κ²° (Graph) - **Parent:** [[10_Wiki/Topics]] - **Related:** [[데아ᄐα…₯_ᄉᅑ아ᄋα…₯ᆫ스_맟_ML_α„‹α…¦α†«α„Œα…΅α„‚α…΅α„‹α…₯α„…α…΅α†Ό|Neural_Networks_and_Deep_Learning_Foundations]], [[데아ᄐα…₯_ᄉᅑ아ᄋα…₯ᆫ스_맟_ML_α„‹α…¦α†«α„Œα…΅α„‚α…΅α„‹α…₯α„…α…΅α†Ό|Reinforcement_Learning_and_Decision_Making]] - **Redirects:** [[Transformer]], [[Attention_Mechanism]], [[Transformer_Architecture_and_LLM_Foundations|BERT]], [[GPT]], [[Transformer_Architecture_and_LLM_Foundations|LLM_Fundamentals]] --- *Last updated: 2026-05-08* ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** μ—†μŒ - **μ •μ±… λ³€ν™”:** μ—†μŒ ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*