--- id: TRANS-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, deep-learning, transformer, attention, llm] last_reinforced: 2026-04-26 --- # Transformer Architecture (트랜슀포머 μ•„ν‚€ν…μ²˜) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "순차적 처리λ₯Ό 버리고, 데이터 κ°„μ˜ λͺ¨λ“  관계λ₯Ό ν•œλˆˆμ— νŒŒμ•…ν•˜λΌ" β€” ꡬ글이 μ œμ•ˆν•œ "Attention is All You Need" λ…Όλ¬Έ 기반 μ•„ν‚€ν…μ²˜λ‘œ, 병렬 μ—°μ‚°κ³Ό μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 ν˜„λŒ€ λͺ¨λ“  κ±°λŒ€ λͺ¨λΈ(GPT, BERT λ“±)의 ν‘œμ€€μ΄ 된 신경망 ꡬ쑰. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** 데이터λ₯Ό ν•œ λ²ˆμ— μž…λ ₯λ°›μ•„ 각 μš”μ†Œ κ°„μ˜ 연관성을 κ³„μ‚°ν•˜κ³ (Self-Attention), 정보λ₯Ό 인코딩 및 λ””μ½”λ”©ν•˜μ—¬ λ³΅μž‘ν•œ μ‹œν€€μŠ€ λ³€ν™˜μ„ μˆ˜ν–‰ν•˜λŠ” μ „μ—­ 처리 νŒ¨ν„΄. - **핡심 ꡬ성 μš”μ†Œ:** - **Self-Attention:** λ¬Έμž₯ λ‚΄ λͺ¨λ“  단어 쌍 μ‚¬μ΄μ˜ 관계λ₯Ό 점수둜 맀겨 λ¬Έλ§₯을 νŒŒμ•…. - **Multi-Head Attention:** μ—¬λŸ¬ μ–΄ν…μ…˜ 루프λ₯Ό 톡해 단어 μ‚¬μ΄μ˜ λ‹€μ–‘ν•œ 의미적/ꡬ쑰적 관계λ₯Ό λ™μ‹œ 뢄석. - **Positional Encoding:** 순차 데이터가 μ•„λ‹˜μ—λ„ λ‹¨μ–΄μ˜ μˆœμ„œ 정보λ₯Ό 벑터에 μ£Όμž…ν•˜μ—¬ μœ„μΉ˜ 감각 λΆ€μ—¬. - **Encoder-Decoder:** μž…λ ₯의 의미λ₯Ό μ‘μΆ•ν•˜λŠ” 인코더와 결과물을 ν•˜λ‚˜μ”© μƒμ„±ν•˜λŠ” 디코더 ꡬ쑰. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** μ‹œκ³„μ—΄ λ°μ΄ν„°λŠ” λ°˜λ“œμ‹œ 순차적으둜 μ²˜λ¦¬ν•΄μ•Ό ν•œλ‹€λŠ” 고정관념을 κΉ¨κ³ , 전역적인 관계 뢄석과 λŒ€κ·œλͺ¨ 병렬화가 κ°€λŠ₯함을 증λͺ…ν•˜λ©° AI의 μ„±λŠ₯ ν•œκ³„λ₯Ό λŒνŒŒν•¨. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈμ˜ 핡심 μΆ”λ‘  엔진은 트랜슀포머 기반의 μ•„ν‚€ν…μ²˜λ₯Ό μ‚¬μš©ν•˜λ©°, νš¨μœ¨μ„±μ„ 높이기 μœ„ν•΄ 'Flash Attention'κ³Ό 같은 μ΅œμ ν™” 기법을 μ μš©ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - Attention-Mechanisms, [[NLP-Attention-Mechanisms|NLP-Attention-Mechanisms]], [[LLM|LLM]], [[Parallel-Computing|Parallel-Computing]] - **Raw Source:** 10_Wiki/Topics/AI/Transformer-Architecture.md