--- id: MATH-OPT-CTRL-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [math, control-theory, optimal-control, bellman-equation, reinforcement-learning, robotics] last_reinforced: 2026-04-26 --- # Optimal Control Theory (졜적 μ œμ–΄ 이둠) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "ν•œμ •λœ μ—λ„ˆμ§€λ₯Ό κ°€μž₯ μ˜λ¦¬ν•˜κ²Œ μ‚¬μš©ν•˜μ—¬, μ‹œμŠ€ν…œμ΄ λͺ©ν‘œν•œ ꢀ도에 κ°€μž₯ μš°μ•„ν•˜κ²Œ λ„λ‹¬ν•˜κ²Œ ν•˜λΌ" β€” μ‹œκ°„μ— 따라 λ³€ν™”ν•˜λŠ” 동적 μ‹œμŠ€ν…œμ˜ 거동을 μ œμ–΄ν•˜μ—¬, νŠΉμ • λͺ©μ  ν•¨μˆ˜(Cost Function)λ₯Ό μ΅œμ†Œν™”ν•˜κ±°λ‚˜ 이득을 μ΅œλŒ€ν™”ν•˜λŠ” 졜적의 μ œμ–΄ 법칙을 μ°Ύμ•„λ‚΄λŠ” μˆ˜ν•™μ  이둠. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Trajectory Optimization and Dynamic Programming" β€” μ‹œμŠ€ν…œμ˜ ν˜„μž¬ μƒνƒœμ™€ 물리적 μ œμ•½ 쑰건을 κ³ λ €ν•˜μ—¬ 미래의 일련의 행동듀을 κ³„νšν•˜κ³ , 벨만 방정식(Bellman Equation)μ΄λ‚˜ 폰트랴긴의 μ΅œλŒ€ 원리λ₯Ό 톡해 μ΅œμ„ μ˜ 경둜λ₯Ό μ‚°μΆœν•˜λŠ” μ œμ–΄ νŒ¨ν„΄. - **핡심 κ°œλ…:** - **LQR (Linear Quadratic Regulator):** μ„ ν˜• μ‹œμŠ€ν…œμ—μ„œ 였차의 μ œκ³±ν•©μ„ μ΅œμ†Œν™”ν•˜λŠ” ν‘œμ€€ μ œμ–΄ 기법. - **MPC (Model Predictive Control):** 미래의 일정 ꡬ간을 μ˜ˆμΈ‘ν•˜μ—¬ λ§€ μˆœκ°„ 졜적의 μž…λ ₯을 λ‹€μ‹œ κ³„μ‚°ν•˜λŠ” μ‹€μ‹œκ°„ μ œμ–΄ 방식. - **Hamiltonian:** μ‹œμŠ€ν…œμ˜ μ—λ„ˆμ§€ 보쑴과 λ³€ν™”μœ¨μ„ λ‹€λ£¨λŠ” 핡심 물리 μˆ˜μ‹. - **의의:** κ°•ν™”ν•™μŠ΅(RL)의 근간이 λ˜λŠ” 이둠적 ν† λŒ€μ΄λ©°, μžμœ¨μ£Όν–‰, ν•­κ³΅μš°μ£Ό, λ“œλ‘  μ œμ–΄ λ“± 물리적 싀체가 μžˆλŠ” AI μ‹œμŠ€ν…œμ˜ ν•„μˆ˜ ν•™λ¬Έ. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λͺ¨λ“  물리 μˆ˜μ‹μ„ μ™„λ²½νžˆ μ•Œμ•„μ•Ό ν–ˆλ˜ 과거의 λͺ¨λΈ 기반 μ œμ–΄(Model-based)μ—μ„œ, μ΄μ œλŠ” μˆ˜μ‹μ„ λͺ°λΌλ„ 데이터λ₯Ό 톡해 μ œμ–΄ κ·œμΉ™μ„ λ°°μš°λŠ” κ°•ν™”ν•™μŠ΅ 기반의 데이터 주도 μ œμ–΄(Data-driven)와 κ²°ν•©ν•˜μ—¬ 적응λ ₯이 κ·ΉλŒ€ν™”λ¨. - **μ •μ±… λ³€ν™”:** Skybound ν”„λ‘œμ νŠΈμ˜ 미사일 ꢀ적 μ΅œμ ν™” 및 μ—μ΄μ „νŠΈμ˜ μžμ› λ°°λΆ„ μ‹œλ‚˜λ¦¬μ˜€ 섀계 μ‹œ, 졜적 μ œμ–΄ 이둠의 λΉ„μš© ν•¨μˆ˜ 섀계 원칙을 μ€€μˆ˜ν•˜μ—¬ μ‹œμŠ€ν…œμ˜ μ•ˆμ •μ„±μ„ 확보함. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Reinforcement-Learning|Reinforcement-Learning]], [[Monte-Carlo-Tree-Search-MCTS|Monte-Carlo-Tree-Search-MCTS]], [[Markov-Decision-Process-MDP|Markov-Decision-Process-MDP]], Fluid-Dynamics - **Raw Source:** 10_Wiki/Topics/AI/Optimal-Control-Theory.md