[P-Reinforce] Substantial content added to DQN/Dijkstra/Differentiable/Dense (Batch 05)

2026-04-20 17:05:12 +09:00
parent 4006c21356
commit 2eb44231a5
7 changed files with 189 additions and 0 deletions
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-DQN
+category: "[[10_Wiki/💡 Topics/AI]]"
+confidence_score: 0.99
+tags: [DQN, Deep Q-Networks, Reinforcement Learning, AI]
+last_reinforced: 2026-04-20
+---
+
+# [[DQN]] (심층 Q-네트워크)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "딥러닝이 강화학습의 눈이 되었다." 테이블 방식의 한계를 넘어, 복잡한 화면 이미지(픽셀)를 직접 보고 최적의 행동을 결정하게 만든 AI 역사의 한 획이다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **Experience Replay**:
+    - 과거의 경험을 메모리 버퍼에 저장했다가 무작위로 꺼내 학습함으로써, 데이터 간의 상관관계를 끊고 학습 안전성을 높인다.
+- **Fixed Q-Targets**:
+    - 학습 대상(Target)이 계속 변해서 생기는 불안정성을 막기 위해, 별도의 타겟 네트워크를 두고 일정한 주기마다 업데이트한다.
+- **Application**:
+    - 아타리(Atari) 게임 정복부터 로봇 제어, 주식 트레이딩 등 불확실한 환경의 의사결정에 널리 쓰인다.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- DQN은 행동 공간(Action Space)이 이산적(Discrete)일 때만 유리하다. 연속적인 움직임이 필요한 자율주행이나 로봇 팔 제어에는 `DDPG`나 `PPO` 같은 후속 알고리즘이 더 많이 사용된다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[Reinforcement Learning]] , [[Bellman-Equation]]
+- Foundation: [[Information Theory]]
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-DATA-CLEAN
+category: "[[10_Wiki/💡 Topics/AI]]"
+confidence_score: 0.97
+tags: [Data Cleaning, Machine Learning, Data Quality, Preprocessing]
+last_reinforced: 2026-04-20
+---
+
+# [[Data-Cleaning-Algorithms]] (데이터 정제 알고리즘)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "품질이 성능을 이긴다." 모델의 구조를 바꾸는 것보다 데이터 속의 노이즈와 중복을 제거하는 것이 AI 성능 향상에 훨씬 더 드라마틱한 결과(Data-centric AI)를 준다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **Outlier Detection**:
+    - 통계적 기법(Z-score, IQR) 또는 머신러닝(Isolation Forest)을 통해 정상 범위를 벗어난 이상치를 탐지하고 처리한다.
+- **Handling Missing Values**:
+    - 비어있는 값을 평균값으로 채울지, 아니면 예측 모델을 통해 추론해서 채울지(Imputation) 전략을 수립한다.
+- **Normalization & Scaling**:
+    - 데이터의 수치가 너무 제각각이면 학습이 불안정해지므로, 일정한 범위(0~1 등)로 맞추는 스케일링 과정이 필수적이다.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 무조건적인 데이터 삭제는 '중요한 예외 상황(Edge case)' 정보까지 날려버릴 수 있다. 특히 사고 예방이 중요한 보안이나 자율주행 분야에서는 이상 데이터를 버리기보다, 그것이 왜 발생했는지 분석하는 프로세스가 병행되어야 한다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[Information Theory]] , [[Reliability_Safety_First]]
+- Foundation: [[Computational Thinking]]
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-DENSE-SPARSE
+category: "[[10_Wiki/💡 Topics/AI]]"
+confidence_score: 0.98
+tags: [Neural Networks, Dense, Sparse, MoE, Efficiency]
+last_reinforced: 2026-04-20
+---
+
+# [[Dense-vs-Sparse-Neural-Networks]] (밀집 vs 희소 신경망)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "모두를 깨울 것인가, 필요한 놈만 깨울 것인가." 뇌가 모든 뉴런을 동시에 쓰지 않듯이, AI도 필요한 부위만 활성화하여 거대한 지능을 가볍게 유지하는 기술이다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **Dense Neural Networks**:
+    - 모든 입력과 출력이 촘촘하게 연결된 구조. 계산량은 많지만 구현이 쉽고 소규모 모델에 적합하다.
+- **Sparse Neural Networks (Pruning)**:
+    - 중요하지 않은 가중치(영향력이 적은 연결)를 0으로 만들어 연산량을 줄이는 기법.
+- **Mixture of Experts (MoE)**:
+    - 최근 GPT-4 등 거대 모델의 핵심 기술. 모델 안에 수십 명의 '전문가'를 두고, 질문의 성격에 맞는 전문가만 골라 활성화하여 성능은 높이고 연산 비용은 낮춘다.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 희소 행렬 연산은 하드웨어(GPU) 가속기에서 효율적으로 처리하기가 까다로운 면이 있다. 따라서 소프트웨어적인 '희소화'와 하드웨어의 '가속 효율' 사이의 균형점을 찾는 것이 현대 AI 공학의 최대 화두다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[Differentiable-Programming]] , [[Deep-Reinforcement-Learning]]
+- Foundation: [[Information Theory]]
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-DIF-PROG
+category: "[[10_Wiki/💡 Topics/AI]]"
+confidence_score: 0.98
+tags: [Differentiable Programming, AI, JAX, PyTorch, Optimization]
+last_reinforced: 2026-04-20
+---
+
+# [[Differentiable-Programming]] (미분 가능한 프로그래밍)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "프로그램 자체가 학습의 대상이다." 조건문, 루프, 라이브러리 함수까지 모두 조절 가능한 파라미터로 보고, 경사 하강법(Gradient Descent)으로 프로그램을 최적화하는 혁명적 패러다임이다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **End-to-End Optimization**:
+    - 입력부터 출력까지 모든 연산 과정이 연결되어 있어, 오차(Loss)가 발생하면 프로그램 전체로 미분 신호(Gradient)를 전파해 스스로 수정하게 한다.
+- **Software 2.0**:
+    - 안드레이 카파시가 제안한 개념. 사람이 일일이 로직을 짜는 Software 1.0에서, 데이터로부터 로직(신경망 가중치)이 생성되는 Software 2.0으로의 전환.
+- **Frameworks**:
+    - `JAX`, `PyTorch` 등 자동 미분(Auto-grad) 기능을 가진 프레임워크들이 이 패러다임의 중추 역할을 한다.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 모든 로직을 미분 가능하게 만들기는 어렵다(특히 불연속적인 이산적 선택). 이를 해결하기 위해 `Reinforce` 기법이나 `Gumbel-Softmax` 같은 트릭을 써서 확률적으로 미분 가능하게 연결하는 연구가 활발하다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[Deep-Reinforcement-Learning]] , [[Complexity-Theory]]
+- Foundation: [[Computational Theory & Math/Information Theory]]
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-DIJKSTRA
+category: "[[10_Wiki/💡 Topics/Programming & Language]]"
+confidence_score: 0.99
+tags: [Dijkstra, Algorithm, Pathfinding, Graph Theory]
+last_reinforced: 2026-04-20
+---
+
+# [[Dijkstra's-Algorithm]] (데이크스트라 알고리즘)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "욕심쟁이(Greedy)의 가장 똑똑한 길 찾기." 출발점에서 다른 모든 지점까지의 최단 거리를 가장 효율적으로 확정해 나가는 알고리즘의 고전이자 정석이다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **Shortest Path Tree**:
+    - 방문하지 않은 지점 중 거리가 가장 짧은 지점을 먼저 방문함으로써, 한 번 확정된 거리는 다시 계산할 필요가 없게 만든다.
+- **Priority Queue Usage**:
+    - 우선순위 큐(힙)를 사용하여 다음에 방문할 지점을 빠르게 찾아냄으로써 시간 복잡도를 극적으로 최적화한다.
+- **Application**:
+    - 구글 지도, 게임 길찾기, 네트워크 라우팅(OSPF) 등 연결된 네트워크가 있는 모든 곳에 쓰인다.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 데이크스트라는 음수 가중치(음수의 거리 등)가 있는 환경에서는 작동하지 않는다(이땐 벨만-포드 필요). 또한, 거대한 맵에서는 탐색 범위가 너무 넓어지므로, 목표 지점 방향으로 먼저 탐색하는 지능을 더한 `A* (A-Star) 알고리즘`이 실무에서 더 선호된다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[Autonomous-Vehicle-Path-Planning]] , [[Combinatorial-Optimization]]
+- Foundation: [[Computational Theory & Math/Information Theory]]
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-DIST-RL
+category: "[[10_Wiki/💡 Topics/AI]]"
+confidence_score: 0.98
+tags: [Distributed RL, Scalability, AI, Apex, Impala]
+last_reinforced: 2026-04-20
+---
+
+# [[Distributed-Reinforcement-Learning]] (분산 강화학습)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "혼자 배우면 1년, 함께 배우면 1시간." 수많은 에이전트를 가상 환경에 풀어 동시에 경험을 쌓게 하고, 이를 하나의 뇌로 집약하는 초고속 학습 기술이다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **Parallel Data Collection**:
+    - 수백~수천 개의 CPU/GPU 환경에서 독립적인 에이전트들이 데이터를 수집하여 중앙 서버로 전송한다.
+- **Asynchronous vs Synchronous**:
+    - 에이전트들끼리 속도를 맞출지(Sync), 아니면 각자 데이터가 생기는 대로 업데이트할지(Async)에 따른 아키텍처 차이(A3C, IMPALA 등).
+- **Efficiency Boost**:
+    - 탐색(Exploration)의 손실을 방지하고, 더 다양한 환경 시나리오를 짧은 시간 안에 학습할 수 있게 한다.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 분산 학습은 엄청난 컴퓨팅 자원을 소모한다. 최근에는 자원 효율성을 높이기 위해 '오프 폴리시(Off-policy)' 데이터를 더 효과적으로 재활용하는 `R2D2`나 `MuZero` 같은 알고리즘이 주목받고 있다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[DQN]] , [[Collective-Intelligence]]
+- Foundation: [[Distributed-Systems-Engineering]]
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-DYNAMIC-ENV
+category: "[[10_Wiki/💡 Topics/AI]]"
+confidence_score: 0.96
+tags: [Dynamic Environment, Autonomous Driving, Adaptation, AI]
+last_reinforced: 2026-04-20
+---
+
+# [[Dynamic-Environment-Handling]] (동적 환경 대응)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "세상은 멈춰 있지 않다." 비, 눈, 안개, 갑자기 뛰어드는 아이처럼 끊임없이 변하는 현실 세계의 변덕에 실시간으로 적응하는 AI의 회복 탄력성이다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **Robust Perception**:
+    - 센서 노이즈나 기상 악화 상황에서도 사물을 정확히 인식하는 강건한 시각 시스템.
+- **Real-time Path Planning**:
+    - 장애물이 나타날 때마다 수 밀리초(ms) 이내에 새로운 안전 경로를 계산하는 기술.
+- **Domain Adaptation**:
+    - 시뮬레이션 환경(Sim)과 실제 도로 환경(Real)의 차이를 메꾸어, 가상에서 배운 지식을 현실에서도 유효하게 만드는 전이 학습 기법.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 모든 시나리오를 미리 학습시키는 것은 불가능하다. 최근에는 '세계 모델(World Model)'을 통해 AI가 물리 법칙을 이해하게 함으로써, 처음 보는 돌발 상황에서도 상식적인 수준의 대응을 하도록 유도하는 연구가 대세다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[Autonomous-Vehicle-Path-Planning]] , [[Reliability_Safety_First]]
+- Foundation: [[Computational Thinking]]