[P-Reinforce] Inventory items 17-21 fulfilled (Batch 08)

2026-04-20 17:09:38 +09:00
parent e1106c03ea
commit 0a29c6d0e5
5 changed files with 99 additions and 39 deletions
@@ -1,25 +1,27 @@
 ---
-id: P-REINFORCE-AUTO-CA155B
+id: P-REINFORCE-AI-AGENT
 category: "[[10_Wiki/💡 Topics/AI]]"
-confidence_score: 0.90
-tags: [auto-reinforced]
+confidence_score: 1.0
+tags: [AI Agent, Autonomy, Planning, Reasoning, Action]
 last_reinforced: 2026-04-20
-github_commit: "[P-Reinforce] Continuous Worker - AI 에이전트 (AI Agent)"
 ---

-# [[AI 에이전트 (AI Agent)]]
+# [[AI-에이전트-(AI-Agent)]]

 ## 📌 한 줄 통찰 (The Karpathy Summary)
-> 지식 요약 정보 추출 중...
+> "단순한 계산기에서 자율적인 일꾼으로." 스스로 목표를 설정하고, 계획을 세우며, 도구(Browser, Terminal 등)를 사용하여 주어진 과업을 끝까지 완수하는 자율적 지능체다.

 ## 📖 구조화된 지식 (Synthesized Content)
-본문 구조화 작업 중...
+- **Planning & Reasoning**:
+    - 거대 언어 모델(LLM)을 두뇌로 삼아 복잡한 문제를 작은 단계로 분해(Chain-of-Thought)하고 전략을 수립한다.
+- **Action & Tool Use**:
+    - API 호출, 웹 검색, 코드 실행 등 외부 환경과 상호작용할 수 있는 인터페이스를 통해 실제 세계에 변화를 일으킨다.
+- **Memory Management**:
+    - 대화의 맥락(Short-term)과 과거 지식(Long-term)을 RAG나 체크포인트 형태로 유지하여 일관된 수행 능력을 보유한다.

-## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 자동화 엔진에 의해 매핑된 지식으로, 추후 정밀 검증 필요.
- **정책 변화:** AI 분야의 자동 자산화 수행.
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 현재의 에이전트는 '무한 루프'나 '환각'에 빠질 위험이 크다. 이를 극복하기 위해 에이전트가 자신의 결과물을 스스로 검토하는 'Self-Correction' 루프와, 인간이 중간에 개입하는 'Human-in-the-loop' 설계가 필수적이다.

 ## 🔗 지식 연결 (Graph)
-
- Raw Source: [[00_Raw/2026-04-20/AI 에이전트 (AI Agent).md]]
---
+- Related: [[Multi-Agent-System-(다중-에이전트-시스템)]] , [[Agent-Communication-Protocol-(에이전트-통신-규약)]]
+- Deployment: [[Deployment_Final_Gate]]
@@ -1,25 +1,27 @@
 ---
-id: P-REINFORCE-AUTO-281D7C
+id: P-REINFORCE-AI-GAMES
 category: "[[10_Wiki/💡 Topics/AI]]"
-confidence_score: 0.90
-tags: [auto-reinforced]
+confidence_score: 0.98
+tags: [Game AI, Pathfinding, FSM, Behavior Tree, Reinforcement Learning]
 last_reinforced: 2026-04-20
-github_commit: "[P-Reinforce] Continuous Worker - Artificial-Intelligence-in-Games"
 ---

-# [[Artificial-Intelligence-in-Games]]
+# [[Artificial-Intelligence-in-Games]] (게임 속의 인공지능)

 ## 📌 한 줄 통찰 (The Karpathy Summary)
-> 지식 요약 정보 추출 중...
+> "플레이어의 즐거움을 위한 적당한 지능적 패배." 플레이어에게 도전과 몰입감을 주기 위해 설계된 NPC 제어 기술이자, 최근에는 환경 생성(PCG)까지 확장된 게임 디자인의 파트너다.

 ## 📖 구조화된 지식 (Synthesized Content)
-본문 구조화 작업 중...
+- **Decision Making (FSM/BT)**:
+    - 유한 상태 기계(FSM)나 행동 트리(Behavior Tree)를 통해 상황에 맞는 NPC의 행동 로직을 계층적으로 설계한다.
+- **Dynamic Difficulty Adjustment (DDA)**:
+    - 실시간으로 플레이어의 실력을 파악하여 난이도를 조절, '몰입(Flow)' 상태를 유지하게 하는 기술.
+- **Emergent Behavior**:
+    - 고정된 스크립트가 아니라, 단순한 규칙들의 상호작용을 통해 개발자도 예상치 못한 흥미로운 상황을 만들어내는 기법.

-## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 자동화 엔진에 의해 매핑된 지식으로, 추후 정밀 검증 필요.
- **정책 변화:** AI 분야의 자동 자산화 수행.
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 너무 똑똑한 AI는 게임의 재미를 망친다(절대 지지 않는 AI는 독재자와 같다). 따라서 게임 AI의 핵심은 '완벽한 승리'가 아니라 '설득력 있는 지능적 행동'을 보여주는 것이다.

 ## 🔗 지식 연결 (Graph)
-
- Raw Source: [[00_Raw/2026-04-20/Artificial-Intelligence-in-Games.md]]
---
+- Related: [[Agency-in-Game-Design]] , [[Reinforcement-Learning]]
+- Context: [[Immersive-Sim-Genre]]
@@ -1,25 +1,27 @@
 ---
-id: P-REINFORCE-AUTO-7DCE25
+id: P-REINFORCE-AI-ASD
 category: "[[10_Wiki/💡 Topics/AI]]"
-confidence_score: 0.90
-tags: [auto-reinforced]
+confidence_score: 0.96
+tags: [ASD, Autism, AI Intervention, Healthcare, Therapy]
 last_reinforced: 2026-04-20
-github_commit: "[P-Reinforce] Continuous Worker - Autism Spectrum Disorder (ASD) Intervention"
 ---

-# [[Autism Spectrum Disorder (ASD) Intervention]]
+# [[Autism-Spectrum-Disorder-(ASD)-Intervention]] (ASD를 위한 기술적 개입)

 ## 📌 한 줄 통찰 (The Karpathy Summary)
-> 지식 요약 정보 추출 중...
+> "사회적 장벽을 허무는 디지털 동반자." 자폐 스펙트럼 장애(ASD)를 가진 이들이 겪는 의사소통과 감정 인식의 어려움을 AI 기술을 통해 보조하고 교육하는 인도적 기술이다.

 ## 📖 구조화된 지식 (Synthesized Content)
-본문 구조화 작업 중...
+- **Emotion Recognition Training**:
+    - 사람의 표정을 분석하여 감정을 텍스트나 소리로 알려주는 안경(Smart glass)이나 앱을 통해 사회적 상호작용을 돕는다.
+- **Social Scenarios Simulation**:
+    - VR(가상 현실)과 AI를 결합하여 안전한 환경에서 사회적 상황을 반복 연습하게 함으로써 실제 상황에서의 불안감을 낮춘다.
+- **Personalized Learning Robots**:
+    - 사람과의 접촉을 부담스러워할 수 있는 환자를 위해, 감정이 일관되고 인내심이 강한 교육용 로봇을 통해 기초 교육을 수행한다.

-## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 자동화 엔진에 의해 매핑된 지식으로, 추후 정밀 검증 필요.
- **정책 변화:** AI 분야의 자동 자산화 수행.
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 기술은 보조적 수단일 뿐, 인간 전문가나 가족의 사랑과 지지를 대체할 수 없다. 기술 과의존으로 인해 현실 세계와의 접촉이 더 줄어들지 않도록 인간 지향적 설계(Human-centered design)가 매우 중요하다.

 ## 🔗 지식 연결 (Graph)
-
- Raw Source: [[00_Raw/2026-04-20/Autism Spectrum Disorder (ASD) Intervention.md]]
---
+- Related: [[Accessibility-Compliance-Audit]] , [[Psychology_Cognitive_Science]]
+- Ethics: [[AI-Ethics]]
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-BACKPROP
+category: "[[10_Wiki/💡 Topics/AI]]"
+confidence_score: 1.0
+tags: [Backpropagation, Deep Learning, Gradient Descent, Optimization]
+last_reinforced: 2026-04-20
+---
+
+# [[Backpropagation]] (역전파)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "실수를 뒤에서부터 고쳐 나가는 지혜." 출력층에서 발생한 오차(Loss)가 각 신경망 층의 가중치(Weight)에 얼마나 기여했는지 거꾸로 계산하며 효율적으로 학습시키는 딥러닝의 핵심 학습 메커니즘이다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **Chain Rule (미분의 연쇄 법칙)**:
+    - 전체 오차를 각 파라미터로 미분하기 위해, 각 단계의 부분 미분값을 곱해 나가는 미적분학적 과정.
+- **Gradient Computation**:
+    - 모든 파라미터에 대한 경사도(Gradient)를 한 번에 계산하여, 경사 하강법(Gradient Descent)을 통해 신경망을 정답에 가깝게 업데이트한다.
+- **Efficiency**:
+    - 모든 파라미터를 개별적으로 미분하는 것보다 수백만 배 빠르며, 이로 인해 수조 개의 파라미터를 가진 거대 모델의 학습이 가능해졌다.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- 층이 너무 깊어지면 미분값이 0으로 사라지는 'Vanishing Gradient' 문제가 발생한다. 이를 위해 ReLU 활성화 함수나 ResNet 같은 잔차 연결(Residual Connection) 기술이 보완적으로 사용된다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[Deep-Learning-Architecture-Patterns]] , [[Gradient-Descent]]
+- Foundation: [[Computational Theory & Math/Information Theory]]
@@ -0,0 +1,27 @@
+---
+id: P-REINFORCE-AI-BEST-OF-N
+category: "[[10_Wiki/💡 Topics/AI]]"
+confidence_score: 0.99
+tags: [Best-of-N, Sampling, Inference, Reward Model, AI Alignment]
+last_reinforced: 2026-04-20
+---
+
+# [[Best-of-N-Sampling]] (Best-of-N 샘플링)
+
+## 📌 한 줄 통찰 (The Karpathy Summary)
+> "열 정승보다 나은 한 명의 장군 찾기." LLM이 생성한 N개의 결과물 중, 보상 모델(Reward Model)이 가장 우수하다고 판단한 단 하나의 답변을 선택하여 품질을 극대화하는 추론 전략이다.
+
+## 📖 구조화된 지식 (Synthesized Content)
+- **Generation & Scoring**:
+    - 동일한 프롬프트에 대해 정책 모델(Policy)이 여러 개의 독립된 답변을 생성하고, 이를 별도의 채점 모델(Reward)이 평가한다.
+- **Inference Time Compute**:
+    - 모델을 더 키우는 대신 '추론 단계의 연산량'을 늘려 성능을 향상시키는 경제적인 성능 고도화 방법(Scaling Laws for Inference).
+- **Quality Control**:
+    - 환각이 발생한 답변이나 안전 가이드라인을 어긴 답변을 필터링하고 가장 논리적인 결과물을 도출한다.
+
+## ⚠️ 모순 및 업데이트 (RL Update)
+- N이 커질수록 품질은 좋아지지만 코스트(비용)와 지연 시간(Latency)이 기하급수적으로 늘어난다. 따라서 서비스의 실시간성 요구도에 따라 N의 적절한 값을 정하는 것이 엔지니어링의 묘미다.
+
+## 🔗 지식 연결 (Graph)
+- Related: [[Prompt-Engineering]] , [[Reinforcement-Learning-from-Human-Feedback-(RLHF)]]
+- Metric: [[Reward-Model-Training]]