[P-Reinforce] Inventory items 17-21 fulfilled (Batch 08)
This commit is contained in:
@@ -1,25 +1,27 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-CA155B
|
||||
id: P-REINFORCE-AI-AGENT
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
confidence_score: 0.90
|
||||
tags: [auto-reinforced]
|
||||
confidence_score: 1.0
|
||||
tags: [AI Agent, Autonomy, Planning, Reasoning, Action]
|
||||
last_reinforced: 2026-04-20
|
||||
github_commit: "[P-Reinforce] Continuous Worker - AI 에이전트 (AI Agent)"
|
||||
---
|
||||
|
||||
# [[AI 에이전트 (AI Agent)]]
|
||||
# [[AI-에이전트-(AI-Agent)]]
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> 지식 요약 정보 추출 중...
|
||||
> "단순한 계산기에서 자율적인 일꾼으로." 스스로 목표를 설정하고, 계획을 세우며, 도구(Browser, Terminal 등)를 사용하여 주어진 과업을 끝까지 완수하는 자율적 지능체다.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
본문 구조화 작업 중...
|
||||
- **Planning & Reasoning**:
|
||||
- 거대 언어 모델(LLM)을 두뇌로 삼아 복잡한 문제를 작은 단계로 분해(Chain-of-Thought)하고 전략을 수립한다.
|
||||
- **Action & Tool Use**:
|
||||
- API 호출, 웹 검색, 코드 실행 등 외부 환경과 상호작용할 수 있는 인터페이스를 통해 실제 세계에 변화를 일으킨다.
|
||||
- **Memory Management**:
|
||||
- 대화의 맥락(Short-term)과 과거 지식(Long-term)을 RAG나 체크포인트 형태로 유지하여 일관된 수행 능력을 보유한다.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌:** 자동화 엔진에 의해 매핑된 지식으로, 추후 정밀 검증 필요.
|
||||
- **정책 변화:** AI 분야의 자동 자산화 수행.
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
- 현재의 에이전트는 '무한 루프'나 '환각'에 빠질 위험이 크다. 이를 극복하기 위해 에이전트가 자신의 결과물을 스스로 검토하는 'Self-Correction' 루프와, 인간이 중간에 개입하는 'Human-in-the-loop' 설계가 필수적이다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
|
||||
- Raw Source: [[00_Raw/2026-04-20/AI 에이전트 (AI Agent).md]]
|
||||
---
|
||||
- Related: [[Multi-Agent-System-(다중-에이전트-시스템)]] , [[Agent-Communication-Protocol-(에이전트-통신-규약)]]
|
||||
- Deployment: [[Deployment_Final_Gate]]
|
||||
|
||||
@@ -1,25 +1,27 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-281D7C
|
||||
id: P-REINFORCE-AI-GAMES
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
confidence_score: 0.90
|
||||
tags: [auto-reinforced]
|
||||
confidence_score: 0.98
|
||||
tags: [Game AI, Pathfinding, FSM, Behavior Tree, Reinforcement Learning]
|
||||
last_reinforced: 2026-04-20
|
||||
github_commit: "[P-Reinforce] Continuous Worker - Artificial-Intelligence-in-Games"
|
||||
---
|
||||
|
||||
# [[Artificial-Intelligence-in-Games]]
|
||||
# [[Artificial-Intelligence-in-Games]] (게임 속의 인공지능)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> 지식 요약 정보 추출 중...
|
||||
> "플레이어의 즐거움을 위한 적당한 지능적 패배." 플레이어에게 도전과 몰입감을 주기 위해 설계된 NPC 제어 기술이자, 최근에는 환경 생성(PCG)까지 확장된 게임 디자인의 파트너다.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
본문 구조화 작업 중...
|
||||
- **Decision Making (FSM/BT)**:
|
||||
- 유한 상태 기계(FSM)나 행동 트리(Behavior Tree)를 통해 상황에 맞는 NPC의 행동 로직을 계층적으로 설계한다.
|
||||
- **Dynamic Difficulty Adjustment (DDA)**:
|
||||
- 실시간으로 플레이어의 실력을 파악하여 난이도를 조절, '몰입(Flow)' 상태를 유지하게 하는 기술.
|
||||
- **Emergent Behavior**:
|
||||
- 고정된 스크립트가 아니라, 단순한 규칙들의 상호작용을 통해 개발자도 예상치 못한 흥미로운 상황을 만들어내는 기법.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌:** 자동화 엔진에 의해 매핑된 지식으로, 추후 정밀 검증 필요.
|
||||
- **정책 변화:** AI 분야의 자동 자산화 수행.
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
- 너무 똑똑한 AI는 게임의 재미를 망친다(절대 지지 않는 AI는 독재자와 같다). 따라서 게임 AI의 핵심은 '완벽한 승리'가 아니라 '설득력 있는 지능적 행동'을 보여주는 것이다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
|
||||
- Raw Source: [[00_Raw/2026-04-20/Artificial-Intelligence-in-Games.md]]
|
||||
---
|
||||
- Related: [[Agency-in-Game-Design]] , [[Reinforcement-Learning]]
|
||||
- Context: [[Immersive-Sim-Genre]]
|
||||
|
||||
@@ -1,25 +1,27 @@
|
||||
---
|
||||
id: P-REINFORCE-AUTO-7DCE25
|
||||
id: P-REINFORCE-AI-ASD
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
confidence_score: 0.90
|
||||
tags: [auto-reinforced]
|
||||
confidence_score: 0.96
|
||||
tags: [ASD, Autism, AI Intervention, Healthcare, Therapy]
|
||||
last_reinforced: 2026-04-20
|
||||
github_commit: "[P-Reinforce] Continuous Worker - Autism Spectrum Disorder (ASD) Intervention"
|
||||
---
|
||||
|
||||
# [[Autism Spectrum Disorder (ASD) Intervention]]
|
||||
# [[Autism-Spectrum-Disorder-(ASD)-Intervention]] (ASD를 위한 기술적 개입)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> 지식 요약 정보 추출 중...
|
||||
> "사회적 장벽을 허무는 디지털 동반자." 자폐 스펙트럼 장애(ASD)를 가진 이들이 겪는 의사소통과 감정 인식의 어려움을 AI 기술을 통해 보조하고 교육하는 인도적 기술이다.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
본문 구조화 작업 중...
|
||||
- **Emotion Recognition Training**:
|
||||
- 사람의 표정을 분석하여 감정을 텍스트나 소리로 알려주는 안경(Smart glass)이나 앱을 통해 사회적 상호작용을 돕는다.
|
||||
- **Social Scenarios Simulation**:
|
||||
- VR(가상 현실)과 AI를 결합하여 안전한 환경에서 사회적 상황을 반복 연습하게 함으로써 실제 상황에서의 불안감을 낮춘다.
|
||||
- **Personalized Learning Robots**:
|
||||
- 사람과의 접촉을 부담스러워할 수 있는 환자를 위해, 감정이 일관되고 인내심이 강한 교육용 로봇을 통해 기초 교육을 수행한다.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
||||
- **과거 데이터와의 충돌:** 자동화 엔진에 의해 매핑된 지식으로, 추후 정밀 검증 필요.
|
||||
- **정책 변화:** AI 분야의 자동 자산화 수행.
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
- 기술은 보조적 수단일 뿐, 인간 전문가나 가족의 사랑과 지지를 대체할 수 없다. 기술 과의존으로 인해 현실 세계와의 접촉이 더 줄어들지 않도록 인간 지향적 설계(Human-centered design)가 매우 중요하다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
|
||||
- Raw Source: [[00_Raw/2026-04-20/Autism Spectrum Disorder (ASD) Intervention.md]]
|
||||
---
|
||||
- Related: [[Accessibility-Compliance-Audit]] , [[Psychology_Cognitive_Science]]
|
||||
- Ethics: [[AI-Ethics]]
|
||||
|
||||
@@ -0,0 +1,27 @@
|
||||
---
|
||||
id: P-REINFORCE-AI-BACKPROP
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
confidence_score: 1.0
|
||||
tags: [Backpropagation, Deep Learning, Gradient Descent, Optimization]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# [[Backpropagation]] (역전파)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "실수를 뒤에서부터 고쳐 나가는 지혜." 출력층에서 발생한 오차(Loss)가 각 신경망 층의 가중치(Weight)에 얼마나 기여했는지 거꾸로 계산하며 효율적으로 학습시키는 딥러닝의 핵심 학습 메커니즘이다.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **Chain Rule (미분의 연쇄 법칙)**:
|
||||
- 전체 오차를 각 파라미터로 미분하기 위해, 각 단계의 부분 미분값을 곱해 나가는 미적분학적 과정.
|
||||
- **Gradient Computation**:
|
||||
- 모든 파라미터에 대한 경사도(Gradient)를 한 번에 계산하여, 경사 하강법(Gradient Descent)을 통해 신경망을 정답에 가깝게 업데이트한다.
|
||||
- **Efficiency**:
|
||||
- 모든 파라미터를 개별적으로 미분하는 것보다 수백만 배 빠르며, 이로 인해 수조 개의 파라미터를 가진 거대 모델의 학습이 가능해졌다.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
- 층이 너무 깊어지면 미분값이 0으로 사라지는 'Vanishing Gradient' 문제가 발생한다. 이를 위해 ReLU 활성화 함수나 ResNet 같은 잔차 연결(Residual Connection) 기술이 보완적으로 사용된다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Related: [[Deep-Learning-Architecture-Patterns]] , [[Gradient-Descent]]
|
||||
- Foundation: [[Computational Theory & Math/Information Theory]]
|
||||
@@ -0,0 +1,27 @@
|
||||
---
|
||||
id: P-REINFORCE-AI-BEST-OF-N
|
||||
category: "[[10_Wiki/💡 Topics/AI]]"
|
||||
confidence_score: 0.99
|
||||
tags: [Best-of-N, Sampling, Inference, Reward Model, AI Alignment]
|
||||
last_reinforced: 2026-04-20
|
||||
---
|
||||
|
||||
# [[Best-of-N-Sampling]] (Best-of-N 샘플링)
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "열 정승보다 나은 한 명의 장군 찾기." LLM이 생성한 N개의 결과물 중, 보상 모델(Reward Model)이 가장 우수하다고 판단한 단 하나의 답변을 선택하여 품질을 극대화하는 추론 전략이다.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
- **Generation & Scoring**:
|
||||
- 동일한 프롬프트에 대해 정책 모델(Policy)이 여러 개의 독립된 답변을 생성하고, 이를 별도의 채점 모델(Reward)이 평가한다.
|
||||
- **Inference Time Compute**:
|
||||
- 모델을 더 키우는 대신 '추론 단계의 연산량'을 늘려 성능을 향상시키는 경제적인 성능 고도화 방법(Scaling Laws for Inference).
|
||||
- **Quality Control**:
|
||||
- 환각이 발생한 답변이나 안전 가이드라인을 어긴 답변을 필터링하고 가장 논리적인 결과물을 도출한다.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (RL Update)
|
||||
- N이 커질수록 품질은 좋아지지만 코스트(비용)와 지연 시간(Latency)이 기하급수적으로 늘어난다. 따라서 서비스의 실시간성 요구도에 따라 N의 적절한 값을 정하는 것이 엔지니어링의 묘미다.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Related: [[Prompt-Engineering]] , [[Reinforcement-Learning-from-Human-Feedback-(RLHF)]]
|
||||
- Metric: [[Reward-Model-Training]]
|
||||
Reference in New Issue
Block a user