bluemsi/2nd

Files

T

koriweb 3d9d0077cc feat: organize and categorize 1535 knowledge assets into wiki topics (2026-04-29)

2026-04-29 18:14:09 +09:00

2.4 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AUTO-CRAS-001

10_Wiki/💡 Topics/AI

0.94

auto-reinforced

credit-assignment

reinforcement-learning

machine-learning

backpropagation

reward

2026-04-20

Credit Assignment Problem

📌 한 줄 통찰 (The Karpathy Summary)

"누가 상을 받을 자격이 있는가?: 복잡한 연속적 행동 끝에 결과가 나왔을 때, 그 성공(또는 실패)에 기여한 결정적인 '과거의 행동'이나 '신경망의 가중치'를 정확히 찾아내어 공로를 인정해 주는 학습의 핵심 난제."

📖 구조화된 지식 (Synthesized Content)

신용 할당 문제(Credit Assignment Problem)는 최종 결과에 도달하기까지의 수많은 과정 중 어떤 부분이 얼마나 기여했는지 판별하는 문제입니다.

두 가지 유형:
- Temporal Credit Assignment: 긴 시간 동안 여러 행동을 한 뒤 보상을 받았을 때, "어떤 시점의 행동" 덕분인지 알아내는 것 (예: 장기전 게임인 바둑의 수). (Reinforcement Learning과 연결)
- Structural Credit Assignment: 다층 신경망에서 에러가 발생했을 때, "어떤 층의 어떤 노드"를 수정해야 하는지 찾아내는 것. (Backpropagation과 연결)
해결 방법:
- Backpropagation: 에러를 뒤로 전파하며 기여도(Gradient)를 계산.
- Eligibility Traces / Reward Shaping: 강화학습에서 과거의 행동에 대한 기억을 남겨 보상을 분배.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 보상이 주어지는 시점의 행동에만 집중하는 정책이 많았으나, 현대 정책은 미래의 기대 가치(Value Function)를 끌어다 쓰는 '벨만 방정식 정책'과 '과정 보상 모델(PRM) 정책'을 통해 정교하게 신용을 할당함(RL Update).
정책 변화(RL Update): 복잡한 AI 에이전트 워크플로우 정책에서, 최종 결과물만 평가하는 것이 아니라 각 중간 단계 에이전트의 기여도를 공정하게 평가하고 보상하는 '에이전시 기반 신용 할당 정책'이 시스템 설계의 핵심이 됨.

🔗 지식 연결 (Graph)

Reinforcement Learning (RL), Backpropagation, Reward Prediction Error, Optimization, Analysis
Modern Tech/Tools: Temporal Difference (TD) Learning, Process Reward Models (PRMs), Attribution modeling.