Files

T

koriweb 5ba5a55c78 feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]

2026-05-08 19:52:07 +09:00

4.1 KiB

Raw Blame History

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit, inferred_by, tech_stack

title

Credit Assignment Problem

📌 한 줄 통찰 (The Karpathy Summary)

"누가 상을 받을 자격이 있는가?: 복잡한 연속적 행동 끝에 결과가 나왔을 때, 그 성공(또는 실패)에 기여한 결정적인 '과거의 행동'이나 '신경망의 가중치'를 정확히 찾아내어 공로를 인정해 주는 학습의 핵심 난제."

📖 구조화된 지식 (Synthesized Content)

신용 할당 문제(Credit Assignment Problem)는 최종 결과에 도달하기까지의 수많은 과정 중 어떤 부분이 얼마나 기여했는지 판별하는 문제입니다.

두 가지 유형:
- Temporal Credit Assignment: 긴 시간 동안 여러 행동을 한 뒤 보상을 받았을 때, "어떤 시점의 행동" 덕분인지 알아내는 것 (예: 장기전 게임인 바둑의 수). (Reinforcement Learning과 연결)
- Structural Credit Assignment: 다층 신경망에서 에러가 발생했을 때, "어떤 층의 어떤 노드"를 수정해야 하는지 찾아내는 것. (Backpropagation과 연결)
해결 방법:
- Backpropagation: 에러를 뒤로 전파하며 기여도(Gradient)를 계산.
- Eligibility Traces / Reward Shaping: 강화학습에서 과거의 행동에 대한 기억을 남겨 보상을 분배.

⚠️ 모순 및 업데이트 (Contradictions & Updates)

과거 데이터와의 충돌: 과거에는 보상이 주어지는 시점의 행동에만 집중하는 정책이 많았으나, 현대 정책은 미래의 기대 가치(Value Function)를 끌어다 쓰는 '벨만 방정식 정책'과 '과정 보상 모델(PRM) 정책'을 통해 정교하게 신용을 할당함(RL Update).
정책 변화(RL Update): 복잡한 AI 에이전트 워크플로우 정책에서, 최종 결과물만 평가하는 것이 아니라 각 중간 단계 에이전트의 기여도를 공정하게 평가하고 보상하는 '에이전시 기반 신용 할당 정책'이 시스템 설계의 핵심이 됨.

🔗 지식 연결 (Graph)

Reinforcement Learning (RL), Backpropagation, Reward Prediction Error, Optimization, Analysis
Modern Tech/Tools: Temporal Difference (TD) Learning, Process Reward Models (PRMs), Attribution modeling.

🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

(TODO)

언제 쓰면 안 되는가:

(TODO)

🧪 검증 상태 (Validation)

정보 상태: needs_review
출처 신뢰도: A
검토 이유: (P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)

🧬 중복 검사 (Duplicate Check)

기존 유사 문서: (TODO: 인덱서 클러스터 리포트 참조)
처리 방식: UPDATE (자동 정규화)
처리 이유: Phase 1 정규화 — 옛 템플릿/누락 필드 보강.

🕓 변경 이력 (Changelog)

날짜	변경 내용	처리 방식	신뢰도
2026-05-08	P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화)	UPDATE	A

💻 코드 패턴 (Code Patterns)

패턴 1: (TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)

# TODO

🤔 의사결정 기준 (Decision Criteria)

선택 A를 써야 할 때:

(TODO)

선택 B를 써야 할 때:

(TODO)

기본값:

(TODO)

❌ 안티패턴 (Anti-Patterns)

[안티패턴]: (TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)

4.1 KiB Raw Blame History