Files

T

Antigravity Agent 504fd5fb42 [G1-Sync] Manual knowledge update

2026-05-10 22:08:15 +09:00

1.3 KiB

Raw Blame History

id, title, category, status, canonical_id, duplicate_of, aliases, source_trust_level, confidence_score, verification_status, tags, last_reinforced, github_commit

title

Prioritized Experience Replay

이 문서는 Experience-Replay 의 중복본입니다. Canonical 문서로 redirect.

핵심 요약 (specialization aspects)

Schaul et al 2016 (ICLR): 매 sample transitions proportional to TD-error magnitude — high-error transitions trained more often.
Sampling probability: P(i) ∝ |δ_i|^α (α=0.6 typical).
Importance sampling weights: w_i = (N · P(i))^(-β) — corrects bias from non-uniform sampling; β annealed 0.4 → 1.0.
SumTree data structure: O(log N) sample + update.
매 strict superset of uniform replay; default in Rainbow DQN.

🔗 Graph

부모: Experience-Replay (canonical)
Adjacent: DQN · Rainbow-DQN · TD-Learning

🕓 변경 이력

날짜	변경
2026-05-08	Phase 1
2026-05-10	중복 처리 — canonical Experience-Replay 로 redirect, PER specialization aspects 보존

1.3 KiB Raw Blame History Unescape Escape

Prioritized Experience Replay

핵심 요약 (specialization aspects)

🔗 Graph

🕓 변경 이력

1.3 KiB

Raw Blame History