bluemsi/2nd

Files

T

koriweb 3d9d0077cc feat: organize and categorize 1535 knowledge assets into wiki topics (2026-04-29)

2026-04-29 18:14:09 +09:00

2.3 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

id

category

confidence_score

tags

last_reinforced

P-REINFORCE-AUTO-SEST-001

10_Wiki/💡 Topics/AI

0.95

auto-reinforced

search-strategy

focus-search

heuristic

algorithm

exploration-exploitation

2026-04-20

Search-Strategy

📌 한 줄 통찰 (The Karpathy Summary)

"탐험의 전술: 무작정 덤벼들지 않고, 이미 아는 좋은 곳을 더 깊게 팔지(Exploitation), 아니면 새로운 곳을 찾아 떠날지(Exploration) 사이에서 완벽한 균형을 잡으며 목표를 타격하는 지능적 행동 방침."

📖 구조화된 지식 (Synthesized Content)

탐색 전략(Search-Strategy)은 주어진 탐색 공간에서 목표를 가장 효과적으로 달성하기 위해 선택하는 구체적인 방법론입니다.

대표적 전략 도구:
- BFS (Breadth-First): 넓고 얕게 훑음 (안정성).
- DFS (Depth-First): 한 우물만 깊게 파봄 (속도).
- Heuristic Search: 경험적 힌트를 사용해 정답에 가까운 곳부터 뒤짐 (A* 알고리즘 등). (Optimization와 연결)
핵심 딜레마 (Exploration vs Exploitation):
- 새로운 가능성을 찾을 것인가, 아니면 검증된 최고점을 다듬을 것인가? (Reinforcement Learning (RL)의 영원한 숙제).
왜 중요한가?:
- 훌륭한 전략은 수만 년 걸릴 탐색 시간을 단 몇 분으로 줄여주며, 시스템의 '반응 속도'와 '정확도' 사이의 최적점(Sweet spot)을 결정하기 때문임.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 과거에는 고정된 규칙(Static strategy) 정책이었으나, 현대 정책은 탐색 결과에 따라 전략을 실시간으로 바꾸는 '적응형 탐색 정책'이 주류가 됨(RL Update).
정책 변화(RL Update): 본 지식 베이스 구축 정책에서도, 대표님의 피드백 정책에 따라 특정 주제 정책을 더 깊게 팔지(Deep-dive), 아니면 일단 전체 개수 정책을 채울지(Breadth)를 조절하는 것이 고수준의 탐색 전략 정책임.

🔗 지식 연결 (Graph)

Optimization, Reinforcement Learning (RL), Efficiency, Search-Space, Mastery
Modern Tech/Tools: A* algorithm, Greedy search, Beam search, Monte Carlo Tree Search.