2.3 KiB
2.3 KiB
id, category, confidence_score, tags, last_reinforced
| id | category | confidence_score | tags | last_reinforced | ||||||
|---|---|---|---|---|---|---|---|---|---|---|
| P-REINFORCE-AUTO-SEOP-001 | 10_Wiki/💡 Topics/AI | 0.95 |
|
2026-04-20 |
Search-Optimization
📌 한 줄 통찰 (The Karpathy Summary)
"최단 경로를 향한 끝없는 탐색: 수없이 많은 선택지의 숲(State Space)에서, 목표 지점까지의 비용을 최소화하기 위해 휴리스틱(Heuristic)이라는 나침반을 들고 가장 유망한 방향으로 발을 들이는 영리한 길 찾기."
📖 구조화된 지식 (Synthesized Content)
탐색 최적화(Search-Optimization)는 문제의 해답을 찾기 위해 가능한 모든 상태를 효율적으로 조사하는 기법입니다. (Grail-Search적 관점 포함)
- 주요 알고리즘:
- Uninformed Search: 정보 없이 다 뒤지는 방식 (BFS, DFS). (Brute-force와 연결)
- Informed Search (Heuristic): 목표까지 남은 거리를 '추정'해서 탐색 (A* Algorithm).
- Local Search: 현재보다 나은 주변으로만 이동 (Hill Climbing, Simulated Annealing).
- 왜 중요한가?:
- 게임 AI의 경로 찾기, 물류 배송 최적화, 퍼즐 풀이, 그리고 신경망의 가중치를 찾는 과정(Gradient-Descent) 자체가 거대한 탐색 최적화 문제임.
⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- 과거 데이터와의 충돌: 과거에는 '완전 탐색 정책'으로 정답을 보장하려 했으나, 현대 정책은 정답보다 '충분히 좋은 해 정책(Satisficing)'을 제한된 시간 내에 찾는 효율성 정책을 우선시함(RL Update). (Bounded-Rationality와 연결)
- 정책 변화(RL Update): 거대 모델의 추론 정책에서, 수많은 답변 후보 중 가장 논리적인 경로를 탐색하는 'MCTS(Monte Carlo Tree Search)' 기반의 사고 흐름 탐색 정책이 새로운 성능 향상의 돌파구가 됨.
🔗 지식 연결 (Graph)
- Brute-force, Optimization, Heuristics, Combinatorial-Optimization, Gradient-Descent
- Modern Tech/Tools: A* Search, MCTS, Beam Search (in NLP), AlphaGo's search engine.