32 lines
2.3 KiB
Markdown
32 lines
2.3 KiB
Markdown
---
|
|
id: P-REINFORCE-AUTO-SEOP-001
|
|
category: "10_Wiki/💡 Topics/AI"
|
|
confidence_score: 0.95
|
|
tags: [auto-reinforced, search-optimization, algorithms, pathfinding, heuristic-search, efficiency]
|
|
last_reinforced: 2026-04-20
|
|
---
|
|
|
|
# [[Search-Optimization|Search-Optimization]]
|
|
|
|
## 📌 한 줄 통찰 (The Karpathy Summary)
|
|
> "최단 경로를 향한 끝없는 탐색: 수없이 많은 선택지의 숲(State Space)에서, 목표 지점까지의 비용을 최소화하기 위해 휴리스틱(Heuristic)이라는 나침반을 들고 가장 유망한 방향으로 발을 들이는 영리한 길 찾기."
|
|
|
|
## 📖 구조화된 지식 (Synthesized Content)
|
|
탐색 최적화(Search-Optimization)는 문제의 해답을 찾기 위해 가능한 모든 상태를 효율적으로 조사하는 기법입니다. (Grail-Search적 관점 포함)
|
|
|
|
1. **주요 알고리즘**:
|
|
* **Uninformed Search**: 정보 없이 다 뒤지는 방식 (BFS, DFS). (Brute-force와 연결)
|
|
* **Informed Search (Heuristic)**: 목표까지 남은 거리를 '추정'해서 탐색 (A* Algorithm).
|
|
* **Local Search**: 현재보다 나은 주변으로만 이동 (Hill Climbing, Simulated Annealing).
|
|
2. **왜 중요한가?**:
|
|
* 게임 AI의 경로 찾기, 물류 배송 최적화, 퍼즐 풀이, 그리고 신경망의 가중치를 찾는 과정(Gradient-Descent) 자체가 거대한 탐색 최적화 문제임.
|
|
|
|
## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
|
|
- **과거 데이터와의 충돌**: 과거에는 '완전 탐색 정책'으로 정답을 보장하려 했으나, 현대 정책은 정답보다 '충분히 좋은 해 정책(Satisficing)'을 제한된 시간 내에 찾는 효율성 정책을 우선시함(RL Update). (Bounded-Rationality와 연결)
|
|
- **정책 변화(RL Update)**: 거대 모델의 추론 정책에서, 수많은 답변 후보 중 가장 논리적인 경로를 탐색하는 'MCTS(Monte Carlo Tree Search)' 기반의 사고 흐름 탐색 정책이 새로운 성능 향상의 돌파구가 됨.
|
|
|
|
## 🔗 지식 연결 (Graph)
|
|
- [[Brute-force|Brute-force]], [[Optimization|Optimization]], [[Heuristics|Heuristics]], [[Combinatorial-Optimization|Combinatorial-Optimization]], [[Gradient-Descent|Gradient-Descent]]
|
|
- **Modern Tech/Tools**: A* Search, MCTS, Beam Search (in NLP), AlphaGo's search engine.
|
|
---
|