f8b21af4be
10_Wiki/Topics 대규모 정리: - 오류 캡처/미완성 stub 문서 227개 제거 - 교차폴더 중복 43클러스터 병합 (63파일 → redirect) - 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건 - 카테고리 MOC 6개 신규 생성 - Graph 섹션 미해결 related-keyword 링크 10,058건 제거 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
142 lines
5.3 KiB
Markdown
142 lines
5.3 KiB
Markdown
---
|
|
id: wiki-2026-0508-anthropic-principle
|
|
title: Anthropic Principle
|
|
category: 10_Wiki/Topics
|
|
status: verified
|
|
canonical_id: self
|
|
aliases: [인류 원리, fine-tuning, observer selection, anthropic reasoning]
|
|
duplicate_of: none
|
|
source_trust_level: B
|
|
confidence_score: 0.83
|
|
verification_status: conceptual
|
|
tags: [philosophy, cosmology, physics, ai-alignment, observer-bias, fine-tuning, multiverse]
|
|
raw_sources: []
|
|
last_reinforced: 2026-05-10
|
|
github_commit: pending
|
|
tech_stack:
|
|
language: philosophy / physics
|
|
applicable_to: [AI Design, Cosmology, Selection Bias Reasoning]
|
|
---
|
|
|
|
# Anthropic Principle
|
|
|
|
## 📌 한 줄 통찰
|
|
> **"매 우주 가 정교 한 이유 = 매 우리 가 관찰 중"**. 매 selection bias 의 fundamental form. 매 fine-tuned constant 의 explain — 매 우주 가 X 의 condition X 가, 매 X 의 case 의 매 observer X. 매 AI 의 design 의 응용 — 매 human 의 feedback 의 alignment 의 same selection.
|
|
|
|
## 📖 핵심
|
|
|
|
### 매 정의
|
|
- **WAP (Weak Anthropic Principle)**: 매 우주 의 매 observer 의 location 의 매 life-supporting condition.
|
|
- **SAP (Strong Anthropic Principle)**: 매 우주 의 매 어느 시점 의 intelligent life 의 inevitable.
|
|
- **PAP (Participatory)**: Wheeler — 매 observer 의 매 우주 의 collapse.
|
|
- **FAP (Final)**: Tipler — 매 intelligence 의 우주 의 omega point.
|
|
|
|
### 매 fine-tuning 의 example
|
|
- **Cosmological constant** (Λ): 매 10^120 배 의 너무 큼 가, 매 zero 가까. 매 갤럭시 X 가 X.
|
|
- **Strong force**: 매 0.4% 변 의 carbon X.
|
|
- **Electron / proton mass ratio**: 매 0.5% 변 의 chemistry X.
|
|
- **Higgs mass**: 매 vacuum 의 stability.
|
|
|
|
→ Martin Rees "Just Six Numbers".
|
|
|
|
### 매 응답 (debate)
|
|
1. **Multiverse**: 매 무수한 우주 → 매 X 가 자연스럽.
|
|
2. **Designer**: 매 intentional fine-tune.
|
|
3. **Self-explanatory**: 매 우주 가 가능한 form 의 only.
|
|
4. **No fine-tuning**: 매 calculation 의 wrong.
|
|
|
|
→ Bostrom "Anthropic Bias" (2002).
|
|
|
|
### 매 selection bias 의 reasoning
|
|
- 매 sample 의 self-selected.
|
|
- 매 conclusion 의 careful.
|
|
- 매 "Doomsday argument": 매 human 의 birth rank 의 reasoning.
|
|
- 매 Sleeping Beauty problem.
|
|
|
|
### 매 AI 의 응용
|
|
1. **Alignment**: 매 RLHF 의 매 human feedback 의 selection. 매 AI 의 evolution 가 human-centric.
|
|
2. **Capability emergence**: 매 우리 의 observe 매 capable model 의 only — 매 less-capable 의 deploy X.
|
|
3. **Safety research**: 매 우리 의 alive — 매 catastrophic AI 의 case 의 우리 의 observe 못 함 (anthropic shadow).
|
|
4. **Selection bias** in benchmark: 매 benchmark 의 popular = 매 model 의 optimize.
|
|
|
|
### Anthropic shadow (Bostrom & Ćirković)
|
|
- 매 existential risk 의 우리 의 evidence 의 reduce.
|
|
- 매 close call 의 우리 의 observe X.
|
|
- 매 AI x-risk 의 underestimate.
|
|
|
|
→ Past base rate 의 future risk 의 predict 의 X.
|
|
|
|
## 💻 패턴 (응용 — selection bias reasoning)
|
|
|
|
### Survivorship bias check
|
|
```python
|
|
# ❌ 매 successful startup 의 분석 → "매 이런 trait 가 success"
|
|
def analyze_traits(successful_startups):
|
|
return [s.founder.trait for s in successful_startups]
|
|
|
|
# ✅ 매 failed 도 포함
|
|
def analyze_traits_unbiased(all_startups):
|
|
return [(s.founder.trait, s.outcome) for s in all_startups]
|
|
```
|
|
|
|
→ 매 selection effect 의 explicit.
|
|
|
|
### Anthropic-aware risk
|
|
```python
|
|
# 매 past safe → 매 future safe X
|
|
def estimate_xrisk(past_close_calls, anthropic_shadow_factor=2):
|
|
base_rate = past_close_calls / years_observed
|
|
# 매 우리 의 alive 가 selection
|
|
adjusted = base_rate * anthropic_shadow_factor
|
|
return adjusted
|
|
```
|
|
|
|
→ 매 past base rate 의 careful.
|
|
|
|
### Alignment 의 self-selection
|
|
```python
|
|
# 매 RLHF 의 human feedback
|
|
def aligned_reward(model_output, human_pref):
|
|
# 매 human 의 worldview 의 implicit projection
|
|
# 매 selection: 매 우리 가 like 의 model 의 deploy
|
|
return human_pref(model_output)
|
|
```
|
|
|
|
→ 매 anthropic 의 alignment.
|
|
|
|
## 🤔 결정 기준
|
|
| 질문 | Reasoning |
|
|
|---|---|
|
|
| "왜 매 우주 의 fine-tuned?" | Anthropic + multiverse |
|
|
| "왜 매 startup 의 X trait?" | Survivorship bias |
|
|
| "왜 매 AI 의 safe so far?" | Anthropic shadow |
|
|
| "왜 매 benchmark 의 high?" | Selection bias |
|
|
|
|
**기본값**: 매 selection effect 의 explicit. 매 conclusion 의 careful.
|
|
|
|
## 🔗 Graph
|
|
- 응용: [[AI_Safety_and_Alignment|AI-Alignment]]
|
|
- Adjacent: [[Fine-Tuning]]
|
|
|
|
## 🤖 LLM 활용
|
|
**언제**: 매 selection bias 의 detect. 매 AI safety reasoning. 매 cosmology discussion. 매 base-rate 의 question.
|
|
**언제 X**: 매 specific physics calculation. 매 theology argument 의 substitute.
|
|
|
|
## ❌ 안티패턴
|
|
- **"매 우주 가 designed"**: 매 anthropic 가 multiverse 도 가능한 explanation.
|
|
- **Survivorship bias 무시**: 매 successful 만 의 분석.
|
|
- **Anthropic shadow 무시**: 매 past safe → 매 future safe.
|
|
- **WAP / SAP 의 conflate**: 매 different claim.
|
|
- **매 "anthropic" 의 magic word**: 매 actual selection mechanism 의 explicit.
|
|
|
|
## 🧪 검증 / 중복
|
|
- Verified (Bostrom "Anthropic Bias", Rees "Just Six Numbers").
|
|
- 신뢰도 B (philosophy 의 active debate).
|
|
- Related: [[AI_Safety_and_Alignment|AI-Alignment]] · [[X-Risk]] · [[Selection-Bias]].
|
|
|
|
## 🕓 Changelog
|
|
| 날짜 | 변경 |
|
|
|---|---|
|
|
| 2026-05-08 | Phase 1 |
|
|
| 2026-05-10 | Manual cleanup — variants + fine-tuning + AI 응용 + anthropic shadow |
|