--- id: wiki-2026-0508-anthropic-principle title: Anthropic Principle category: 10_Wiki/Topics status: verified canonical_id: self aliases: [인류 원리, fine-tuning, observer selection, anthropic reasoning] duplicate_of: none source_trust_level: B confidence_score: 0.83 verification_status: conceptual tags: [philosophy, cosmology, physics, ai-alignment, observer-bias, fine-tuning, multiverse] raw_sources: [] last_reinforced: 2026-05-10 github_commit: pending tech_stack: language: philosophy / physics applicable_to: [AI Design, Cosmology, Selection Bias Reasoning] --- # Anthropic Principle ## 📌 한 줄 통찰 > **"매 우주 가 정교 한 이유 = 매 우리 가 관찰 중"**. 매 selection bias 의 fundamental form. 매 fine-tuned constant 의 explain — 매 우주 가 X 의 condition X 가, 매 X 의 case 의 매 observer X. 매 AI 의 design 의 응용 — 매 human 의 feedback 의 alignment 의 same selection. ## 📖 핵심 ### 매 정의 - **WAP (Weak Anthropic Principle)**: 매 우주 의 매 observer 의 location 의 매 life-supporting condition. - **SAP (Strong Anthropic Principle)**: 매 우주 의 매 어느 시점 의 intelligent life 의 inevitable. - **PAP (Participatory)**: Wheeler — 매 observer 의 매 우주 의 collapse. - **FAP (Final)**: Tipler — 매 intelligence 의 우주 의 omega point. ### 매 fine-tuning 의 example - **Cosmological constant** (Λ): 매 10^120 배 의 너무 큼 가, 매 zero 가까. 매 갤럭시 X 가 X. - **Strong force**: 매 0.4% 변 의 carbon X. - **Electron / proton mass ratio**: 매 0.5% 변 의 chemistry X. - **Higgs mass**: 매 vacuum 의 stability. → Martin Rees "Just Six Numbers". ### 매 응답 (debate) 1. **Multiverse**: 매 무수한 우주 → 매 X 가 자연스럽. 2. **Designer**: 매 intentional fine-tune. 3. **Self-explanatory**: 매 우주 가 가능한 form 의 only. 4. **No fine-tuning**: 매 calculation 의 wrong. → Bostrom "Anthropic Bias" (2002). ### 매 selection bias 의 reasoning - 매 sample 의 self-selected. - 매 conclusion 의 careful. - 매 "Doomsday argument": 매 human 의 birth rank 의 reasoning. - 매 Sleeping Beauty problem. ### 매 AI 의 응용 1. **Alignment**: 매 RLHF 의 매 human feedback 의 selection. 매 AI 의 evolution 가 human-centric. 2. **Capability emergence**: 매 우리 의 observe 매 capable model 의 only — 매 less-capable 의 deploy X. 3. **Safety research**: 매 우리 의 alive — 매 catastrophic AI 의 case 의 우리 의 observe 못 함 (anthropic shadow). 4. **Selection bias** in benchmark: 매 benchmark 의 popular = 매 model 의 optimize. ### Anthropic shadow (Bostrom & Ćirković) - 매 existential risk 의 우리 의 evidence 의 reduce. - 매 close call 의 우리 의 observe X. - 매 AI x-risk 의 underestimate. → Past base rate 의 future risk 의 predict 의 X. ## 💻 패턴 (응용 — selection bias reasoning) ### Survivorship bias check ```python # ❌ 매 successful startup 의 분석 → "매 이런 trait 가 success" def analyze_traits(successful_startups): return [s.founder.trait for s in successful_startups] # ✅ 매 failed 도 포함 def analyze_traits_unbiased(all_startups): return [(s.founder.trait, s.outcome) for s in all_startups] ``` → 매 selection effect 의 explicit. ### Anthropic-aware risk ```python # 매 past safe → 매 future safe X def estimate_xrisk(past_close_calls, anthropic_shadow_factor=2): base_rate = past_close_calls / years_observed # 매 우리 의 alive 가 selection adjusted = base_rate * anthropic_shadow_factor return adjusted ``` → 매 past base rate 의 careful. ### Alignment 의 self-selection ```python # 매 RLHF 의 human feedback def aligned_reward(model_output, human_pref): # 매 human 의 worldview 의 implicit projection # 매 selection: 매 우리 가 like 의 model 의 deploy return human_pref(model_output) ``` → 매 anthropic 의 alignment. ## 🤔 결정 기준 | 질문 | Reasoning | |---|---| | "왜 매 우주 의 fine-tuned?" | Anthropic + multiverse | | "왜 매 startup 의 X trait?" | Survivorship bias | | "왜 매 AI 의 safe so far?" | Anthropic shadow | | "왜 매 benchmark 의 high?" | Selection bias | **기본값**: 매 selection effect 의 explicit. 매 conclusion 의 careful. ## 🔗 Graph - 부모: [[Philosophy-of-Science]] · [[Cosmology]] - 변형: [[Weak-Anthropic-Principle]] · [[Strong-Anthropic-Principle]] · [[Doomsday-Argument]] · [[Sleeping-Beauty]] - 응용: [[AI-Alignment]] · [[X-Risk]] · [[Anthropic-Shadow]] · [[Selection-Bias]] - Adjacent: [[Multiverse]] · [[Fine-Tuning]] · [[Bostrom]] · [[Survivorship-Bias]] ## 🤖 LLM 활용 **언제**: 매 selection bias 의 detect. 매 AI safety reasoning. 매 cosmology discussion. 매 base-rate 의 question. **언제 X**: 매 specific physics calculation. 매 theology argument 의 substitute. ## ❌ 안티패턴 - **"매 우주 가 designed"**: 매 anthropic 가 multiverse 도 가능한 explanation. - **Survivorship bias 무시**: 매 successful 만 의 분석. - **Anthropic shadow 무시**: 매 past safe → 매 future safe. - **WAP / SAP 의 conflate**: 매 different claim. - **매 "anthropic" 의 magic word**: 매 actual selection mechanism 의 explicit. ## 🧪 검증 / 중복 - Verified (Bostrom "Anthropic Bias", Rees "Just Six Numbers"). - 신뢰도 B (philosophy 의 active debate). - Related: [[AI-Alignment]] · [[X-Risk]] · [[Selection-Bias]]. ## 🕓 Changelog | 날짜 | 변경 | |---|---| | 2026-05-08 | Phase 1 | | 2026-05-10 | Manual cleanup — variants + fine-tuning + AI 응용 + anthropic shadow |