Files
2nd/10_Wiki/Topics/AI_and_ML/Anthropic-Principle.md
T
Antigravity Agent f8b21af4be Wiki cleanup: error-doc removal, dedup merge, link normalization
10_Wiki/Topics 대규모 정리:
- 오류 캡처/미완성 stub 문서 227개 제거
- 교차폴더 중복 43클러스터 병합 (63파일 → redirect)
- 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건
- 카테고리 MOC 6개 신규 생성
- Graph 섹션 미해결 related-keyword 링크 10,058건 제거

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-20 23:52:15 +09:00

5.3 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, verification_status, tags, raw_sources, last_reinforced, github_commit, tech_stack
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score verification_status tags raw_sources last_reinforced github_commit tech_stack
wiki-2026-0508-anthropic-principle Anthropic Principle 10_Wiki/Topics verified self
인류 원리
fine-tuning
observer selection
anthropic reasoning
none B 0.83 conceptual
philosophy
cosmology
physics
ai-alignment
observer-bias
fine-tuning
multiverse
2026-05-10 pending
language applicable_to
philosophy / physics
AI Design
Cosmology
Selection Bias Reasoning

Anthropic Principle

📌 한 줄 통찰

"매 우주 가 정교 한 이유 = 매 우리 가 관찰 중". 매 selection bias 의 fundamental form. 매 fine-tuned constant 의 explain — 매 우주 가 X 의 condition X 가, 매 X 의 case 의 매 observer X. 매 AI 의 design 의 응용 — 매 human 의 feedback 의 alignment 의 same selection.

📖 핵심

매 정의

  • WAP (Weak Anthropic Principle): 매 우주 의 매 observer 의 location 의 매 life-supporting condition.
  • SAP (Strong Anthropic Principle): 매 우주 의 매 어느 시점 의 intelligent life 의 inevitable.
  • PAP (Participatory): Wheeler — 매 observer 의 매 우주 의 collapse.
  • FAP (Final): Tipler — 매 intelligence 의 우주 의 omega point.

매 fine-tuning 의 example

  • Cosmological constant (Λ): 매 10^120 배 의 너무 큼 가, 매 zero 가까. 매 갤럭시 X 가 X.
  • Strong force: 매 0.4% 변 의 carbon X.
  • Electron / proton mass ratio: 매 0.5% 변 의 chemistry X.
  • Higgs mass: 매 vacuum 의 stability.

→ Martin Rees "Just Six Numbers".

매 응답 (debate)

  1. Multiverse: 매 무수한 우주 → 매 X 가 자연스럽.
  2. Designer: 매 intentional fine-tune.
  3. Self-explanatory: 매 우주 가 가능한 form 의 only.
  4. No fine-tuning: 매 calculation 의 wrong.

→ Bostrom "Anthropic Bias" (2002).

매 selection bias 의 reasoning

  • 매 sample 의 self-selected.
  • 매 conclusion 의 careful.
  • 매 "Doomsday argument": 매 human 의 birth rank 의 reasoning.
  • 매 Sleeping Beauty problem.

매 AI 의 응용

  1. Alignment: 매 RLHF 의 매 human feedback 의 selection. 매 AI 의 evolution 가 human-centric.
  2. Capability emergence: 매 우리 의 observe 매 capable model 의 only — 매 less-capable 의 deploy X.
  3. Safety research: 매 우리 의 alive — 매 catastrophic AI 의 case 의 우리 의 observe 못 함 (anthropic shadow).
  4. Selection bias in benchmark: 매 benchmark 의 popular = 매 model 의 optimize.

Anthropic shadow (Bostrom & Ćirković)

  • 매 existential risk 의 우리 의 evidence 의 reduce.
  • 매 close call 의 우리 의 observe X.
  • 매 AI x-risk 의 underestimate.

→ Past base rate 의 future risk 의 predict 의 X.

💻 패턴 (응용 — selection bias reasoning)

Survivorship bias check

# ❌ 매 successful startup 의 분석 → "매 이런 trait 가 success"
def analyze_traits(successful_startups):
    return [s.founder.trait for s in successful_startups]

# ✅ 매 failed 도 포함
def analyze_traits_unbiased(all_startups):
    return [(s.founder.trait, s.outcome) for s in all_startups]

→ 매 selection effect 의 explicit.

Anthropic-aware risk

# 매 past safe → 매 future safe X
def estimate_xrisk(past_close_calls, anthropic_shadow_factor=2):
    base_rate = past_close_calls / years_observed
    # 매 우리 의 alive 가 selection
    adjusted = base_rate * anthropic_shadow_factor
    return adjusted

→ 매 past base rate 의 careful.

Alignment 의 self-selection

# 매 RLHF 의 human feedback
def aligned_reward(model_output, human_pref):
    # 매 human 의 worldview 의 implicit projection
    # 매 selection: 매 우리 가 like 의 model 의 deploy
    return human_pref(model_output)

→ 매 anthropic 의 alignment.

🤔 결정 기준

질문 Reasoning
"왜 매 우주 의 fine-tuned?" Anthropic + multiverse
"왜 매 startup 의 X trait?" Survivorship bias
"왜 매 AI 의 safe so far?" Anthropic shadow
"왜 매 benchmark 의 high?" Selection bias

기본값: 매 selection effect 의 explicit. 매 conclusion 의 careful.

🔗 Graph

🤖 LLM 활용

언제: 매 selection bias 의 detect. 매 AI safety reasoning. 매 cosmology discussion. 매 base-rate 의 question. 언제 X: 매 specific physics calculation. 매 theology argument 의 substitute.

안티패턴

  • "매 우주 가 designed": 매 anthropic 가 multiverse 도 가능한 explanation.
  • Survivorship bias 무시: 매 successful 만 의 분석.
  • Anthropic shadow 무시: 매 past safe → 매 future safe.
  • WAP / SAP 의 conflate: 매 different claim.
  • 매 "anthropic" 의 magic word: 매 actual selection mechanism 의 explicit.

🧪 검증 / 중복

🕓 Changelog

날짜 변경
2026-05-08 Phase 1
2026-05-10 Manual cleanup — variants + fine-tuning + AI 응용 + anthropic shadow