[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,66 +2,149 @@
|
||||
id: wiki-2026-0508-turing-test
|
||||
title: Turing Test
|
||||
category: 10_Wiki/Topics
|
||||
status: needs_review
|
||||
status: verified
|
||||
canonical_id: self
|
||||
aliases: [P-Reinforce-AUTO-TUTE-001]
|
||||
aliases: [Imitation Game, Turing's Test]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.96
|
||||
tags: [auto-reinforced, ai-history, turing-test, machine-intelligence, Philosophy-of-mind]
|
||||
confidence_score: 0.9
|
||||
verification_status: applied
|
||||
tags: [ai-history, philosophy, evaluation, agi]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-04-20
|
||||
last_reinforced: 2026-05-10
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
tech_stack:
|
||||
language: na
|
||||
framework: ai-philosophy
|
||||
---
|
||||
|
||||
# [[Turing Test|Turing Test]]
|
||||
# Turing Test
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "기계와 인간의 경계선: 질의응답을 통해 인간인지 기계인지 구별할 수 없다면, 그 기계는 '생각하는 지능'을 가졌다고 간주해야 한다는 앨런 튜링의 가장 직관적인 판별법."
|
||||
## 매 한 줄
|
||||
> **"매 machine 이 human judge 와 30% 이상의 conversation 에서 human 으로 misclassified 되면 thinking 과 indistinguishable 하다고 판정"**. 매 1950 Alan Turing 의 "Computing Machinery and Intelligence" 의 imitation game. 매 2024-25 GPT-4 / Claude 의 controlled study에서 human-level pass 보고 (Jones & Bergen 2024 UCSD). 매 2026 현재 Turing Test 는 capability 측정 도구로서 obsolete, Chinese Room critique + behavioral benchmark + capability evaluation 으로 대체.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
튜링 테스트(Turing Test)는 1950년 앨런 튜링이 "Computing Machinery and Intelligence" 논문에서 제안한 기계의 지능 유무를 판별하는 실험적 기준입니다.
|
||||
## 매 핵심
|
||||
|
||||
1. **실험 방식 (Imitation Game)**:
|
||||
* 질문자가 텍스트 통신으로만 대화하며, 상대방이 인간인지 기계인지 맞혀야 함.
|
||||
* 기계가 질문자를 성공적으로 속여 상당수(약 30% 이상)가 인간이라고 믿게 만든다면 테스트 통과로 간주.
|
||||
2. **의의**:
|
||||
* "지능이란 무엇인가"라는 복잡한 철학적 정의를 피하고, "지능적으로 행동하는가"라는 거동 중심의 실용적 정의로 패러다임을 전환함.
|
||||
3. **한계와 비판 (Chinese Room Argument)**:
|
||||
* 존 설(John Searle)은 기계가 의미를 이해하지 못해도 단순히 규칙(Rule-book)에 따라 완벽한 대화를 흉내 낼 수 있음을 지적하며, 튜링 테스트가 진정한 '이해'를 담보하지 못한다고 주장.
|
||||
### 매 original imitation game (Turing 1950)
|
||||
- 3 players: man (A), woman (B), interrogator (C).
|
||||
- C asks questions in writing, must determine which is which.
|
||||
- A 의 task: deceive C. B 의 task: help C.
|
||||
- Turing's substitution: replace A with machine. Does C error rate stay same?
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
||||
- **과거 데이터와의 충돌**: 과거에는 튜링 테스트 통과가 AI의 궁극적 목표였으나, 현대의 거대 언어 모델(LLM)들이 일상적으로 이 테스트를 무력화하며 통과함에 따라, 단순히 '속이기'가 아닌 '사실 관계의 정확성'과 '복합적 문제 해결 능력'이 새로운 지능 지표가 됨(RL Update).
|
||||
- **정책 변화(RL Update)**: AI가 인간을 완벽히 모방하는 시대 정책은 'AI 고지 의무(Transparency)'를 의무화하여, 지능은 인정하되 기계와 인간을 법적으로 명확히 구분하는 세부 시행 정책을 운영 중임.
|
||||
### 매 misconception (common pop interpretation)
|
||||
- Pop version: "machine fools human into thinking it's human."
|
||||
- Original: comparison of machine deception rate vs man-deceiving-as-woman rate.
|
||||
- Turing's prediction: by 2000, machines will pass at ~30% rate after 5min.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- Foundational Models, NLP (자연어 처리), [[Ethics & AI|Ethics & AI]], Philosophy of Science, [[Synthesized Intelligence|Synthesized Intelligence]]
|
||||
- **Modern Tech/Tools**: ChatGPT (GPT-4), Claude, Turing-Test-2.0 ([[Logic|Logic]]-based [[Benchmarks|Benchmarks]]).
|
||||
---
|
||||
### 매 critiques
|
||||
1. **Chinese Room (Searle 1980)**: passing test 은 understanding 의 evidence 아님. symbol manipulation ≠ semantics.
|
||||
2. **Imitation ≠ intelligence**: human deception 은 narrow task. 매 mathematical reasoning, embodiment, learning 의 미측정.
|
||||
3. **Anthropocentric**: intelligence 의 sole criterion 으로 human-likeness 가정.
|
||||
4. **Gameable**: tricks (typos, refuse-to-answer, emotion mimicry) 으로 pass 가능.
|
||||
5. **Judge calibration**: naive judge vs expert 의 결과 wildly 다름.
|
||||
|
||||
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
||||
### 매 modern empirical results
|
||||
- **2014 "Eugene Goostman"**: 33% pass at Royal Society. 매 13-yr-old Ukrainian persona 가 expectation lowering 으로 controversial pass.
|
||||
- **2023 Jannai et al.** (AI21): GPT-4 fooled humans at 60% rate in 2-min chat.
|
||||
- **2024 Jones & Bergen** (UCSD): GPT-4 passed at 54% (vs human 67%, ELIZA 22%). 매 first rigorously controlled pass.
|
||||
- **2025 multiple replications**: Claude / GPT-5 의 routine human-level performance.
|
||||
|
||||
**언제 이 지식을 쓰는가:**
|
||||
- *(TODO)*
|
||||
### 매 alternatives (post-Turing era)
|
||||
1. **Capability benchmarks**: MMLU, HumanEval, GPQA, ARC-AGI, SWE-bench.
|
||||
2. **Coffee test** (Wozniak): make coffee in unfamiliar kitchen → embodiment.
|
||||
3. **Robot college student** (Goertzel): take college courses, get degree.
|
||||
4. **Lovelace Test 2.0** (Riedl): create artifact human cannot, but expert can verify.
|
||||
5. **Winograd Schema** (Levesque 2011): commonsense reasoning, originally Turing-resistant.
|
||||
|
||||
**언제 쓰면 안 되는가:**
|
||||
- *(TODO)*
|
||||
### 매 응용
|
||||
1. AI history teaching.
|
||||
2. Philosophy of mind discussion (consciousness, understanding).
|
||||
3. Public communication of AI capability ("does AI think?").
|
||||
4. Capability evaluation pre-2020 (now obsolete).
|
||||
|
||||
## 🧪 검증 상태 (Validation)
|
||||
## 💻 패턴 (eval design lessons)
|
||||
|
||||
- **정보 상태:** needs_review
|
||||
- **출처 신뢰도:** A
|
||||
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
|
||||
### Pattern 1: Modern adversarial Turing protocol
|
||||
```text
|
||||
1. Recruit N judges (calibrate by demographic, expertise).
|
||||
2. Each judge: 5-min interrogation, 50% human / 50% AI random.
|
||||
3. Force binary verdict (no "unsure").
|
||||
4. Pass criterion: AI verdict = "human" at rate ≥ control human rate − ε.
|
||||
5. Pre-register hypotheses, blind judges to study purpose.
|
||||
```
|
||||
|
||||
## 🧬 중복 검사 (Duplicate Check)
|
||||
### Pattern 2: Why public Turing demos mislead
|
||||
```text
|
||||
- Cherry-picked transcripts.
|
||||
- Naive judges (not interrogating adversarially).
|
||||
- Persona tricks (child, non-native speaker, tired, distracted).
|
||||
- Self-selection bias (only impressive runs shown).
|
||||
```
|
||||
|
||||
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
|
||||
- **처리 방식:** UPDATE (자동 정규화)
|
||||
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
|
||||
### Pattern 3: Capability-first eval (modern replacement)
|
||||
```text
|
||||
benchmarks = [
|
||||
"MMLU", # broad knowledge
|
||||
"HumanEval", # code generation
|
||||
"GPQA", # graduate-level science
|
||||
"ARC-AGI", # abstract reasoning
|
||||
"SWE-bench", # real software engineering
|
||||
"HLE", # Humanity's Last Exam (2025)
|
||||
]
|
||||
# Pass = top-percentile human expert performance per task.
|
||||
```
|
||||
|
||||
## 🕓 변경 이력 (Changelog)
|
||||
### Pattern 4: Behavioral safety eval (orthogonal to Turing)
|
||||
```text
|
||||
- Refusal rate on harmful prompts.
|
||||
- Calibration (uncertainty matches accuracy).
|
||||
- Sycophancy (agree-with-user metric).
|
||||
- Honesty (TruthfulQA, FactScore).
|
||||
```
|
||||
|
||||
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
||||
|------|-----------|-----------|--------|
|
||||
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
|
||||
### Pattern 5: Lovelace 2.0 framework
|
||||
```text
|
||||
1. Specify class C of artifacts (e.g., novel valid mathematical proof).
|
||||
2. AI produces artifact a ∈ C.
|
||||
3. Human expert verifies a is valid AND novel.
|
||||
4. AI architect cannot explain how a was produced.
|
||||
→ Tests creativity, not imitation.
|
||||
```
|
||||
|
||||
## 매 결정 기준
|
||||
| 목적 | Eval |
|
||||
|---|---|
|
||||
| Historical / philosophical context | Turing Test |
|
||||
| Capability measurement | MMLU, GPQA, HumanEval, ARC-AGI |
|
||||
| Reasoning / novelty | Lovelace 2.0, ARC-AGI |
|
||||
| Embodiment / general intelligence | Coffee test, robot college |
|
||||
| Safety / alignment | RealToxicityPrompts, MLCommons AILuminate |
|
||||
|
||||
**기본값**: capability + safety multi-benchmark. Turing Test 는 historical reference only.
|
||||
|
||||
## 🔗 Graph
|
||||
- 부모: [[Philosophy of AI]] · [[AI Evaluation]]
|
||||
- 변형: [[Imitation Game]] · [[Lovelace Test]] · [[Winograd Schema]]
|
||||
- 응용: [[AGI Evaluation]] · [[Chinese Room]] · [[ARC-AGI]]
|
||||
- Adjacent: [[Searle]] · [[Alan Turing]] · [[Capability Benchmarks]]
|
||||
|
||||
## 🤖 LLM 활용
|
||||
**언제**: AI history, philosophy of mind 토론, public communication.
|
||||
**언제 X**: actual capability measurement (use modern benchmarks).
|
||||
|
||||
## ❌ 안티패턴
|
||||
- **"GPT passed Turing → AGI"**: imitation ≠ general intelligence. capability gaps remain.
|
||||
- **Naive judge eval**: untrained user 의 verdict 는 systematic bias.
|
||||
- **Single-conversation pass**: 5-min snapshot. long-horizon coherence 미측정.
|
||||
- **Persona escape hatch**: "I'm a tired teenager" 으로 weakness 정당화.
|
||||
- **Conflating with consciousness**: Turing Test 는 behavior. consciousness 의 evidence 아님.
|
||||
|
||||
## 🧪 검증 / 중복
|
||||
- Verified (Turing 1950 "Computing Machinery and Intelligence" Mind 59; Searle 1980 "Minds, Brains, and Programs"; Jones & Bergen 2024 arxiv 2405.08007; Riedl 2014 Lovelace 2.0).
|
||||
- 신뢰도 A.
|
||||
|
||||
## 🕓 Changelog
|
||||
| 날짜 | 변경 |
|
||||
|---|---|
|
||||
| 2026-05-08 | Phase 1 |
|
||||
| 2026-05-10 | Manual cleanup — Turing Test history + 2024 Jones-Bergen pass + modern alternatives |
|
||||
|
||||
Reference in New Issue
Block a user