--- id: wiki-2026-0508-speech-synthesis title: Speech Synthesis category: 10_Wiki/Topics status: needs_review canonical_id: self aliases: [P-Reinforce-AUTO-SPSN-001] duplicate_of: none source_trust_level: A confidence_score: 0.96 tags: [auto-reinforced, speech-synthesis, tts, nlp, audio-ai] raw_sources: [] last_reinforced: 2026-04-20 github_commit: pending inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08) tech_stack: language: unspecified framework: unspecified --- # [[Speech-Synthesis|Speech-Synthesis]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "ν…μŠ€νŠΈμ— 생λͺ…을 λΆˆμ–΄λ„£λŠ” λͺ©μ†Œλ¦¬: 기계적인 데이터가 μΈκ°„μ˜ 호흑, μ–΅μ–‘, 감정을 μž…μ€ μŒμ„± 슀트림으둜 λ³€ν™˜λ˜μ–΄, 보이지 μ•ŠλŠ” κ³³μ—μ„œ μš°λ¦¬μ™€ λŒ€ν™”ν•˜λŠ” μ§€λŠ₯적 μž…μˆ ." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) μŒμ„± ν•©μ„±(Speech Synthesis, Text-to-Speech, TTS)은 ν…μŠ€νŠΈ 정보λ₯Ό μΈκ°„μ˜ λͺ©μ†Œλ¦¬μ™€ μœ μ‚¬ν•œ μŒμ„± μ‹ ν˜Έλ‘œ λ³€ν™˜ν•˜λŠ” κΈ°μˆ μž…λ‹ˆλ‹€. 1. **기술적 μ§„ν™” 단계**: * **Concatenative TTS**: 이미 λ…ΉμŒλœ μˆ˜λ§Žμ€ μ†Œλ¦¬ 쑰각을 이어 λΆ™μ΄λŠ” 방식. μžμ—°μŠ€λŸ¬μ›€μ΄ 떨어짐. * **Parametric TTS**: μŒμ„±μ˜ νŠΉμ§•(주파수, 지속 μ‹œκ°„ λ“±)을 ν†΅κ³„μ μœΌλ‘œ λͺ¨λΈλ§ν•˜μ—¬ μ†Œλ¦¬λ₯Ό 생성. * **Neural TTS (End-to-End)**: λ”₯λŸ¬λ‹(Transformer, Diffusion λ“±)을 μ‚¬μš©ν•˜μ—¬ ν…μŠ€νŠΈμ—μ„œ λ°”λ‘œ κ³ ν’ˆμ§ˆ μŒμ„± νŒŒν˜•μ„ 생성. (예: Tacotron, WaveNet). 2. **핡심 νŒŒμ΄ν”„λΌμΈ**: * **Text [[Analysis|Analysis]]**: μ•½μ–΄, 숫자, 띄어쓰기λ₯Ό 발음 기호둜 λ³€ν™˜ (Grapheme-to-Phoneme). * **Prosody Generation**: λ¬Έλ§₯에 λ”°λ₯Έ κ°•μ‘°, κ³ μ €(Pitch), 속도 κ²°μ •. * **Vocoder**: νŠΉμ§• 데이터λ₯Ό λ°”νƒ•μœΌλ‘œ μ΅œμ’… κ°€ μ²­ 음파 생성. 3. **ν™œμš© λΆ„μ•Ό**: * μ‹œκ° μž₯애인을 μœ„ν•œ λ…μ„œ μ„œλΉ„μŠ€, λ„€λΉ„κ²Œμ΄μ…˜ κ°€μ΄λ“œ, μ§€λŠ₯ν˜• 가상 λΉ„μ„œ, κ²Œμž„ 캐릭터 μŒμ„± λ“±. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & Updates) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” 수천 μ‹œκ°„μ˜ λ…ΉμŒμ΄ ν•„μš”ν–ˆμœΌλ‚˜, ν˜„λŒ€ AI 정책은 단 λͺ‡ 초의 μƒ˜ν”Œλ§ŒμœΌλ‘œλ„ λŒ€μƒμ˜ λͺ©μ†Œλ¦¬λ₯Ό μ™„λ²½νžˆ λ³΅μ œν•˜λŠ” 'Zero-shot Voice Cloning' κΈ°μˆ μ„ ν‘œμ€€ν™”ν•¨(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: 보이슀 ν”Όμ‹± 및 λ”₯페이크 μŒμ„± 범죄가 급증함에 따라, μƒμ„±λœ λͺ¨λ“  μŒμ„±μ— 인간이 듀을 수 μ—†λŠ” 'μ˜€λ””μ˜€ μ›Œν„°λ§ˆν¬'λ₯Ό κ°•μ œ μ‚½μž…ν•˜κ³  좜처λ₯Ό λͺ…μ‹œν•˜λŠ” 'μŒμ„± 윀리 κ±°λ²„λ„ŒμŠ€' 정책이 μ „ μ„Έκ³„μ μœΌλ‘œ μ‹œν–‰ μ€‘μž„. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Sound Design Principles|Sound Design Principles]], [[Neurobiology-of-Reward|Neurobiology-of-Reward]], Human-Computer Interaction (HCI), [[Generative-AI|Generative-AI]]-Safety, [[Ethics & AI|Ethics & AI]] - **Modern Tech/Tools**: ElevenLabs, OpenAI Whisper (STT) & Speech (TTS), Coqui TTS. --- ## πŸ€– LLM ν™œμš© 힌트 (How to Use This Knowledge) **μ–Έμ œ 이 지식을 μ“°λŠ”κ°€:** - *(TODO)* **μ–Έμ œ μ“°λ©΄ μ•ˆ λ˜λŠ”κ°€:** - *(TODO)* ## πŸ§ͺ 검증 μƒνƒœ (Validation) - **정보 μƒνƒœ:** needs_review - **좜처 신뒰도:** A - **κ²€ν†  이유:** *(P-Reinforce Phase 1 μžλ™ μ •κ·œν™”. λ³Έλ¬Έ 검증 ν•„μš”.)* ## 🧬 쀑볡 검사 (Duplicate Check) - **κΈ°μ‘΄ μœ μ‚¬ λ¬Έμ„œ:** *(TODO: μΈλ±μ„œ ν΄λŸ¬μŠ€ν„° 리포트 μ°Έμ‘°)* - **처리 방식:** UPDATE (μžλ™ μ •κ·œν™”) - **처리 이유:** Phase 1 μ •κ·œν™” β€” μ˜› ν…œν”Œλ¦Ώ/λˆ„λ½ ν•„λ“œ 보강. ## πŸ•“ λ³€κ²½ 이λ ₯ (Changelog) | λ‚ μ§œ | λ³€κ²½ λ‚΄μš© | 처리 방식 | 신뒰도 | |------|-----------|-----------|--------| | 2026-05-08 | P-Reinforce Phase 1 μ •κ·œν™” (frontmatter + 헀더 ν‘œμ€€ν™”) | UPDATE | A | ## πŸ’» μ½”λ“œ νŒ¨ν„΄ (Code Patterns) **νŒ¨ν„΄ 1:** *(TODO: 이 ν”„λ‘œμ νŠΈ μ»¨λ²€μ…˜ λ°˜μ˜ν•œ ꡬ쑰 μŠ€μΌˆλ ˆν†€)* ```text # TODO ``` ## πŸ€” μ˜μ‚¬κ²°μ • κΈ°μ€€ (Decision Criteria) **선택 Aλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **선택 Bλ₯Ό 써야 ν•  λ•Œ:** - *(TODO)* **κΈ°λ³Έκ°’:** > *(TODO)* ## ❌ μ•ˆν‹°νŒ¨ν„΄ (Anti-Patterns) - **[μ•ˆν‹°νŒ¨ν„΄]:** *(TODO: 무엇을 ν•˜λ©΄ μ•ˆ λ˜λŠ”κ°€ + 이유 + λŒ€μ‹  무엇을)*