--- id: AI-SPEECH-TTS-001 category: "10_Wiki/πŸ’‘ Topics/AI" confidence_score: 1.0 tags: [ai, nlp, tts, speech-synthesis, generative-ai, audio-engineering, deep-learning] last_reinforced: 2026-04-26 --- # Text-to-Speech Synthesis (TTS, μŒμ„± ν•©μ„±) ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "ν…μŠ€νŠΈμ— λ‹΄κΈ΄ 언어적 기호(Grapheme)λ₯Ό μ†Œλ¦¬μ˜ μ΅œμ†Œ λ‹¨μœ„(Phoneme)둜 ν•΄μ²΄ν•˜κ³ , λ”₯λŸ¬λ‹μ˜ ν‘œν˜„λ ₯을 빌렀 인간 특유의 운율(Prosody)κ³Ό 감정이 μ‹€λ¦° νŒŒν˜•(Waveform)으둜 μž¬νƒ„μƒμ‹œμΌœλΌ" β€” 문자λ₯Ό μžμ—°μŠ€λŸ¬μš΄ μΈκ°„μ˜ λͺ©μ†Œλ¦¬λ‘œ λ³€ν™˜ν•˜λŠ” 기술. ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) - **μΆ”μΆœλœ νŒ¨ν„΄:** "Text Analysis and Neural Waveform Generation" β€” μž…λ ₯된 ν…μŠ€νŠΈμ˜ λ¬Έλ§₯을 νŒŒμ•…ν•΄ μŒμ†Œμ™€ 운율 정보λ₯Ό μƒμ„±ν•˜λŠ” 'ν”„λŸ°νŠΈμ—”λ“œ'와, 이 정보λ₯Ό λ°”νƒ•μœΌλ‘œ μ‹€μ œ κ³ ν’ˆμ§ˆ μ˜€λ””μ˜€ μ‹ ν˜Έλ₯Ό λ§Œλ“€μ–΄λ‚΄λŠ” '보코더(Vocoder)'κ°€ κ²°ν•©λœ 생성 νŒ¨ν„΄. - **기술적 μ§„ν™”:** - **Concatenative:** λ…ΉμŒλœ μŒμ„± 쑰각듀을 이어 λΆ™μ΄λŠ” 방식. λΆ€μžμ—°μŠ€λŸ¬μš΄ 연결이 ν•œκ³„. - **Parametric:** 톡계 λͺ¨λΈλ‘œ μ†Œλ¦¬μ˜ νŠΉμ§•μ„ 생성. 기계적인 μŒμƒ‰μ΄ 단점. - **End-to-End Neural TTS:** Tacotron, FastSpeech λ“± 신경망이 ν…μŠ€νŠΈμ—μ„œ 멜-μŠ€νŽ™νŠΈλ‘œκ·Έλž¨μ„ 직접 생성. - **Neural Vocoder:** WaveNet, HiFi-GAN 등이 μŠ€νŽ™νŠΈλ‘œκ·Έλž¨μ„ 인간 μˆ˜μ€€μ˜ μ„ λͺ…ν•œ μŒμ„±μœΌλ‘œ 볡원. - **의의:** μ˜€λ””μ˜€λΆ, 가상 λΉ„μ„œ, κ²Œμž„ 캐릭터, μ‹œκ° μž₯애인을 μœ„ν•œ 정보 μ ‘κ·Όμ„± 도ꡬ λ“± 인간과 기계 μ‚¬μ΄μ˜ κ°€μž₯ 인간적인 μ†Œν†΅ 접점을 ν˜•μ„±ν•¨. ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌:** λŒ€λŸ‰μ˜ κ³ ν’ˆμ§ˆ λ…ΉμŒ 데이터가 ν•„μˆ˜μ˜€μœΌλ‚˜, μ΅œκ·Όμ—λŠ” 단 λͺ‡ 초의 λͺ©μ†Œλ¦¬ μƒ˜ν”Œλ§ŒμœΌλ‘œλ„ λŒ€μƒμ˜ μŒμƒ‰μ„ μ™„λ²½νžˆ λͺ¨μ‚¬ν•˜λŠ” 'μ œλ‘œμƒ· 보이슀 ν΄λ‘œλ‹(Zero-shot Voice Cloning)'κ³Ό λ‹€κ΅­μ–΄ 톡합 λͺ¨λΈλ‘œ νŒ¨λŸ¬λ‹€μž„μ΄ 이동함. - **μ •μ±… λ³€ν™”:** Antigravity ν”„λ‘œμ νŠΈλŠ” μ—μ΄μ „νŠΈμ˜ λ©€ν‹°λͺ¨λ‹¬ λ³΄κ³ μ„œ λΈŒλ¦¬ν•‘ μ‹œ, μ •λ³΄μ˜ 전달λ ₯κ³Ό μΉœκ·Όκ°μ„ κ·ΉλŒ€ν™”ν•˜κΈ° μœ„ν•΄ μ΅œμ‹  ν™•μ‚° λͺ¨λΈ(Diffusion) 기반의 κ³ ν’ˆμ§ˆ TTS 엔진을 κΈ°λ³Έ μΈν„°νŽ˜μ΄μŠ€λ‘œ ν™œμš©ν•¨. ## πŸ”— 지식 μ—°κ²° (Graph) - [[Speech-Recognition-Foundations|Speech-Recognition-Foundations]], [[Signal-Processing-Foundations|Signal-Processing-Foundations]], [[Natural-Language-Processing-NLP|Natural-Language-Processing-NLP]], Generative-Adversarial-Networks-GAN - **Raw Source:** 10_Wiki/Topics/AI/Text-to-Speech-Synthesis.md