2nd/10_Wiki/Topics_Blog/Non-linear-Activation-Functions.md

---
id: DL-ACT-NLIN-001
category: "10_Wiki/💡 Topics/AI"
confidence_score: 1.0
tags: [ai, deep-learning, activation-functions, non-linearity, relu, sigmoid]
last_reinforced: 2026-04-26
---

# Non-linear Activation Functions (비선형 활성화 함수)

## 📌 한 줄 통찰 (The Karpathy Summary)
> "단조로운 직선의 세계에 '굴곡'을 부여하여, 신경망이 세상의 모든 복잡한 함수를 근사할 수 있는 무한한 표현력을 갖게 하라" — 각 뉴런의 출력을 비선형적으로 변환함으로써 심층 신경망이 선형적인 한계를 극복하고 고차원적인 패턴을 학습하게 만드는 핵심 장치.

## 📖 구조화된 지식 (Synthesized Content)
- **추출된 패턴:** "Linear Combination and Non-linear Transformation" — 입력을 가중합한 결과를 그대로 내보내지 않고 특정 임계값에서 꺾거나(ReLU), 0과 1 사이로 압축(Sigmoid)하는 변환을 통해 층을 쌓을수록 모델의 지능적 깊이가 깊어지게 하는 패턴.
- **주요 함수:**
    - **ReLU (Rectified Linear Unit):** 음수면 0, 양수면 그대로. 연산이 빠르고 기울기 소실(Vanishing Gradient) 문제를 크게 개선.
    - **Sigmoid:** 0과 1 사이의 확률값 반환. 초기 신경망의 표준이었으나 현재는 출력층에서 주로 사용.
    - **Tanh:** -1과 1 사이로 압축하여 데이터의 중심을 0으로 맞춤.
    - **Leaky ReLU/GELU:** ReLU의 단점(Dying ReLU)을 보완한 최신 변종들.
- **의의:** 비선형 활성화 함수가 없다면 아무리 깊은 신경망도 단일 레이어의 선형 회귀와 수학적으로 동일해지며, 딥러닝이라는 학문 자체가 성립하지 않게 됨.

## ⚠️ 모순 및 업데이트 (Contradictions & RL Update)
- **과거 데이터와의 충돌:** 시그모이드가 가장 인간의 뇌와 닮아 최선이라는 믿음에서 벗어나, 이제는 학습의 안정성과 속도를 위해 ReLU 계열과 트랜스포머에서 쓰이는 GELU 등이 실질적인 표준으로 자리 잡음.
- **정책 변화:** Antigravity 프로젝트는 대규모 언어 모델 아키텍처 설계 시, 수학적 부드러움과 성능 최적화가 검증된 SwiGLU 또는 GELU 활성화 함수를 기본 사양으로 채택함.

## 🔗 지식 연결 (Graph)
- Activation-Functions, [[Leaky-ReLU-and-Activations|Leaky-ReLU-and-Activations]], Deep-Learning-Foundations, Backpropagation-Foundations
- **Raw Source:** 10_Wiki/Topics/AI/Non-linear-Activation-Functions.md