Non-linear Activation Functions (비선형 활성화 함수)

📌 한 줄 통찰 (The Karpathy Summary)

"단조로운 직선의 세계에 '굴곡'을 부여하여, 신경망이 세상의 모든 복잡한 함수를 근사할 수 있는 무한한 표현력을 갖게 하라" — 각 뉴런의 출력을 비선형적으로 변환함으로써 심층 신경망이 선형적인 한계를 극복하고 고차원적인 패턴을 학습하게 만드는 핵심 장치.

추출된 패턴: "Linear Combination and Non-linear Transformation" — 입력을 가중합한 결과를 그대로 내보내지 않고 특정 임계값에서 꺾거나(ReLU), 0과 1 사이로 압축(Sigmoid)하는 변환을 통해 층을 쌓을수록 모델의 지능적 깊이가 깊어지게 하는 패턴.
주요 함수:
- ReLU (Rectified Linear Unit): 음수면 0, 양수면 그대로. 연산이 빠르고 기울기 소실(Vanishing Gradient) 문제를 크게 개선.
- Sigmoid: 0과 1 사이의 확률값 반환. 초기 신경망의 표준이었으나 현재는 출력층에서 주로 사용.
- Tanh: -1과 1 사이로 압축하여 데이터의 중심을 0으로 맞춤.
- Leaky ReLU/GELU: ReLU의 단점(Dying ReLU)을 보완한 최신 변종들.
의의: 비선형 활성화 함수가 없다면 아무리 깊은 신경망도 단일 레이어의 선형 회귀와 수학적으로 동일해지며, 딥러닝이라는 학문 자체가 성립하지 않게 됨.

과거 데이터와의 충돌: 시그모이드가 가장 인간의 뇌와 닮아 최선이라는 믿음에서 벗어나, 이제는 학습의 안정성과 속도를 위해 ReLU 계열과 트랜스포머에서 쓰이는 GELU 등이 실질적인 표준으로 자리 잡음.
정책 변화: Antigravity 프로젝트는 대규모 언어 모델 아키텍처 설계 시, 수학적 부드러움과 성능 최적화가 검증된 SwiGLU 또는 GELU 활성화 함수를 기본 사양으로 채택함.

Activation-Functions, Leaky-ReLU-and-Activations, Deep-Learning-Foundations, Backpropagation-Foundations
Raw Source: 10_Wiki/Topics/AI/Non-linear-Activation-Functions.md