id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, verification_status, tags, raw_sources, last_reinforced, github_commit, tech_stack
| id |
title |
category |
status |
canonical_id |
aliases |
duplicate_of |
source_trust_level |
confidence_score |
verification_status |
tags |
raw_sources |
last_reinforced |
github_commit |
tech_stack |
| wiki-2026-0508-leaky-relu-and-activations |
Leaky ReLU and Activations |
10_Wiki/Topics |
verified |
self |
| Activation Functions |
| ReLU Family |
| GELU |
| SiLU |
| Swish |
|
none |
A |
0.9 |
applied |
| activation |
| relu |
| gelu |
| silu |
| swiglu |
| deep-learning |
|
|
2026-05-10 |
pending |
| language |
framework |
| Python |
PyTorch |
|
Leaky ReLU and Activations
매 한 줄
"매 activation = 비선형성". ReLU 계열이 base, Transformer는 GELU/SiLU/SwiGLU.
매 핵심
매 ReLU 계열
- ReLU: max(0, x). 빠름, dying ReLU 문제.
- Leaky ReLU: max(αx, x), α=0.01. 음수 작게 통과.
- PReLU: α 학습 가능 파라미터.
- ELU: x>0이면 x, 아니면 α(eˣ-1). 평균 0에 가까움.
- SELU: scaled ELU. self-normalizing (FC + lecun_normal init).
매 Smooth 계열
- GELU: x·Φ(x). BERT/GPT 표준. xerf 또는 tanh 근사.
- SiLU/Swish: x·σ(x). PaLM, EfficientNet.
- Mish: x·tanh(softplus(x)). YOLOv4.
매 Gated 계열 (FFN)
- GLU: (xW)⊗σ(xV). 정보 게이팅.
- SwiGLU: (xW)⊗SiLU(xV). LLaMA, PaLM FFN. 보통 hidden ×2/3 보정.
- GeGLU: GELU 변형.
매 Output 전용
- Sigmoid: 이진. saturation→gradient vanish.
- Softmax: multi-class probability.
- Tanh: [-1,1]. RNN, GAN generator.
매 직관
- ReLU: 빠르고 단순, but dead neurons
- GELU/SiLU: smooth, 0근처 비선형성↑, deep transformer에 유리
- SwiGLU: gating으로 expressiveness↑, 동일 param 대비 성능↑
💻 패턴
PyTorch built-ins
SwiGLU FFN (LLaMA-style)
GELU 직접
Init과 페어링
Dying ReLU 진단
매 결정 기준
| 모델 |
Activation |
| CNN classic |
ReLU |
| ResNet/EfficientNet |
ReLU / SiLU |
| Transformer (BERT/GPT) |
GELU |
| LLaMA / PaLM FFN |
SwiGLU |
| GAN generator |
Tanh (out), ReLU (hidden) |
| Self-normalizing FC |
SELU + lecun_normal |
| YOLO 변형 |
Mish |
| Output binary |
Sigmoid |
| Output multiclass |
Softmax (or none + CE) |
기본값: 일반 DL → ReLU. Transformer → GELU. LLM FFN → SwiGLU.
🔗 Graph
🤖 LLM 활용
언제: 모델별 표준 activation 추천, 코드 생성.
언제 X: 새로운 SoTA activation 검증은 실험 필요.
❌ 안티패턴
- ReLU + softmax 출력 hidden에 Sigmoid 끼우기
- SELU에 BatchNorm 같이 쓰기 (self-norm 깨짐)
- Sigmoid를 deep network hidden에 (vanishing)
- SwiGLU 쓰면서 hidden dim 보정 안 함 (param 늘어남)
- Output에 ReLU (negative target 못 표현)
- He init을 GELU/SiLU에도 (괜찮지만 정확히는 다름)
🧪 검증 / 중복
- Verified (He 2015, Hendrycks GELU, Ramachandran Swish, Shazeer SwiGLU). 신뢰도 A.
- 중복: 없음.
🕓 Changelog
| 날짜 |
변경 |
| 2026-05-08 |
Phase 1 |
| 2026-05-10 |
Manual cleanup — SwiGLU/GELU 코드, init pairing |