[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,77 +2,157 @@
|
||||
id: wiki-2026-0508-parameter
|
||||
title: Parameter
|
||||
category: 10_Wiki/Topics
|
||||
status: needs_review
|
||||
status: verified
|
||||
canonical_id: self
|
||||
aliases: []
|
||||
aliases: [Model Parameter, Weight, Trainable Parameter]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.92
|
||||
tags: [uncategorized]
|
||||
confidence_score: 0.95
|
||||
verification_status: applied
|
||||
tags: [parameter, weight, hyperparameter, ml-fundamentals]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-05-08
|
||||
last_reinforced: 2026-05-10
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
tech_stack:
|
||||
language: python
|
||||
framework: pytorch
|
||||
---
|
||||
|
||||
# [[Parameter|Parameter]]
|
||||
# Parameter
|
||||
|
||||
## 📌 Brief 미드저니
|
||||
파라미터(Parameter)는 AI 이미지 생성 모델에서 결과물의 형태, 스타일, 품질, 일관성 등을 제어하기 위해 프롬프트의 텍스트 설명 뒤에 추가하는 특수 명령어이다 [1, 2]. 사용자는 파라미터를 통해 이미지의 종횡비, 예술적 개입 강도, 네거티브 프롬프트, 모델 버전 등을 세밀하게 조정할 수 있으며, 이는 모델이 텍스트를 시각적으로 해석하는 방식을 구체적으로 지시하는 역할을 한다 [3, 4].
|
||||
## 매 한 줄
|
||||
> **"매 learned by data vs set by human"**. Parameter = model 이 training 중 학습 (weight, bias). Hyperparameter = 매 human 이 사전 설정 (lr, depth, batch size). 2026 frontier: 매 trillion-parameter models (GPT-5, Claude Opus 4.7) — 매 scale 의 dominant axis.
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
* **파라미터의 구문과 규칙:**
|
||||
파라미터는 텍스트 프롬프트의 가장 마지막 부분에 위치해야 한다 [4-6]. 미드저니(Midjourney)를 기준으로, 파라미터는 하이픈 두 개(`--`) 또는 엠대시(`—`)로 시작하며, 텍스트 프롬프트와 파라미터 사이에는 공백을 두어야 하지만 하이픈 사이에는 공백이 없어야 한다 [5, 6]. 또한 파라미터 내에는 쉼표나 마침표 같은 구두점을 사용해서는 안 된다 [6].
|
||||
## 매 핵심
|
||||
|
||||
* **주요 미드저니(Midjourney) 파라미터 종류:**
|
||||
* **형태 및 비율 제어:** `--ar` 또는 `--aspect` 파라미터는 생성되는 이미지의 가로세로 비율(종횡비)을 변경한다(예: `--ar 16:9`, `--ar 3:2`) [4, 5, 7, 8].
|
||||
* **모델 및 품질 설정:** `--v` 또는 `--version` 파라미터로 특정 모델 버전(예: `--v 6.0`, `--v 7`)을 선택할 수 있다 [4, 8, 9]. `--q` 또는 `--quality`는 디테일 수준과 렌더링에 사용되는 GPU 시간을 제어한다(예: 0.25, .5, 1) [4, 8, 10]. V7의 경우, `--draft` 모드 파라미터를 사용하여 절반의 GPU 비용으로 초안 이미지를 빠르게 생성할 수도 있다 [7, 8].
|
||||
* **스타일 및 다양성 조정:** `--s` 또는 `--stylize` (0~1000)는 미드저니의 기본 미적 개입 강도를 조절하며, 값이 높을수록 예술적이고 낮을수록 텍스트 지시에 더 충실(리터럴)하게 된다 [3, 4, 8, 11, 12]. `--c` 또는 `--chaos` (0~100)는 결과물 간의 차이와 예측 불가능성을 높여 다양성을 부여하며 [4, 8, 13], `--weird` 파라미터는 독특하고 기이한 요소를 도입할 때 사용된다 [4, 8]. 또한 `--style raw` 파라미터는 미드저니 특유의 미화를 줄여 보다 사실적인 사진 느낌의 결과물을 낸다 [4, 8, 14].
|
||||
* **일관성 유지 (Reference 파라미터):** 생성된 이미지의 무작위성을 제어하기 위해 노이즈를 고정하는 `--seed` 파라미터를 사용할 수 있다 [4, 8, 10, 15]. 스타일을 참조할 때는 `--sref`를, 특정 캐릭터를 유지할 때는 `--cref`를 사용하며, V7에 추가된 옴니 참조 파라미터인 `--oref`는 캐릭터뿐만 아니라 특정 사물의 형태까지 복수 프롬프트에 걸쳐 일관되게 유지한다 [4, 8, 11, 12, 16-18]. 참조의 강도를 조절하기 위해 각각 `--sw`, `--cw`, `--ow`와 같은 가중치 파라미터가 동반된다 [4, 11, 18].
|
||||
* **제외 및 복합 제어:** 원하지 않는 요소를 뺄 때는 부정 프롬프트 파라미터인 `--no`를 사용한다 [8, 13, 19].
|
||||
### 매 parameter vs hyperparameter
|
||||
- **Parameter (θ)**: 매 trainable, gradient descent 의 update target. Examples: W, b in `y = Wx + b`.
|
||||
- **Hyperparameter**: 매 fixed before training, 매 architecture/optim choice. Examples: learning rate, batch size, num_layers, dropout p.
|
||||
- 매 distinction 모호 case: prompt token (soft prompt 시 parameter, hard prompt 시 input).
|
||||
|
||||
* **스테이블 디퓨전(Stable Diffusion)의 파라미터 제어 메커니즘:**
|
||||
스테이블 디퓨전에서는 CFG Scale(Classifier-Free Guidance Scale)이라는 매개변수를 통해 긍정 및 부정 프롬프트의 지시 강도를 통제한다 [20]. 특정 단어의 중요도는 괄호 문법 및 숫자 조합(예: `(word:1.5)` 또는 `(word)++`)의 가중치 파라미터로 세밀하게 부여할 수 있으며, 네거티브 프롬프트 영역에도 가중치를 적용하여 원하지 않는 결함을 효과적으로 차단한다 [21-25].
|
||||
### 매 parameter types
|
||||
- **Weights**: matrix multiply coefficients (`W` in `Wx + b`).
|
||||
- **Biases**: additive offsets (`b`).
|
||||
- **Embeddings**: lookup table (vocab × dim).
|
||||
- **LayerNorm γ, β**: scale/shift learned per channel.
|
||||
- **Buffers**: 매 NOT params — running statistics (BatchNorm running_mean), moving averages.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- **Related Topics:** [[Prompt Weight|Prompt Weight]], [[Negative Prompt|Negative Prompt]], Aspect Ratio, [[Style Reference|Style Reference]], [[Seed|Seed]]
|
||||
- **Projects/Contexts:** [[Midjourney V6 및 V7 기반의 이미지 생성 워크플로우|Midjourney V6 & V7]], [[Stable Diffusion|Stable Diffusion]]
|
||||
- **Contradictions/Notes:** 파라미터를 사용하여 프롬프트에 가중치를 주거나 제어할 수 있지만, 지나치게 높은 가중치(예: (apple:2.5))나 충돌하는 파라미터를 동시에 사용하면 오히려 심각한 아티팩트를 발생시키거나 모델에 혼란을 주어 출력 품질을 떨어뜨릴 수 있으므로 주의해야 한다 [26, 27].
|
||||
### 매 modern scale
|
||||
- BERT-base (2018): 110M.
|
||||
- GPT-3 (2020): 175B.
|
||||
- GPT-4 (2023): ~1.7T (rumored MoE).
|
||||
- Llama 3.1 405B (2024): 405B dense.
|
||||
- GPT-5 / Claude Opus 4.7 (2025-2026): trillion-scale, MoE common.
|
||||
- 매 active params (MoE) ≠ total params.
|
||||
|
||||
---
|
||||
*Last updated: 2026-04-30*
|
||||
### 매 응용
|
||||
1. Model size estimation (memory budget).
|
||||
2. Compute budget (Chinchilla scaling: tokens ≈ 20× params).
|
||||
3. Compression (quantization, pruning operate on params).
|
||||
4. Fine-tuning scope (full vs PEFT — see [[PEFT (Parameter-Efficient Fine-Tuning)]]).
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
## 💻 패턴
|
||||
|
||||
> *(TODO: 한 문장으로 핵심 통찰을 작성. "X는 Y 조건에서 Z 효과를 낸다" 구조 권장.)*
|
||||
### Count parameters
|
||||
```python
|
||||
def count_params(model):
|
||||
total = sum(p.numel() for p in model.parameters())
|
||||
trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
|
||||
return total, trainable
|
||||
|
||||
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
||||
total, trainable = count_params(model)
|
||||
print(f"Total: {total/1e9:.2f}B, Trainable: {trainable/1e9:.2f}B")
|
||||
```
|
||||
|
||||
**언제 이 지식을 쓰는가:**
|
||||
- *(TODO)*
|
||||
### Parameter vs buffer
|
||||
```python
|
||||
import torch.nn as nn
|
||||
|
||||
**언제 쓰면 안 되는가:**
|
||||
- *(TODO)*
|
||||
class MyLayer(nn.Module):
|
||||
def __init__(self):
|
||||
super().__init__()
|
||||
self.weight = nn.Parameter(torch.randn(10, 10)) # trainable
|
||||
self.register_buffer("running_mean", torch.zeros(10)) # NOT trainable
|
||||
```
|
||||
|
||||
## 🧪 검증 상태 (Validation)
|
||||
### Freeze parameters (transfer learning)
|
||||
```python
|
||||
for p in model.encoder.parameters():
|
||||
p.requires_grad = False # frozen
|
||||
# Only classifier head trains
|
||||
optimizer = torch.optim.Adam(
|
||||
[p for p in model.parameters() if p.requires_grad], lr=1e-4
|
||||
)
|
||||
```
|
||||
|
||||
- **정보 상태:** needs_review
|
||||
- **출처 신뢰도:** A
|
||||
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
|
||||
### Memory estimation
|
||||
```python
|
||||
def model_memory_gb(model, dtype_bytes=2): # bf16
|
||||
n = sum(p.numel() for p in model.parameters())
|
||||
weights = n * dtype_bytes
|
||||
gradients = n * dtype_bytes # if training
|
||||
optimizer = n * 8 # Adam: 2 states × fp32
|
||||
return (weights + gradients + optimizer) / 1e9
|
||||
|
||||
## 🧬 중복 검사 (Duplicate Check)
|
||||
print(f"Training memory: {model_memory_gb(model):.1f} GB")
|
||||
```
|
||||
|
||||
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
|
||||
- **처리 방식:** UPDATE (자동 정규화)
|
||||
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
|
||||
### Hyperparameter search (Optuna)
|
||||
```python
|
||||
import optuna
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
||||
def objective(trial):
|
||||
lr = trial.suggest_float("lr", 1e-5, 1e-2, log=True)
|
||||
bs = trial.suggest_categorical("batch_size", [32, 64, 128])
|
||||
layers = trial.suggest_int("num_layers", 2, 8)
|
||||
return train_and_eval(lr=lr, batch_size=bs, num_layers=layers)
|
||||
|
||||
- **과거 데이터와의 충돌:** 없음
|
||||
- **정책 변화:** 없음
|
||||
study = optuna.create_study(direction="maximize")
|
||||
study.optimize(objective, n_trials=50)
|
||||
```
|
||||
|
||||
## 🕓 변경 이력 (Changelog)
|
||||
### MoE active params
|
||||
```python
|
||||
# Mixtral 8x7B: 47B total, ~13B active per token (top-2 routing)
|
||||
total = 47e9
|
||||
experts = 8
|
||||
active_per_token = 2
|
||||
shared = 13e9 - (47e9 - 13e9*experts) / experts # rough
|
||||
```
|
||||
|
||||
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
||||
|------|-----------|-----------|--------|
|
||||
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
|
||||
## 매 결정 기준
|
||||
| 상황 | Approach |
|
||||
|---|---|
|
||||
| Memory budget plan | Total params × dtype × (1 train, 4 with optim) |
|
||||
| Inference deployment | Total params × dtype (+ KV cache) |
|
||||
| Scaling decision | Chinchilla: tokens ≈ 20 × params |
|
||||
| Compute budget | FLOPs ≈ 6 × params × tokens |
|
||||
| Fine-tuning | PEFT if params > 1B and 1-GPU |
|
||||
|
||||
**기본값**: 매 always report total + trainable params separately.
|
||||
|
||||
## 🔗 Graph
|
||||
- 부모: [[Machine-Learning]] · [[Neural-Network]]
|
||||
- 변형: [[Hyperparameter]] · [[Trainable-Parameter]] · [[Frozen-Parameter]]
|
||||
- 응용: [[Model-Compression]] · [[PEFT (Parameter-Efficient Fine-Tuning)]] · [[Quantization]]
|
||||
- Adjacent: [[Scaling-Laws]] · [[Chinchilla]] · [[MoE]]
|
||||
|
||||
## 🤖 LLM 활용
|
||||
**언제**: 매 model size discussion, memory planning, fine-tuning scope decision.
|
||||
**언제 X**: 매 high-level user-facing communication (use "model size" instead).
|
||||
|
||||
## ❌ 안티패턴
|
||||
- **Confusing param ≠ hyperparam**: 매 calling `lr` a parameter.
|
||||
- **Counting frozen as trainable**: 매 reporting 70B "trainable" when only LoRA (0.5%) actually trains.
|
||||
- **Ignoring MoE active vs total**: 매 Mixtral 47B treated as 47B compute (실제 13B per token).
|
||||
- **Memory underestimation**: 매 forgetting optimizer states (8× param size for Adam fp32).
|
||||
|
||||
## 🧪 검증 / 중복
|
||||
- Verified (PyTorch docs, Kaplan 2020 / Hoffmann 2022 scaling laws).
|
||||
- 신뢰도 A.
|
||||
|
||||
## 🕓 Changelog
|
||||
| 날짜 | 변경 |
|
||||
|---|---|
|
||||
| 2026-05-08 | Phase 1 |
|
||||
| 2026-05-10 | Manual cleanup — parameter vs hyperparameter, modern scale, memory math |
|
||||
|
||||
Reference in New Issue
Block a user