[ {"path":"10_Wiki/Topics/Computer_Vision.md","summary":"컴퓨터 비전은 픽셀 입력을 의미 있는 객체·관계·맥락으로 변환하는 영역으로, CNN→Transformer 기반 모델 발전과 함께 분류·검출·세그멘테이션·생성의 4대 축으로 분화되어 왔다.","content":"**추출된 패턴:** 합성곱(CNN)이 공간적 지역성을, ViT가 글로벌 어텐션을 잡으면서 도메인별로 둘을 섞은 하이브리드(Swin, ConvNeXt)가 표준이 됨.\n\n**세부 내용:**\n- **분류(Classification)**: 이미지 → 단일 라벨. ImageNet 벤치마크가 생태계를 견인.\n- **검출(Detection)**: 객체 박스 + 라벨. 2-stage(R-CNN 계열) vs 1-stage(YOLO/SSD/DETR)의 트레이드오프.\n- **세그멘테이션(Segmentation)**: 픽셀 단위 라벨. Semantic / Instance / Panoptic 3단계.\n- **생성(Generation)**: GAN→Diffusion으로 패러다임 이동. SD/DALL·E/Imagen 등.\n- **자기지도(Self-supervised)**: SimCLR, MAE, DINO 같은 라벨 없이 표현 학습."}, {"path":"10_Wiki/Topics/CNN.md","summary":"합성곱 신경망(CNN)은 학습 가능한 커널의 슬라이딩으로 공간적 지역성과 가중치 공유를 동시에 잡아, 이미지 같은 격자 데이터에서 표현 학습의 표준이 된 아키텍처다.","content":"**추출된 패턴:** 컨볼루션-비선형-풀링의 반복으로 receptive field를 점진 확장 → 저수준 엣지에서 고수준 객체로 추상화가 자연스럽게 형성됨.\n\n**세부 내용:**\n- **핵심 연산**: Conv(공간 가중합) + Activation(ReLU 등) + Pool(다운샘플) + BatchNorm.\n- **대표 아키텍처**: LeNet→AlexNet→VGG→GoogLeNet→ResNet→DenseNet→EfficientNet→ConvNeXt.\n- **Residual connection**: 깊은 네트워크에서 그래디언트 소실을 우회하며 100층+ 학습을 가능케 함.\n- **한계**: 글로벌 컨텍스트 부족 → ViT/Hybrid 등으로 보완.\n- **응용**: 비전 외에도 음성·시계열·게놈 등 1D/3D 합성곱으로 확장."}, {"path":"10_Wiki/Topics/AI_Sampling_Strategies.md","summary":"LLM 디코딩에서 다음 토큰을 고르는 방식(temperature·top-k·top-p·repetition penalty 등)이 출력의 다양성·일관성·환각 비율을 좌우한다.","content":"**추출된 패턴:** 결정적(greedy/beam) ↔ 확률적(sampling) 스펙트럼에서, 작업 유형(코딩=낮은 온도, 창작=높은 온도)에 맞춘 파라미터 매칭이 핵심.\n\n**세부 내용:**\n- **Greedy / Beam Search**: 항상 최고 확률만 선택. 코딩·번역에 적합하지만 단조로움.\n- **Temperature**: logit을 T로 나눠 분포 평탄화. T<1 보수적, T>1 다양함.\n- **Top-k**: 상위 k개 토큰만 후보. k=40~50이 흔함.\n- **Top-p (nucleus)**: 누적확률 p까지 컷오프. p=0.9~0.95가 표준.\n- **Repetition / Frequency Penalty**: 반복 토큰의 logit을 깎아 루프 방지.\n- **Min-p / Mirostat**: 최신 기법으로 perplexity 기반 동적 샘플링."}, {"path":"10_Wiki/Topics/Reinforcement_Learning_and_Decision_Making.md","summary":"강화학습은 환경과 상호작용하며 누적 보상을 최대화하는 정책을 학습하는 프레임워크로, MDP 가정 위에서 가치 추정과 정책 개선의 두 축으로 발전해 왔다.","content":"**추출된 패턴:** 환경 모델 유무(Model-based vs Model-free), 가치 vs 정책 학습, 온폴리시 vs 오프폴리시 — 이 세 축으로 거의 모든 RL 알고리즘이 분류된다.\n\n**세부 내용:**\n- **MDP**: (S, A, P, R, γ) 5-튜플. 마르코프 가정 = 미래는 현재 상태에만 의존.\n- **가치 기반**: Q-learning, DQN, Double/Dueling DQN — 가치함수 추정 후 argmax 행동.\n- **정책 기반**: REINFORCE, A2C/A3C, PPO, TRPO — 정책 자체를 직접 최적화.\n- **모델 기반**: Dyna, MuZero, Dreamer — 환경 동역학을 학습해 시뮬레이션으로 효율 향상.\n- **현대적 응용**: RLHF(LLM 정렬), 로보틱스, AlphaGo/AlphaZero, 자율주행."}, {"path":"10_Wiki/Topics/Reinforcement_Learning_Fundamentals.md","summary":"RL의 토대는 보상 가설·탐색-활용 트레이드오프·벨만 방정식 세 가지로 압축되며, 이 셋의 균형이 알고리즘 설계의 핵심 결정점이 된다.","content":"**추출된 패턴:** \"즉시 보상 vs 장기 보상\"의 시간 신용 할당이 모든 RL 문제의 본질이며, 할인계수 γ와 부트스트래핑 깊이가 이 균형을 조정하는 손잡이다.\n\n**세부 내용:**\n- **보상 가설(Reward Hypothesis)**: 모든 목표는 누적 스칼라 보상으로 표현 가능하다는 전제.\n- **벨만 방정식**: V(s) = E[R + γV(s')] — 가치 추정의 재귀적 정의.\n- **탐색-활용**: ε-greedy, UCB, Thompson sampling, entropy bonus 등.\n- **시간 차분(TD)**: MC와 DP의 절충. SARSA, Q-learning이 대표.\n- **함수 근사**: 상태 공간이 크면 NN/선형 근사 필요. 수렴성 이슈(Deadly Triad) 주의."}, {"path":"10_Wiki/Topics/Neural_Networks_and_Deep_Learning_Foundations.md","summary":"심층 신경망은 미분 가능한 합성 함수의 스택으로, 표현 학습·역전파·확률적 경사하강이라는 세 기둥이 결합되어 비정형 데이터에서 패턴을 추출한다.","content":"**추출된 패턴:** \"깊이 + 적절한 비선형성 + 충분한 데이터 + 정규화\"의 4박자가 일반화를 결정하며, 이 중 어느 하나라도 무너지면 과적합 또는 수렴 실패로 이어짐.\n\n**세부 내용:**\n- **순전파/역전파**: 체인 룰로 모든 파라미터에 대한 손실의 기울기 계산.\n- **활성함수**: ReLU(기본), GELU(트랜스포머), Sigmoid/Tanh(게이트).\n- **최적화**: SGD+모멘텀, Adam, AdamW. Learning rate scheduling 중요.\n- **정규화**: BatchNorm, LayerNorm, Dropout, weight decay.\n- **표현 학습**: 사전학습→파인튜닝, 자기지도, 멀티태스크 등."}, {"path":"10_Wiki/Topics/Theoretical_Foundations.md","summary":"AI/ML의 이론적 기반은 확률·통계·정보이론·최적화·계산복잡도가 교차하는 지점이며, 응용 모델 선택의 정당성을 이 층위에서 찾는다.","content":"**추출된 패턴:** 모든 학습 알고리즘은 결국 \"가설공간 + 손실함수 + 최적화 절차\"의 조합으로 환원되며, 각 선택의 통계적·계산적 트레이드오프를 이해하는 것이 핵심.\n\n**세부 내용:**\n- **확률·통계**: MLE, MAP, 베이즈 추론, 정보이론(엔트로피, KL divergence).\n- **최적화**: 볼록/비볼록, 1차/2차 방법, 확률적 경사, 라그랑지안 쌍대.\n- **PAC 학습**: 표본 복잡도, VC 차원, 일반화 이론.\n- **계산복잡도**: P/NP, 근사 알고리즘, 샘플링 기반 추론.\n- **표현이론**: 보편 근사 정리, 만성/유한 표현, 신경 정량화."}, {"path":"10_Wiki/Topics/Test-time computing.md","summary":"Test-time compute는 학습 후 추론 단계에서 더 많은 연산을 투입(샘플 증강·체인 오브 사고·반복 증류 등)해 추가 학습 없이 정확도를 높이는 패러다임이다.","content":"**추출된 패턴:** \"파라미터 키우기\" 대신 \"추론 시간 키우기\" — OpenAI o1/DeepSeek-R1처럼 thinking tokens를 늘려 reasoning 깊이를 확장.\n\n**세부 내용:**\n- **Chain-of-Thought**: 중간 추론 단계를 명시적으로 생성.\n- **Self-Consistency**: 여러 샘플 후 다수결.\n- **Tree-of-Thoughts / Graph-of-Thoughts**: 분기 탐색.\n- **Verifier-Guided Search**: 검증자로 후보를 가지치기.\n- **Process Reward Model (PRM)**: 단계별 보상으로 reasoning 강화."}, {"path":"10_Wiki/Topics/Self-Correction.md","summary":"자기 교정은 LLM이 자신의 출력을 비판·수정하는 능력으로, 외부 피드백 없이도 reasoning 품질을 높일 수 있는 중요 기제이지만 한계도 분명하다.","content":"**추출된 패턴:** Self-critic이 잘 작동하려면 (1) 검증이 생성보다 쉬워야 하고 (2) 모델이 자신의 오류를 식별할 메타인지가 있어야 함. 둘 중 하나라도 무너지면 자기 강화 환각으로 빠짐.\n\n**세부 내용:**\n- **Self-Refine**: 출력 → 비판 → 재생성 루프.\n- **Reflexion**: 에피소드 메모리 + 자기 반성 텍스트.\n- **Self-Consistency**: 여러 추론 경로 비교.\n- **한계**: 동일 모델로 비판하면 같은 편향 재생산. 외부 verifier가 더 강력함.\n- **연구 동향**: o1/R1 류 모델은 학습 단계에서 자기교정을 내재화."}, {"path":"10_Wiki/Topics/Self-Correction Mechanisms.md","summary":"Self-correction 메커니즘은 LLM 추론 파이프라인 안에 검증·재시도 루프를 명시적으로 구조화한 기법군이다.","content":"**추출된 패턴:** 외부 verifier가 가능할수록 강력 — 코드(컴파일러), 수학(증명자), 검색(retrieval) 같이 정답이 검증 가능한 도메인에서 가장 효과적.\n\n**세부 내용:**\n- **Retry-with-feedback**: 실패 시그널 + 원인 텍스트를 다시 입력.\n- **Tool-augmented**: 코드 실행/검색/계산기로 결과를 검증.\n- **Critic-actor 분리**: 비판자와 실행자를 별도 모델로 분리하여 편향 감소.\n- **Constitutional AI**: 헌법 원칙 기반 자기 비판.\n- **검증 가능성 원칙**: \"verification ≪ generation\"인 도메인에서만 진정한 효과."}, {"path":"10_Wiki/Topics/Reward Prediction Error (상태 예측 오류).md","summary":"보상 예측 오류(RPE)는 \"기대했던 보상 - 실제 받은 보상\"의 차이로, 도파민 신호의 신경과학적 모델이자 TD 학습의 핵심 신호다.","content":"**추출된 패턴:** 신경과학(VTA 도파민 뉴런 활동)과 강화학습 이론(TD-error)이 같은 수학을 공유 — 이 수렴이 \"뇌가 RL 기계인가\"라는 질문의 출발점.\n\n**세부 내용:**\n- **수식**: δ = r + γV(s') - V(s).\n- **양/음 RPE**: 기대보다 좋으면 양(보상 학습), 나쁘면 음(소거 학습).\n- **도파민 가설(Schultz)**: VTA/SNc 도파민 뉴런이 RPE를 인코딩.\n- **연관**: 중독·우울·파킨슨 같은 질환의 신경경제학적 모델 기반.\n- **알고리즘**: Q-learning, SARSA, Actor-Critic의 핵심 업데이트 신호."}, {"path":"10_Wiki/Topics/Reward Prediciton Error.md","summary":"보상 예측 오류는 강화학습과 신경과학의 교차점에서 학습 신호를 통합 설명하는 핵심 개념이다.","content":"**추출된 패턴:** δ = r + γV(s') - V(s) 라는 동일 수식이 도파민 발화율과 가치함수 갱신 모두를 설명한다는 점이 \"학습은 곧 RPE 최소화\"라는 통합 가설의 근거.\n\n**세부 내용:**\n- 양의 RPE → 가치 함수 상향, 음의 RPE → 하향.\n- 사람·동물에서 도파민 phasic burst가 RPE와 일치.\n- TD-learning 알고리즘이 이 신호를 그대로 사용.\n- 환경 비정상성(non-stationarity) 하에서는 학습률 조정 필요.\n- LLM RLHF의 KL 페널티도 광의의 RPE 정규화로 볼 수 있음."}, {"path":"10_Wiki/Topics/SSM.md","summary":"State Space Model(SSM)은 연속 시간 선형 동역학을 신경망으로 매개변수화한 시퀀스 모델로, Transformer 대비 선형 복잡도로 긴 컨텍스트를 처리할 수 있는 대안이다.","content":"**추출된 패턴:** \"행렬 A·B·C·D로 정의되는 ODE → 이산화 → 컨볼루션/RNN 형태로 효율 계산\" — 이 수학적 골격이 모든 SSM 변형의 기본 틀.\n\n**세부 내용:**\n- **수식**: h'(t) = Ah(t) + Bx(t), y(t) = Ch(t) + Dx(t).\n- **이산화**: ZOH/Bilinear로 (A,B) → (Ā,B̄).\n- **HiPPO 초기화**: 직교 다항식 기반으로 장기 메모리 보존.\n- **S4 / S5 / S6 (Mamba)**: 선택적 게이팅으로 데이터 의존성 도입.\n- **장점**: 추론 시 O(L) 시간·메모리. Transformer의 O(L²) 대비 유리."}, {"path":"10_Wiki/Topics/Selective-SSM.md","summary":"Selective SSM(Mamba)은 입력에 따라 SSM 파라미터(B, C, Δ)를 동적으로 변화시켜, 기존 시간 불변 SSM의 한계를 극복하고 Transformer에 근접한 표현력을 확보한다.","content":"**추출된 패턴:** \"선택적 입력 의존성\"이 콘텐츠 기반 reasoning을 가능케 함 — Linear RNN의 효율과 어텐션의 표현력을 절충하려는 시도.\n\n**세부 내용:**\n- **핵심 수식**: B(x), C(x), Δ(x)가 입력 x의 함수.\n- **Hardware-aware 알고리즘**: parallel scan으로 GPU에서 효율 학습.\n- **벤치마크**: 언어 모델링·DNA·오디오에서 Transformer와 동등하거나 우월.\n- **한계**: in-context learning과 retrieval에서는 Transformer가 여전히 강함.\n- **하이브리드**: Jamba/Bamba처럼 SSM+어텐션 결합 모델 등장."}, {"path":"10_Wiki/Topics/Jamba-and-Bamba.md","summary":"Jamba와 Bamba는 SSM(Mamba)과 Transformer 어텐션을 레이어 단위로 혼합한 하이브리드 모델로, 긴 컨텍스트 효율과 짧은 컨텍스트 표현력을 동시에 노린다.","content":"**추출된 패턴:** 순수 SSM은 retrieval에 약하고 순수 Transformer는 long-context 비용이 크므로, 두 블록을 인터리브해 양쪽 약점을 상쇄하는 설계.\n\n**세부 내용:**\n- **Jamba (AI21)**: 256K 컨텍스트, 12B activated / 52B 총 파라미터. MoE + SSM + Attention.\n- **Bamba (IBM/Meta)**: Mamba2 기반 + 부분 어텐션. 효율-품질 균형 강조.\n- **장점**: 메모리 풋프린트 감소, 추론 throughput 향상.\n- **트레이드오프**: 학습 복잡도 증가, 어텐션 비율 튜닝 필요.\n- **방향성**: 차세대 LLM 아키텍처의 유력 후보 중 하나."}, {"path":"10_Wiki/Topics/Soft-Prompt-Compression.md","summary":"Soft prompt compression은 긴 자연어 컨텍스트를 학습 가능한 가상 토큰(소프트 프롬프트)으로 압축해, 추론 시 토큰 비용을 줄이면서 정보 손실을 최소화하는 기법이다.","content":"**추출된 패턴:** 자연어 토큰 → 임베딩 공간의 연속 벡터로 압축하면, 정보 밀도는 높지만 인간 해석성은 잃음 (\"black-box prompt\").\n\n**세부 내용:**\n- **GIST tokens**: 긴 instruction을 소수 게이트 토큰으로 증류.\n- **AutoCompressors**: LLM이 자기 출력을 누적 압축.\n- **Prefix tuning과의 차이**: 전자는 입력 압축, 후자는 태스크 적응.\n- **활용**: API 비용 절감, RAG 컨텍스트 압축, 에이전트 메모리.\n- **한계**: 압축률↑ 시 OOD 일반화 저하."}, {"path":"10_Wiki/Topics/S2-Attn.md","summary":"Shifted Sparse Attention(S²-Attn)은 LongLoRA 등에서 사용된 효율적 어텐션 패턴으로, 긴 컨텍스트 파인튜닝 시 메모리·시간 비용을 줄이면서 글로벌 정보 흐름은 유지한다.","content":"**추출된 패턴:** \"local sparsity + 절반의 헤드 shift\"로 윈도우 경계 정보 누설을 방지 — 단순 슬라이딩 윈도우의 단점을 보완.\n\n**세부 내용:**\n- 그룹 크기 G로 시퀀스를 분할하여 그룹 내 어텐션만 계산.\n- 헤드의 절반은 G/2만큼 시프트해 다음 그룹 정보까지 흡수.\n- 학습 시 시간 복잡도 O(L·G)로 O(L²) 대비 큰 절감.\n- LongLoRA에서 32K~100K 컨텍스트 파인튜닝에 활용.\n- 추론 시에는 일반 어텐션으로 전환 가능."}, {"path":"10_Wiki/Topics/CFG_스케일_제어.md","summary":"Classifier-Free Guidance(CFG) 스케일은 디퓨전 모델에서 조건부 생성과 무조건부 생성의 차이를 증폭하는 하이퍼파라미터로, 프롬프트 충실도와 다양성·자연스러움의 트레이드오프를 결정한다.","content":"**추출된 패턴:** CFG = 조건부 + s × (조건부 - 무조건부). s 값이 클수록 프롬프트에 충실하지만 색상 포화·아티팩트가 늘어남.\n\n**세부 내용:**\n- **공식**: ε̂ = ε(x, ∅) + s · (ε(x, c) - ε(x, ∅)).\n- **권장 범위**: SD 1.5/SDXL은 7~8, FLUX는 3~4가 표준.\n- **Dynamic Thresholding**: 고스케일에서 색 포화 방지.\n- **Guidance Distillation**: CFG 효과를 단일 forward로 압축(Lumina, Hunyuan-DiT).\n- **음수 가이던스**: 부정 프롬프트 강조."}, {"path":"10_Wiki/Topics/AI_추론_및_맥락_인식_아키텍처.md","summary":"맥락 인식 아키텍처는 정적 가중치 외에 외부 메모리·검색·도구를 시점마다 동적으로 결합해, 모델 내부 지식의 한계를 시스템 수준에서 보완하는 패턴이다.","content":"**추출된 패턴:** \"파라미터에 모든 걸 외우게 하지 말고, 필요할 때 가져오게 하라\" — RAG·툴 호출·에이전트 루프가 이 원칙의 구체화.\n\n**세부 내용:**\n- **RAG**: 벡터 검색 + 생성. 최신성·도메인 특화 강함.\n- **툴 사용(Function calling)**: 계산·코드 실행·API 호출.\n- **메모리**: 단기(컨텍스트), 장기(벡터 DB), 에피소드 기억.\n- **에이전트 루프**: 관찰-사고-행동(ReAct) 사이클.\n- **트레이드오프**: 지연시간·비용·실패 모드 다양화."}, {"path":"10_Wiki/Topics/Stability.md","summary":"AI 시스템의 안정성은 입력 perturbation·분포 변화·파라미터 변동 하에서 출력 일관성을 유지하는 능력으로, 신뢰성·재현성·안전성의 토대가 된다.","content":"**추출된 패턴:** 학습 안정성(loss 발산 방지)과 추론 안정성(출력 변동성)은 별개 — 전자는 옵티마이저·정규화 문제, 후자는 샘플링·탈옥 문제.\n\n**세부 내용:**\n- **학습 안정성**: gradient clipping, learning rate warmup, residual scaling.\n- **추론 안정성**: temperature 고정, deterministic flag, seed 관리.\n- **분포 외 강건성**: adversarial training, ensemble.\n- **재현성**: hardware nondeterminism (cuDNN), float precision.\n- **안전성**: jailbreak 저항, prompt injection 방어."} ]