feat: Wiki 지식 자산 업데이트 - UX Scenarios, Frontend, Game Design, Topics 추가 [2026-05-08]

2026-05-08 19:52:07 +09:00
parent 9dd3d40662
commit 5ba5a55c78
3984 changed files with 334557 additions and 28839 deletions
@@ -1,17 +1,17 @@
 ---
-id: "wiki-2026-0507-106"
-title: "생성형_AI_및_LLM_엔지니어링_표준"
-category: "[[10_Wiki/Topics]]"
-status: "verified"
-canonical_id: "self"
-aliases: ["Generative AI", "LLM Engineering", "Large Language Models", "Transformer", "Mamba", "LoRA", "RAG", "Prompt Engineering", "생성형 AI", "LLM 엔지니어링"]
-duplicate_of: "none"
-source_trust_level: "A"
+id: wiki-2026-0507-106
+title: 생성형 AI 및 LLM 엔지니어링 표준
+category: 10_Wiki/Topics
+status: verified
+canonical_id: self
+aliases: [wiki-2026-0507-106, Generative AI, LLM Engineering, Large Language Models, Transformer, Mamba, LoRA, RAG, Prompt Engineering, Sampling Strategies, CFG, Test-time Computing, 생성형 AI, LLM 엔지니어링, 샘플링 전략]
+duplicate_of: none
+source_trust_level: A
 confidence_score: 1.0
-tags: ["AI", "GenerativeAI", "LLM", "MachineLearning", "NLP", "MLOps"]
-raw_sources: ["Large Language Models (LLMs).md", "LLM Hallucinations.md", "Mamba.md", "FlashAttention.md", "LoRA_모델_커스텀_기법.md"]
-last_reinforced: "2026-05-07"
-github_commit: "pending"
+tags: [AI, GenerativeAI, LLM, MachineLearning, NLP, MLOps, Inference]
+raw_sources: [AI_Sampling_Strategies.md, CFG_스케일_제어.md, Soft-Prompt-Compression.md, Test-time computing.md, Mamba.md]
+last_reinforced: 2026-05-08
+github_commit: pending
 ---

 # 생성형_AI_및_LLM_엔지니어링_표준
@@ -22,7 +22,6 @@ github_commit: "pending"
 ---

 ## 📖 구조화된 지식 (Synthesized Content)
-
 **추출된 패턴:**
 > 생성형 AI 엔지니어링은 **'모델의 효율적 학습(LoRA/PEFT)'**과 **'고성능 추론(FlashAttention/Quantization)'**, 그리고 **'신뢰성 있는 응답(RAG/Self-correction)'**이라는 세 축을 중심으로 발전하고 있다. 최근에는 Transformer의 한계를 넘는 SSM(Mamba) 아키텍처와 추론 시 연산량을 늘려 지능을 높이는 기법이 주목받고 있다.

@@ -46,14 +45,20 @@ github_commit: "pending"
 - **Test-time Computing:** 추론 시점에 더 많은 연산(Chain of Thought 등)을 할당하여 복잡한 논리 문제 해결 능력을 비약적으로 향상.
 - **GPU 메모리 최적화:** Triton, CuTe 등을 활용한 커스텀 커널 작성으로 하드웨어 가속 성능 극대화.

-### 4. 온디바이스(On-Device) 및 엣지 AI
+### 4. 샘플링 및 생성 제어 (Generation Control)
+- **샘플링 전략 (Sampling):**
+  - **Temperature:** 확률 분포의 평탄도를 조절하여 응답의 창의성과 결정론적 성향 사이의 균형 제어.
+  - **Top-p (Nucleus Sampling):** 누적 확률이 임계값 p에 도달할 때까지 상위 토큰들을 선택하여 품질 유지.
+- **CFG (Classifier-Free Guidance):** 프롬프트에 대한 조건부 생성과 무조건부 생성 사이의 차이를 증폭시켜, 모델이 프롬프트의 지시 사항을 더 엄격하게 따르도록 강제하는 기법.
+- **Soft Prompt Compression:** 긴 프롬프트의 핵심 정보를 압축하여 컨텍스트 창을 효율적으로 사용하고 추론 속도를 높이는 최적화 기술.
+
+### 5. 온디바이스(On-Device) 및 엣지 AI
 - **경량화 기술:** 양자화(Quantization), 가지치기(Pruning)를 통해 모바일 및 웨어러블 기기에서 실시간 추론 가능하도록 최적화.
 - **엣지 컴퓨팅:** 개인정보 보호와 저지연성을 위해 데이터를 기기 내에서 직접 처리하는 아키텍처.

 ---

 ## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
-
 **언제 이 지식을 쓰는가:**
 - 특정 도메인(법률, 의료, 코딩)에 특화된 커스텀 LLM을 구축하거나 LoRA 학습을 설계할 때.
 - RAG 시스템을 구축하며 벡터 DB와 검색 알고리즘의 최적화가 필요할 때.
@@ -77,7 +82,6 @@ github_commit: "pending"
 ---

 ## 🧪 검증 상태 (Validation)
-
 - **정보 상태:** verified
 - **출처 신뢰도:** A
 - **검토 이유:** 최신 AI 논문(FlashAttention, Mamba, LoRA 등)과 대형 언어 모델 배포 사례를 기반으로 함.
@@ -85,7 +89,6 @@ github_commit: "pending"
 ---

 ## 🧬 중복 검사 (Duplicate Check)
-
 - **기존 유사 문서:** [[Large Language Models (LLMs)]], [[LLM Hallucinations]], [[Mamba]], [[FlashAttention]], [[LoRA_모델_커스텀_기법]], [[Supervised Fine-Tuning (SFT)]] 등 100여 개
 - **처리 방식:** MERGE & ARCHIVE
 - **처리 이유:** 생성형 AI 분야의 기술 속도가 매우 빨라 관련 문서가 산발적으로 생성됨. 이를 '엔지니어링 표준'이라는 하나의 체계로 묶어 최신 기술 트렌드를 일목요연하게 파악할 수 있도록 함.