chore: update graph view scale and set workspace default tab to graph view
This commit is contained in:
@@ -0,0 +1,111 @@
|
||||
---
|
||||
id: "wiki-2026-0507-106"
|
||||
title: "생성형_AI_및_LLM_엔지니어링_표준"
|
||||
category: "[[10_Wiki/Topics]]"
|
||||
status: "verified"
|
||||
canonical_id: "self"
|
||||
aliases: ["Generative AI", "LLM Engineering", "Large Language Models", "Transformer", "Mamba", "LoRA", "RAG", "Prompt Engineering", "생성형 AI", "LLM 엔지니어링"]
|
||||
duplicate_of: "none"
|
||||
source_trust_level: "A"
|
||||
confidence_score: 1.0
|
||||
tags: ["AI", "GenerativeAI", "LLM", "MachineLearning", "NLP", "MLOps"]
|
||||
raw_sources: ["Large Language Models (LLMs).md", "LLM Hallucinations.md", "Mamba.md", "FlashAttention.md", "LoRA_모델_커스텀_기법.md"]
|
||||
last_reinforced: "2026-05-07"
|
||||
github_commit: "pending"
|
||||
---
|
||||
|
||||
# 생성형_AI_및_LLM_엔지니어링_표준
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "언어는 지능의 운영체제다." 방대한 데이터를 통해 학습된 언어 모델(LLM)을 최적화하고, 외부 지식(RAG)과 결합하며, 추론 성능을 극대화(Test-time computing)하여 자율적으로 사고하고 행동하는 인공지능 시스템의 코어 엔진.
|
||||
|
||||
---
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
|
||||
**추출된 패턴:**
|
||||
> 생성형 AI 엔지니어링은 **'모델의 효율적 학습(LoRA/PEFT)'**과 **'고성능 추론(FlashAttention/Quantization)'**, 그리고 **'신뢰성 있는 응답(RAG/Self-correction)'**이라는 세 축을 중심으로 발전하고 있다. 최근에는 Transformer의 한계를 넘는 SSM(Mamba) 아키텍처와 추론 시 연산량을 늘려 지능을 높이는 기법이 주목받고 있다.
|
||||
|
||||
**세부 내용:**
|
||||
|
||||
### 1. LLM 아키텍처 및 혁신
|
||||
- **Attention 메커니즘 최적화:**
|
||||
- **FlashAttention:** 메모리 대역폭 병목을 해결하여 긴 문맥(Long Context) 처리 속도를 획기적으로 개선.
|
||||
- **S2-Attn:** 다중 해상도 및 긴 문맥 처리를 위한 효율적인 어텐션 구조.
|
||||
- **차세대 아키텍처 (SSM):**
|
||||
- **Mamba (Selective SSM):** 데이터에 따라 상태를 선택적으로 압축하여 RNN의 효율성과 Transformer의 성능을 동시에 확보. 선형 시간 복잡도로 긴 시퀀스 처리 가능.
|
||||
- **Jamba/Bamba:** Transformer와 Mamba를 결합하여 두 아키텍처의 장점을 극대화한 하이브리드 모델.
|
||||
|
||||
### 2. 학습 및 미세조정 (Fine-tuning)
|
||||
- **LoRA (Low-Rank Adaptation):** 모델의 전체 가중치 대신 일부 가중치 행렬만 학습하여 자원 소모를 최소화하면서 특정 태스크에 최적화.
|
||||
- **SFT (Supervised Fine-tuning):** 지시 이행 능력을 높이기 위해 선별된 데이터셋으로 모델을 직접 학습.
|
||||
- **Self-Correction (자기 수정):** 모델이 자신의 응답을 스스로 검토하고 오류를 수정하는 메커니즘을 학습에 포함하여 신뢰성 향상.
|
||||
|
||||
### 3. 신뢰성 및 성능 고도화 (Reliability & Inference)
|
||||
- **환각(Hallucination) 제어:** RAG(Retrieval-Augmented Generation)를 통해 외부의 검증된 지식을 참조하게 함으로써 사실 관계 오류 최소화.
|
||||
- **Test-time Computing:** 추론 시점에 더 많은 연산(Chain of Thought 등)을 할당하여 복잡한 논리 문제 해결 능력을 비약적으로 향상.
|
||||
- **GPU 메모리 최적화:** Triton, CuTe 등을 활용한 커스텀 커널 작성으로 하드웨어 가속 성능 극대화.
|
||||
|
||||
### 4. 온디바이스(On-Device) 및 엣지 AI
|
||||
- **경량화 기술:** 양자화(Quantization), 가지치기(Pruning)를 통해 모바일 및 웨어러블 기기에서 실시간 추론 가능하도록 최적화.
|
||||
- **엣지 컴퓨팅:** 개인정보 보호와 저지연성을 위해 데이터를 기기 내에서 직접 처리하는 아키텍처.
|
||||
|
||||
---
|
||||
|
||||
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
||||
|
||||
**언제 이 지식을 쓰는가:**
|
||||
- 특정 도메인(법률, 의료, 코딩)에 특화된 커스텀 LLM을 구축하거나 LoRA 학습을 설계할 때.
|
||||
- RAG 시스템을 구축하며 벡터 DB와 검색 알고리즘의 최적화가 필요할 때.
|
||||
- 긴 문서를 요약하거나 복잡한 추론이 필요한 AI 에이전트의 워크플로우를 설계할 때.
|
||||
|
||||
**언제 이 지식을 쓰면 안 되는가:**
|
||||
- 단순한 텍스트 분류나 키워드 추출 등 가벼운 NLP 작업 (Small 모델로 충분함).
|
||||
- 지연 시간이 극도로 짧아야 하는 단순 응답 시스템 (LLM의 추론 시간 고려 필요).
|
||||
|
||||
**이 지식을 적용할 때의 권장 절차:**
|
||||
1. **베이스 모델 선정:** 태스크의 복잡도와 가용 자원에 따라 Llama, Mistral, Mamba 등 선정.
|
||||
2. **데이터 파이프라인:** 고품질의 학습 데이터 또는 참조 문서(RAG용) 수집 및 정제.
|
||||
3. **최적화 기법 적용:** FlashAttention 적용 및 적절한 양자화(4-bit, 8-bit) 선택.
|
||||
4. **신뢰성 검증:** 환각 여부 및 일관성 테스트를 위한 벤치마크 수행.
|
||||
5. **배포 및 모니터링:** MLOps를 통해 서빙 성능을 모니터링하고 피드백 루프 구축.
|
||||
|
||||
**주의사항 또는 알려진 한계:**
|
||||
- **자원 소모:** LLM은 고성능 GPU 자원을 많이 소모하므로 비용 대비 효용성 분석 필수.
|
||||
- **데이터 오염:** 합성 데이터가 학습에 과도하게 포함될 경우 발생하는 '모델 붕괴' 현상 주의.
|
||||
|
||||
---
|
||||
|
||||
## 🧪 검증 상태 (Validation)
|
||||
|
||||
- **정보 상태:** verified
|
||||
- **출처 신뢰도:** A
|
||||
- **검토 이유:** 최신 AI 논문(FlashAttention, Mamba, LoRA 등)과 대형 언어 모델 배포 사례를 기반으로 함.
|
||||
|
||||
---
|
||||
|
||||
## 🧬 중복 검사 (Duplicate Check)
|
||||
|
||||
- **기존 유사 문서:** [[Large Language Models (LLMs)]], [[LLM Hallucinations]], [[Mamba]], [[FlashAttention]], [[LoRA_모델_커스텀_기법]], [[Supervised Fine-Tuning (SFT)]] 등 100여 개
|
||||
- **처리 방식:** MERGE & ARCHIVE
|
||||
- **처리 이유:** 생성형 AI 분야의 기술 속도가 매우 빨라 관련 문서가 산발적으로 생성됨. 이를 '엔지니어링 표준'이라는 하나의 체계로 묶어 최신 기술 트렌드를 일목요연하게 파악할 수 있도록 함.
|
||||
|
||||
---
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
||||
- **Transformer의 독주:** 오랜 시간 Transformer가 주도해왔으나, 최근 SSM 계열 모델이 긴 문맥 처리에서 강력한 대안으로 부상 중.
|
||||
- **RAG vs Long Context:** 모델의 문맥 창이 넓어지더라도 비용과 정밀도 측면에서 RAG의 중요성은 여전히 유효함.
|
||||
|
||||
---
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- **Parent:** [[10_Wiki/Topics]]
|
||||
- **Related:** [[데이터_사이언스_및_ML_엔지니어링]], [[벡터_DB_및_RAG_검색_고도화]], [[AGI_및_지능형_에이전트_설계]]
|
||||
- **Raw Source:** AI 및 LLM 폴더 내 다수 파일
|
||||
|
||||
---
|
||||
|
||||
## 🕓 변경 이력 (Changelog)
|
||||
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
||||
|------|-----------|-----------|--------|
|
||||
| 2026-05-07 | 100개 이상의 생성형 AI/LLM 엔지니어링 관련 문서 통합 및 v3.0 규격 적용 | MERGE | A |
|
||||
Reference in New Issue
Block a user