Files
2nd/10_Wiki/Topics/생성형_AI_및_LLM_엔지니어링_표준.md
T
Antigravity Agent f8b21af4be Wiki cleanup: error-doc removal, dedup merge, link normalization
10_Wiki/Topics 대규모 정리:
- 오류 캡처/미완성 stub 문서 227개 제거
- 교차폴더 중복 43클러스터 병합 (63파일 → redirect)
- 링크명 정규화: 깨진 링크 수정·redirect 직결·개념 매핑 ~2,400건
- 카테고리 MOC 6개 신규 생성
- Graph 섹션 미해결 related-keyword 링크 10,058건 제거

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-20 23:52:15 +09:00

7.5 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, tags, raw_sources, last_reinforced, github_commit
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score tags raw_sources last_reinforced github_commit
wiki-2026-0507-106 생성형 AI 및 LLM 엔지니어링 표준 10_Wiki/Topics verified self
wiki-2026-0507-106
Generative AI
LLM Engineering
Large Language Models
Transformer
Mamba
LoRA
RAG
Prompt Engineering
Sampling Strategies
CFG
Test-time Computing
생성형 AI
LLM 엔지니어링
샘플링 전략
none A 1.0
AI
GenerativeAI
LLM
MachineLearning
NLP
MLOps
Inference
AI_Sampling_Strategies.md
CFG_스케일_제어.md
Soft-Prompt-Compression.md
Test-time computing.md
Mamba.md
2026-05-08 pending

생성형_AI_및_LLM_엔지니어링_표준

📌 한 줄 통찰 (The Karpathy Summary)

"언어는 지능의 운영체제다." 방대한 데이터를 통해 학습된 언어 모델(LLM)을 최적화하고, 외부 지식(RAG)과 결합하며, 추론 성능을 극대화(Test-time computing)하여 자율적으로 사고하고 행동하는 인공지능 시스템의 코어 엔진.


📖 구조화된 지식 (Synthesized Content)

추출된 패턴:

생성형 AI 엔지니어링은 **'모델의 효율적 학습(LoRA/PEFT)'**과 '고성능 추론(FlashAttention/Quantization)', 그리고 **'신뢰성 있는 응답(RAG/Self-correction)'**이라는 세 축을 중심으로 발전하고 있다. 최근에는 Transformer의 한계를 넘는 SSM(Mamba) 아키텍처와 추론 시 연산량을 늘려 지능을 높이는 기법이 주목받고 있다.

세부 내용:

1. LLM 아키텍처 및 혁신

  • Attention 메커니즘 최적화:
    • FlashAttention: 메모리 대역폭 병목을 해결하여 긴 문맥(Long Context) 처리 속도를 획기적으로 개선.
    • S2-Attn: 다중 해상도 및 긴 문맥 처리를 위한 효율적인 어텐션 구조.
  • 차세대 아키텍처 (SSM):
    • Mamba (Selective SSM): 데이터에 따라 상태를 선택적으로 압축하여 RNN의 효율성과 Transformer의 성능을 동시에 확보. 선형 시간 복잡도로 긴 시퀀스 처리 가능.
  • Jamba/Bamba: Transformer와 Mamba를 결합하여 두 아키텍처의 장점을 극대화한 하이브리드 모델.

2. 학습 및 미세조정 (Fine-tuning)

  • LoRA (Low-Rank Adaptation): 모델의 전체 가중치 대신 일부 가중치 행렬만 학습하여 자원 소모를 최소화하면서 특정 태스크에 최적화.
  • SFT (Supervised Fine-tuning): 지시 이행 능력을 높이기 위해 선별된 데이터셋으로 모델을 직접 학습.
  • Self-Correction (자기 수정): 모델이 자신의 응답을 스스로 검토하고 오류를 수정하는 메커니즘을 학습에 포함하여 신뢰성 향상.

3. 신뢰성 및 성능 고도화 (Reliability & Inference)

  • 환각(Hallucination) 제어: RAG(Retrieval-Augmented Generation)를 통해 외부의 검증된 지식을 참조하게 함으로써 사실 관계 오류 최소화.
  • Test-time Computing: 추론 시점에 더 많은 연산(Chain of Thought 등)을 할당하여 복잡한 논리 문제 해결 능력을 비약적으로 향상.
  • GPU 메모리 최적화: Triton, CuTe 등을 활용한 커스텀 커널 작성으로 하드웨어 가속 성능 극대화.

4. 샘플링 및 생성 제어 (Generation Control)

  • 샘플링 전략 (Sampling):
    • Temperature: 확률 분포의 평탄도를 조절하여 응답의 창의성과 결정론적 성향 사이의 균형 제어.
    • Top-p (Nucleus Sampling): 누적 확률이 임계값 p에 도달할 때까지 상위 토큰들을 선택하여 품질 유지.
  • CFG (Classifier-Free Guidance): 프롬프트에 대한 조건부 생성과 무조건부 생성 사이의 차이를 증폭시켜, 모델이 프롬프트의 지시 사항을 더 엄격하게 따르도록 강제하는 기법.
  • Soft Prompt Compression: 긴 프롬프트의 핵심 정보를 압축하여 컨텍스트 창을 효율적으로 사용하고 추론 속도를 높이는 최적화 기술.

5. 온디바이스(On-Device) 및 엣지 AI

  • 경량화 기술: 양자화(Quantization), 가지치기(Pruning)를 통해 모바일 및 웨어러블 기기에서 실시간 추론 가능하도록 최적화.
  • 엣지 컴퓨팅: 개인정보 보호와 저지연성을 위해 데이터를 기기 내에서 직접 처리하는 아키텍처.

🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

  • 특정 도메인(법률, 의료, 코딩)에 특화된 커스텀 LLM을 구축하거나 LoRA 학습을 설계할 때.
  • RAG 시스템을 구축하며 벡터 DB와 검색 알고리즘의 최적화가 필요할 때.
  • 긴 문서를 요약하거나 복잡한 추론이 필요한 AI 에이전트의 워크플로우를 설계할 때.

언제 이 지식을 쓰면 안 되는가:

  • 단순한 텍스트 분류나 키워드 추출 등 가벼운 NLP 작업 (Small 모델로 충분함).
  • 지연 시간이 극도로 짧아야 하는 단순 응답 시스템 (LLM의 추론 시간 고려 필요).

이 지식을 적용할 때의 권장 절차:

  1. 베이스 모델 선정: 태스크의 복잡도와 가용 자원에 따라 Llama, Mistral, Mamba 등 선정.
  2. 데이터 파이프라인: 고품질의 학습 데이터 또는 참조 문서(RAG용) 수집 및 정제.
  3. 최적화 기법 적용: FlashAttention 적용 및 적절한 양자화(4-bit, 8-bit) 선택.
  4. 신뢰성 검증: 환각 여부 및 일관성 테스트를 위한 벤치마크 수행.
  5. 배포 및 모니터링: MLOps를 통해 서빙 성능을 모니터링하고 피드백 루프 구축.

주의사항 또는 알려진 한계:

  • 자원 소모: LLM은 고성능 GPU 자원을 많이 소모하므로 비용 대비 효용성 분석 필수.
  • 데이터 오염: 합성 데이터가 학습에 과도하게 포함될 경우 발생하는 '모델 붕괴' 현상 주의.

🧪 검증 상태 (Validation)

  • 정보 상태: verified
  • 출처 신뢰도: A
  • 검토 이유: 최신 AI 논문(FlashAttention, Mamba, LoRA 등)과 대형 언어 모델 배포 사례를 기반으로 함.

🧬 중복 검사 (Duplicate Check)


⚠️ 모순 및 업데이트 (Contradictions & Updates)

  • Transformer의 독주: 오랜 시간 Transformer가 주도해왔으나, 최근 SSM 계열 모델이 긴 문맥 처리에서 강력한 대안으로 부상 중.
  • RAG vs Long Context: 모델의 문맥 창이 넓어지더라도 비용과 정밀도 측면에서 RAG의 중요성은 여전히 유효함.

🔗 지식 연결 (Graph)


🕓 변경 이력 (Changelog)

날짜 변경 내용 처리 방식 신뢰도
2026-05-07 100개 이상의 생성형 AI/LLM 엔지니어링 관련 문서 통합 및 v3.0 규격 적용 MERGE A