[[Model Spec (모델 스펙, AI 행동 명세서)|Model Spec (모델 스펙, AI 행동 명세서)]] 📌 Brief Summary Model Spec은 인공지능 모델이 사용자에게 어떻게 답변해야 하는지에 대한 포괄적인 가이드라인이자 행동 규범이다. 단순히 "윤리적이어야 한다"는 추상적 선언이 아니라, 갈등 상황, 위험 요청, 정보 부족 시의 구체적인 대처 방식을 정의한 시스템 프롬프트 및 정책의 상위 집합이다. Anthropic의 Constitutional AI와 OpenAI의 Model Spec 문서가 대표적이다. --- 📖 Core Content ## 1. Model Spec의 3가지 핵심 목표 (Objectives) | 목표 | 설명 | |------|------| | **Helpful (도움됨)** | 사용자의 의도를 정확히 파악하고 최선의 정보를 제공. | | **Harmless (무해함)** | 범죄, 증오, 자해 등 위험한 요청을 단호하고 정중하게 거부. | | **Honest (정직함)** | 사실 관계를 왜곡하지 않고, 모르는 것은 모른다고 명시. | --- ## 2. 구체적인 처리 원칙 (Operational Principles) ### 2-1. 갈등 상황 해결 (Conflict Resolution) - "사용자의 요청이 법률이나 윤리에 어긋날 경우 어떻게 거절할 것인가?" - "정치적 중립성을 어떻게 유지할 것인가?" ### 2-2. 불확실성 관리 - "정보가 상충할 때 어떤 출처를 우선시할 것인가?" - "답변이 추측일 경우 '아마도'라는 표현을 명시할 것." ### 2-3. 구조적 중립성 - 특정 문화, 종교, 인종에 편향된 표현을 배제하고 보편적 가치 지향. --- ## 3. Constitutional AI와의 차이점 | 구분 | Constitutional AI | Model Spec | |------|-------------------|------------| | **중점** | 자기 비판과 학습(RLAIF)을 위한 원칙 | 모델의 최종 출력물이 갖춰야 할 '모범 사례' | | **형태** | AI가 이해하기 쉬운 짧은 헌법 조항 | 인간 개발자가 참조하는 상세 가이드 북 | --- ## 4. Model Spec의 진화: 시스템 프롬프트(System Prompt)로의 전환 1. **상위 정책**: "객관적으로 답변하라." 2. **Model Spec**: "객관적이란 양측 논리를 대등하게 보여주는 것이며, 한쪽을 편들지 않는 것이다." 3. **시스템 프롬프트**: `Your role is a neutral analyst. When asked about a debate, provide bullet points for Pro and Con without taking sides.` --- ## 5. 인과관계 (Model Spec이 브랜드 가치를 보호하는 방식) ``` [다양하고 민감한 사용자 요청 발생] ↓ [Model Spec 가이드라인 참조] (명확한 행동 지침 확인) ↓ [RLHF/RLAIF 정렬 학습] (가이드라인을 따르도록 모델 최적화) ↓ [일관된 응답 품질 유지] (예상치 못한 독성 발언이나 법적 문제 차단) ↓ [기업/기술에 대한 신뢰도 상승] (안전한 상용화의 기반 마련) ``` --- 🔗 Knowledge Connections - **Related Topics:** [[HHH (Helpful, Harmless, Honest)|HHH (Helpful, Harmless, Honest)]], [[Constitutional AI (헌법 AI)|Constitutional AI (헌법 AI)]], [[LLM Alignment (LLM 정렬)|LLM Alignment (LLM 정렬)]], [[AI Safety (AI 안전)|AI Safety (AI 안전)]], [[데이터 거버넌스 (Data Governance)|데이터 거버넌스 (Data Governance)]] - **Projects/Contexts:** AI 서비스 정책 수립 - **Contradictions/Notes:** - 너무 엄격한 Model Spec은 모델의 창의성을 억제하거나 답변 거부율(Refusal Rate)을 높여 사용성을 해칠 수 있음. - 문화권마다 '무해함'과 '도움됨'의 기준이 다르므로 로컬라이징된 Model Spec이 필요함. - **신규 키워드**: `System Prompt`, `Refusal Management`, `Cultural Alignment`, `Policy Drift` → 탐색 큐 추가.