95cd8bb891
- 코드 그라운딩: 기술 주제 문서의 '적용 사례'에 실제 레포 구현 위치
(file:line)+커밋 자동 주입 (예: 문서 청킹 전략→connectai/src/retrieval/chunker.ts).
멱등 마커(CODE-GROUNDING)로 재실행 시 갱신.
- MOC: 39개 클러스터 폴더에 _MOC.md 학습지도 생성(진입점+통찰 주석).
도구: Datacollect/scripts/{code_grounding,moc_generator}.mjs
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
3.7 KiB
3.7 KiB
id, title, category, status, confidence_score, tags, created_at, updated_at
| id | title | category | status | confidence_score | tags | created_at | updated_at | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| HARNESS-RES-2026-05-002 | API Gateway (LLM/MCP Gateway) | 10_Wiki/Topics/Infrastructure | verified | 0.94 |
|
2026-05-05 | 2026-05-08 |
API Gateway (LLM/MCP Gateway)
📌 한 줄 통찰 (The Karpathy Summary)
"에이전트와 외부 세계를 잇는 통제된 검문소: 다중 LLM 라우팅을 통한 비용 최적화와 MCP 도구 접근에 대한 보안 가드레일을 통합 관리하는 에이전트 인프라의 중추."
📖 구조화된 지식 (Synthesized Content)
- 다중 모델 라우팅 및 비용 최적화 (LLM Gateway): OmniRoute와 같은 다중 제공자 LLM 게이트웨이는 인텔리전트 라우팅, 로드 밸런싱, 자동 대체(Fallback), 속도 제한, 응답 캐싱을 수행한다 [2]. 단순한 작업은 저렴한 모델로, 복잡한 추론은 고성능 모델로 라우팅하여 토큰 비용을 40~60%가량 절감할 수 있다 [2]. Helicone의 AI Gateway 역시 코드 변경 없이 요청 라우팅과 캐싱 기능을 제공하여 비용 추적과 토큰 모니터링을 지원한다 [1].
- 보안 및 도구 접근 통제 (MCP/API Gateway): 외부 도구 사용 시 Harness MCP Gateway는 외부 MCP 서버 호출을 프록시하고 필터링하여 허용 목록(Allow-listing) 적용, 속도 제한, 콘텐츠 검사를 활성화한다 [3]. GitHub의 에이전트 워크플로우 또한 내부 보안 아키텍처의 일환으로 MCP 게이트웨이와 API 프록시를 활용하여 에이전트 실행 환경을 방어한다 [6]. Amazon Bedrock AgentCore는 서버리스 런타임 환경에서 도구 접근을 위한 안전한 게이트웨이를 기본 제공한다 [5].
- FinOps 및 예산 가드레일 강제: 인프라 게이트웨이는 에이전트 서비스의 유닛 이코노믹스를 관리하기 위해 루프 및 단계 제한, 도구 호출 캡(Cap), 실행당 토큰 예산, Wall-clock 타임아웃, 이상 탐지가 포함된 테넌트별 예산 제한 등 5가지의 구체적인 예산 가드레일을 강제한다 [4].
- 개인용 에이전트 게이트웨이 (Personal Agent Gateway): OpenHarness 기반의 개인용 에이전트 앱인 'ohmo'의 경우, 자체 워크스페이스 내에
gateway.json을 두어 선택된 LLM 프로바이더 프로필과 외부 채널(Telegram, Slack, Discord 등) 설정을 연결하고 관리하는 역할을 수행한다 [7, 8].
⚖️ 트레이드오프 및 고려사항
- 운영 복잡성과 세션 관리의 충돌: 게이트웨이를 도입하면 보안과 운영 효율성이 크게 향상되지만, 인프라의 세션 관리 복잡성이 증가하는 제약이 있다 [1].
- 상태 유지의 한계: MCP를 원격 서비스로 실행하기 위해 HTTP 전송을 사용할 경우, 상태를 유지해야 하는 세션 제약(예:
Mcp-Session-Id헤더 유지)이 로드 밸런서 환경이나 수평적 확장(Horizontal scaling) 구조와 충돌하는 현상이 발생한다 [1]. 이 때문에 대규모 확장성을 위해서는 전송 계층(Transport layer)에서 세션 관리를 완전히 분리해야 하는 구조적 한계와 극복 과제가 존재한다 [1].
🔗 지식 연결 (Graph)
- 유사 개념: Rate Limiting, Reverse Proxy
- 관련 프로젝트: OpenHarness, ConnectAI
Last updated: 2026-05-08
🛠️ 적용 사례 (Applied in summary)
🔎 코드베이스 근거 (자동 추출 — E:\Wiki 레포)
실제 구현/사용 위치:
connectai/src/features/secondBrainTrace.ts:256— [Omitted long matching line]
자동 생성: code_grounding.mjs · 재실행 시 갱신됨