# [[V-component (Evaluation Interface)|V-component (Evaluation Interface)]] ## πŸ“Œ Brief Summary V-component(Evaluation Interface)λŠ” μ—μ΄μ „νŠΈ ν•˜λ„€μŠ€μ˜ '눈'에 ν•΄λ‹Ήν•˜λŠ” ꡬ성 μš”μ†Œλ‘œ, μ—μ΄μ „νŠΈμ˜ 좜λ ₯λ¬Όμ΄λ‚˜ 도ꡬ μ‹€ν–‰ κ²°κ³Όλ₯Ό κ°κ΄€μ μœΌλ‘œ ν‰κ°€ν•˜κ³  ν”Όλ“œλ°±μ„ μƒμ„±ν•˜λŠ” μ±…μž„μ„ μ§„λ‹€. μž‘μ—…μ΄ μ„±κ³΅μ μœΌλ‘œ μ™„λ£Œλ˜μ—ˆλŠ”μ§€, 결과물이 μ œμ•½ 사항을 μ€€μˆ˜ν–ˆλŠ”μ§€, ν˜Ήμ€ 였λ₯˜κ°€ λ°œμƒν–ˆλŠ”μ§€λ₯Ό νŒλ‹¨ν•˜μ—¬ μ‹€ν–‰ 루프(E-component)에 λ‹€μŒ 행동을 κ²°μ •ν•  κ·Όκ±°λ₯Ό μ œκ³΅ν•œλ‹€. ## πŸ“– Core Content * **κ²°κ³Ό 검증 (Output Verification)**: λͺ¨λΈμ΄ μƒμ„±ν•œ μ½”λ“œ, λ¬Έμ„œ, 데이터 ν˜•μ‹μ΄ 사전에 μ •μ˜λœ μŠ€νŽ™(Schema, Linter, Test Case)에 λΆ€ν•©ν•˜λŠ”μ§€ μžλ™ κ²€μ‚¬ν•œλ‹€. * **자기 λΉ„νŒ (Self-Correction Feedback)**: 검증 μ‹€νŒ¨ μ‹œ λ‹¨μˆœνžˆ "μ—λŸ¬ λ°œμƒ"이라고 μ•Œλ¦¬λŠ” λŒ€μ‹ , 무엇이 ν‹€λ Έκ³  μ–΄λ–»κ²Œ 고쳐야 ν•˜λŠ”μ§€μ— λŒ€ν•œ ꡬ체적인 ν”Όλ“œλ°± ν”„λ‘¬ν”„νŠΈλ₯Ό μƒμ„±ν•˜μ—¬ μ—μ΄μ „νŠΈμ—κ²Œ μ „λ‹¬ν•œλ‹€. * **λ²€μΉ˜λ§ˆν‚Ή 및 채점 (Scoring)**: μž‘μ—…μ˜ ν’ˆμ§ˆμ„ μ •λŸ‰ν™”λœ 점수둜 ν™˜μ‚°ν•˜μ—¬, μ—¬λŸ¬ 번의 μ‹œλ„ 쀑 κ°€μž₯ μš°μˆ˜ν•œ 결과물을 μ„ νƒν•˜κ±°λ‚˜ μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯ 좔이λ₯Ό λͺ¨λ‹ˆν„°λ§ν•œλ‹€. * **ν™˜κ° 탐지 (Hallucination Detection)**: μ—μ΄μ „νŠΈμ˜ 닡변이 μ‹€μ œ κ·Όκ±°(Evidence Memory)와 μΌμΉ˜ν•˜λŠ”μ§€, ν˜Ήμ€ 논리적 λͺ¨μˆœμ΄ μ—†λŠ”μ§€ κ²€ν† ν•œλ‹€. * **인간 ν”Όλ“œλ°± 톡합 (HITL Evaluation)**: μžλ™ν™”λœ 평가가 μ–΄λ €μš΄ 경우 인간 μ‚¬μš©μžμ˜ μŠΉμΈμ΄λ‚˜ 점수λ₯Ό μž…λ ₯λ°›μ•„ 평가 ν”„λ‘œμ„ΈμŠ€μ— λ°˜μ˜ν•œλ‹€. ## βš–οΈ Trade-offs & Caveats * **ν‰κ°€μž λͺ¨λΈμ˜ ν•œκ³„**: 평가λ₯Ό μœ„ν•΄ 또 λ‹€λ₯Έ LLM을 μ‚¬μš©ν•  경우, ν‰κ°€μž μžμ²΄κ°€ ν™˜κ°μ„ μΌμœΌν‚€κ±°λ‚˜ 편ν–₯된 νŒλ‹¨μ„ 내릴 λ¦¬μŠ€ν¬κ°€ μžˆλ‹€. * **검증 μ˜€λ²„ν—€λ“œ**: λͺ¨λ“  λ‹¨κ³„μ—μ„œ μ—„κ²©ν•œ 검증을 μˆ˜ν–‰ν•˜λ©΄ 전체 μž‘μ—… μ‹œκ°„μ΄ κΈΈμ–΄μ§€κ³  λΉ„μš©μ΄ μ¦κ°€ν•œλ‹€. * **평가 κΈ°μ€€μ˜ λͺ¨ν˜Έμ„±**: 주관적인 λ””μžμΈμ΄λ‚˜ 문ꡬ μž‘μ„± λ“±μ˜ μž‘μ—…μ— λŒ€ν•΄μ„œλŠ” 객관적인 평가 μ§€ν‘œλ₯Ό μ„€μ •ν•˜κΈ° μ–΄λ ΅λ‹€. ## πŸ”— Knowledge Connections ### Related Concepts * [[Agent Harness|Agent Harness]] * μ—°κ²° 이유: V-componentλŠ” ν•˜λ„€μŠ€μ˜ ν’ˆμ§ˆ 보증 계측이닀. * [[Self-verification|Self-verification]] * μ—°κ²° 이유: V-componentκ°€ μˆ˜ν–‰ν•˜λŠ” 핡심 ν™œλ™ 쀑 ν•˜λ‚˜μ΄λ‹€. * Agent Evaluation Benchmarks * μ—°κ²° 이유: V-componentκ°€ μ‚¬μš©ν•˜λŠ” ν‘œμ€€ν™”λœ 평가 κΈ°μ€€κ³Ό 도ꡬ λͺ¨μŒμ΄λ‹€. ### Deeper Research Questions * 'ν‰κ°€μžμ˜ ν‰κ°€μž(Meta-evaluator)'λ₯Ό 두어 평가 μ‹œμŠ€ν…œ 자체의 신뒰성을 μ§€μ†μ μœΌλ‘œ λͺ¨λ‹ˆν„°λ§ν•˜λŠ” μ•„ν‚€ν…μ²˜λŠ” μ–΄λ–»κ²Œ 섀계해야 ν•˜λŠ”κ°€? * μ‹€νŒ¨ν•œ μž‘μ—…μ˜ 원인을 λΆ„μ„ν•˜μ—¬ V-componentκ°€ μžλ™μœΌλ‘œ '성곡 κ°€μ΄λ“œλΌμΈ'을 μƒμ„±ν•˜κ³  λ‹€μŒ 루프에 λ°˜μ˜ν•˜κ²Œ λ§Œλ“œλŠ” 방법은 무엇인가? * 정적 뢄석(Linter)κ³Ό 동적 μΆ”λ‘ (LLM)을 κ²°ν•©ν•˜μ—¬ μ΅œμ†Œν•œμ˜ λΉ„μš©μœΌλ‘œ μ΅œλŒ€μ˜ 검증 효과λ₯Ό λ‚΄λŠ” 'ν•˜μ΄λΈŒλ¦¬λ“œ 평가 μ „λž΅'은 무엇인가? ### Practical Application Contexts * **Implementation:** μ½”λ”© μ—μ΄μ „νŠΈμ—μ„œ μž‘μ„±λœ μ½”λ“œλ₯Ό ν…ŒμŠ€νŠΈ μ½”λ“œλ₯Ό 톡해 싀행해보고, μ‹€νŒ¨ μ‹œ μŠ€νƒ 트레이슀λ₯Ό V-component에 μž…λ ₯ν•˜μ—¬ μˆ˜μ • μ „λž΅μ„ μ„Έμš°κ²Œ ν•œλ‹€. * **System Design:** ν”„λ‘œλ•μ…˜ ν™˜κ²½μ—μ„œ μ—μ΄μ „νŠΈμ˜ 닡변을 μ‹€μ‹œκ°„μœΌλ‘œ μ±„μ ν•˜μ—¬, 일정 점수 미만의 닡변은 μ‚¬μš©μžμ—κ²Œ 보여주지 μ•Šκ³  μ¦‰μ‹œ μž¬μ‹œλ„(Retry)ν•˜λ„λ‘ μ„€κ³„ν•œλ‹€. --- *Last updated: 2026-05-01*