# [[Hallucination (ν™˜κ°)]] ## πŸ“Œ Brief Summary μ—μ΄μ „νŠΈ μ‹œμŠ€ν…œμ—μ„œ ν™˜κ°(Hallucination)μ΄λž€ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 잘λͺ»λœ λ§€κ°œλ³€μˆ˜λ‘œ ν•¨μˆ˜λ₯Ό ν˜ΈμΆœν•˜κ±°λ‚˜ μ‘΄μž¬ν•˜μ§€ μ•ŠλŠ” APIλ₯Ό μ°Έμ‘°ν•˜λŠ” λ“± 사싀이 μ•„λ‹Œ κ²°κ³Όλ₯Ό μƒμ„±ν•˜λŠ” ν˜„μƒμ„ μ˜λ―Έν•©λ‹ˆλ‹€ [1]. λ§Žμ€ 경우 LLM 자체의 κ²°ν•¨μœΌλ‘œ μ—¬κ²¨μ§€λŠ” ν™˜κ°μ€ μ‹€μ œλ‘œλŠ” 일관성이 μ—†κ±°λ‚˜ 였래된(stale) 데이터 μ†ŒμŠ€κ°€ μž…λ ₯된 결과둜 λ°œμƒν•©λ‹ˆλ‹€ [2, 3]. μ—μ΄μ „νŠΈ ν•˜λ„€μŠ€λŠ” 도ꡬ ν˜ΈμΆœμ„ 사전에 κ²€μ¦ν•˜κ³  데이터 κ±°λ²„λ„ŒμŠ€λ₯Ό 톡해 μž…λ ₯ ν’ˆμ§ˆμ„ ν†΅μ œν•¨μœΌλ‘œμ¨ μ΄λŸ¬ν•œ ν™˜κ°μ„ μ™„ν™”ν•˜λŠ” 핡심 역할을 μˆ˜ν–‰ν•©λ‹ˆλ‹€ [1, 3]. ## πŸ“– Core Content * **데이터 ν’ˆμ§ˆκ³Ό ν™˜κ°μ˜ 상관관계**: ν”νžˆ LLM의 자체적인 ν™˜κ°μ΄λΌκ³  μΉ˜λΆ€λ˜λŠ” 문제의 μƒλ‹Ήμˆ˜λŠ” μ‹€μ œλ‘œλŠ” 일관성이 μ—†κ±°λ‚˜, μ˜€λž˜λ˜μ—ˆκ±°λ‚˜, λΆ€λΆ„μ μœΌλ‘œλ§Œ 볡제된 데이터 μ†ŒμŠ€λ₯Ό μ—μ΄μ „νŠΈκ°€ μ½μ—ˆκΈ° λ•Œλ¬Έμ— λ°œμƒν•˜λŠ” κ²°κ³Όμž…λ‹ˆλ‹€ [2, 3]. 즉, λ‚˜μœ μž…λ ₯ 데이터가 μ£Όμ–΄μ§€λ©΄ μ—μ΄μ „νŠΈλŠ” κ·Έ 데이터λ₯Ό λ°”νƒ•μœΌλ‘œ 잘λͺ»λœ 행동을 ν•˜κ²Œ λ©λ‹ˆλ‹€ [4]. * **도ꡬ 호좜 ν™˜κ° (Hallucinated Tool Calls)**: λͺ¨λΈμ΄ μ™ΈλΆ€ μ‹œμŠ€ν…œκ³Ό μƒν˜Έμž‘μš©ν•  λ•Œ, 잘λͺ»λœ λ§€κ°œλ³€μˆ˜ μœ ν˜•μ„ μ‚¬μš©ν•˜κ±°λ‚˜ μ‘΄μž¬ν•˜μ§€λ„ μ•ŠλŠ” API ν•¨μˆ˜λ₯Ό ν˜ΈμΆœν•˜λŠ” ν™˜κ°μ„ μΌμœΌν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€ [1]. λ˜ν•œ, μ‹€μ œλ‘œλŠ” μž‘μ—…μ΄ μ™„λ£Œλ˜μ§€ μ•Šμ•˜μŒμ—λ„ μ™„λ£Œλ˜μ—ˆλ‹€κ³  ν—ˆμœ„λ‘œ μ„ μ–Έν•˜λŠ” ν˜•νƒœμ˜ ν™˜κ°λ„ λ°œμƒν•©λ‹ˆλ‹€ [5]. μ μ ˆν•œ 검증이 μ—†λ‹€λ©΄ μ—μ΄μ „νŠΈλŠ” μ΄λ ‡κ²Œ 망가진 ν˜ΈμΆœμ„ 계속 μž¬μ‹œλ„ν•˜λ©° ν† ν°λ§Œ λ‚­λΉ„ν•˜κ²Œ λ©λ‹ˆλ‹€ [1]. * **μ—μ΄μ „νŠΈ ν•˜λ„€μŠ€λ₯Ό ν†΅ν•œ ν™˜κ° μ–΅μ œ**: ν•˜λ„€μŠ€ μΈν”„λΌλŠ” λͺ¨λΈμ΄ μ™ΈλΆ€ μ‹œμŠ€ν…œμ— 직접 μ ‘κ·Όν•˜μ§€ λͺ»ν•˜κ²Œ ν•˜κ³ , 도ꡬ ν˜ΈμΆœμ„ κ°€λ‘œμ±„μ–΄ μœ νš¨μ„±μ„ κ²€μ‚¬ν•˜μ—¬ ν™˜κ°μ  호좜의 영ν–₯을 μ°¨λ‹¨ν•©λ‹ˆλ‹€ [6]. λ˜ν•œ DeepEvalκ³Ό 같은 평가 ν”„λ ˆμž„μ›Œν¬λŠ” ν™˜κ° μ—¬λΆ€λ₯Ό μΈ‘μ •ν•˜λŠ” λ‚΄μž₯ μ§€ν‘œ(metrics)λ₯Ό μ œκ³΅ν•˜μ—¬ μ—μ΄μ „νŠΈ 좜λ ₯ ν’ˆμ§ˆμ„ 검증할 수 있게 λ•μŠ΅λ‹ˆλ‹€ [7]. κ°€μž₯ κ·Όλ³Έμ μœΌλ‘œλŠ” Atlanκ³Ό 같은 κ±°λ²„λ„ŒμŠ€ 데이터 계측을 ν™œμš©ν•˜μ—¬ μ—μ΄μ „νŠΈκ°€ μ½λŠ” 데이터 자체λ₯Ό 사전에 μΈμ¦ν•˜κ³  μŠ€ν‚€λ§ˆ 변동을 λ°©μ§€ν•¨μœΌλ‘œμ¨ μž…λ ₯ λ‹¨κ³„μ—μ„œλΆ€ν„° ν™˜κ°μ˜ 원인을 μ œκ±°ν•©λ‹ˆλ‹€ [8, 9]. ## βš–οΈ Trade-offs & Caveats μ—μ΄μ „νŠΈμ˜ ν™˜κ°μ  ν–‰λ™μ΄λ‚˜ 잘λͺ»λœ 좜λ ₯을 νŒŒμ•…ν•˜κΈ° μœ„ν•΄ AgentOpsλ‚˜ Langfuse 같은 사후 λͺ¨λ‹ˆν„°λ§ 도ꡬ(Observability tools)λ₯Ό ν™œμš©ν•  수 μžˆμ§€λ§Œ, μ΄λŸ¬ν•œ 도ꡬ듀은 μ‹€νŒ¨κ°€ λ°œμƒν•œ 이후에 이λ₯Ό ν¬μ°©ν•˜λŠ” 사후적(post-hoc) λ°©μ‹μ΄λΌλŠ” 근본적인 μ œμ•½μ΄ μžˆμŠ΅λ‹ˆλ‹€ [10, 11]. λ”°λΌμ„œ λ‚˜μœ μž…λ ₯(bad inputs)으둜 인해 μƒμ„±λœ ν™˜κ° 데이터라 할지라도 평가 ν”„λ ˆμž„μ›Œν¬ μƒμ—μ„œλŠ” 높은 점수λ₯Ό 기둝할 수 있으며, μ΄λŠ” κ°œλ°œμžμ—κ²Œ 큰 μ˜€ν•΄λ₯Ό λΆˆλŸ¬μΌμœΌν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€ [12]. λ˜ν•œ ν™˜κ°μ„ 근본적으둜 막기 μœ„ν•΄ μž…λ ₯ 데이터λ₯Ό 사전에 κ²€μ¦ν•˜λŠ” 데이터 계측을 ν•˜λ„€μŠ€ νŒŒμ΄ν”„λΌμΈμ— κ²°ν•©ν•  경우, λ‹¨μˆœνžˆ ν”„λ ˆμž„μ›Œν¬λ₯Ό κ΅¬μ„±ν•˜λŠ” 것을 λ„˜μ–΄ 데이터 κ±°λ²„λ„ŒμŠ€μ™€ μ—”μ§€λ‹ˆμ–΄λ§ μž‘μ—…μ— 전체 κ΅¬ν˜„ μ‹œκ°„μ˜ 80%κ°€ μ†Œμš”λ  μ •λ„λ‘œ 높은 λΉ„μš©κ³Ό 쑰직적 ꡬ좕 뢀담이 λ°œμƒν•œλ‹€λŠ” νŠΈλ ˆμ΄λ“œμ˜€ν”„κ°€ μ‘΄μž¬ν•©λ‹ˆλ‹€ [2, 13]. ν™˜κ° 등을 μΆ”μ ν•˜κΈ° μœ„ν•΄ λ„μž…λ˜λŠ” κ°€μ‹œμ„± 도ꡬ듀 μ—­μ‹œ 각각 12%μ—μ„œ 15%에 이λ₯΄λŠ” μ‹œμŠ€ν…œ μ„±λŠ₯ μ˜€λ²„ν—€λ“œλ₯Ό μœ λ°œν•˜μ—¬ 전체 μΈν”„λΌμ˜ 처리 속도에 영ν–₯을 λ―ΈμΉ  수 μžˆμŠ΅λ‹ˆλ‹€ [14, 15]. --- *Last updated: 2026-05-05*