# [[νŠΉμ§• μΆ”μΆœ (Feature Extraction)]] ## πŸ“Œ Brief Summary **νŠΉμ§• μΆ”μΆœ(Feature Extraction)**은 기계 ν•™μŠ΅ 기반의 λž­ν‚Ή(LTR, Learning to Rank) λͺ¨λΈμ„ ν›ˆλ ¨μ‹œν‚€κΈ° μœ„ν•΄ 질의(Query)와 λ¬Έμ„œ(Document)의 λ‹€μ–‘ν•œ 속성듀을 μˆ˜μΉ˜ν™”λœ **νŠΉμ§• 벑터(Feature Vectors)**둜 λ³€ν™˜ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€ [1, 2]. μ΄λŠ” λ‹¨μˆœν•œ ν‚€μ›Œλ“œ ν…μŠ€νŠΈ 맀칭을 λ„˜μ–΄μ„œ μ‚¬μš©μž, 질의, λ¬Έμ„œ κ°„μ˜ 볡합적인 관계와 λ§₯락을 검색 μ•Œκ³ λ¦¬μ¦˜μ΄ ν•™μŠ΅ν•  수 μžˆλ„λ‘ μ§€μ›ν•˜λŠ” 핡심 λ‹¨κ³„μž…λ‹ˆλ‹€ [1, 3]. μΆ”μΆœλœ νŠΉμ§• λ°μ΄ν„°λŠ” κ΄€λ ¨μ„± μ μˆ˜μ™€ κ²°ν•©λ˜μ–΄ 검색 κ²°κ³Όλ₯Ό μ •κ΅ν•˜κ²Œ λ‚˜μ—΄ν•˜κΈ° μœ„ν•œ ν›ˆλ ¨ λ°μ΄ν„°μ…‹μœΌλ‘œ ν™œμš©λ©λ‹ˆλ‹€ [1]. ## πŸ“– Core Content **νŠΉμ§•μ˜ μ •μ˜μ™€ ν•„μš”μ„±** 기계 ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜(MLR)이 μ²˜λ¦¬ν•˜κΈ° 쉽도둝, 질의-λ¬Έμ„œ μŒμ€ 숫자 배열인 'νŠΉμ§• 벑터(Feature vectors)'둜 ν‘œν˜„λ˜λ©°, 이λ₯Ό 'νŠΉμ§•μ˜ κ°€λ°©(bag of features)' 접근법이라고도 λΆ€λ¦…λ‹ˆλ‹€ [2]. λž­ν‚Ή λͺ¨λΈμ˜ 기반이 λ˜λŠ” νŒλ‹¨ 리슀트(Judgment list)의 κ΄€λ ¨μ„± μ μˆ˜λŠ” μ΄λŸ¬ν•œ λ‹€μ–‘ν•œ 속성과 νŠΉμ§•λ“€μ— μ˜ν•΄ κ²°μ •λ˜λ―€λ‘œ, 검색 λͺ¨λΈ ν›ˆλ ¨μ„ μœ„ν•΄μ„œλŠ” λ°˜λ“œμ‹œ 이 νŠΉμ§•λ“€μ„ μΆ”μΆœν•˜μ—¬ 각 μš”μ†Œκ°€ λ¬Έμ„œμ˜ 관련성에 μ–΄λ–»κ²Œ κΈ°μ—¬ν•˜λŠ”μ§€ νŒŒμ•…ν•΄μ•Ό ν•©λ‹ˆλ‹€ [1]. 이처럼 쒋은 νŠΉμ§•μ„ μ„ νƒν•˜κ³  μ„€κ³„ν•˜λŠ” 과정을 **νŠΉμ§• 곡학(Feature engineering)**이라고 ν•©λ‹ˆλ‹€ [3, 4]. **νŠΉμ§•μ˜ 3κ°€μ§€ μ£Όμš” λ²”μ£Ό** μΆ”μΆœλ˜λŠ” νŠΉμ§•(ν˜Ήμ€ λž­ν‚Ή μ‹ ν˜Έ)은 크게 μ„Έ κ°€μ§€ 그룹으둜 λ‚˜λ‰©λ‹ˆλ‹€ [1, 2]. * **λ¬Έμ„œ νŠΉμ§• (Query-independent / Static features)**: μ§ˆμ˜μ™€ λ¬΄κ΄€ν•˜κ²Œ λ¬Έμ„œ μžμ²΄κ°€ κ°€μ§„ 고유 μ†μ„±μ—μ„œ νŒŒμƒλ˜λŠ” νŠΉμ§•μž…λ‹ˆλ‹€ [1, 5]. 예λ₯Ό λ“€μ–΄ μ „μžμƒκ±°λž˜ μŠ€ν† μ–΄μ˜ μ œν’ˆ 가격, λ¬Έμ„œμ˜ 길이, νŽ˜μ΄μ§€λž­ν¬(PageRank) 점수 등이 ν¬ν•¨λ˜λ©°, μ˜€ν”„λΌμΈ 색인 λ‹¨κ³„μ—μ„œ 미리 κ³„μ‚°ν•˜μ—¬ 정적 ν’ˆμ§ˆ 점수둜 ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€ [1, 5]. * **질의 νŠΉμ§• (Query-level features)**: μ‚¬μš©μžκ°€ μ œμΆœν•œ 질의 μžμ²΄μ—μ„œ κ³„μ‚°λ˜λŠ” νŠΉμ§•μœΌλ‘œ, μ§ˆμ˜μ— ν¬ν•¨λœ λ‹¨μ–΄μ˜ 수 등이 이에 ν•΄λ‹Ήν•©λ‹ˆλ‹€ [1, 5]. * **질의-λ¬Έμ„œ νŠΉμ§• (Query-dependent / Dynamic features)**: νŠΉμ • 질의의 λ¬Έλ§₯ λ‚΄μ—μ„œ ν•΄λ‹Ή λ¬Έμ„œκ°€ κ°–λŠ” 정보λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€ [1, 5]. 제λͺ© ν•„λ“œμ— λŒ€ν•œ BM25 μ μˆ˜λ‚˜ TF-IDF 점수 등이 κ°€μž₯ λŒ€ν‘œμ μΈ μ˜ˆμ‹œμž…λ‹ˆλ‹€ [1, 5]. **κ°œμΈν™” 및 μ‚¬μš©μž λ¬Έλ§₯을 μœ„ν•œ νŠΉμ§• μΆ”μΆœ** κ²€μƒ‰μ˜ 정ꡐ함을 κ·ΉλŒ€ν™”ν•˜μ—¬ **κ°œμΈν™”λœ 검색(Personalized search)**을 κ΅¬ν˜„ν•˜κΈ° μœ„ν•΄μ„œλŠ” κ³Όκ±° μ‚¬μš©μž ν–‰λ™μ΄λ‚˜ μœ„μΉ˜ 정보와 같은 μ‚¬μš©μž/μ»¨ν…μŠ€νŠΈ 속성을 νŠΉμ§•μœΌλ‘œ μΆ”μΆœν•΄μ•Ό ν•©λ‹ˆλ‹€ [3, 6]. 예λ₯Ό λ“€μ–΄, μŒμ•… 검색 μ—”μ§„μ˜ 경우 μ‚¬μš©μžμ˜ 이전 μŒμ•… μž₯λ₯΄ μ²­μ·¨ 기둝을 λΉˆλ„ 기반의 μž₯λ₯΄ μ„ ν˜Έλ„ νŠΉμ§•μœΌλ‘œ 계산할 수 μžˆμŠ΅λ‹ˆλ‹€ [6]. Elasticsearch와 같은 μ‹œμŠ€ν…œμ—μ„œλŠ” ν…œν”Œλ¦Ώ 쿼리λ₯Ό μ‚¬μš©ν•˜μ—¬ ν›ˆλ ¨ 데이터셋 ꡬ좕 μ‹œμ  및 검색 쿼리 μ‹œμ μ— μ΄λŸ¬ν•œ νŠΉμ§•μ„ μΆ”μΆœν•˜κ³  μ£Όμž…ν•©λ‹ˆλ‹€ [7]. ## βš–οΈ Trade-offs & Caveats * **μˆ˜μΉ˜ν™” λ³€ν™˜μ˜ λ³΅μž‘μ„±**: 기계 ν•™μŠ΅ λͺ¨λΈμ— ν™œμš©λ˜λŠ” **λͺ¨λ“  νŠΉμ§•μ€ λ°˜λ“œμ‹œ 숫자(numeric) ν˜•νƒœμ—¬μ•Ό ν•œλ‹€λŠ” μ œμ•½**이 μžˆμŠ΅λ‹ˆλ‹€ [8]. μœ„μΉ˜λ‚˜ μž₯λ₯΄μ™€ 같은 λ²”μ£Όν˜•(Categorical) νŠΉμ§•μ„ μ‚¬μš©ν•  λ•ŒλŠ” 이λ₯Ό μ •μˆ˜ν˜• λ ˆμ΄λΈ”λ‘œ λ‚˜νƒ€λ‚Όμ§€, μ•„λ‹ˆλ©΄ 닀쀑 이진 λ ˆμ΄λΈ”μ„ ν™œμš©ν•œ 원-ν•« 인코딩(One-hot encoding) λ°©μ‹μœΌλ‘œ λ‚˜νƒ€λ‚Όμ§€ κ²°μ •ν•΄μ•Ό ν•˜λŠ” 데이터 μ „μ²˜λ¦¬ 뢀담이 μ‘΄μž¬ν•©λ‹ˆλ‹€ [8]. * **μ»΄ν“¨νŒ… λ¦¬μ†ŒμŠ€ 및 ν›ˆλ ¨ μ‹œκ°„μ˜ 증가**: λͺ¨λΈμ— 더 λ§Žμ€ νŠΉμ§•μ΄ μΆ”κ°€λ μˆ˜λ‘, μ˜μ‚¬κ²°μ • 트리(Decision Tree) 기반 λͺ¨λΈμ—μ„œ 이λ₯Ό ν™œμš©ν•˜κΈ° μœ„ν•΄ 더 λ§Žμ€ λ…Έλ“œ(Nodes)κ°€ ν•„μš”ν•˜κ²Œ λ©λ‹ˆλ‹€ [9]. 결과적으둜 ν›ˆλ ¨ κ³Όμ •μ—μ„œ λͺ¨λΈμ΄ 수렴(Convergence)ν•˜λŠ” 데 **더 λ§Žμ€ μ‹œκ°„κ³Ό λ¦¬μ†ŒμŠ€κ°€ μ†Œλͺ¨λ˜λŠ” λ°˜λŒ€ κΈ‰λΆ€(Trade-off)**κ°€ λ°œμƒν•©λ‹ˆλ‹€ [9]. λ”°λΌμ„œ νŠΉμ§•μ„ μΆ”κ°€ν•  λ•ŒλŠ” μž‘κ²Œ μ‹œμž‘ν•˜μ—¬ κ°œμ„ λ„λ₯Ό μΈ‘μ •ν•œ ν›„ λ‹¨κ³„μ μœΌλ‘œ ν™•μž₯ν•΄μ•Ό ν•©λ‹ˆλ‹€ [9]. * **μ„€κ³„μ˜ μ‹€νš¨μ„± 검증 의무**: μƒˆλ‘œμš΄ νŠΉμ§•μ„ μΆ”κ°€ν•  λ•ŒλŠ” 그것이 νŠΉμ • 검색 ν™˜κ²½μ—μ„œ 이둠적으둜 μ–΄λ–»κ²Œ 관련성을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ”μ§€ λͺ…ν™•νžˆ 이해해야 ν•©λ‹ˆλ‹€ [3]. 이둠적 κ·Όκ±°κ°€ ν¬λ°•ν•˜λ‹€λ©΄ νŠΉμ§•μœΌλ‘œ μΆ”κ°€ν•˜μ§€ μ•ŠλŠ” 편이 λ‚˜μœΌλ©°, λ„μž… ν›„μ—λŠ” λ°˜λ“œμ‹œ μ˜€ν”„λΌμΈ ν…ŒμŠ€νŠΈ 및 온라인 A/B ν…ŒμŠ€νŠΈλ₯Ό 톡해 μ‹€μ œ 효과λ₯Ό 검증해야 ν•˜λŠ” 관리적 λΉ„μš©μ΄ λ”°λ¦…λ‹ˆλ‹€ [3]. ## πŸ”— Knowledge Connections ### Related Concepts #### [검색 λž­ν‚Ή μ΅œμ ν™” μ•„ν‚€ν…μ²˜] - [[기계 ν•™μŠ΅ λž­ν‚Ή (Learning to Rank, LTR)]] - μ—°κ²° 이유: νŠΉμ§• μΆ”μΆœμ€ LTR λͺ¨λΈμ˜ ν›ˆλ ¨ 데이터셋(νŒλ‹¨ 리슀트)을 μ™„μ„±ν•˜κΈ° μœ„ν•΄ μˆ˜μΉ˜ν˜• 데이터λ₯Ό κ³΅κΈ‰ν•˜λŠ” κ°€μž₯ ν•„μˆ˜μ μΈ μ „μ œ κ³Όμ •μž…λ‹ˆλ‹€ [1, 10]. - 이 κ°œλ…μ„ 톡해 더 깊게 이해할 수 μžˆλŠ” λΆ€λΆ„: μΆ”μΆœλœ λ‹€μ°¨μ›μ˜ νŠΉμ§•λ“€μ΄ μ–΄λ–»κ²Œ κ°€μ€‘μΉ˜κ°€ λ§€κ²¨μ Έμ„œ 졜적의 λ¬Έμ„œ μ •λ ¬(Ranking)을 λ§Œλ“€μ–΄λ‚΄λŠ”μ§€ 이해할 수 μžˆμŠ΅λ‹ˆλ‹€. - [[νŒλ‹¨ 리슀트 (Judgment List)]] - μ—°κ²° 이유: LTR λͺ¨λΈ ν›ˆλ ¨μ„ μœ„ν•œ μž…λ ₯ λ°μ΄ν„°λ‘œ, μΆ”μΆœλœ νŠΉμ§•λ“€μ€ 이 νŒλ‹¨ 리슀트(κ΄€λ ¨μ„± μ •λ‹΅μ§€)와 κ²°ν•©ν•˜μ—¬ μ΅œμ’… 데이터셋을 κ΅¬μ„±ν•©λ‹ˆλ‹€ [1, 10]. - 이 κ°œλ…μ„ 톡해 더 깊게 이해할 수 μžˆλŠ” λΆ€λΆ„: νŠΉμ§• 벑터가 μ–΄λ–€ λͺ©ν‘œ κ°’(κ΄€λ ¨μ„± 점수)을 ν–₯ν•΄ ν›ˆλ ¨λ˜κ³  λ§€ν•‘λ˜λŠ”μ§€ κ·Έ 관계λ₯Ό νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€. #### [ν…μŠ€νŠΈ 및 의미 뢄석 도ꡬ/μ§€ν‘œ] - [[TF-IDF]] 및 [[BM25]] - μ—°κ²° 이유: μ§ˆμ˜μ™€ λ¬Έμ„œ κ°„μ˜ 관계λ₯Ό μˆ˜μΉ˜ν™”ν•  λ•Œ κ°€μž₯ 기본적으둜 μΆ”μΆœλ˜λŠ” 질의-λ¬Έμ„œ νŠΉμ§•(Query-dependent features)의 λŒ€ν‘œμ  μ•Œκ³ λ¦¬μ¦˜μž…λ‹ˆλ‹€ [1, 5]. - 이 κ°œλ…μ„ 톡해 더 깊게 이해할 수 μžˆλŠ” λΆ€λΆ„: 전톡적인 ν‚€μ›Œλ“œ λ§€μΉ­ μ μˆ˜κ°€ μ–΄λ–»κ²Œ 수치적 νŠΉμ§•μœΌλ‘œ λ³€ν™˜λ˜μ–΄ 기계 ν•™μŠ΅ λͺ¨λΈμ— μ „λ‹¬λ˜λŠ”μ§€ νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€. #### [μ‚¬μš©μž λ§žμΆ€ν˜• 검색 기반 기술] - [[κ°œμΈν™” 검색 (Personalized Search)]] - μ—°κ²° 이유: μ‚¬μš©μžμ˜ μ„ ν˜Έλ„, μœ„μΉ˜, 행동 이λ ₯ 등을 νŠΉμ§•μœΌλ‘œ μΆ”μΆœν•˜κ³  μΈμ½”λ”©ν•˜μ—¬ λž­ν‚Ήμ˜ μž…λ ₯κ°’μœΌλ‘œ ν™œμš©ν•¨μœΌλ‘œμ¨ λ‹¬μ„±λ˜λŠ” 결과적 검색 ν˜•νƒœμž…λ‹ˆλ‹€ [3, 6]. - 이 κ°œλ…μ„ 톡해 더 깊게 이해할 수 μžˆλŠ” λΆ€λΆ„: μ‚¬μš©μž λ¬Έλ§₯ 데이터λ₯Ό μΆ”μΆœν•˜μ—¬ 검색 κ²°κ³Όλ₯Ό μ–΄λ–»κ²Œ μ‚¬μš©μž λ§žμΆ€ν˜•μœΌλ‘œ νŠœλ‹ν•˜λŠ”μ§€ κ·Έ 싀증적 원리λ₯Ό 이해할 수 μžˆμŠ΅λ‹ˆλ‹€. ### Deeper Research Questions - LTR λͺ¨λΈμ„ μœ„ν•΄ μΆ”μΆœν•  수 μžˆλŠ” ꡬ체적인 'μ‚¬μš©μž μ»¨ν…μŠ€νŠΈ νŠΉμ§•(User properties)'의 μ’…λ₯˜μ—λŠ” μ–΄λ–€ 것듀이 있으며, λ²”μ£Όν˜• 데이터λ₯Ό 원-ν•« 인코딩 외에 효율적으둜 μˆ˜μΉ˜ν™”ν•˜λŠ” μ΅œμ‹  기법은 무엇인가? - λ¬Έμ„œ νŠΉμ§•(Static features) 쀑 νŽ˜μ΄μ§€λž­ν¬(PageRank)와 같은 점수λ₯Ό νŠΉμ§• λ²‘ν„°λ‘œ 톡합할 λ•Œ λ°œμƒν•  수 μžˆλŠ” μŠ€μΌ€μΌ(Scale) λΆˆκ· ν˜•μ΄λ‚˜ 편ν–₯ λ¬Έμ œλŠ” μ–΄λ–»κ²Œ μ •κ·œν™”ν•˜μ—¬ ν•΄κ²°ν•˜λŠ”κ°€? - μ§€λ‚˜μΉ˜κ²Œ λ§Žμ€ νŠΉμ§•μ„ μΆ”μΆœν•  λ•Œ λ°œμƒν•˜λŠ” 차원(Dimension) 증가 및 ν›ˆλ ¨ λ¦¬μ†ŒμŠ€ μ†Œλͺ¨ 문제λ₯Ό μ™„ν™”ν•˜κΈ° μœ„ν•΄ μ μš©ν•  수 μžˆλŠ” νŠΉμ§• 선택(Feature Selection) 방법둠은 무엇인가? - 기쑴의 BM25 기반 νŠΉμ§• 외에, λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM) 기반의 벑터 μž„λ² λ”© μœ μ‚¬λ„ 점수λ₯Ό 질의-λ¬Έμ„œ νŠΉμ§•μœΌλ‘œ μΆ”κ°€ν•  λ•Œ λ°œμƒν•˜λŠ” μ„±λŠ₯ ν–₯상과 인퍼런슀 μ§€μ—°(Latency) κ°„μ˜ νŠΈλ ˆμ΄λ“œμ˜€ν”„λŠ” μ–΄λ– ν•œκ°€? - μ˜€ν”„λΌμΈ ν›ˆλ ¨ ν™˜κ²½μ—μ„œ μΆ”μΆœν•œ νŠΉμ§• 데이터와 μ‹€μ‹œκ°„ 라이브 쿼리 ν™˜κ²½μ—μ„œ λ™μ μœΌλ‘œ μΆ”μΆœν•΄μ•Ό ν•˜λŠ” νŠΉμ§• κ°„μ˜ 뢈일치λ₯Ό μ΅œμ†Œν™”ν•˜κΈ° μœ„ν•œ 데이터 μ•„ν‚€ν…μ²˜ 섀계 방식은 무엇인가? ### Practical Application Contexts - **Implementation:** 검색 μ—”μ§„ ν™˜κ²½μ—μ„œ BM25 점수, λ¬Έμ„œμ˜ 길이, μƒν’ˆ 가격 λ“±μ˜ λ‹€μ–‘ν•œ 정보λ₯Ό Elasticsearch의 ν…œν”Œλ¦Ώ 쿼리λ₯Ό μ‚¬μš©ν•˜μ—¬ λ°°μ—΄ ν˜•νƒœμ˜ μˆ˜μΉ˜ν˜• νŠΉμ§• 벑터(Feature Vectors)둜 μΆ”μΆœν•˜μ—¬ λͺ¨λΈμ— μ „λ‹¬ν•©λ‹ˆλ‹€ [2, 7]. λ²”μ£Όν˜• λ°μ΄ν„°λŠ” 원-ν•« 인코딩 λ“±μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ κ΅¬ν˜„ν•©λ‹ˆλ‹€ [8]. - **System Design:** μ‚¬μš©μžμ˜ κ³Όκ±° 쑰회 이λ ₯μ΄λ‚˜ μ„ ν˜Έ μž₯λ₯΄ 같은 κ°œμΈν™” νŠΉμ§•λ“€μ„ ν›ˆλ ¨ μ‹œμ κ³Ό 검색 μ‹œμ  λͺ¨λ‘μ—μ„œ λΉ λ₯΄κ²Œ μ‘°νšŒν•  수 μžˆλ„λ‘, νŠΉμ§• 값을 μ €μž₯ν•˜κ³  μ œκ³΅ν•˜λŠ” μ „μš© 인덱슀(Feature Store)λ₯Ό μ„€κ³„ν•˜κ³  ꡬ좕해야 ν•©λ‹ˆλ‹€ [11, 12]. - **Operation / Maintenance:** νŠΉμ§• 데이터(예: μ‚¬μš©μžμ˜ ꡬ맀 μ„ ν˜Έλ„ λΉ„μœ¨μ΄λ‚˜ λ¬Έμ„œμ˜ 클릭λ₯  λ“±)λŠ” μ‹œκ°„μ΄ 지남에 따라 λ³€λ™ν•˜λ―€λ‘œ, μŠ€μΌ€μ€„λ§λœ 배치 μž‘μ—…μ„ 톡해 μ΄λŸ¬ν•œ νŠΉμ§•κ°’λ“€μ„ 주기적으둜 μ΅œμ‹ ν™”ν•˜κ³  λ¦¬ν”„λ ˆμ‹œ(Refresh)ν•˜λŠ” μœ μ§€λ³΄μˆ˜ μž‘μ—…μ΄ ν•„μš”ν•©λ‹ˆλ‹€ [11]. - **Learning Path:** 전톡적인 ν‚€μ›Œλ“œ 뢄석 μ§€ν‘œ(TF-IDF, BM25) 이해 βž” λ²”μ£Όν˜• λ°μ΄ν„°μ˜ μˆ˜μΉ˜ν™” λ³€ν™˜ 기법(원-ν•« 인코딩 λ“±) ν•™μŠ΅ βž” LTR을 μœ„ν•œ νŠΉμ§• 곡학(Feature Engineering) μ‹€μŠ΅ βž” λž­ν‚Ή λͺ¨λΈ ν›ˆλ ¨ 및 A/B ν…ŒμŠ€νŠΈ μ„±κ³Ό μΈ‘μ • 순으둜 ν•™μŠ΅μ„ μ§„ν–‰ν•©λ‹ˆλ‹€. - **My Project Relevance:** μ—”ν„°ν”„λΌμ΄μ¦ˆ 사내 검색 ν˜Ήμ€ 이컀머슀 μƒν’ˆ 검색 μ‹œμŠ€ν…œμ„ 고도화할 λ•Œ, λ‹¨μˆœ ν‚€μ›Œλ“œ 일치 점수 외에 'λ¬Έμ„œ μ΅œμ‹ μ„±', 'μ‚¬μš©μž λΆ€μ„œ 정보', 'κ³Όκ±° 클릭 λΉˆλ„' 등을 μƒˆλ‘œμš΄ νŠΉμ§•μœΌλ‘œ μΆ”μΆœν•˜κ³  이λ₯Ό λž­ν‚Ή μ‹ ν˜Έλ‘œ ν†΅ν•©ν•˜μ—¬ 검색 λ§Œμ‘±λ„μ™€ 정ꡐ함을 획기적으둜 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. ### Adjacent Topics - [[νŠΉμ§• 곡학 (Feature Engineering)]] - ν™•μž₯ λ°©ν–₯: λ‹¨μˆœνžˆ 데이터λ₯Ό μΆ”μΆœν•˜λŠ” 것을 λ„˜μ–΄, 도메인 지식을 ν™œμš©ν•˜μ—¬ λͺ¨λΈμ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” '쒋은 νŠΉμ§•'을 식별, 선택, κ°€κ³΅ν•˜λŠ” 기계 ν•™μŠ΅ μ „λ°˜μ˜ 방법둠과 μ›λ¦¬λ‘œ 이해λ₯Ό ν™•μž₯ν•©λ‹ˆλ‹€ [3, 4]. - [[원-ν•« 인코딩 (One-hot Encoding)]] - ν™•μž₯ λ°©ν–₯: 기계 ν•™μŠ΅ λͺ¨λΈμ΄ 이해할 수 μ—†λŠ” ν…μŠ€νŠΈλ‚˜ λ²”μ£Όν˜• 데이터λ₯Ό μ΄μ§„μˆ˜ 벑터 ν˜•νƒœλ‘œ λ³€ν™˜ν•˜λŠ” ꡬ체적인 데이터 μ „μ²˜λ¦¬ 및 ν‘œν˜„ 기법에 λŒ€ν•΄ 심화 ν•™μŠ΅ν•©λ‹ˆλ‹€ [8]. - [[XGBoost 및 μ˜μ‚¬κ²°μ • 트리 (Decision Tree)]] - ν™•μž₯ λ°©ν–₯: μΆ”μΆœλœ νŠΉμ§•(Feature)듀을 μž…λ ₯λ°›μ•„ μ–΄λ–»κ²Œ κ°€μ€‘μΉ˜λ₯Ό λΆ„λ°°ν•˜κ³  트리 λ…Έλ“œλ₯Ό ν˜•μ„±ν•˜μ—¬ μ‹€μ§ˆμ μΈ λ¬Έμ„œ λž­ν‚Ή μˆœμœ„λ₯Ό μ—°μ‚°ν•΄ λ‚΄λŠ”μ§€, κ·Έλž˜λ””μ–ΈνŠΈ λΆ€μŠ€νŒ… λͺ¨λΈμ˜ λ‚΄λΆ€ λ™μž‘ μ›λ¦¬λ‘œ ν™•μž₯이 κ°€λŠ₯ν•©λ‹ˆλ‹€ [13, 14]. --- *Last updated: 2026-05-04*