# [[Natural Language Processing (NLP)]] ## ๐Ÿ“Œ Brief Summary ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)๋Š” ์ปดํ“จํ„ฐ๊ฐ€ ์ธ๊ฐ„์˜ ์–ธ์–ด๋ฅผ ์ดํ•ด, ํ•ด์„ ๋ฐ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ(AI)์˜ ํ•ต์‹ฌ ํ•˜์œ„ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค [1-3]. ์ •๋ณด ๊ฒ€์ƒ‰(IR) ์˜์—ญ์—์„œ NLP๋Š” ์‚ฌ์šฉ์ž์˜ ๊ฒ€์ƒ‰์–ด(Query)์— ๋‹ด๊ธด ์ˆจ๊ฒจ์ง„ ์˜๋„์™€ ๋งฅ๋ฝ์„ ํŒŒ์•…ํ•˜๊ณ , ๋‹จ์–ด ๊ฐ„์˜ ๊ด€๊ณ„๋‚˜ ๋ชจํ˜ธ์„ฑ์„ ํ•ด์„ํ•˜์—ฌ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ณ  ๊ด€๋ จ์„ฑ ๋†’์€ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋ฐ ์ค‘์ถ”์ ์ธ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค [3-5]. ํ˜„๋Œ€์˜ ์ง€๋Šฅํ˜• ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์€ ๋‹จ์ˆœํ•œ ํ‚ค์›Œ๋“œ ๋งค์นญ์„ ๋„˜์–ด, NLP์™€ ๊ธฐ๊ณ„ ํ•™์Šต(ML)์„ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ๊ฒ€์ƒ‰์˜ ์ •๊ตํ•จ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค [6-8]. ## ๐Ÿ“– Core Content * **๊ฒ€์ƒ‰์–ด์˜ ๊ตฌ์กฐ์  ๋ถ„์„ ๋ฐ ์˜๋ฏธ ํŒŒ์•…**: NLP๋Š” ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ๋ฅผ ๊ตฌ์กฐ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ ๋ฌธ์žฅ ๋‚ด์˜ ๊ฐœ์ฒด(Entity)๋ฅผ ์ธ์‹ํ•˜๊ณ , ๋‹จ์–ด๊ฐ€ ๊ฐ€์ง€๋Š” ๋ฌธ๋งฅ์  ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค [9]. ๊ตฌ๋ฌธ ๋ถ„์„(Parsing), ๊ฐ์ • ๋ถ„์„, ํ† ํฐํ™”(Tokenization) ๋“ฑ์˜ NLP ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋ถ€์ • ํ‘œํ˜„์ด๋‚˜ ์ •๋ณด์„ฑ ์˜๋„, ๋™์˜์–ด, ์–ธ์–ด์  ๋‰˜์•™์Šค๊นŒ์ง€ ์„ฌ์„ธํ•˜๊ฒŒ ํ•ด์„ํ•˜๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ํ‘œ๋ฉด์ ์ธ ํ‚ค์›Œ๋“œ ์ด์ƒ์˜ ๊นŠ์€ ์ˆ˜์ค€์—์„œ ์ฝ˜ํ…์ธ ๋ฅผ ์ดํ•ดํ•˜๋„๋ก ๋•์Šต๋‹ˆ๋‹ค [3, 4, 9, 10]. * **๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐํ™” ๋ฐ ์ถ”์ถœ**: ๊ธˆ์œต์ด๋‚˜ ๊ธฐ์—… ํ™˜๊ฒฝ ๋“ฑ์—์„œ NLP ๊ธฐ์ˆ ์€ ๊ตฌ์กฐํ™”๋˜์ง€ ์•Š์€ ํ…์ŠคํŠธ ๋ฌธ์„œ(์˜ˆ: PDF, HTML ํ˜•ํƒœ์˜ ๋ณด๊ณ ์„œ ๋“ฑ)๋กœ๋ถ€ํ„ฐ ์œ ์šฉํ•œ ๊ตฌ์กฐ์  ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค [11, 12]. ๋Œ€ํ‘œ์ ์œผ๋กœ ๊ธฐ์—…, ์ธ๋ฌผ, ์ฃผ์š” ์ง€ํ‘œ ๋“ฑ์˜ ํ•ต์‹ฌ ๊ฐœ๋…์„ ์‹๋ณ„ํ•˜๋Š” **๋ช…๋ช…๋œ ๊ฐœ์ฒด ์ธ์‹(Named Entity Recognition)**, ๊ฐœ์ฒด ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์„ ๊ฒฐ์ •ํ•˜๋Š” **๊ด€๊ณ„ ์ถ”์ถœ(Relation Extraction)**, ํ‘œ ๋ฐ์ดํ„ฐ๋ฅผ ํŒŒ์‹ฑํ•˜๋Š” ๊ธฐ์ˆ  ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค [12]. * **๋ฌธ๋งฅ ์ดํ•ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ง„ํ™” (BERT)**: 2019๋…„ ๊ตฌ๊ธ€์ด ๋„์ž…ํ•œ **BERT**(Bidirectional Encoder Representations from Transformers)๋Š” ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜์˜ NLP ๊ธฐ์ˆ ๋กœ, ํŠน์ • ๋‹จ์–ด์˜ ์•ž๋’ค ๋ฌธ๋งฅ์„ ๋ชจ๋‘ ์–‘๋ฐฉํ–ฅ์œผ๋กœ ์‚ดํŽด ์˜๋ฏธ๋ฅผ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค [13]. ์ด๋ฅผ ํ†ตํ•ด ๊ธธ๊ณ  ๋Œ€ํ™”ํ˜•์— ๊ฐ€๊นŒ์šด ๋กฑํ…Œ์ผ(Long-tail) ํ‚ค์›Œ๋“œ๋‚˜ ๋ณต์žกํ•œ ์งˆ๋ฌธ์˜ ๋งฅ๋ฝ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด์„ํ•˜์—ฌ ๊ฒ€์ƒ‰ ์—”์ง„์˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ํ˜์‹ ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค [13, 14]. ## โš–๏ธ Trade-offs & Caveats * **๋†’์€ ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค ๋ฐ ์—ฐ์‚ฐ ๋น„์šฉ**: NLP๋ฅผ ํ™œ์šฉํ•œ ์˜๋ฏธ๋ก ์  ๊ฒ€์ƒ‰(Semantic Search)์ด๋‚˜ ๋ฒกํ„ฐ ๊ฒ€์ƒ‰์„ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ธฐ์กด์˜ ๋‹จ์ˆœํ•œ ํ‚ค์›Œ๋“œ ๊ฒ€์ƒ‰(Lexical Search) ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋น„ํ•ด ํ›จ์”ฌ ๋†’์€ ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค ๋ฐ ๋น„์šฉ์ด ์š”๊ตฌ๋˜๋ฉฐ ์‹œ์Šคํ…œ ๊ตฌํ˜„์ด ๋ณต์žกํ•ด์ง€๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค [15, 16]. * **ํŠน์ • ์ฟผ๋ฆฌ์— ๋Œ€ํ•œ ํ•œ๊ณ„**: ์‚ฌ์šฉ์ž๊ฐ€ ์ž…๋ ฅํ•œ ์ฟผ๋ฆฌ๊ฐ€ ๋‹จ 1~2๊ฐœ์˜ ๋‹จ์–ด๋กœ ์ด๋ฃจ์–ด์ ธ **์ง€๋‚˜์น˜๊ฒŒ ์งง์€ ๊ฒฝ์šฐ**, NLP ๋ชจ๋ธ์ด ๊ฒ€์ƒ‰์˜ ๋งฅ๋ฝ๊ณผ ์˜๋„๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•œ ์ถฉ๋ถ„ํ•œ ์ •๋ณด๊ฐ€ ๋ถ€์กฑํ•˜์—ฌ ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [17, 18]. ๋˜ํ•œ ํŠน์ • ๋„๋ฉ”์ธ์˜ ์ „๋ฌธ์ ์ธ ๊ธฐ์ˆ  ์šฉ์–ด๋‚˜ ๊ณ ์œ  ๋ช…์‚ฌ, ์ œํ’ˆ ์ฝ”๋“œ ๋“ฑ์„ ์ธ์‹ํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [18, 19]. (์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ํ‚ค์›Œ๋“œ ๋งค์นญ๊ณผ NLP๋ฅผ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ฒ€์ƒ‰์ด ์„ ํ˜ธ๋ฉ๋‹ˆ๋‹ค [20, 21]). * **์–ธ์–ด์˜ ๋ชจํ˜ธ์„ฑ๊ณผ ๋ธ”๋ž™๋ฐ•์Šค ํ˜„์ƒ**: ์ž์—ฐ์–ด์˜ ๋ณธ์งˆ์ ์ธ ๋ชจํ˜ธ์„ฑ๊ณผ ์ฃผ๊ด€์„ฑ์€ ์ฟผ๋ฆฌ ํ•ด์„๊ณผ ์ ํ•ฉํ•œ ๊ฒฐ๊ณผ ๋„์ถœ์— ๊ทผ๋ณธ์ ์ธ ๋‚œ์ œ๋กœ ์ž‘์šฉํ•ฉ๋‹ˆ๋‹ค [22]. ๋”๋ถˆ์–ด ๊ณ ๋„ํ™”๋œ NLP ๊ฒ€์ƒ‰ ์—”์ง„์€ ์ข…์ข… '๋ธ”๋ž™๋ฐ•์Šค'์ฒ˜๋Ÿผ ์ž‘๋™ํ•˜์—ฌ ์‚ฌ์šฉ์ž๊ฐ€ ์ฟผ๋ฆฌ์™€ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ ๊ฐ„์˜ ์ •ํ™•ํ•œ ์—ฐ๊ฒฐ ๊ณ ๋ฆฌ๋‚˜ ์‚ฐ์ถœ ๊ณผ์ •์„ ์ดํ•ดํ•˜๊ธฐ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค [18]. * **์•Œ๊ณ ๋ฆฌ์ฆ˜ ํŽธํ–ฅ(Bias)**: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์กด์žฌํ•˜๋Š” ํŽธํ–ฅ์ด NLP ๋ฐ AI ๋ชจ๋ธ์— ๋‚ดํฌ๋  ๊ฒฝ์šฐ, ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ์˜ ๊ณต์ •์„ฑ๊ณผ ์ค‘๋ฆฝ์„ฑ์— ๋ถ€์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น  ์œ„ํ—˜์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค [22]. --- *Last updated: 2026-05-04*