--- id: P-REINFORCE-AUTO-OOCR-001 category: "[[10_Wiki/πŸ’‘ Topics/AI]]" confidence_score: 0.97 tags: [auto-reinforced, ocr, computer-vision, pattern-recognition, digitization, documented-intelligence] last_reinforced: 2026-04-20 --- # [[Optical-Character-Recognition]] ## πŸ“Œ ν•œ 쀄 톡찰 (The Karpathy Summary) > "μ΄λ―Έμ§€μ—μ„œ 지식을 μ±„κ΅΄ν•˜λ‹€: μ‚¬μ§„μ΄λ‚˜ μŠ€μΊ” λ¬Έμ„œ μ†μ˜ κΈ€μž 이미지λ₯Ό 기계가 읽을 수 μžˆλŠ” ν…μŠ€νŠΈ λ°μ΄ν„°λ‘œ λ³€ν™˜ν•˜μ—¬, λ¨Όμ§€ μŒ“μΈ 쒅이 λ­‰μΉ˜λ₯Ό 검색 κ°€λŠ₯ν•œ μ§€μ‹μ˜ 보고둜 λΆ€ν™œμ‹œν‚€λŠ” 컴퓨터 λΉ„μ „μ˜ 첫 번째 κ²°μ‹€." ## πŸ“– κ΅¬μ‘°ν™”λœ 지식 (Synthesized Content) κ΄‘ν•™ 문자 인식(OCR)은 이미지 ν˜•νƒœμ˜ 문자λ₯Ό λ””μ§€ν„Έ ν…μŠ€νŠΈλ‘œ μΈμ‹ν•˜λŠ” κΈ°μˆ μž…λ‹ˆλ‹€. 1. **3λŒ€ 단계**: * **Pre-processing**: 이미지 작음 제거 및 κΈ€μž μ •λ ¬. (Noise와 μ—°κ²°) * **Recognition**: 획의 νŒ¨ν„΄μ΄λ‚˜ νŠΉμ§•μ„ μΆ”μΆœν•˜μ—¬ μ–΄λ–€ κΈ€μžμΈμ§€ νŒλ³„. (Deep Learning (DL)와 μ—°κ²°) * **Post-processing**: 사전(Dictionary)을 λŒ€μ‘°ν•˜μ—¬ λ¬Έλ§₯상 μ–΄μƒ‰ν•œ μ˜€νƒ€ μˆ˜μ •. 2. **μ™œ μ€‘μš”ν•œκ°€?**: * μ•„λ‚ λ‘œκ·Έ μ„Έκ³„μ˜ 지식을 λ””μ§€ν„Έ 지식 ꡬ쑰둜 μ΄μ „ν•˜λŠ” 'μž…κ΅¬' 역할을 ν•˜λ©°, 영수증 μžλ™ 처리, μžλ™μ°¨ 번호판 인식 λ“± μ‹€μƒν™œ μžλ™ν™”μ˜ ν•΅μ‹¬μž„. (Efficiency와 μ—°κ²°) ## ⚠️ λͺ¨μˆœ 및 μ—…λ°μ΄νŠΈ (Contradictions & RL Update) - **κ³Όκ±° λ°μ΄ν„°μ™€μ˜ 좩돌**: κ³Όκ±°μ—λŠ” μ •ν•΄μ§„ 폰트만 μ½λŠ” 'ν…œν”Œλ¦Ώ λ§€μΉ­ μ •μ±…'μ΄μ—ˆμœΌλ‚˜, ν˜„λŒ€ 정책은 μ†κΈ€μ”¨λ‚˜ λ³΅μž‘ν•œ λ°°κ²½ 속 κΈ€μžκΉŒμ§€ μ½μ–΄λ‚΄λŠ” 'λ”₯λŸ¬λ‹ 기반 μ§€λŠ₯ν˜• OCR(IDP) μ •μ±…'으둜 진화함(RL Update). - **μ •μ±… λ³€ν™”(RL Update)**: μ΅œκ·Όμ—λŠ” λ‹¨μˆœνžˆ κΈ€μžλ§Œ μ½λŠ” 정책을 λ„˜μ–΄, λ¬Έμ„œμ˜ λ ˆμ΄μ•„μ›ƒκ³Ό μ„œμ‹μ˜ 의미 μ •μ±…κΉŒμ§€ νŒŒμ•…ν•˜λŠ” 'λ¬Έμ„œ 이해(Document AI) μ •μ±…'으둜 ν™•μž₯λ˜μ–΄ λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ˜ 핡심 κΈ°λŠ₯ μ •μ±…μœΌλ‘œ νŽΈμž…λ¨. (Multimodal-Learning와 μ—°κ²°) ## πŸ”— 지식 μ—°κ²° (Graph) - [[Computer Vision]], [[Deep Learning (DL)]], [[Noise]], [[Multimodal-Learning]], [[Efficiency]] - **Modern Tech/Tools**: Tesseract, Google Cloud Vision, Amazon Textract, ABBYY FineReader, LayoutLM. ---