docs: establish knowledge extraction protocol and update inventory (2026-04-29)

2026-04-29 18:22:29 +09:00
parent 22723f7912
commit ec2be970db
4 changed files with 23 additions and 51 deletions
@@ -0,0 +1,23 @@
+# 📑 지식 자산 증분 추출 프로토콜 (Incremental Extraction Protocol)
+
+## 1. 개요 (Overview)
+본 문서는 Connect AI 시스템의 'Thinking Mode'에서 표시되는 지식 자산을 로컬 위키 시스템으로 안전하게 이식하고, 향후 중복 없이 새로운 데이터만 필터링하여 가져오기 위한 운영 표준을 정의한다.
+
+## 2. 데이터 베이스라인 (Baseline)
+- **추출 일시**: 2026-04-29
+- **추출 수량**: 1,535개 (Knowledge Assets)
+- **추출 로직**: `E:\Wiki\2nd\10_Wiki\Topics` 내 마크다운 파일 중 알파벳 순 상위 1,535개 선별
+- **인벤토리**: [knowledge_inventory_1535.json](file:///E:/Wiki/2nd/10_Wiki/Skills/knowledge_inventory_1535.json)
+
+## 3. 필터링 규칙 (Filtering Rules)
+향후 재추출 요청 시 다음의 로직을 적용한다:
+1.  **경로 대조**: `knowledge_inventory_1535.json`에 명시된 `RelativePath`와 동일한 파일은 무시한다.
+2.  **신규성 판정**: 기존 인벤토리에 존재하지 않는 새로운 파일명이 발견되거나, 동일 파일명이라도 수정 일시(`LastWriteTime`)가 최신인 경우만 '신규 지식'으로 간주한다.
+3.  **8대 카테고리 유지**: 추출 시 원본의 8대 분류 체계를 유지하며 `00_Raw` 폴더로 이식한다.
+
+## 4. 실행 가이드 (Execution Guide)
+- **명령어**: `python E:\Wiki\Wonseok_AI_original\scratch\incremental_sync.py` (차기 구현 예정)
+- **주의 사항**: 원본 `Topics` 폴더의 파일 개수가 1,535개를 초과하여 증가하더라도, 인벤토리에 기록된 파일들은 중복으로 가져오지 않도록 엄격히 제한한다.
+
+---
+🫡 **"지식은 축적될 때 비로소 힘을 발휘한다."** - AI 개발부장 코다리 승인 🚩🐟
@@ -1,50 +0,0 @@
---
-type: technical_report
-status: active
-tags: [Automation, Knowledge-Management, Wikification, Delta-Filtering, Python]
-project: P-Reinforce Knowledge Mesh
-date: 2026-04-29
-created: 2026-04-29
---
-
-# 🚩 대규모 지식 위키화 및 델타 필터링 운영 프로토콜 (V1.0)
-
-## 1. 개요 (Overview)
-본 문서는 2026년 4월 29일 수행된 1,535개의 대규모 지식 자산 위키화 작업을 바탕으로 정립된 **'증분 지식 흡수(Incremental Knowledge Ingestion)'** 프로세스를 규정한다. 본 프로토콜의 핵심은 중복 작업을 배제하고 새로운 지식만을 선별하여 시스템에 병합하는 효율성 극대화에 있다.
-
-## 2. 지식 분류 및 배치 로직 (Categorization Logic)
-지식은 중앙 저장소인 `Topics`에 우선 배치되며, DNA(내용 및 경로) 분석을 통해 4개 핵심 부서로 복제 배치된다.
-
-| 카테고리 | 핵심 키워드 (Classification Keywords) | 배치 경로 |
-| :--- | :--- | :--- |
-| **🎨 Art** | UI, UX, Visual, Design, Graphic, Asset, Color, Icon, Rendering | `Topics_Art` |
-| **📈 Biz** | Business, Strategy, Market, PM, Management, Revenue, Partnership | `Topics_Biz` |
-| **✍️ Blog** | Story, Narrative, Log, DevLog, Retrospective, Content | `Topics_Blog` |
-| **🎮 GD** | Mechanics, Balance, Level, Stage, Boss, Combat, Skill, Progression | `Topics_GD` |
-
-## 3. 차기 작업 시 델타 필터링 전략 (Delta Filtering Strategy)
-다음에 동일한 지식 추출 및 위키화 요청 시, 아래의 3단계 필터링을 통해 **'새로운 지식'**만 처리한다.
-
-1.  **파일명 기반 1차 필터링**:
-    - `10_Wiki\Topics` 폴더 내의 파일 목록을 Indexing하여, 새로 유입된 Raw 파일명과 대조.
-    - 동일 파일명이 존재할 경우 즉시 무시(Skip).
-2.  **지식 자산 무결성 검사**:
-    - 파일명은 같으나 내용이 수정되었을 가능성을 대비하여, 필요 시 파일 해시(Hash) 비교를 수행.
-3.  **사후 자동 정리 (Auto-Cleanup)**:
-    - 위키화 및 배치가 완료된 Raw 파일은 중복 방지를 위해 `00_Raw`에서 영구 삭제.
-
-## 4. 자동화 스크립트 가이드 (Automation Guide)
-`scratch\organize_knowledge.py` 스크립트를 기반으로 운영하며, 필터링 로직을 추가하여 업데이트한다.
-
-```python
-# Future Delta Filtering Logic (Example)
-existing_nodes = set(os.listdir(TARGET_TOPICS))
-new_assets = [f for f in os.listdir(SOURCE) if f not in existing_nodes]
-# Process only new_assets
-```
-
-## 5. 결론 및 향후 방향
-본 프로토콜을 통해 우리 조직은 수만 개의 지식 파편 속에서도 **'무엇이 새로운 정보인가'**를 즉각 식별할 수 있는 능력을 갖추게 되었다. 시스템이 곧 지식이며, 기록이 곧 자산이다.
-
---
-"조직이 시스템이다. 시스템이 지식이다." - 코다리 🫡🚩🐟
@@ -1,6 +1,5 @@
 # Index: Technical_Reports

 ## 📝 Documents
- [[2026-04-29_Massive_Knowledge_Wikification_and_Delta_Filtering_Protocol|2026.04.29 대규모 지식 위키화 및 델타 필터링 프로토콜]]
 - [[2026-04-22_Boss_Battle_System_Implementation]]
 - [[2026-04-22_Boss_Spawn_Logic_Fix]]