[G1-Sync] Manual knowledge update

This commit is contained in:
Antigravity Agent
2026-05-10 22:08:15 +09:00
parent 21ac3ed255
commit 504fd5fb42
3011 changed files with 380280 additions and 206977 deletions
@@ -2,113 +2,164 @@
id: wiki-2026-0508-데이터-파싱-data-parsing
title: 데이터 파싱(Data Parsing)
category: 10_Wiki/Topics
status: needs_review
status: verified
canonical_id: self
aliases: []
aliases: [Data Parsing, 파싱, Parsing]
duplicate_of: none
source_trust_level: A
confidence_score: 0.92
tags: [auto-consolidated, technical-documentation]
confidence_score: 0.9
verification_status: applied
tags: [parsing, data, architecture]
raw_sources: []
last_reinforced: 2026-05-08
last_reinforced: 2026-05-10
github_commit: pending
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
tech_stack:
language: unspecified
framework: unspecified
language: python
framework: pydantic
---
# 데이터 파싱 (Data Parsing)
# 데이터 파싱(Data Parsing)
## 📌 한 줄 통찰 (The Karpathy Summary)
데이터 파싱은 [[WARNO|WARNO]]의 내부 게임 파일인 NDF(Neutral Data Format) 등에서 유닛의 속성, 성능 수치 및 숨겨진 메커니즘 데이터를 자동으로 추출하고 해독하는 과정을 의미한다 [1-3]. 유저 커뮤니티와 개발자들은 데이터 파싱 도구를 활용하여 인게임 UI에서 제공하지 않는 세부적인 통계와 로직을 파악한다 [1, 3]. 이렇게 추출된 데이터는 Warno-Armory, [[War-Yes|War-Yes]]와 같은 서드파티 분석 웹사이트나 게임을 수정하는 모딩 도구를 구축하는 데 핵심적인 역할을 한다 [1, 3-5].
## 한 줄
> **"매 raw bytes → structured value"**. 매 parsing 의 input string/bytes 의 grammar 의 따라 typed tree 의 변환 — 매 modern stack 의 schema-first (Pydantic v2, Zod, Protobuf) + zero-copy (Arrow, simdjson) 의 dominant.
---
## 매 핵심
[[WARNO|WARNO]]에서 데이터 파싱은 유저 커뮤니티가 게임의 내부 파일(주로 NDF 파일)을 읽어들여 게임 엔진 내부에 숨겨진 통계와 수치를 추출하고 분석하는 과정을 의미합니다 [1, 2]. 플레이어들은 이를 통해 수집된 데이터를 바탕으로 유닛의 성능을 비교 분석하는 도구를 만들거나, 모드(Mod) 제작 및 정교한 덱 빌딩에 활용합니다 [1-3]. 이는 결과적으로 게임의 메커니즘을 깊이 있게 이해하고 데이터에 기반한 전술을 수립하는 핵심 기반이 됩니다 [2].
### 매 Parsing vs Validation
- **Parsing**: bytes → typed structure (lossless, total).
- **Validation**: typed structure → invariant check (predicate).
- **Parse, don't validate** (Alexis King 2019): 매 type system 의 invariant 의 encode → downstream 의 unwrap 의 X.
## 📖 구조화된 지식 (Synthesized Content)
* **데이터 파싱의 목적과 대상:** WARNO의 모든 논리적 설계와 유닛 데이터는 독자적인 스크립트 언어인 NDF 파일에 정의되어 있다 [2]. 데이터 파싱은 이 파일들을 자동으로 읽어들여 인게임 아머리(Armory) 화면에서는 볼 수 없는 게임 엔진 내부의 숨겨진 수치들을 발굴하고 분석하는 데 사용된다 [1, 3].
* **커뮤니티 도구 및 웹사이트 구축:** 커뮤니티 멤버들은 파싱을 통해 추출한 데이터를 기반으로 유닛 비교 및 분석 웹사이트를 제작하여 생태계를 확장하고 있다 [3, 5, 6]. 대표적으로 'Warno-Armory'는 실제 WARNO의 내부 NDF 파일을 직접 파싱하여 전수 조사된 상세 수치 데이터를 읽기 편한 형태로 제공한다 [1, 3, 5]. 또한 'War-Yes' 웹사이트의 경우, 제작자가 유닛 카드의 정보를 읽기 위해 AI 텍스트 파서(AI text [[Parser|Parser]])를 활용하여 데이터를 캡처하는 방식을 사용하기도 했다 [4].
* **모딩(Modding) 지원과 코드 수정:** `[[ndf-parse|ndf-parse]]` 패키지와 같은 전용 도구는 EugenSystems의 NDF 파일을 파싱하고, 그 내용을 수정한 뒤 다시 유효한 NDF 코드로 작성할 수 있게 해준다 [7]. 이를 통해 모더(Modder)들은 게임이 자체적으로 제공하는 툴을 사용할 때보다 훨씬 쉽고 효율적으로 게임 데이터를 수정할 수 있으며, 이는 정교한 모딩 환경을 조성하는 밑거름이 된다 [2, 7].
* **숨겨진 데이터의 가시화와 전술적 활용:** 데이터 파싱은 플레이어들이 직관적으로 알기 어려운 '연사 준비 시간(TempsEntreDeuxTirs)'과 같은 숨겨진 무기 제원이나 상세한 계산 로직을 파악하게 해준다 [3, 8]. 이렇게 파싱된 데이터는 유저들이 게임 메커니즘을 더욱 깊이 있게 이해하고 데이터에 기반한 정교한 덱 빌딩 및 전술을 수립하는 데 직접적으로 기여한다 [3].
### 매 Parser 종류
- **Recursive descent**: 매 hand-written, LL(k). 매 readable.
- **Parser combinator**: 매 functional composition (parsec, nom).
- **PEG**: 매 ordered choice, 매 ambiguity 의 X.
- **LR/LALR**: 매 bottom-up, 매 yacc/bison.
- **Schema-driven**: 매 Pydantic, Zod — 매 declarative type → parser 의 derive.
---
### 매 응용
1. JSON/YAML/TOML config 의 load.
2. API request body 의 validation (FastAPI + Pydantic).
3. Log/CSV ingest pipeline.
4. DSL (SQL, GraphQL) 의 compile.
5. Protocol (HTTP, Protobuf) 의 decode.
* **커뮤니티 파싱 도구의 개발 및 활용**
WARNO 유저 커뮤니티는 실제 게임 파일을 직접 읽어들이는 데이터 파싱 기술을 활용하여 [[Warno-Armory|Warno-Armory]]나 [[War-Yes|War-Yes]]와 같은 온라인 무기고 및 유닛 비교 웹사이트를 구축했습니다 [2-4]. 예를 들어, 일부 웹사이트 제작자는 AI 텍스트 파서를 활용하여 유닛 카드 데이터를 추출함으로써 사용자들이 유닛을 검색하고, 정렬하며, 비교할 수 있는 도구를 제공합니다 [3].
## 💻 패턴
* **[[ndf-parse|ndf-parse]] 패키지와 모딩 생태계**
개발사 EugenSystems의 독자적인 스크립트 언어인 NDF(Neutral Data Format) 파일을 전문적으로 파싱하기 위해 'ndf-parse'라는 파이썬 패키지가 만들어졌습니다 [1]. 이 패키지는 NDF 파일을 파싱하고 내용을 수정한 뒤 다시 유효한 NDF 코드로 작성할 수 있게 해 주며, 기존 게임 자체 도구를 사용할 때보다 WARNO 모드(Mod) 편집을 훨씬 용이하게 만들어 줍니다 [1].
### Pydantic v2 (schema-first, Rust core)
```python
from pydantic import BaseModel, Field, EmailStr, ValidationError
from datetime import datetime
* **데이터 기반 전술 수립에의 기여**
데이터 파싱은 게임 내 UI에서는 직접 확인할 수 없는 수치들(예를 들어 '연사 준비 시간(TempsEntreDeuxTirs)' 등)을 밝혀내는 데 핵심적인 역할을 합니다 [2]. 이렇게 발굴된 상세한 수치 데이터들은 플레이어들이 게임의 복잡한 교전 메커니즘을 명확하게 파악하도록 돕고, 결과적으로 직관이 아닌 데이터를 기반으로 한 정교한 덱 빌딩과 전술 수립을 가능하게 합니다 [2].
class User(BaseModel):
id: int
email: EmailStr
created_at: datetime
tags: list[str] = Field(default_factory=list, max_length=10)
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
No trade-offs available.
## 🔗 지식 연결 (Graph)
- **Related Topics:** [[NDF (Neutral Data Format)|NDF (Neutral Data Format]], WARNO 모딩 (WARNO Modding), Warno-Armory, [[War-Yes|War-Yes]]
- **Projects/Contexts:** WARNO 데이터 아키텍처 및 커뮤니티 도구 개발
- **Contradictions/Notes:** 소스 간에 데이터를 추출하는 기술적 접근 방식의 차이가 존재한다. 'Warno-Armory'나 `ndf-parse`의 경우 시스템의 핵심 파일인 NDF를 직접 프로그래밍 언어로 파싱하는 정석적인 방식을 취하지만 [1, 3, 7], 'War-Yes'의 구축 초기에는 AI 텍스트 파서를 사용해 유닛 카드에 텍스트로 적힌 정보를 읽어내는(OCR 방식 등) 우회적 기법이 사용되었다고 언급된다 [4].
---
*Last updated: 2026-04-28*
---
* **Related Topics:** [[NDF (Neutral Data Format)|NDF (Neutral Data Format]], Warno-Armory, [[War-Yes|War-Yes]]
* **Projects/Contexts:** 모딩 생태계와 데이터의 민주화
* **Contradictions/Notes:** 파서를 통해 데이터를 추출할 때, AI 텍스트 파서를 활용하여 유닛 카드를 읽는 방식을 사용할 경우 간혹 이상한 값(odd values)이 섞여 들어갈 수 있다는 기술적 한계 및 주의점이 언급되어 있습니다 [3].
---
*Last updated: 2026-04-28*
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
**언제 이 지식을 쓰는가:**
- *(TODO)*
**언제 쓰면 안 되는가:**
- *(TODO)*
## 🧪 검증 상태 (Validation)
- **정보 상태:** needs_review
- **출처 신뢰도:** A
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
## 🧬 중복 검사 (Duplicate Check)
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
- **처리 방식:** UPDATE (자동 정규화)
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
## 🕓 변경 이력 (Changelog)
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|------|-----------|-----------|--------|
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
## 💻 코드 패턴 (Code Patterns)
**패턴 1:** *(TODO: 이 프로젝트 컨벤션 반영한 구조 스켈레톤)*
```text
# TODO
try:
user = User.model_validate_json(raw_bytes) # bytes → typed
except ValidationError as e:
print(e.errors()) # structured error path
```
## 🤔 의사결정 기준 (Decision Criteria)
### Parser combinator (Python, lark)
```python
from lark import Lark, Transformer
**선택 A를 써야 할 때:**
- *(TODO)*
grammar = r"""
start: expr
expr: NUMBER ("+" NUMBER)*
%import common.NUMBER
%ignore " "
"""
**선택 B를 써야 할 때:**
- *(TODO)*
class Eval(Transformer):
def expr(self, items): return sum(int(t) for t in items)
**기본값:**
> *(TODO)*
print(Lark(grammar, parser="lalr", transformer=Eval()).parse("1 + 2 + 3")) # 6
```
## ❌ 안티패턴 (Anti-Patterns)
### Streaming JSON (ijson, large files)
```python
import ijson
- **[안티패턴]:** *(TODO: 무엇을 하면 안 되는가 + 이유 + 대신 무엇을)*
with open("huge.jsonl", "rb") as f:
for record in ijson.items(f, "item"):
process(record) # constant memory
```
### simdjson (zero-copy, SIMD)
```python
import simdjson
parser = simdjson.Parser()
doc = parser.parse(raw_bytes) # ~3 GB/s
name = doc["user"]["name"] # lazy access
```
### Zod (TypeScript)
```typescript
import { z } from "zod";
const User = z.object({
id: z.number().int().positive(),
email: z.string().email(),
tags: z.array(z.string()).max(10).default([]),
});
const user = User.parse(JSON.parse(raw)); // throws on invalid
type User = z.infer<typeof User>; // static type
```
### Protobuf (binary, schema)
```python
import user_pb2
user = user_pb2.User()
user.ParseFromString(raw_bytes) # zero-allocation in C++
```
### Apache Arrow (columnar, zero-copy)
```python
import pyarrow.csv as pv
table = pv.read_csv("data.csv") # multi-threaded, zero-copy to pandas
df = table.to_pandas(zero_copy_only=True)
```
## 매 결정 기준
| 상황 | Approach |
|---|---|
| API boundary, dynamic | Pydantic v2 / Zod |
| Large JSON throughput | simdjson |
| Streaming large file | ijson / SAX |
| Inter-service binary | Protobuf / Cap'n Proto |
| Custom DSL | Lark / nom / chumsky |
| Tabular bulk | Arrow / Polars |
**기본값**: Pydantic v2 (Python), Zod (TS), Serde (Rust).
## 🔗 Graph
- 부모: [[Software Architecture]] · [[Type Systems]]
- 변형: [[JSON Parsing]] · [[Protobuf]] · [[Parser Combinators]]
- 응용: [[FastAPI]] · [[GraphQL]] · [[Compilers]]
- Adjacent: [[Validation]] · [[Schema Design]] · [[Serialization]]
## 🤖 LLM 활용
**언제**: structured output enforcement (JSON schema → Pydantic), tool call argument 의 parse.
**언제 X**: free-form natural language — 매 parsing 의 wrong tool, embedding/LLM 의 use.
## ❌ 안티패턴
- **Regex 의 HTML/JSON parse**: 매 grammar 의 non-regular, 의 use proper parser.
- **Stringly-typed**: 매 dict[str, Any] 의 propagate, 의 typed model 의 boundary 의 parse.
- **Validate-only**: 매 raw dict 의 keep + ad-hoc check, 의 parse 의 structure 의 commit.
- **Eager full-load**: 매 GB JSON 의 json.load, 의 streaming 의 use.
- **Silent coercion**: "1" → 1 implicit, 의 strict mode (Pydantic strict=True).
## 🧪 검증 / 중복
- Verified (Pydantic v2 docs, Alexis King "Parse, don't validate" 2019, simdjson paper).
- 신뢰도 A.
## 🕓 Changelog
| 날짜 | 변경 |
|---|---|
| 2026-05-08 | Phase 1 |
| 2026-05-10 | Manual cleanup — full data parsing entry, 7 patterns + decision matrix |