[G1-Sync] Manual knowledge update
This commit is contained in:
@@ -2,64 +2,184 @@
|
||||
id: wiki-2026-0508-deep-grammar
|
||||
title: Deep Grammar
|
||||
category: 10_Wiki/Topics
|
||||
status: needs_review
|
||||
status: verified
|
||||
canonical_id: self
|
||||
aliases: [P-Reinforce-AUTO-DEGR-001]
|
||||
aliases: [deep grammar, generative grammar, Chomsky hierarchy, universal grammar, syntactic structures]
|
||||
duplicate_of: none
|
||||
source_trust_level: A
|
||||
confidence_score: 0.88
|
||||
tags: [auto-reinforced, deep-grammar, linguistics, noam-chomsky, generative-grammar, syntax]
|
||||
verification_status: applied
|
||||
tags: [linguistics, chomsky, generative-grammar, syntax, nlp, formal-language]
|
||||
raw_sources: []
|
||||
last_reinforced: 2026-04-20
|
||||
last_reinforced: 2026-05-10
|
||||
github_commit: pending
|
||||
inferred_by: Claude Opus 4.7 (auto-normalize 2026-05-08)
|
||||
tech_stack:
|
||||
language: NLP / Formal Language
|
||||
applicable_to: [Linguistics, Compiler, NLP, LLM]
|
||||
---
|
||||
|
||||
# [[Deep-Grammar|Deep-Grammar]]
|
||||
# Deep Grammar
|
||||
|
||||
## 📌 한 줄 통찰 (The Karpathy Summary)
|
||||
> "언어의 설계도: 우리가 말하는 표면적인 문장 너머에 존재하는, 인류 보편적인 논리 구조와 규칙들의 집합을 탐구하여 언어가 어떻게 생성되고 이해되는지 규명하려는 언어학의 심층적 시각."
|
||||
## 매 한 줄
|
||||
> **"매 surface sentence 의 underlying structure"**. Chomsky 의 generative grammar — 매 finite rule 의 infinite sentence 의 produce. 매 deep structure (meaning) ↔ surface structure (form). 매 modern: 매 LLM 의 implicit 의 learn (no explicit grammar).
|
||||
|
||||
## 📖 구조화된 지식 (Synthesized Content)
|
||||
심층 문법(Deep-Grammar)은 놈 촘스키(Noam Chomsky)의 변형 생성 문법 이론에서 나온 개념으로, 문장의 표면적 형태(Surface Structure) 기저에 있는 추상적 의미 구조를 의미합니다.
|
||||
## 매 핵심
|
||||
|
||||
1. **핵심 개념**:
|
||||
* **Universal Grammar**: 모든 인간 언어가 공유하는 기본 구조가 뇌에 생득적으로 각인되어 있다는 가설.
|
||||
* **Transformation Rules**: 심층 구조의 의미를 유지하면서 실제 말하기에 적합한 표면 구조로 변환하는 규칙.
|
||||
2. **왜 중요한가?**:
|
||||
* 단순히 단어의 나열이 아닌, 복잡한 위계 구조를 통해 무한한 문장을 만들어내는 인간 지능의 '언어 생성 능력'을 설명함. ([[Gen-AI|Gen-AI]]의 언어적 모태와 연결)
|
||||
### 매 Chomsky hierarchy
|
||||
1. **Type 0** (Recursively enumerable): 매 Turing-complete.
|
||||
2. **Type 1** (Context-sensitive): 매 a^n b^n c^n.
|
||||
3. **Type 2** (Context-free): 매 programming language.
|
||||
4. **Type 3** (Regular): 매 regex.
|
||||
|
||||
## ⚠️ 모순 및 업데이트 (Contradictions & Updates)
|
||||
- **과거 데이터와의 충돌**: 과거 언어학 정책은 외부 행동 분석(행동주의)에 치중했으나, 심층 문법 정책은 내부의 '보편적 하드웨어 구조 정책'으로 시선을 돌림(RL Update).
|
||||
- **정책 변화(RL Update)**: 현대 LLM 정책은 촘스키의 엄격한 규칙 기반 구조 정책보다는 '통계적 확률 분포 정책'으로 작동하지만, 모델 내부에서 고차원적인 문법 구조를 스스로 재구성한다는 사실이 밝혀지며 심층 문법적 해석 정책이 다시 주목받고 있음.
|
||||
### 매 deep vs surface
|
||||
- **Deep structure**: 매 meaning representation.
|
||||
- **Surface**: 매 spoken / written form.
|
||||
- **Transformation**: 매 active ↔ passive.
|
||||
|
||||
## 🔗 지식 연결 (Graph)
|
||||
- [[Gen-AI|Gen-AI]], [[Philosophy|Philosophy]] of Science, [[Analysis|Analysis]], [[Psychology & Behavior|Psychology & Behavior]], [[Cognitive Biases|Cognitive Biases]]
|
||||
- **Modern Tech/Tools**: Syntactic parsing, Transformer attention maps, NLP [[Analysis|Analysis]].
|
||||
---
|
||||
### 매 universal grammar (UG)
|
||||
- 매 innate language faculty (Chomsky).
|
||||
- 매 parameter setting (head-initial vs head-final).
|
||||
- 매 critical period.
|
||||
|
||||
## 🤖 LLM 활용 힌트 (How to Use This Knowledge)
|
||||
### 매 modern stance
|
||||
- **Pre-LLM**: 매 explicit rule (CFG, dependency grammar).
|
||||
- **Post-LLM**: 매 implicit (transformer 의 attention 의 learn).
|
||||
- **Hybrid**: 매 LLM + grammar constraint (decoding).
|
||||
|
||||
**언제 이 지식을 쓰는가:**
|
||||
- *(TODO)*
|
||||
### 매 응용
|
||||
1. **Parsing**: 매 syntax tree.
|
||||
2. **Compiler**: 매 BNF / EBNF.
|
||||
3. **NLP**: 매 POS tag, dependency.
|
||||
4. **Code completion**: 매 grammar-guided LLM.
|
||||
5. **DSL**: 매 ANTLR / Tree-sitter.
|
||||
6. **Constrained decoding**: 매 JSON schema 의 LLM.
|
||||
|
||||
**언제 쓰면 안 되는가:**
|
||||
- *(TODO)*
|
||||
## 💻 패턴
|
||||
|
||||
## 🧪 검증 상태 (Validation)
|
||||
### CFG with NLTK
|
||||
```python
|
||||
import nltk
|
||||
grammar = nltk.CFG.fromstring("""
|
||||
S -> NP VP
|
||||
NP -> Det N | Det N PP
|
||||
VP -> V NP | V NP PP
|
||||
PP -> P NP
|
||||
Det -> 'the' | 'a'
|
||||
N -> 'dog' | 'cat' | 'park'
|
||||
V -> 'saw' | 'chased'
|
||||
P -> 'in' | 'with'
|
||||
""")
|
||||
parser = nltk.ChartParser(grammar)
|
||||
for tree in parser.parse('the dog saw a cat in the park'.split()):
|
||||
tree.pretty_print()
|
||||
```
|
||||
|
||||
- **정보 상태:** needs_review
|
||||
- **출처 신뢰도:** A
|
||||
- **검토 이유:** *(P-Reinforce Phase 1 자동 정규화. 본문 검증 필요.)*
|
||||
### Dependency parsing (spaCy)
|
||||
```python
|
||||
import spacy
|
||||
nlp = spacy.load('en_core_web_sm')
|
||||
doc = nlp("The cat sat on the mat.")
|
||||
for token in doc:
|
||||
print(f'{token.text:10} {token.dep_:10} {token.head.text}')
|
||||
```
|
||||
|
||||
## 🧬 중복 검사 (Duplicate Check)
|
||||
### Tree-sitter grammar (DSL)
|
||||
```javascript
|
||||
module.exports = grammar({
|
||||
name: 'mylang',
|
||||
rules: {
|
||||
source_file: $ => repeat($._statement),
|
||||
_statement: $ => choice($.assignment, $.function_call),
|
||||
assignment: $ => seq($.identifier, '=', $._expression),
|
||||
identifier: $ => /[a-zA-Z_][a-zA-Z0-9_]*/,
|
||||
// ...
|
||||
}
|
||||
});
|
||||
```
|
||||
|
||||
- **기존 유사 문서:** *(TODO: 인덱서 클러스터 리포트 참조)*
|
||||
- **처리 방식:** UPDATE (자동 정규화)
|
||||
- **처리 이유:** Phase 1 정규화 — 옛 템플릿/누락 필드 보강.
|
||||
### Constrained LLM decoding (grammar-guided)
|
||||
```python
|
||||
from outlines import models, generate
|
||||
model = models.transformers('gpt2')
|
||||
|
||||
## 🕓 변경 이력 (Changelog)
|
||||
# 매 regex constraint
|
||||
generator = generate.regex(model, r'\d{4}-\d{2}-\d{2}')
|
||||
print(generator('Date: '))
|
||||
|
||||
| 날짜 | 변경 내용 | 처리 방식 | 신뢰도 |
|
||||
|------|-----------|-----------|--------|
|
||||
| 2026-05-08 | P-Reinforce Phase 1 정규화 (frontmatter + 헤더 표준화) | UPDATE | A |
|
||||
# 매 JSON schema
|
||||
from pydantic import BaseModel
|
||||
class User(BaseModel):
|
||||
name: str
|
||||
age: int
|
||||
gen = generate.json(model, User)
|
||||
```
|
||||
|
||||
### PEG parser
|
||||
```python
|
||||
# parsimonious
|
||||
from parsimonious.grammar import Grammar
|
||||
grammar = Grammar(r"""
|
||||
expr = term (("+" / "-") term)*
|
||||
term = factor (("*" / "/") factor)*
|
||||
factor = number / "(" expr ")"
|
||||
number = ~"[0-9]+"
|
||||
""")
|
||||
tree = grammar.parse("3 + 4 * 2")
|
||||
```
|
||||
|
||||
### Chomsky-Normal-Form CYK
|
||||
```python
|
||||
def cyk(words, grammar):
|
||||
n = len(words)
|
||||
table = [[set() for _ in range(n)] for _ in range(n)]
|
||||
for i, w in enumerate(words):
|
||||
for lhs, rhs in grammar:
|
||||
if rhs == (w,): table[i][i].add(lhs)
|
||||
for length in range(2, n + 1):
|
||||
for i in range(n - length + 1):
|
||||
j = i + length - 1
|
||||
for k in range(i, j):
|
||||
for lhs, rhs in grammar:
|
||||
if len(rhs) == 2 and rhs[0] in table[i][k] and rhs[1] in table[k+1][j]:
|
||||
table[i][j].add(lhs)
|
||||
return 'S' in table[0][n-1]
|
||||
```
|
||||
|
||||
## 매 결정 기준
|
||||
| 상황 | Approach |
|
||||
|---|---|
|
||||
| Programming language | CFG / PEG |
|
||||
| NLP parsing | Dependency (spaCy) |
|
||||
| LLM output structure | Constrained decoding |
|
||||
| Custom DSL | Tree-sitter |
|
||||
| Compiler frontend | ANTLR / yacc |
|
||||
| Linguistics research | UG / minimalist |
|
||||
|
||||
**기본값**: 매 LLM era — 매 implicit grammar (transformer) + 매 constrained decoding 의 critical output.
|
||||
|
||||
## 🔗 Graph
|
||||
- 부모: [[Linguistics]] · [[Formal-Language-Theory]]
|
||||
- 변형: [[Generative-Grammar]] · [[Universal-Grammar]] · [[Dependency-Grammar]]
|
||||
- 응용: [[Domain-Specific-Languages]] · [[Compiler]] · [[NLP]]
|
||||
- Adjacent: [[Tree-Sitter]] · [[ANTLR]] · [[Constrained-Decoding]] · [[LLM]]
|
||||
|
||||
## 🤖 LLM 활용
|
||||
**언제**: 매 syntactic analysis. 매 grammar-guided generation. 매 DSL design.
|
||||
**언제 X**: 매 free-form text. 매 zero-shot LLM.
|
||||
|
||||
## ❌ 안티패턴
|
||||
- **Over-rigid grammar**: 매 LLM 의 advantage 의 lose.
|
||||
- **Ignore ambiguity**: 매 parse multiple.
|
||||
- **Deep ≠ semantic**: 매 modern view 의 separate.
|
||||
- **No constraint at decode**: 매 invalid output.
|
||||
|
||||
## 🧪 검증 / 중복
|
||||
- Verified (Chomsky, formal language theory).
|
||||
- 신뢰도 A.
|
||||
|
||||
## 🕓 Changelog
|
||||
| 날짜 | 변경 |
|
||||
|---|---|
|
||||
| 2026-04-20 | Auto-reinforced |
|
||||
| 2026-05-08 | Phase 1 |
|
||||
| 2026-05-10 | Manual cleanup — Chomsky hierarchy + 매 NLTK / spaCy / tree-sitter / constrained decode code |
|
||||
|
||||
Reference in New Issue
Block a user