2nd/10_Wiki/Topics/AI/Parameter-Sharing.md at 26e19dae544b56fc0b3945f6298bb5f477d67c8e

bluemsi/2nd

Fork 0

Files

T

Antigravity Agent 26e19dae54 feat: Knowledge Gardening Milestone 380 (Batches #17-19)

2026-04-26 19:56:45 +09:00

2.5 KiB

Raw Blame History

id, category, confidence_score, tags, last_reinforced

📌 한 줄 통찰 (The Karpathy Summary)

"데이터의 위치나 시점에 상관없이 동일한 '특징 추출기'를 반복 사용하여, 모델의 덩치는 줄이고 지능의 보편성은 높여라" — 신경망의 서로 다른 부분에서 동일한 가중치(Weight)를 공유함으로써 학습해야 할 파라미터 수를 획기적으로 줄이고 일반화 성능을 높이는 기법.

📖 구조화된 지식 (Synthesized Content)

추출된 패턴: "Structural Symmetry and Translation Invariance" — 이미지는 어느 위치에서든 같은 필터로 특징을 뽑을 수 있고(CNN), 문장은 어느 시점에서든 같은 논리로 다음을 예측할 수 있다(RNN)는 구조적 가정을 바탕으로 가중치를 묶어버리는(Weight Tying) 패턴.
주요 적용 사례:
- CNN (Convolutional Neural Networks): 하나의 필터(커널)가 이미지 전체를 훑으며 동일한 가중치로 연산. 공간적 불변성 확보.
- RNN (Recurrent Neural Networks): 매 시간 단계(Time step)마다 동일한 전이 행렬을 사용하여 시퀀스 데이터 처리.
- Siamese Networks: 두 개의 입력을 정확히 동일한 가중치를 가진 네트워크에 통과시켜 비교.
의의: 과적합(Overfitting)을 방지하고 메모리 사용량을 절감하며, 데이터의 대칭성이나 반복되는 패턴을 포착하는 데 최적화된 도구.

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

과거 데이터와의 충돌: 모든 파라미터가 자유로워야 더 똑똑할 것이라는 초기 직관을 깨고, 오히려 파라미터를 강제적으로 공유했을 때 모델이 데이터의 핵심적인 불변 특징(Invariant features)을 더 잘 배운다는 사실이 딥러닝의 폭발적 성장을 이끌었음.
정책 변화: Antigravity 프로젝트는 멀티모달 에이전트 설계 시, 서로 다른 입력(이미지, 텍스트)에서 공통된 의미 공간을 추출하기 위해 공유된 가중치 층을 활용하는 임베딩 아키텍처를 적용함.

2.5 KiB Raw Blame History

Parameter Sharing (파라미터 공유)

📌 한 줄 통찰 (The Karpathy Summary)

📖 구조화된 지식 (Synthesized Content)

⚠️ 모순 및 업데이트 (Contradictions & RL Update)

🔗 지식 연결 (Graph)

2.5 KiB

Raw Blame History