Files
2nd/10_Wiki/Topics/AI_and_ML/ABA.md
T
koriweb d8a80f6272 chore(wiki): dangling 링크 canonical 정규화 (768파일/1200건)
이름만 다른(표기 변형) [[위키링크]]를 대상 문서의 canonical 제목으로 치환해
끊겼던 1,200개 링크를 연결. 제목/파일명 정규화 일치만 적용하고 별칭 매칭은
과병합 위험으로 제외(애매성 가드). 원본은 _link_reconcile_backup/ 에 백업.
도구: Datacollect/scripts/link_reconcile_apply.mjs

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-08 12:24:15 +09:00

11 KiB

id, title, category, status, canonical_id, aliases, duplicate_of, source_trust_level, confidence_score, verification_status, tags, raw_sources, last_reinforced, github_commit, inferred_by, tech_stack
id title category status canonical_id aliases duplicate_of source_trust_level confidence_score verification_status tags raw_sources last_reinforced github_commit inferred_by tech_stack
wiki-2026-0508-aba ABA (Applied Behavior Analysis) 10_Wiki/Topics verified self
Applied Behavior Analysis
응용 행동 분석
ABC analysis
behavior modification
operant conditioning
none B 0.85 conceptual
psychology
behavior-analysis
reinforcement
learning
autism-therapy
reward-design
game-design
ai-alignment
2026-05-09 pending Claude Opus 4.7 (manual cleanup 2026-05-09)
language applicable_to
psychology / process
Education
Game Design
AI Alignment
Therapy

ABA (Applied Behavior Analysis)

📌 한 줄 통찰 (The Karpathy Summary)

"행동 = 환경 + 결과 의 함수". ABC (Antecedent → Behavior → Consequence) framework + reinforcement schedule. 자폐 치료 의 root, 게임 progression / AI reward design / habit formation 의 base. Skinner 의 operant conditioning 의 applied science.

📖 구조화된 지식 (Synthesized Content)

핵심 framework: ABC Analysis

매 behavior 의 분석:

  • Antecedent (A): 매 행동 의 trigger / cue.
  • Behavior (B): 관찰 가능 한 action.
  • Consequence (C): 매 action 의 result.

매 cycle 의 repeat = behavior 의 form / reinforce.

예:

  • A: phone 의 notification (trigger).
  • B: phone 의 unlock + scroll.
  • C: dopamine hit (reward).

→ 매 cycle 가 habit form. 끊으려면 A / C 의 control.

Reinforcement (강화) types

  1. Positive reinforcement: 매 desired behavior 후 reward 추가 → frequency ↑.
  2. Negative reinforcement: 매 desired behavior 후 unpleasant 제거 → frequency ↑.
  3. Positive punishment: 매 unwanted behavior 후 unpleasant 추가 → frequency ↓.
  4. Negative punishment: 매 unwanted behavior 후 pleasant 제거 → frequency ↓.

→ Reinforcement (positive/negative) 가 behavior ↑. → Punishment 가 behavior ↓.

Reinforcement Schedule (Skinner)

Schedule 매 reward Effect
Continuous (FR1) 매번 빠른 학습, 빠른 extinction
Fixed Ratio (FR-N) 매 N 번 째 매 보상 후 짧은 break
Variable Ratio (VR) 평균 N 번 마다 가장 강력 (gambling, gacha)
Fixed Interval (FI) 매 X 시간 마다 마감 직전 spike
Variable Interval (VI) 평균 X 시간 마다 일정 rate

VR = 가장 addiction 친화. Slot machine / loot box.

핵심 technique

  • Prompting: 매 user 의 desired behavior 의 boost (verbal / visual / physical).
  • Fading: 매 prompt 의 점차 제거.
  • Shaping: 작은 step 의 사이 reinforcement (큰 goal 까지).
  • Chaining: 매 step 의 sequence 학습.
  • Token economy: 매 desired behavior 의 token (later 의 reward 와 교환).
  • Time-out: punishment 식.
  • Differential reinforcement: alternative behavior 의 reinforce (DRA).

응용

  1. 자폐 / 발달 장애 치료: ABA 가 가장 mainstream therapy. 매 task 의 break-down, prompt + fade, shaping.
  2. 교육: 매 학습 의 token / reward / progression.
  3. 습관 형성: BJ Fogg 의 Tiny Habits, Atomic Habits (Clear).
  4. 조직 관리: 매 employee 의 reinforcement schedule.
  5. Game design: 매 progression / loot / level. (Variable ratio 의 "engagement" engine).
  6. AI Alignment: RLHF 의 reward model 가 ABA 식.
  7. Behavioral economics: nudge / choice architecture.

매 game design 의 ABA mapping

ABA Game
Antecedent Trigger (광고, friend invite, push notification)
Behavior Login + play
Consequence XP + gold + dopamine
VR schedule Loot box, gacha (가장 effective + 윤리 risk)
Token economy In-game currency
Shaping Tutorial → easy → hard progression
Chaining Quest line
Prompting Tutorial popup, hint
Fading Tutorial 가 점차 사라짐

→ "Engaging" game 의 매 mechanism 의 ABA root.

AI Alignment 의 ABA

  • RLHF: human feedback (consequence) 가 매 model behavior reinforce.
  • Reward hacking: model 의 unintended behavior. ABA 의 "behavioral function" analysis.
  • Constitutional AI: AI 자체 가 matching reward / punish.

→ Reward 의 design 의 어려움 = ABA 의 한 challenge.

윤리적 controversies

  • 자폐 치료 의 ABA: traditional ABA 가 controversial. 매 자폐인 의 advocacy group 가 "neurotypical 의 강요" 비판.
  • Aversive techniques: 옛 ABA 가 punishment 사용. Modern = positive only.
  • Goal 의 question: "compliance" vs "autonomy" 의 trade-off.

💻 패턴 (응용)

Habit formation (Atomic Habits 식)

1. Cue (Antecedent): 명시적 (alarm, location).
2. Craving (motivation): "이 가 어떤 reward?".
3. Response (Behavior): 작은 first step (2-min rule).
4. Reward (Consequence): immediate, satisfying.

→ 매 component 의 design.
// 예: 매일 운동
const habit = {
  cue: 'Wake up + put on running shoes (visible)',
  craving: 'Feel energized for the day',
  response: '5-min walk (start small)',
  reward: 'Track + share with friend (social)',
};

Game progression (shaping)

// 매 level 의 difficulty 의 점진
const levels = [
  { difficulty: 1, mechanic: 'walk + jump' },
  { difficulty: 2, mechanic: '+ enemy' },
  { difficulty: 3, mechanic: '+ boss' },
  { difficulty: 4, mechanic: '+ environment hazard' },
];

// 매 step 의 success 후 next 의 reinforcement.

Token economy

class TokenSystem {
  private tokens = new Map<string, number>();
  
  reinforce(userId: string, behavior: string, value: number) {
    // 매 desired behavior 의 token.
    this.tokens.set(userId, (this.tokens.get(userId) ?? 0) + value);
    log({ userId, behavior, value });
  }
  
  redeem(userId: string, item: Item) {
    if ((this.tokens.get(userId) ?? 0) >= item.cost) {
      this.tokens.set(userId, this.tokens.get(userId)! - item.cost);
      give(userId, item);
    }
  }
}

// User 의 매 progress = token.
// 매 reward 의 redeem = token.

Variable ratio (윤리적 주의)

// 매 action 의 random reward (gambling-like).
function rollLoot(): Reward {
  const r = Math.random();
  if (r < 0.001) return LEGENDARY;   // 0.1%
  if (r < 0.01) return EPIC;          // 1%
  if (r < 0.1) return RARE;            // 10%
  return COMMON;
}

// VR 가 strongest reinforcement 가, addiction risk.
// 매 country 의 gambling regulation + minor protection.

Differential reinforcement (DRA — alternative behavior)

// User 의 매 unwanted behavior (예: 욕설) 의 ignore.
// Alternative (constructive comment) 의 reward.

if (isDesired(behavior)) {
  reward(user);
} else if (isUnwanted(behavior)) {
  ignore();  // 또는 cooldown.
}

→ Punishment 보다 효과.

Fading (tutorial)

class Tutorial {
  private level = 0;   // 0 = full prompt, 1 = hint, 2 = no help.
  
  guide(action: string) {
    if (this.level === 0) showFullInstruction(action);
    else if (this.level === 1) showHint(action);
    // level 2 = silence.
  }
  
  onSuccess() {
    if (this.level < 2) this.level++;
  }
  
  onFailure() {
    if (this.level > 0) this.level--;
  }
}

Shaping (incremental)

# RL 의 reward shaping 식
def reward(state, action, next_state):
    base_reward = task_reward(next_state)
    
    # Sub-goal 의 reward (shaping)
    if reaches_milestone_1(next_state):
        base_reward += 5
    if reaches_milestone_2(next_state):
        base_reward += 10
    # ...
    
    return base_reward

→ Sparse reward 의 dense 화.

🤔 의사결정 기준 (Decision Criteria)

작업 추천 ABA technique
New skill Shaping + chaining
Habit (good) Cue + small action + immediate reward
Habit (bad) Antecedent removal + DRA
Engagement Variable ratio (윤리적 주의)
Education Token economy + fading
Therapy (autism) Modern positive ABA (controversial)
Game progression Shaping + chaining
RL agent Reward shaping + curriculum

기본값: Positive reinforcement + clear consequence + fading. Punishment 의 last resort.

⚠️ 모순 및 업데이트 (Contradictions & Updates)

  • 자폐 치료 controversy: Modern 자폐인 advocate (예: Autistic Self Advocacy Network) 가 traditional ABA 의 비판. "Compliance training 가 trauma" claim.
  • Reward 의 intrinsic vs extrinsic: Over-reward 가 intrinsic motivation 의 destroy (overjustification effect). 매 reward design 의 careful.
  • Modern positive only: 옛 = aversive (punishment 강). Modern = positive 만. 매 effect 의 비교.
  • AI reward hacking: model 가 unintended behavior 의 reward exploit. Reward design 의 hard problem.
  • Game design 의 ethics: addiction-like design 의 윤리 / 법적 risk.

🔗 지식 연결 (Graph)

🤖 LLM 활용 힌트 (How to Use This Knowledge)

언제 이 지식을 쓰는가:

  • 게임 의 progression / reward 디자인.
  • RL agent 의 reward function / shaping.
  • 매 user 의 habit-tracking app design.
  • Education / training program 디자인.
  • 매 user behavior 의 design (UX 의 nudge).

언제 쓰면 안 되는가:

  • 자폐 치료 의 specific implementation (전문 BCBA + 윤리 연구).
  • Mental health 의 임상 (의사 + 면허).
  • Adversarial manipulation (윤리 violation).
  • 매 individual 의 free will 의 violation.
  • Animal welfare (다른 framework).

안티패턴 (Anti-Patterns)

  • Punishment 만: emotional damage, learning ↓.
  • Variable ratio + transparency 없음: gambling regulation violation.
  • Continuous reinforcement 가 forever: extinction 시 빠른 abandon.
  • Token economy + 매 token 의 inflation: economy 깨짐.
  • Reward 가 intrinsic motivation 의 replace: overjustification effect.
  • ABA 가 self-determination 의 violate: 윤리.
  • 자폐 치료 의 outdated aversive: modern positive only.

🧪 검증 상태 (Validation)

  • 정보 상태: verified (concept-level).
  • 출처 신뢰도: B (BACB 의 BCBA standard, Cooper Heron Heward "Applied Behavior Analysis" textbook, James Clear "Atomic Habits").
  • 검토 이유: Manual cleanup. Concept 가 안정. Specific therapy / regulation 가 separate expertise.

🧬 중복 검사 (Duplicate Check)

🕓 변경 이력 (Changelog)

날짜 변경 내용 처리 방식 신뢰도
2026-05-08 P-Reinforce Phase 1 정규화 UPDATE A
2026-05-09 Manual cleanup — code pattern + game design mapping + 윤리 controversies + 안티패턴 추가 UPDATE B