feat(wiki): Topic_Blog SEO 지식화 + orphan 연결

- Topic_Blog: 미추적 상태였던 SEO/색인 지식 문서 일괄 추적 추가
  (Google '페이지 색인 생성 보고서' 기반 신규 6종 포함:
   페이지 색인 생성 보고서/색인 생성 유효성 검사/Soft 404/NOINDEX/
   크롤링됨·발견됨-현재 색인 안 됨/SEO를 위한 HTTP 상태 코드).
- orphan 연결: 완전 고립된 지식 문서 9개를 관련 기존 문서와 양방향 링크
  (Game Design 쌍, Aerospace, Apple Vision Pro, 3D_Web_HMI, Stock 3,
   Topics_Biz). append-only, 존재 타깃만 링크(dangling 0).
도구: Datacollect/scripts/wiki_audit.mjs (중복·orphan 감사)

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
This commit is contained in:
2026-06-10 14:48:16 +09:00
parent 722441fb54
commit 27b2c25e4d
82 changed files with 8115 additions and 1 deletions
@@ -0,0 +1,104 @@
---
id: crawled-discovered-not-indexed
title: "크롤링됨·발견됨 - 현재 색인이 생성되지 않음"
category: "SEO/Indexing"
status: "draft"
verification_status: "conceptual"
canonical_id: ""
aliases: ["크롤링됨 - 현재 색인이 생성되지 않음", "발견됨 - 현재 색인이 생성되지 않음", "Crawled - currently not indexed", "Discovered - currently not indexed", "크롤링됨 색인 안 됨", "발견됨 색인 안 됨"]
duplicate_of: ""
source_trust_level: "A"
confidence_score: 0.9
created_at: 2026-06-10
updated_at: 2026-06-10
review_reason: ""
merge_history: []
tags: ["research", "indexing", "crawling", "SEO", "content-quality"]
raw_sources: [
"Google 검색 센터 - 페이지 색인 생성 보고서 (크롤링됨/발견됨 - 현재 색인이 생성되지 않음)",
"Search Console 도움말 - 페이지가 누락될 수 있는 이유"
]
applied_in: ["저품질 페이지 색인 누락 진단", "크롤링 예산 과부하 대응"]
github_commit: ""
---
# [[크롤링됨·발견됨 - 현재 색인이 생성되지 않음]]
## 🎯 한 줄 통찰 (One-line insight)
오류 없이도 페이지가 색인되지 않는 두 가지 GSC 상태로, '크롤링됨'은 읽었지만 색인을 보류한 경우(주로 품질), '발견됨'은 아직 크롤링조차 못 한 경우(주로 크롤링 일정/예산)를 가리킨다 [S1].
## 🧠 핵심 개념 (Core concepts)
- **크롤링됨-현재 색인이 생성되지 않음:** Google이 페이지를 크롤링했으나 색인은 생성하지 않음 — 이후 색인될 수도, 안 될 수도 있으며 재제출이 불필요함 [S1].
- **발견됨-현재 색인이 생성되지 않음:** Google이 URL을 발견했으나 아직 크롤링하지 않음 — 보통 크롤링이 사이트에 과부하를 줄까봐 일정을 조정한 경우로, 마지막 크롤링 날짜가 비어 있음 [S1].
- **오류가 아님:** 둘 다 명시적 오류 상태가 아니라 '대기/보류'에 가까운 상태임 [S1].
- **연관 요인:** 콘텐츠 품질([[Quality Guidelines]]), 크롤링 예산([[Crawl Budget]]), 사이트 부하/서버 응답성 [S1].
## 🧩 추출된 패턴 (Extracted patterns)
- **품질 신호 보강:** '크롤링됨-색인 안 됨'은 종종 콘텐츠가 얕거나 중복일 때 발생 — 본문 깊이·고유성·내부 링크를 보강 [S1].
- **크롤링 우선순위 관리:** '발견됨-색인 안 됨'이 많으면 사이트맵 우선순위·내부 링크 구조로 중요한 URL의 발견·크롤링을 유도 [S1].
- **서버 응답성 개선:** 느린 서버는 크롤링 일정 지연을 유발하므로 응답 속도·안정성을 확보 [S1].
## ⚖️ 비교 및 선택 기준 (Comparison & decision criteria)
| 상태 | 단계 | 주요 원인 | 대응 |
|---|---|---|---|
| **발견됨 - 색인 안 됨** | 크롤링 전 | 크롤링 일정 조정·사이트 과부하 우려 | 서버 응답성↑, 내부 링크·사이트맵으로 중요도 신호 [S1] |
| **크롤링됨 - 색인 안 됨** | 크롤링 후 | 콘텐츠 품질·중복·가치 부족 | 콘텐츠 보강·통합, 중복 정리 [S1] |
## 📖 세부 내용 (Details)
### 1. '발견됨 - 현재 색인이 생성되지 않음'
Google이 URL의 존재는 알지만 아직 크롤링하지 않은 상태입니다 [S1]. 일반적으로 Google이 크롤링을 시도하려 했으나 사이트 과부하 우려로 일정을 변경한 경우이며, 그래서 '마지막 크롤링 날짜'가 비어 있습니다 [S1]. 서버 응답성 개선과 중요한 URL에 대한 내부 링크/사이트맵 신호가 도움이 됩니다 — [[Crawl Budget]] [S1].
### 2. '크롤링됨 - 현재 색인이 생성되지 않음'
Google이 페이지를 실제로 읽었지만 색인 등록은 보류한 상태입니다 [S1]. 이후 색인될 수도, 안 될 수도 있으므로 재제출은 필요 없습니다 [S1]. 실무에서는 콘텐츠의 깊이·고유성 부족, 사실상 중복([[Duplicate Content]]), 낮은 내부 링크 권위가 흔한 배경이며, 품질 가이드라인([[Quality Guidelines]])에 맞춰 가치를 높이는 것이 핵심입니다 [S1].
## ⚖️ 모순 및 업데이트 (Contradictions & updates)
- **재제출 무용:** 두 상태 모두 같은 URL을 반복 제출한다고 색인이 보장되지 않습니다 — 근본 원인(품질·크롤링 신호)을 개선해야 합니다 [S1].
- **시간 의존성:** 특히 '발견됨' 상태는 시간이 지나며 자연히 크롤링·색인되는 경우도 많아, 성급한 구조 변경보다 관찰이 필요할 수 있습니다 [S1].
## 🛠️ 적용 사례 (Applied in summary)
- **얕은 페이지 통합:** 유사·저품질 페이지를 하나의 깊이 있는 페이지로 통합하고 약한 페이지는 정리 [S1].
- **크롤링 신호 강화:** 핵심 페이지를 사이트맵 상단·주요 내비게이션에 노출해 발견·크롤링 우선순위를 높임 [S1].
## 💻 코드 패턴 (Code patterns)
소스에 코드 예시 없음 (콘텐츠 품질·크롤링 운영 중심 주제).
## ✅ 검증 상태 및 신뢰도
- **상태:** draft
- **검증 단계:** conceptual
- **출처 신뢰도:** A (Google 공식 Search Console 도움말 기반)
- **신뢰 점수:** 0.90
- **중복 검사 결과:** 신규 생성 ([[Crawling]]/[[Crawl Budget]]과 구분 — 본 문서는 두 GSC '미색인' 상태 전용)
## 🔗 관련 문서 링크 (Related document links)
### 상위/유사 개념
- [[페이지 색인 생성 보고서]] — 두 상태가 보고되는 상위 보고서
- [[Crawling]] — '발견 → 크롤링 → 색인'의 전 단계
- [[Indexing]] — 보류된 색인 생성 자체
### 심층 후속 질문 (Deeper Research Questions)
- '크롤링됨-색인 안 됨'을 품질 문제로 단정하기 전에 배제해야 할 기술적 요인은?
- 대규모 사이트에서 '발견됨' 적체를 줄이는 내부 링크 아키텍처는?
- 콘텐츠 통합(consolidation)이 색인율에 미치는 정량적 효과는?
### 실무 적용 맥락 (Practical Application Contexts)
- **Implementation:** 저품질 URL 식별 → 보강/통합/제거 결정.
- **System Design:** 크롤링 우선순위를 반영한 사이트맵·내부 링크 설계.
- **Operation / Maintenance:** 두 상태의 추이를 월간 모니터링.
- **Learning Path:** 크롤링·색인 파이프라인 이해 → 품질 가이드라인 → 콘텐츠 전략.
### 인접 주변 주제
- [[Quality Guidelines]] — 확장 방향: 색인 가치를 결정하는 품질 기준
- [[Sitemap]] — 확장 방향: 크롤링 우선순위 신호로서의 사이트맵
## 🔗 지식 그래프 (Knowledge Graph)
- **상위/루트:** [[페이지 색인 생성 보고서]]
- **관련 개념:** [[Crawling]], [[Crawl Budget]], [[Indexing]], [[Quality Guidelines]], [[Duplicate Content]], [[Googlebot]]
- **참조 맥락:** 오류 없는 미색인 진단, 콘텐츠 품질·크롤링 예산 최적화.
## 📚 출처 (Sources)
- [S1] Google 검색 센터 / Search Console 도움말 - 페이지 색인 생성 보고서의 '크롤링됨-현재 색인이 생성되지 않음', '발견됨-현재 색인이 생성되지 않음'
## 📝 변경 이력 (Change history)
- 2026-06-10: Initial draft — 두 '미색인' 상태(크롤링됨/발견됨)의 의미·원인·대응을 품질·크롤링 예산과 연계해 정리.