robots.txt로 막으면 AI가 무조건 못 가져가나요?

아닙니다. robots.txt는 강제력이 없는 '신사협정'입니다. GPTBot·ClaudeBot·PerplexityBot처럼 규칙을 존중한다고 공표한 주요 봇은 따르지만, 규칙을 무시하는 봇도 존재합니다. 확실히 막으려면 서버·방화벽(WAF) 차원의 차단이 함께 필요합니다.

GPTBot과 OAI-SearchBot은 무엇이 다른가요?

GPTBot은 모델 학습용으로 콘텐츠를 수집하고, OAI-SearchBot은 ChatGPT의 검색 결과에 페이지를 노출·인용하기 위해 수집합니다. 따라서 '학습은 막되 ChatGPT 인용은 허용'처럼 둘을 따로 제어할 수 있습니다. ChatGPT-User는 사용자가 질문할 때 그 페이지를 실시간으로 한 번 가져오는 봇입니다.

AI 답변에 인용되고 싶으면 어떤 봇을 열어야 하나요?

실시간 인용을 담당하는 봇을 허용해야 합니다. ChatGPT는 OAI-SearchBot·ChatGPT-User, Perplexity는 PerplexityBot·Perplexity-User, Claude는 Claude-SearchBot·Claude-User, Google AI는 Google-Extended가 그 역할입니다. 이들을 막으면 AI 답변의 출처에서 사라질 수 있습니다.

Google-Extended를 막으면 구글 검색 순위가 떨어지나요?

아닙니다. Google-Extended는 Gemini와 AI Overviews 학습·생성에 콘텐츠를 쓸지를 제어할 뿐, 일반 구글 검색 색인(Googlebot)과는 별개입니다. Google-Extended를 차단해도 기존 검색 노출에는 영향이 없습니다.

학습은 싫은데 인용은 받고 싶습니다. 가능한가요?

가능합니다. 학습용 봇(GPTBot·ClaudeBot·CCBot·Google-Extended)은 Disallow로 막고, 인용·검색용 봇(OAI-SearchBot·Claude-SearchBot·PerplexityBot 등)은 Allow로 여는 식으로 분리하면 됩니다. 다만 봇 정책은 자주 바뀌므로 주기적으로 점검해야 합니다.

AI 크롤러, 허용할까 막을까 — robots.txt 관리 (복사)

“AI가 내 글을 가져가서 학습한다는데, 막아야 하나요?” 요즘 가장 많이 받는 질문입니다. 그런데 같은 분이 며칠 뒤엔 이렇게 묻습니다. “경쟁사는 ChatGPT가 추천해 주던데, 우리는 왜 안 나오죠?” 두 질문은 사실 같은 손잡이를 양쪽으로 당기는 일입니다. 그 손잡이가 바로 robots.txt이고, 손잡이를 어느 쪽으로 당길지는 ‘봇이 무슨 일을 하는지’를 알아야 정할 수 있습니다.

AI 크롤러는 한 종류가 아닙니다 — 무엇이 다른가요?

가장 큰 오해는 “AI 봇 = 학습 봇”이라는 생각입니다. 실제로는 같은 회사 안에서도 봇이 역할별로 나뉩니다. 크게 두 부류입니다.

학습(training)용 — 페이지를 모아 거대 모델을 훈련하는 데이터로 씁니다. 대표적으로 OpenAI의 GPTBot, Anthropic의 ClaudeBot, 그리고 공개 데이터셋을 만드는 Common Crawl의 CCBot이 있습니다.
실시간 인용(search/retrieval)용 — 사용자가 지금 질문할 때, 또는 검색 색인을 위해 페이지를 가져와 답변에 출처로 인용합니다. OpenAI의 OAI-SearchBot·ChatGPT-User, Perplexity의 PerplexityBot·Perplexity-User가 여기에 속합니다.

이 차이가 핵심입니다. 학습용을 막아도 인용용을 열어 두면, 내 콘텐츠가 모델 훈련에는 안 쓰이면서도 ChatGPT·Perplexity 답변의 출처로는 계속 노출될 수 있습니다.

봇별로 정확히 누가 무슨 일을 하나요?

아래는 2026년 6월 기준 주요 AI 크롤러의 정식 user-agent와 역할입니다. 봇 정책은 자주 바뀌므로, 적용 전엔 각 사의 공식 문서로 한 번 더 확인하는 걸 권합니다.

User-agent	운영사	하는 일
`GPTBot`	OpenAI	모델 학습용 콘텐츠 수집
`OAI-SearchBot`	OpenAI	ChatGPT 검색 인용을 위한 색인
`ChatGPT-User`	OpenAI	사용자 질문 시 실시간 1회 가져오기
`ClaudeBot`	Anthropic	모델 학습용 콘텐츠 수집
`Claude-SearchBot` / `Claude-User`	Anthropic	Claude 검색·실시간 인용
`PerplexityBot`	Perplexity	답변 인용용 검색 색인
`Perplexity-User`	Perplexity	사용자 질문 시 실시간 가져오기
`Google-Extended`	Google	Gemini·AI Overviews 학습·생성 제어(검색 색인과 별개)
`CCBot`	Common Crawl	공개 데이터셋(다수 모델의 학습 재료)

한 가지 짚어둘 점. Google-Extended는 일반 구글 검색(Googlebot)과 무관합니다. 이걸 막아도 검색 순위는 그대로이고, 대신 Gemini·AI Overviews에 콘텐츠가 쓰이는 것만 제어됩니다.

그래서, 어떻게 쓰면 되나요? — 바로 복사

“AI 답변에 인용되고 싶다”가 목표라면 인용용 봇을 모두 여는 게 출발점입니다. 아래 예시를 그대로 복사해 도메인 루트의 /robots.txt에 넣고, 마지막 Sitemap 줄만 본인 주소로 바꾸면 됩니다.

직접 해보기 · Live

AI 봇 허용 robots.txt — 복사

인용 노출을 원할 때(허용) 예시.

User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /

Sitemap: https://example.com/sitemap.xml

참고로 robots.txt 표준에서 가장 확실한 건 Disallow입니다(접근 차단). Allow는 “차단 규칙 안의 예외를 다시 연다”는 의미라, 애초에 막은 게 없으면 사실상 ‘기본 허용’과 같습니다. 위 예시처럼 명시해 두면 “이 봇은 의도적으로 환영한다”는 신호를 분명히 남길 수 있습니다.

반대로, 학습은 막고 인용만 받으려면요?

“내 글로 모델을 훈련시키는 건 싫지만, AI 답변의 출처로는 나오고 싶다.” 충분히 가능한 입장입니다. 이때는 두 부류를 갈라서 다룹니다.

학습용은 차단 — GPTBot, ClaudeBot, CCBot, Google-Extended에 Disallow: /
인용용은 허용 — OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot 등에 Allow: /

이렇게 하면 ‘학습 데이터로는 빠지되, 실시간 답변의 출처로는 남는’ 절충이 됩니다. 다만 봇 이름과 정책은 회사마다 수시로 바뀌므로, 한 번 설정하고 끝이 아니라 분기마다 점검하는 게 안전합니다.

그런데 막으면 정말 안 가져가나요?

여기서 가장 중요한 사실. robots.txt는 강제력이 없습니다. 웹 서버가 “들어오지 마세요”라고 붙여 둔 안내문일 뿐, 물리적으로 막는 잠금장치가 아닙니다. 그래서 ‘신사협정’이라고 부릅니다. GPTBot·ClaudeBot·PerplexityBot처럼 규칙 준수를 공표한 주요 봇은 따르지만, 규칙을 무시하는 크롤러도 분명히 존재합니다.

그래서 “학습에 절대 쓰이면 안 되는 콘텐츠”라면 robots.txt만 믿어선 안 됩니다. 서버·방화벽(WAF)에서 해당 user-agent나 IP를 직접 차단하는 ‘이중 장치’가 필요합니다. 반대로 “인용은 환영”이 목표라면 robots.txt만으로도 신호는 충분히 전달됩니다.

그래서 결론은 — 막느냐가 아니라 ‘무엇을 원하느냐’

대부분의 중소기업 사이트는 ‘인용 환영’ 쪽이 이득입니다. AI 답변에 회사 이름과 페이지가 출처로 뜨는 것은 새로운 노출 채널이니까요. 반대로 유료 자료·독점 콘텐츠가 핵심 자산이라면 학습 차단이 합리적입니다. 정답은 사업의 성격이 정합니다. Findable은 그 판단을 함께 하고, robots.txt·llms.txt·구조화 데이터까지 ‘AI에 찾아지는’ 기본 세트를 사이트에 내장합니다.

항목	기본 방치(설정 없음)	의도적 관리
AI 답변 인용	봇 임의 판단에 맡김	인용용 봇 명시 허용 → 출처 노출 유도
통제권	어느 봇이 뭘 가져갔는지 모름	봇별로 학습/인용 분리 제어
콘텐츠 보호	학습 수집 그대로 노출	학습용 차단 + WAF로 이중 방어

SEO 담당 · 절충형 robots.txt

# 학습은 막고, 실시간 인용은 허용하는 절충 설정
# 위쪽 '전체 허용' 예시와 달리 학습봇만 골라 Disallow 합니다.
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /

User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /

Sitemap: https://example.com/sitemap.xml

제가 작성할 때는 학습용과 인용용을 위처럼 빈 줄로 갈라 두어, 나중에 어느 쪽 정책을 손볼지 한눈에 보이게 둡니다.

설정을 정하기 전에 ‘무엇을 얻고 무엇을 내줄지’를 목표별로 먼저 정리하면 directive 선택이 단순해집니다.

SEO 담당 · 목표 → 봇 정책 매핑

사업 목표	학습봇(GPTBot·ClaudeBot·CCBot·Google-Extended)	인용봇(OAI-SearchBot·PerplexityBot 등)
AI 답변 노출 최대화	Allow	Allow
학습 거부 + 인용 유지(가장 흔함)	Disallow	Allow
유료·독점 자산 완전 보호	Disallow + WAF 차단	Disallow + WAF 차단
비공개 운영(검색 자체 거부)	Disallow	Disallow + Googlebot Disallow

robots.txt는 강제력이 없는 ‘신사협정’으로, 규칙을 무시하는 일부 봇이 존재할 수 있습니다. 본문의 user-agent·역할은 2026년 6월 기준 각 운영사 공개 정보를 반영했으며, 봇 정책은 수시로 바뀌므로 적용 전 공식 문서 확인을 권합니다. 날조된 사례·수치는 사용하지 않았습니다.

AI 크롤러, 허용할까 막을까.

요약

AI 크롤러는 한 종류가 아닙니다 — 무엇이 다른가요?

봇별로 정확히 누가 무슨 일을 하나요?

그래서, 어떻게 쓰면 되나요? — 바로 복사

AI 봇 허용 robots.txt — 복사

반대로, 학습은 막고 인용만 받으려면요?

그런데 막으면 정말 안 가져가나요?

그래서 결론은 — 막느냐가 아니라 ‘무엇을 원하느냐’

AI에 찾아지는 기본 세트, 사이트에 내장해 드립니다

llms.txt, 꼭 만들어야 하나요

2026 AI 검색, 무엇이 달라졌나

GEO/AEO 최적화