지금 이 순간, 사람이 아닌 무언가가 여러분의 사이트를 읽고 있다.
ChatGPT에서 “요즘 무선 이어폰 추천해줘”라고 물으면, ChatGPT는 쇼핑몰 페이지를 직접 방문해서 가격과 스펙을 긁어 온다. Perplexity에서 “○○ 회사 서비스 어때?”라고 물으면, 여러분의 서비스 소개 페이지를 실시간으로 방문해서 답변을 만들어 낸다. 바로 AI 에이전트다.
‘AI 검색최적화 입문’ 마지막 편에서는 AI 에이전트가 실제로 어떻게 사이트를 방문하는지, 그리고 지금 당장 무엇을 준비해야 하는지를 정리한다.
세 종류의 AI 크롤러
“AI 크롤러”라고 하면 다 같은 것처럼 들리지만, 목적과 동작 방식이 전혀 다른 세 종류가 있다.
훈련용 크롤러
GPTBot(OpenAI), ClaudeBot(Anthropic), Google-Extended 같은 것들이다. 미래 AI 모델 학습에 쓸 데이터를 수집한다. robots.txt로 차단 가능하고, OpenAI와 Anthropic은 공식적으로 robots.txt를 준수한다고 밝혔다.
검색 인덱싱 크롤러
OAI-SearchBot(ChatGPT Search), Claude-SearchBot, PerplexityBot이 여기 해당한다. ChatGPT Search가 2024년 10월 31일 출시된 이후 이 종류의 봇 트래픽이 크게 늘었다. AI 검색 결과에 내 콘텐츠가 인용되려면 이 크롤러에게 열려 있어야 한다.
실시간 패치 크롤러
ChatGPT-User, Claude-User 같은 것들이다. 사용자가 질문하는 순간, 실시간으로 관련 페이지를 방문해서 내용을 가져온다. ChatGPT-User는 시간당 약 2,400페이지를 처리할 수 있어 검색 인덱싱 봇보다 훨씬 빠르다.
이 세 종류는 목적도, 속도도, robots.txt 대응법도 다르다. 한꺼번에 “AI 봇 차단” 또는 “AI 봇 전부 허용”으로 처리하면 의도치 않은 결과가 생긴다.
robots.txt 전략: 훈련은 막고, 검색은 열어라
모델 학습에 내 콘텐츠를 제공하고 싶지 않다면 훈련용 크롤러를 차단할 수 있다. 동시에 AI 검색 결과에는 인용되고 싶다면 검색 인덱싱 크롤러는 허용해야 한다.
# 훈련용 크롤러 — 차단
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# 검색·실시간 크롤러 — 허용
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-User
Allow: /
robots.txt는 기술적인 장벽이 아니라 가이드라인이라고 할 수 있다. 착한 크롤러는 지키지만, Cloudflare는 2024년 8월 퍼플릭시티가 robots.txt로 차단된 수만 개 도메인에서 크롬(Chrome)을 사칭하는 숨겨진 크롤러로 우회 접근했다고 공식 보고한 바 있다. 완벽한 방어가 필요하다면 IP 차단이나 WAF 규칙이 더 확실하다.
에이전트 시대의 새 표준: MCP와 NLWeb
검색 크롤러를 넘어, AI 에이전트가 웹사이트를 “사용”하는 시대가 오고 있다. ChatGPT Atlas, Perplexity Comet 같은 에이전트 브라우저는 사용자 대신 예약을 잡고, 폼을 채우고, 결제까지 진행한다.
MCP(Model Context Protocol)
앤트로픽(Anthropic)이 2024년 11월 오픈소스로 공개한 프로토콜로, AI 모델이 외부 서비스·데이터·API에 표준화된 방식으로 연결할 수 있게 한다. 2025년 3월 OpenAI, 4월 구글(Google)이 채택했고, 2025년 12월에는 Linux Foundation 산하로 이전되어 업계 공통 표준이 됐다. “AI 세계의 USB-C”라는 별명으로도 불린다.
NLWeb
마이크로소프트(Microsoft)가 Build 2025에서 발표한 오픈 프로토콜로, 웹사이트를 자연어로 질문할 수 있는 MCP 엔드포인트로 만들어준다. RSS, Schema.org 같은 기존 구조화 데이터를 활용하기 때문에 새로운 기술 스택 없이도 적용할 수 있다. RSS와 Schema.org의 창시자 R.V. Guha가 개발했다.
두 표준 모두 지금 당장 모든 사이트에 필수는 아니다. 하지만 에이전트 트래픽이 늘수록 ‘에이전트가 읽기 편한 사이트’가 경쟁력을 갖게 된다.
지금 당장 할 수 있는 실전 체크리스트
기술 스택을 바꾸거나 개발자를 기다릴 필요 없이, 지금 당장 점검할 수 있는 항목들을 살펴보자.
robots.txt 점검
- 의도치 않게 검색 인덱싱 크롤러(OAI-SearchBot, Claude-SearchBot, PerplexityBot)를 차단하고 있지 않은지 확인한다.
구조화 데이터(JSON-LD) 적용
- AI 엔진은 HTML에서 분리된 JSON-LD를 선호한다. Organization, Product/Service, FAQPage 순서로 우선 적용한다.
- Schema.org Organization의 “SameAs” 필드에 LinkedIn·Wikidata·Crunchbase 링크를 연결하면 AI 도구가 브랜드를 신뢰할 수 있는 실체로 인식한다.
콘텐츠 구조 최적화
- H1→H2→H3 위계를 논리적으로 유지한. AI 에이전트는 헤딩 구조로 페이지를 파악한.
- 각 섹션 상단에 핵심 답변을 먼저, 세부 내용은 그다음에 배치한다.
- UC Berkeley·University of Michigan 연구에 따르면 접근성이 높은 웹사이트에서 AI 에이전트 작업 성공률이 유의미하게 향상됩니다. alt 텍스트, ARIA 레이블, 시맨틱 HTML은 사람과 AI 모두에게 좋다.
기술적 접근성
- JavaScript 없이도 핵심 콘텐츠가 렌더링되는지 확인한다. 많은 AI 크롤러는 JS를 실행하지 않는다.
- HTTP 200 응답과 올바른 robots.txt 설정이 인덱싱의 기본 조건이다.
크롤러 유형별 정리
| 유형 | 대표 봇 | 목적 | robots.txt 전략 |
|---|---|---|---|
| 훈련용 | GPTBot, ClaudeBot, Google-Extended | 모델 학습 데이터 | 선택적 차단 가능 |
| 검색 인덱싱 | OAI-SearchBot, Claude-SearchBot, PerplexityBot | AI 검색 답변 | 허용 권장 |
| 실시간 패치 | ChatGPT-User, Claude-User | 사용자 질문 즉시 응답 | 허용 권장 |
| 에이전트 브라우저 | ChatGPT Atlas, Perplexity Comet | 작업 자동화 | 접근성·구조화 데이터로 대응 |
이 시리즈를 마치며
5편에 걸쳐 다룬 내용을 한 줄로 정리하면 이렇다.
구글 AI 검색은 기존 검색의 연장이고, AI 에이전트는 새로운 방문자 유형이라는 것.
GEO니 AEO니 하는 새 용어에 흔들리기보다, 사람과 AI 모두가 읽기 편한 사이트를 만드는 것이 지금 할 수 있는 가장 확실한 준비다. 구글이 공식 문서에서 반복해서 말한 것도 결국 같은 이야기입니다. 기본이 기본입니다.
FAQ
아닙니다. GPTBot(훈련용)과 OAI-SearchBot(검색 인덱싱)은 다른 봇입니다. GPTBot만 차단하고 OAI-SearchBot은 허용하면 ChatGPT Search 결과에는 계속 인용될 수 있습니다.
Cloudflare 보고서 이후 Perplexity의 공식 봇(PerplexityBot)은 robots.txt를 준수하는 방향으로 개선됐습니다. 우회 크롤링은 WAF 규칙과 IP 차단으로 대응하는 것이 더 확실합니다.
현재로서는 그렇습니다. 다만 NLWeb은 기존 Schema.org와 RSS를 활용하기 때문에 워드프레스 플러그인 수준의 구현이 가능한 방향으로 발전하고 있습니다. 지금 당장 필수는 아닙니다.
기술적으로는 가능합니다. Perplexity Comet은 예약·폼 작성·이메일 전송까지 자동화할 수 있습니다. 다만 결제 단계에서는 보안·인증 이슈로 사람의 최종 승인이 필요한 경우가 많습니다.
크롤러 3계층 구조와 robots.txt 전략은 OpenAI·Anthropic·Perplexity 모두에 적용됩니다. MCP·NLWeb은 업계 공통 표준입니다. 다만 각 플랫폼의 AI 검색 인용 알고리즘은 공개되지 않으므로, 모든 내용이 동일하게 적용된다고 단정할 수 없습니
AiLit에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

