llms.txt

정의

llms.txt는 웹사이트 루트의 /llms.txt 경로에 호스팅되는 평문 파일에 대한 비공식 공개 표준으로, 대규모 언어 모델(LLM) 크롤러와 AI 기반 발견 시스템을 위한 구조화되고 사람과 기계 모두 읽을 수 있는 콘텐츠 맵을 제공하도록 설계되었습니다. 이 컨벤션은 2024년 fast.ai의 공동창업자이자 응용 딥러닝의 저명한 인물인 Jeremy Howard가, 크롤러 접근 권한을 관리하는 robots.txt나 검색 엔진 색인을 위한 페이지 URL을 나열하는 XML 사이트맵의 유사물로서 LLM 추론 워크플로의 특정 제약과 요구에 맞춰 적응시켜 제안했습니다.

핵심 전제는, 검색 증강 생성(RAG)이나 직접 입력을 위해 웹 콘텐츠를 처리하는 LLM은 전통적인 웹 크롤러와는 다른 정보 요구를 가진다는 것입니다. 이들은 사이트가 무엇을 담고 있는지에 대한 간결하고 구조화된 설명 — 사이트의 목적, 각 섹션의 성격, 핵심 콘텐츠로 가는 링크에 대한 맥락을 포함 — 이, 크롤링이나 요약 도중에 사용되는 토큰 제한 컨텍스트 윈도우 안에 효율적으로 들어가는 형식으로 제공될 때 도움을 받습니다.

작동 방식

llms.txt 파일은 XML이나 JSON 대신 마크다운 기반 형식을 사용합니다. 일반적인 파일은 H1 헤더로 사이트의 간단한 최상위 설명을 담고, 그 뒤에 인용 블록 형태의 요약 단락이 따라오며, 사이트의 가장 중요한 페이지를 가리키는 마크다운 링크가 섹션별로 정리됩니다. 각 링크에는 짧은 인라인 설명이 포함될 수 있습니다.

이 파일은 /llms-full.txt라는 확장 변형과 함께 제공될 수 있는데, 이는 단순 링크가 아니라 핵심 페이지의 전체 텍스트 콘텐츠를 포함하므로 한 번에 더 긴 문서를 입력받을 수 있는 AI 시스템에 유용합니다.

이 컨벤션은 의도적으로 단순합니다. 표준 마크다운 외에 특별한 구문이 없고, 사이트 설명과 최소한 하나의 링크된 URL 외에 필수 필드가 없으며, 등록이나 검증 절차도 필요하지 않습니다. 사양은 llmstxt.org에서 유지되며, 어떤 웹 퍼블리셔든 몇 분 안에 구현할 수 있도록 설계되었습니다. WordPress(플러그인 통해), Astro, Next.js 같은 CMS 플랫폼에는 기존 사이트 구조에서 llms.txt를 자동 생성하는 커뮤니티 개발 통합이 등장했습니다.

크롤러에게 접근 권한(가져올 수 있는 것과 없는 것)을 지시하는 robots.txt와 달리, llms.txt는 순전히 선언적이고 정보 제공적입니다. 접근을 허용하거나 제한하지 않고, 사이트 소유자가 AI 시스템이 가장 중요하게 이해하길 원하는 콘텐츠를 알릴 뿐입니다. (robots.txt가 RFC 9309 초안으로 로봇 배제 프로토콜을 표준화한 것과 달리) 표준화 기관이 없고, LLM 크롤러의 llms.txt 준수는 자발적이며 운영자에 따라 다릅니다.

llms.txt를 존중하거나 고려하는 것으로 보고된 AI 시스템과 제품에는 Perplexity AI, 다양한 RAG 기반 연구 보조 도구, 그리고 일부 OpenAI 웹 브라우징 도구 구현이 있습니다. 다만 2025년 기준으로 어느 주요 LLM 공급자도 이를 필수 표준으로 다루겠다고 공식적으로 약속한 바는 없습니다.

어디에서 마주치게 되나

llms.txt 컨벤션은 SEO, AEO(답변 엔진 최적화), 기술 웹 퍼블리싱 커뮤니티의 교차점에서 가장 자주 논의됩니다. 2024년 후반 Jeremy Howard의 첫 제안 게시글이 개발자, 웹 퍼블리셔, AI 연구자 사이에서 널리 공유된 뒤로 의미 있는 관심을 얻었습니다.

구글 AI Overviews, Perplexity AI, ChatGPT의 웹 브라우징 모드, Microsoft Copilot의 인용 응답 같은 AI 기반 답변 표면에서의 노출을 목표로 하는 콘텐츠 풍부한 웹사이트에 llms.txt는 콘텐츠 의도를 알리는 저비용 신호입니다. 기존 발견 가능성 메커니즘을 대체하는 것이 아니라 보완합니다. Schema.org(특히 DefinedTerm, FAQPage, HowTo 유형)를 통한 구조화 데이터, XML 사이트맵, E-E-A-T 프레임워크가 사용하는 의미 신호 모두 전통 검색 엔진과 AI 시스템이 콘텐츠를 평가하고 순위를 매기는 주요 메커니즘으로 남아 있습니다.

문서화 및 호스팅 플랫폼, API 공급자, 개발자 도구 벤더가 초기 수용자에 속해 왔습니다. 이들의 청중(AI 애플리케이션을 만드는 개발자)이 이 컨벤션에 특히 수용적이기 때문입니다. SaaS 제품 문서 사이트, 용어집 컬렉션, 지식 베이스도 이 형식에 잘 맞습니다.

실무 예시

광범위한 용어집을 가진 콘테스트 투표 플랫폼이 https://buyvotescontest.com/llms.txt에 llms.txt 파일을 만듭니다. 파일은 사이트의 핵심 용어집 항목 — SPF Record, DKIM, DMARC, Email Confirmation Vote, AI Overviews — 을 짧은 설명과 직접 URL과 함께 나열합니다. “콘테스트 플랫폼을 위한 이메일 인증” 같은 질의에 RAG 파이프라인의 일부로 사이트를 크롤링하는 AI 연구 보조 도구가 llms.txt 파일을 가져와 관련 용어집 항목을 식별하고, 사이트의 전체 HTML 구조를 파싱하려 시도하는 대신 해당 콘텐츠 페이지를 직접 가져옵니다. 그 결과 용어집 항목은 보조 도구가 일반 크롤에서 사이트 구조를 추론했을 때보다 AI 시스템의 응답에 더 정확하게 표현됩니다.

마케팅 에이전시를 위한 사내 지식 보조 도구를 만드는 개발자가 자기 RAG 파이프라인에 llms.txt 파싱을 구현해, 같은 도메인의 여러 페이지가 특정 질의에 대해 가져올 때 llms.txt 파일에 나열된 페이지를 우선시합니다. 이렇게 하면 llms.txt 파일을 유지하는 콘텐츠 풍부한 퍼블리셔는 보조 도구의 출력에서 작지만 꾸준한 인용 빈도 우위를 얻습니다.