llms.txt

Definición

llms.txt es un estándar abierto informal para un archivo de texto plano hospedado en la raíz de un sitio en la ruta /llms.txt, diseñado para proveer un mapa de contenido estructurado, legible por humanos y máquinas, apuntado a crawlers de modelos grandes de lenguaje (LLM) y sistemas de descubrimiento basados en IA. La convención fue propuesta en 2024 por Jeremy Howard, cofundador de fast.ai y figura prominente en deep learning aplicado, como análoga a robots.txt (que regula los permisos de acceso del crawler) y a los sitemaps XML (que enumeran las URLs para indexación), pero adaptada a las restricciones específicas y los requisitos de los flujos de inferencia LLM.

La premisa central es que los LLMs procesando contenido web para retrieval-augmented generation (RAG) o ingesta directa enfrentan una necesidad de información distinta a la de los crawlers tradicionales: se benefician de descripciones concisas y estructuradas de qué contiene el sitio —incluido contexto sobre el propósito del sitio, la naturaleza de cada sección y enlaces a contenido clave— en un formato que entre eficientemente dentro de las ventanas de contexto limitadas en tokens usadas durante crawling o resumen.

Cómo funciona

El archivo llms.txt usa un formato basado en Markdown en lugar de XML o JSON. Un archivo típico contiene una breve descripción del sitio en un encabezado H1, seguido de un párrafo resumen en blockquote, y luego secciones organizadas de enlaces Markdown apuntando a las páginas más importantes. Cada enlace puede incluir una breve descripción inline.

El archivo puede ir acompañado de una variante extendida en /llms-full.txt, que incluye el contenido completo de las páginas clave en lugar de solo enlaces, útil para sistemas IA que pueden ingerir documentos más largos en una pasada.

La convención es deliberadamente simple: sin sintaxis especial más allá del Markdown estándar, sin campos obligatorios más allá de la descripción del sitio y al menos un URL enlazado, y sin paso obligatorio de registro o validación. La especificación se mantiene en llmstxt.org y está diseñada para ser implementable en minutos por cualquier publisher web. Plataformas CMS como WordPress (vía plugin), Astro y Next.js han visto integraciones de comunidad que autogeneran llms.txt desde la estructura existente del sitio.

A diferencia de robots.txt, que instruye a los crawlers sobre permisos de acceso (qué pueden o no fetchear), llms.txt es puramente declarativo e informacional: no otorga ni restringe acceso, sino que señala qué contenido considera el dueño del sitio como más importante para que los sistemas IA entiendan. No hay un cuerpo gobernante (a diferencia de robots.txt, que tiene una RFC en draft —RFC 9309— estandarizando el Robots Exclusion Protocol), y el cumplimiento del crawler LLM con llms.txt es voluntario y varía por operador.

Sistemas y productos IA que se han reportado respetando o considerando llms.txt incluyen Perplexity AI, varios asistentes de research basados en RAG y algunas implementaciones de la herramienta de browsing web de OpenAI, aunque ningún proveedor mayor de LLM se ha comprometido formalmente a tratarlo como estándar requerido a 2025.

Dónde aparece

La convención llms.txt se discute lo más común en la intersección de las comunidades SEO, AEO (Answer Engine Optimisation) y publicación web técnica. Ganó tracción significativa después de que el post de propuesta inicial de Jeremy Howard a fines de 2024 se compartiera ampliamente entre desarrolladores, publishers web e investigadores de IA.

Para sitios ricos en contenido apuntando a visibilidad en superficies de respuesta impulsadas por IA —incluidos Google AI Overviews, Perplexity AI, el modo de browsing web de ChatGPT, las respuestas citadas de Microsoft Copilot y features similares— llms.txt representa una señal de bajo costo de intención de contenido. Complementa, no reemplaza, los mecanismos de descubribilidad existentes: el structured data vía Schema.org (en particular tipos DefinedTerm, FAQPage y HowTo), los sitemaps XML y las señales semánticas usadas por el marco E-E-A-T siguen siendo los mecanismos primarios por los cuales tanto buscadores tradicionales como sistemas IA evalúan y ranquean contenido.

Sitios de documentación y plataformas de hosting, proveedores de API y vendors de herramientas para desarrolladores han estado entre los adoptantes más tempranos, ya que su audiencia (desarrolladores construyendo apps de IA) es particularmente receptiva a la convención. Los sitios de documentación de productos SaaS, las colecciones de glosario y las bases de conocimiento también calzan bien con el formato.

Ejemplos prácticos

Una plataforma de voto en concursos con un glosario extenso crea un archivo llms.txt en https://buyvotescontest.com/llms.txt. El archivo lista las entradas de glosario clave —Registro SPF, DKIM, DMARC, Voto con confirmación por correo, AI Overviews— con descripciones breves y URLs directas. Un asistente de research IA crawleando el sitio como parte de un pipeline RAG para una query sobre “autenticación de email para plataformas de concurso” recupera el archivo llms.txt, identifica las entradas de glosario relevantes y fetchea sus páginas de contenido directamente en lugar de intentar parsear toda la estructura HTML del sitio. El resultado es que las entradas de glosario son más precisamente representadas en las respuestas del sistema IA de lo que habrían sido si el asistente intentaba inferir la estructura desde un crawl general.

Un desarrollador construyendo un asistente de conocimiento interno para una agencia de marketing implementa parsing de llms.txt en su pipeline RAG, priorizando páginas listadas en archivos llms.txt cuando varias páginas del mismo dominio se recuperan para una query dada. Eso da a publishers ricos en contenido que mantienen archivos llms.txt una pequeña pero consistente ventaja en frecuencia de cita en las salidas del asistente.

Conceptos relacionados

llms.txt opera en la capa de comunicación con crawlers de IA, complementando el vocabulario semántico estructurado provisto por Schema.org —que señala tipo de contenido y relaciones de entidad tanto a buscadores como a sistemas IA vía JSON-LD— y las señales de calidad de contenido evaluadas por Google bajo el marco E-E-A-T y el clasificador Helpful Content Update. Para máxima descubribilidad por IA, se aconseja a los publishers mantener los tres: un llms.txt válido como mapa de contenido, structured data Schema.org comprehensivo y contenido que cumpla los estándares E-E-A-T y de Helpful Content que rigen la elegibilidad de cita en AI Overview y features similares.