llms.txt

Definição

llms.txt é um padrão aberto e informal para um arquivo em texto simples hospedado na raiz de um site, no caminho /llms.txt, projetado para fornecer um mapa de conteúdo estruturado, legível por humanos e por máquinas, voltado a crawlers de modelos de linguagem (LLMs) e a sistemas de descoberta com IA. A convenção foi proposta em 2024 por Jeremy Howard, cofundador da fast.ai e figura proeminente em deep learning aplicado, como análogo ao robots.txt (que regula permissões de acesso) e aos sitemaps XML (que enumeram URLs de páginas para indexação), mas adaptado às restrições e requisitos específicos dos fluxos de inferência dos LLMs^[1].

A premissa é que LLMs processando conteúdo web para geração aumentada por recuperação (RAG) ou ingestão direta enfrentam uma necessidade de informação diferente da dos crawlers tradicionais: eles se beneficiam de descrições concisas e estruturadas do que o site contém — incluindo contexto sobre o propósito do site, a natureza de cada seção e links para os conteúdos-chave — em um formato que cabe com eficiência nas janelas de contexto limitadas em tokens usadas durante o crawling ou a sumarização.

Como funciona

O arquivo llms.txt usa um formato baseado em Markdown em vez de XML ou JSON. Um arquivo típico tem uma descrição curta no topo, em um título H1, seguida de um parágrafo de resumo em blockquote e, depois, seções organizadas de links em Markdown apontando para as páginas mais importantes. Cada link pode incluir uma descrição inline curta.

O arquivo pode ser acompanhado de uma variante estendida em /llms-full.txt, que inclui o conteúdo completo das páginas-chave em vez de só links — útil para sistemas de IA que conseguem ingerir documentos longos em uma única passada.

A convenção é intencionalmente simples: nenhuma sintaxe especial além do Markdown padrão, nenhum campo obrigatório além da descrição do site e ao menos uma URL linkada, e nenhum passo obrigatório de registro ou validação. A especificação é mantida em llmstxt.org e foi pensada para ser implementada em minutos por qualquer publisher. Plataformas de CMS como WordPress (via plugin), Astro e Next.js já têm integrações desenvolvidas pela comunidade que geram automaticamente o llms.txt a partir da estrutura existente do site.

Diferente do robots.txt, que instrui os crawlers sobre permissões de acesso (o que podem ou não buscar), o llms.txt é puramente declarativo e informativo: ele não concede nem restringe acesso, apenas sinaliza qual conteúdo o dono do site considera mais importante para os sistemas de IA entenderem. Não há órgão de padronização (diferente do robots.txt, que tem um draft de RFC — RFC 9309 — padronizando o Robots Exclusion Protocol), e a aderência dos crawlers de LLM ao llms.txt é voluntária e varia conforme o operador^[2].

Sistemas e produtos de IA que reportadamente respeitam ou consideram o llms.txt incluem Perplexity AI, vários assistentes de pesquisa baseados em RAG e algumas implementações da ferramenta de navegação web do OpenAI — embora nenhum grande fornecedor de LLM tenha se comprometido formalmente a tratá-lo como padrão obrigatório, até 2025.

Onde você encontra

A convenção é mais discutida na interseção de SEO, AEO (Answer Engine Optimisation) e comunidades técnicas de publicação web. Ela ganhou tração depois que o post inicial de Jeremy Howard, no fim de 2024, foi compartilhado amplamente entre devs, publishers e pesquisadores de IA.

Para sites ricos em conteúdo que querem visibilidade em superfícies de resposta com IA — incluindo Google AI Overviews, Perplexity AI, modo de navegação web do ChatGPT, respostas citadas do Microsoft Copilot e recursos similares — o llms.txt representa um sinal de baixo custo da intenção do conteúdo. Ele complementa, e não substitui, mecanismos existentes de descoberta: dados estruturados via Schema.org (em especial os tipos DefinedTerm, FAQPage e HowTo), sitemaps XML e os sinais semânticos usados pelo framework E-E-A-T seguem sendo os principais mecanismos pelos quais buscadores tradicionais e sistemas de IA avaliam e ranqueiam conteúdo.

Plataformas de documentação e hospedagem, provedores de API e fabricantes de ferramentas de dev estão entre os primeiros adotantes, já que seu público (devs construindo aplicações de IA) é particularmente receptivo. Sites de documentação de produtos SaaS, glossários e bases de conhecimento também encaixam bem no formato.

Exemplos práticos

Uma plataforma de votação em concurso com glossário extenso cria um arquivo llms.txt em https://buyvotescontest.com/llms.txt. O arquivo lista as principais entradas do glossário — SPF Record, DKIM, DMARC, Voto por confirmação de e-mail, AI Overviews — com descrições curtas e URLs diretas. Um assistente de pesquisa em IA, ao fazer crawl do site como parte de um pipeline RAG para uma consulta sobre “autenticação de e-mail para plataformas de concurso”, recupera o llms.txt, identifica as entradas relevantes do glossário e busca diretamente o conteúdo das páginas, sem precisar tentar parsear toda a estrutura HTML do site. O resultado: as entradas do glossário ficam mais bem representadas nas respostas do sistema de IA do que se o assistente tivesse tentado inferir a estrutura do site só com um crawl genérico.

Um dev construindo um assistente de conhecimento interno para uma agência de marketing implementa o parsing de llms.txt no seu pipeline RAG, priorizando páginas listadas nos llms.txt quando várias páginas do mesmo domínio são recuperadas para uma consulta. Isso dá aos publishers ricos em conteúdo que mantêm llms.txt uma vantagem pequena, mas consistente, na frequência de citação dentro das respostas do assistente.

Conceitos relacionados

O llms.txt opera na camada de comunicação com o crawler de IA, complementando o vocabulário semântico estruturado do Schema.org — que sinaliza tipo de conteúdo e relações de entidade tanto para buscadores quanto para sistemas de IA via JSON-LD — e os sinais de qualidade de conteúdo avaliados pelo Google sob o framework E-E-A-T e o classificador Helpful Content Update. Para máxima descoberta por IA, recomenda-se manter os três: um llms.txt válido, dados estruturados Schema.org abrangentes e conteúdo que atenda aos padrões E-E-A-T e Helpful Content que regem a elegibilidade de citação em AI Overview e recursos similares.