llms.txt

Définition

llms.txt est un standard ouvert informel pour un fichier en texte brut hébergé à la racine d’un site, au chemin /llms.txt, conçu pour fournir une carte de contenu structurée, lisible par humains et machines, à destination des crawlers de grands modèles de langage (LLM) et des systèmes de découverte alimentés par IA. La convention a été proposée en 2024 par Jeremy Howard, cofondateur de fast.ai et figure de premier plan en deep learning appliqué, comme analogue à robots.txt (qui régit les autorisations de crawl) et aux sitemaps XML (qui énumèrent les URL des pages pour l’indexation moteurs de recherche), mais adapté aux contraintes et besoins spécifiques des flux d’inférence LLM.

L’idée centrale : les LLM traitant du contenu web pour la génération augmentée par récupération (RAG) ou l’ingestion directe ont un besoin d’information différent des crawlers web traditionnels — ils bénéficient de descriptions concises et structurées du contenu d’un site (objectif du site, nature de chaque section, liens vers le contenu clé) dans un format qui s’inscrit efficacement dans les fenêtres de contexte limitées en tokens lors du crawl ou du résumé.

Comment cela fonctionne

Le fichier llms.txt utilise un format basé sur Markdown, plutôt que XML ou JSON. Un fichier typique contient une brève description de haut niveau du site dans un titre H1, suivie d’un paragraphe de résumé en blockquote, puis de sections organisées de liens Markdown pointant vers les pages les plus importantes. Chaque lien peut inclure une brève description en ligne.

Le fichier peut s’accompagner d’une variante étendue à /llms-full.txt, qui inclut le texte complet des pages clés plutôt que de simples liens — utile pour les systèmes IA capables d’ingérer de longs documents en une passe.

La convention est intentionnellement simple : aucune syntaxe spéciale au-delà du Markdown standard, aucun champ obligatoire au-delà de la description du site et d’au moins une URL liée, aucune étape d’enregistrement ni de validation. La spécification est maintenue à llmstxt.org et conçue pour être implémentable en quelques minutes par tout éditeur web. Des intégrations communautaires existent pour WordPress (via plugin), Astro et Next.js, qui auto-génèrent llms.txt à partir de la structure existante.

Contrairement à robots.txt, qui instruit les crawlers sur les autorisations d’accès (ce qu’ils peuvent ou non récupérer), llms.txt est purement déclaratif et informationnel : il n’accorde ni ne restreint l’accès, mais signale quel contenu le propriétaire considère comme le plus important à comprendre par les systèmes IA. Aucun organisme de standardisation n’en assure la gouvernance (contrairement à robots.txt, qui dispose d’une RFC 9309 standardisant le Robots Exclusion Protocol), et le respect de llms.txt par les crawlers LLM est volontaire et varie selon les opérateurs.

Les systèmes IA et produits qui auraient été rapportés comme respectant ou tenant compte de llms.txt incluent Perplexity AI, divers assistants de recherche basés sur RAG et certaines implémentations de l’outil de navigation web d’OpenAI — bien qu’aucun grand fournisseur LLM ne se soit formellement engagé à le traiter comme standard requis en 2025.

Où vous le rencontrez

La convention llms.txt est principalement discutée à l’intersection des communautés SEO, AEO (Answer Engine Optimisation) et publication technique. Elle a gagné en visibilité après la publication initiale de Jeremy Howard fin 2024, largement partagée parmi développeurs, éditeurs et chercheurs IA.

Pour les sites riches en contenu visant la visibilité dans les surfaces de réponse alimentées par IA — Google AI Overviews, Perplexity AI, mode navigation web de ChatGPT, réponses citées par Microsoft Copilot, et fonctionnalités similaires — llms.txt représente un signal d’intention de contenu peu coûteux. Il complète, sans remplacer, les mécanismes de découverte existants : les données structurées Schema.org (en particulier DefinedTerm, FAQPage et HowTo), les sitemaps XML et les signaux sémantiques utilisés dans le cadre E-E-A-T restent les mécanismes principaux par lesquels les moteurs de recherche traditionnels et les systèmes IA évaluent et classent le contenu.

Les plateformes de documentation et d’hébergement, fournisseurs d’API et éditeurs d’outils développeurs ont été parmi les premiers adoptants, leur audience (développeurs construisant des applications IA) étant particulièrement réceptive à la convention. Les sites de documentation produit SaaS, collections de glossaires et bases de connaissances s’y prêtent également bien.

Exemples concrets

Une plateforme de vote de concours dotée d’un glossaire fourni crée un fichier llms.txt à https://buyvotescontest.com/llms.txt. Le fichier liste les entrées clés du glossaire — Enregistrement SPF, DKIM, DMARC, Vote par confirmation d’e-mail, AI Overviews — avec brèves descriptions et URL directes. Un assistant de recherche IA crawlant le site dans le cadre d’un pipeline RAG pour une requête sur « authentification e-mail pour plateformes de concours » récupère le llms.txt, identifie les entrées pertinentes du glossaire et récupère leurs pages directement plutôt que d’essayer d’analyser la structure HTML complète du site. Résultat : les entrées du glossaire sont mieux représentées dans les réponses de l’assistant que si ce dernier avait dû inférer la structure du site à partir d’un crawl général.

Un développeur construisant un assistant de connaissances internes pour une agence marketing à Paris implémente le parsing llms.txt dans son pipeline RAG, en priorisant les pages listées dans les llms.txt lorsque plusieurs pages d’un même domaine sont récupérées pour une requête donnée. Cela donne aux éditeurs riches en contenu qui maintiennent un llms.txt un avantage faible mais constant en fréquence de citation dans les sorties de l’assistant.

Concepts liés

llms.txt opère à la couche de communication avec les crawlers IA, complétant le vocabulaire sémantique structuré fourni par Schema.org — qui signale type de contenu et relations d’entités aux moteurs et systèmes IA via JSON-LD — et les signaux de qualité de contenu évalués par Google sous le cadre E-E-A-T et le classifieur Helpful Content Update. Pour une découvrabilité IA maximale, les éditeurs sont encouragés à maintenir les trois : un llms.txt valide, des données structurées Schema.org complètes, et un contenu satisfaisant les standards E-E-A-T et Helpful Content qui régissent l’éligibilité aux citations dans AI Overview et fonctionnalités similaires.