llms.txt

Definitie

llms.txt is een informele open standaard voor een platte-tekstbestand gehost op de root van een website op het pad /llms.txt, ontworpen om een gestructureerde, mens- en machineleesbare inhoudsmap te bieden gericht op large language model (LLM) crawlers en AI-aangedreven ontdekkingsystemen. De conventie werd in 2024 voorgesteld door Jeremy Howard, mede-oprichter van fast.ai en een prominent figuur in toegepast deep learning, als analoog aan robots.txt (die crawler-toegangsrechten regelt) en XML-sitemaps (die pagina-URL’s voor zoekmachine-indexering opsommen), maar aangepast aan de specifieke beperkingen en vereisten van LLM-inferentie-workflows.

Het kernuitgangspunt is dat LLM’s die webinhoud verwerken voor retrieval-augmented generation (RAG) of directe ingestie een andere informatiebehoefte hebben dan traditionele webcrawlers: ze profiteren van beknopte, gestructureerde beschrijvingen van wat een site bevat — inclusief context over het doel van de site, de aard van elke sectie, en links naar belangrijke inhoud — in een formaat dat efficiënt past binnen de token-gelimiteerde contextvensters die tijdens crawling of samenvatting worden gebruikt.

Hoe het werkt

Het llms.txt bestand gebruikt een Markdown-gebaseerd formaat in plaats van XML of JSON. Een typisch bestand bevat een korte beschrijving op topniveau van de site in een H1-header, gevolgd door een blockquote-samenvattingsalinea, en daarna georganiseerde secties met Markdown-links die naar de belangrijkste pagina’s van de site verwijzen. Elke link kan een korte inline beschrijving bevatten.

Het bestand kan ook vergezeld gaan van een uitgebreide variant op /llms-full.txt, die de volledige tekstinhoud van belangrijke pagina’s bevat in plaats van alleen links — nuttig voor AI-systemen die langere documenten in één keer kunnen verwerken.

De conventie is bewust eenvoudig: geen speciale syntaxis buiten standaard Markdown, geen verplichte velden buiten de site-beschrijving en ten minste één gelinkte URL, en geen vereiste registratie of validatiestap. De specificatie wordt onderhouden op llmstxt.org en is ontworpen om in minuten implementeerbaar te zijn door elke web-uitgever. CMS-platformen waaronder WordPress (via plug-in), Astro en Next.js hebben door de community ontwikkelde integraties gezien die llms.txt automatisch genereren uit de bestaande sitestructuur.

In tegenstelling tot robots.txt, dat crawlers instructies geeft over toegangsrechten (wat ze wel of niet mogen ophalen), is llms.txt puur declaratief en informatief: het verleent of beperkt geen toegang, maar signaleert welke inhoud de site-eigenaar het belangrijkst acht voor AI-systemen om te begrijpen. Er is geen overkoepelend standaardisatieorgaan (in tegenstelling tot robots.txt, dat een concept-RFC heeft — RFC 9309 — die het Robots Exclusion Protocol standaardiseert), en LLM-crawler-naleving van llms.txt is vrijwillig en varieert per operator.

AI-systemen en producten die naar verluidt llms.txt respecteren of overwegen, zijn onder andere Perplexity AI, verschillende RAG-gebaseerde onderzoeksassistenten, en sommige implementaties van de OpenAI web browsing-tool — hoewel geen enkele grote LLM-provider zich vanaf 2025 formeel heeft verbonden om het als verplichte standaard te behandelen.

Waar je het tegenkomt

De llms.txt conventie wordt het meest besproken op de kruising van SEO, AEO (Answer Engine Optimisation) en technische webuitgeversgemeenschappen. Het kreeg significante tractie nadat Jeremy Howard’s eerste voorstelpost in eind 2024 breed werd gedeeld onder ontwikkelaars, web-uitgevers en AI-onderzoekers.

Voor inhoudsrijke websites die zich richten op zichtbaarheid in AI-aangedreven antwoordoppervlakken — waaronder Google AI Overviews, Perplexity AI, ChatGPT’s web-browsing-modus, Microsoft Copilot’s geciteerde antwoorden en vergelijkbare functies — vertegenwoordigt llms.txt een laagdrempelig signaal van inhoudsintentie. Het vult bestaande ontdekkingsmechanismen aan in plaats van ze te vervangen: gestructureerde data via Schema.org (vooral DefinedTerm, FAQPage en HowTo typen), XML-sitemaps en de semantische signalen die door het E-E-A-T raamwerk worden gebruikt, blijven allemaal de primaire mechanismen waarmee zowel traditionele zoekmachines als AI-systemen inhoud evalueren en rangschikken.

Documentatie- en hostingplatformen, API-providers en ontwikkeltool-leveranciers behoren tot de vroege adopters, omdat hun publiek (ontwikkelaars die AI-applicaties bouwen) bijzonder ontvankelijk is voor de conventie. SaaS productdocumentatiesites, glossariumcollecties en kennisbanken zijn ook geschikt voor het formaat.

Praktische voorbeelden

Een wedstrijdstemplatform met een uitgebreid glossarium creëert een llms.txt bestand op https://buyvotescontest.com/llms.txt. Het bestand somt de belangrijkste glossariumitems van de site op — SPF Record, DKIM, DMARC, E-mailbevestiging Stem, AI Overviews — met korte beschrijvingen en directe URL’s. Een AI-onderzoeksassistent die de site crawlt als onderdeel van een RAG-pipeline voor een vraag over “e-mailauthenticatie voor wedstrijdplatformen” haalt het llms.txt bestand op, identificeert de relevante glossariumitems, en haalt hun inhoudspagina’s direct op in plaats van te proberen de volledige HTML-structuur van de site te parseren. Het resultaat is dat de glossariumitems nauwkeuriger worden vertegenwoordigd in de antwoorden van het AI-systeem dan ze geweest zouden zijn als de assistent de sitestructuur had geprobeerd af te leiden uit een algemene crawl.

Een ontwikkelaar die een interne kennisassistent bouwt voor een marketingbureau implementeert llms.txt-parsering in zijn RAG-pipeline, waarbij pagina’s vermeld in llms.txt-bestanden voorrang krijgen wanneer meerdere pagina’s van hetzelfde domein worden opgehaald voor een gegeven query. Dit geeft inhoudsrijke uitgevers die llms.txt-bestanden onderhouden een klein maar consistent voordeel in citatiefrequentie binnen de outputs van de assistent.

Verwante begrippen

llms.txt opereert op de laag van AI-crawler-communicatie en vult het gestructureerde semantisch vocabulaire aan dat door Schema.org wordt geleverd — dat inhoudstype en entiteitsrelaties signaleert aan zowel zoekmachines als AI-systemen via JSON-LD — en de inhoudskwaliteitssignalen die door Google worden geëvalueerd onder het E-E-A-T raamwerk en de Helpful Content Update classifier. Voor maximale AI-vindbaarheid wordt uitgevers aanbevolen alle drie te onderhouden: een geldig llms.txt inhoudsmap, uitgebreide Schema.org gestructureerde data, en inhoud die voldoet aan de E-E-A-T en Helpful Content standaarden die de citatie-geschiktheid bepalen in AI Overview en vergelijkbare antwoordmachine-functies.