llms.txt

Definition

llms.txt är en informell öppen standard för en textfil hostad i roten av en webbplats på sökvägen /llms.txt, utformad för att tillhandahålla en strukturerad, både människo- och maskinläsbar innehållskarta riktad mot crawlers för stora språkmodeller (LLM) och AI-drivna upptäcktssystem. Konventionen föreslogs 2024 av Jeremy Howard, medgrundare av fast.ai och en framträdande figur inom tillämpad djupinlärning, som en analog till robots.txt (som styr crawler-åtkomstbehörigheter) och XML-webbplatskartor (som räknar upp sid-URL:er för sökmotorindexering), men anpassad till de specifika begränsningarna och kraven i LLM-inferensflöden.

Den centrala premissen är att LLM:er som behandlar webbinnehåll för retrieval-augmented generation (RAG) eller direkt inmatning står inför ett annat informationsbehov än traditionella webbcrawlers: de drar nytta av kortfattade, strukturerade beskrivningar av vad en webbplats innehåller — inklusive sammanhang om webbplatsens syfte, varje avsnitts natur och länkar till nyckelinnehåll — i ett format som passar effektivt inom de tokenbegränsade kontextfönstren som används under crawling eller sammanfattning.

Hur det fungerar

Filen llms.txt använder ett Markdown-baserat format snarare än XML eller JSON. En typisk fil innehåller en kort toppnivåbeskrivning av webbplatsen i en H1-rubrik, följt av ett blockcitatat sammanfattningsstycke och sedan organiserade avsnitt med Markdown-länkar som pekar på webbplatsens viktigaste sidor. Varje länk kan inkludera en kort inline-beskrivning.

Filen kan också åtföljas av en utökad variant på /llms-full.txt, som inkluderar den fullständiga texten av nyckelsidor snarare än bara länkar — användbart för AI-system som kan ta in längre dokument i en enda passering.

Konventionen är medvetet enkel: ingen specialsyntax utöver standard Markdown, inga obligatoriska fält utöver webbplatsbeskrivningen och åtminstone en länkad URL, och inget krav på registrering eller valideringssteg. Specifikationen underhålls på llmstxt.org och är utformad för att kunna implementeras på minuter av vilken webbutgivare som helst. CMS-plattformar inklusive WordPress (via plugin), Astro och Next.js har sett gemenskapsutvecklade integrationer som autogenererar llms.txt från befintlig webbplatsstruktur.

Till skillnad från robots.txt, som instruerar crawlers om åtkomstbehörigheter (vad de får eller inte får hämta), är llms.txt rent deklarativ och informativ: den beviljar eller begränsar inte åtkomst utan signalerar vilket innehåll webbplatsägaren anser viktigast för AI-system att förstå. Det finns inget styrande standardiseringsorgan (till skillnad från robots.txt, som har en utkast-RFC — RFC 9309 — som standardiserar Robots Exclusion Protocol), och LLM-crawlers efterlevnad av llms.txt är frivillig och varierar mellan operatörer.

AI-system och produkter som rapporterats respektera eller överväga llms.txt inkluderar Perplexity AI, olika RAG-baserade forskningsassistenter och vissa implementationer av OpenAI:s webbsurfningsverktyg — även om ingen större LLM-leverantör formellt har förbundit sig att behandla det som obligatorisk standard från och med 2025.

Var du stöter på det

llms.txt-konventionen diskuteras oftast i skärningspunkten mellan SEO, AEO (Answer Engine Optimisation) och tekniska webbpubliceringsgemenskaper. Den fick betydande momentum efter att Jeremy Howards initiala förslagsinlägg i slutet av 2024 delades brett bland utvecklare, webbutgivare och AI-forskare.

För innehållsrika webbplatser som riktar in sig på synlighet i AI-drivna svarsytor — inklusive Google AI Overviews, Perplexity AI, ChatGPT:s webbsurfningsläge, Microsoft Copilots citerade svar och liknande funktioner — representerar llms.txt en lågkostnadssignal av innehållsavsikt. Den kompletterar snarare än ersätter befintliga upptäckbarhetsmekanismer: strukturerad data via Schema.org (särskilt typerna DefinedTerm, FAQPage och HowTo), XML-webbplatskartor och de semantiska signalerna som används av E-E-A-T-ramverket förblir alla de primära mekanismerna med vilka både traditionella sökmotorer och AI-system utvärderar och rangordnar innehåll.

Dokumentations- och hostingsplattformar, API-leverantörer och utvecklarverktygsleverantörer har varit bland de tidigaste användarna, eftersom deras publik (utvecklare som bygger AI-applikationer) är särskilt mottaglig för konventionen. SaaS-produktdokumentationssidor, ordlistesamlingar och kunskapsbaser passar också väl till formatet.

Praktiska exempel

En tävlingsröstningsplattform med en omfattande ordlista skapar en llms.txt-fil på https://buyvotescontest.com/llms.txt. Filen listar webbplatsens nyckelordlisteposter — SPF Record, DKIM, DMARC, Email Confirmation Vote, AI Overviews — med korta beskrivningar och direkta URL:er. En AI-forskningsassistent som crawlar webbplatsen som en del av en RAG-pipeline för en sökfråga om “e-postautentisering för tävlingsplattformar” hämtar llms.txt-filen, identifierar de relevanta ordlisteposterna och hämtar deras innehållssidor direkt snarare än att försöka tolka webbplatsens fullständiga HTML-struktur. Resultatet är att ordlisteposterna representeras mer korrekt i AI-systemets svar än de skulle ha gjort om assistenten hade försökt härleda webbplatsstrukturen från en allmän crawl.

En utvecklare som bygger en intern kunskapsassistent för en marknadsföringsbyrå implementerar llms.txt-tolkning i sin RAG-pipeline och prioriterar sidor listade i llms.txt-filer när flera sidor från samma domän hämtas för en given sökfråga. Detta ger innehållsrika utgivare som underhåller llms.txt-filer en liten men konsekvent fördel i citeringsfrekvens inom assistentens utdata.

Relaterade begrepp

llms.txt opererar på lagret för AI-crawlerkommunikation och kompletterar den strukturerade semantiska vokabulären som tillhandahålls av Schema.org — som signalerar innehållstyp och entitetsrelationer till både sökmotorer och AI-system via JSON-LD — och innehållskvalitetssignalerna som utvärderas av Google under E-E-A-T-ramverket och Helpful Content Update-klassificeraren. För maximal AI-upptäckbarhet rekommenderas utgivare att underhålla alla tre: en giltig llms.txt-innehållskarta, omfattande Schema.org-strukturerad data och innehåll som uppfyller E-E-A-T- och Helpful Content-standarderna som styr citeringsberättigande i AI Overview och liknande svarsmotorfunktioner.