llms.txt

Definition

llms.txt ist ein informeller offener Standard für eine Klartextdatei, die im Wurzelverzeichnis einer Website unter dem Pfad /llms.txt gehostet wird. Sie soll eine strukturierte, sowohl für Menschen als auch Maschinen lesbare Inhaltskarte bereitstellen, die auf Crawler von Large Language Models (LLMs) und KI-gestützte Discovery-Systeme abzielt. Die Konvention wurde 2024 von Jeremy Howard, Mitgründer von fast.ai und prominente Persönlichkeit im angewandten Deep Learning, vorgeschlagen — als Pendant zu robots.txt (das die Zugriffsberechtigungen von Crawlern regelt) und XML-Sitemaps (die Seiten-URLs zur Suchmaschinenindexierung auflisten), aber angepasst an die spezifischen Einschränkungen und Anforderungen von LLM-Inferenz-Workflows^[1].

Die zugrunde liegende Prämisse: LLMs, die Webinhalte für Retrieval-Augmented Generation (RAG) oder direkte Aufnahme verarbeiten, haben einen anderen Informationsbedarf als traditionelle Webcrawler. Sie profitieren von prägnanten, strukturierten Beschreibungen dessen, was eine Seite enthält — einschließlich Kontext zum Zweck der Website, zur Natur jedes Abschnitts und zu Links auf wichtige Inhalte — in einem Format, das effizient in die token-begrenzten Kontextfenster passt, die beim Crawling oder bei der Zusammenfassung verwendet werden.

Funktionsweise

Die Datei llms.txt verwendet ein Markdown-basiertes Format statt XML oder JSON. Eine typische Datei enthält oben eine kurze Top-Level-Beschreibung der Website in einer H1-Überschrift, gefolgt von einem Blockquote-Zusammenfassungsabsatz und dann organisierten Abschnitten von Markdown-Links, die auf die wichtigsten Seiten der Website verweisen. Jeder Link kann eine kurze Inline-Beschreibung enthalten.

Die Datei kann von einer erweiterten Variante unter /llms-full.txt begleitet werden, die den vollständigen Textinhalt wichtiger Seiten anstelle nur von Links enthält — nützlich für KI-Systeme, die längere Dokumente in einem einzigen Durchgang aufnehmen können.

Die Konvention ist absichtlich einfach gehalten: keine spezielle Syntax über Standard-Markdown hinaus, keine verpflichtenden Felder über die Website-Beschreibung und mindestens eine verlinkte URL hinaus, kein erforderlicher Registrierungs- oder Validierungsschritt. Die Spezifikation wird unter llmstxt.org gepflegt und ist so gestaltet, dass jeder Web-Publisher sie in Minuten implementieren kann. CMS-Plattformen wie WordPress (über Plugin), Astro und Next.js verfügen über community-entwickelte Integrationen, die llms.txt automatisch aus der bestehenden Website-Struktur generieren.

Anders als robots.txt, das Crawlern Anweisungen zu Zugriffsberechtigungen gibt (was sie abrufen dürfen oder nicht), ist llms.txt rein deklarativ und informativ: Sie gewährt oder beschränkt keinen Zugriff, sondern signalisiert, welche Inhalte der Website-Eigentümer für KI-Systeme als am wichtigsten erachtet. Es gibt keine maßgebliche Standardisierungsorganisation (anders als bei robots.txt, das einen Draft-RFC — RFC 9309 — zur Standardisierung des Robots Exclusion Protocol hat), und die Compliance der LLM-Crawler mit llms.txt ist freiwillig und variiert je nach Betreiber^[2].

KI-Systeme und -Produkte, die llms.txt Berichten zufolge respektieren oder berücksichtigen, umfassen Perplexity AI, verschiedene RAG-basierte Forschungsassistenten und einige Implementierungen des OpenAI-Web-Browsing-Tools — auch wenn sich bis 2025 kein großer LLM-Anbieter formal verpflichtet hat, sie als verpflichtenden Standard zu behandeln.

Wo Sie ihr begegnen

Die llms.txt-Konvention wird am häufigsten an der Schnittstelle von SEO, AEO (Answer Engine Optimisation) und technischen Web-Publishing-Communities diskutiert. Sie gewann erhebliche Zugkraft, nachdem Jeremy Howards initialer Vorschlagspost Ende 2024 unter Entwicklern, Web-Publishern und KI-Forschern weit geteilt wurde.

Für inhaltsreiche Websites, die Sichtbarkeit in KI-gestützten Antwortoberflächen anstreben — einschließlich Google AI Overviews, Perplexity AI, des ChatGPT-Web-Browsing-Modus, der zitierten Antworten von Microsoft Copilot und ähnlicher Funktionen —, stellt llms.txt ein kostengünstiges Signal für Inhaltsabsichten dar. Sie ergänzt bestehende Auffindbarkeitsmechanismen, ersetzt sie jedoch nicht: Strukturierte Daten über Schema.org (insbesondere DefinedTerm-, FAQPage- und HowTo-Typen), XML-Sitemaps und die semantischen Signale, die vom E-E-A-T-Framework verwendet werden, bleiben die primären Mechanismen, mit denen sowohl traditionelle Suchmaschinen als auch KI-Systeme Inhalte bewerten und ranken.

Dokumentations- und Hosting-Plattformen, API-Anbieter und Entwicklertool-Anbieter gehörten zu den frühen Adoptanten, da ihre Zielgruppe (Entwickler, die KI-Anwendungen bauen) für die Konvention besonders empfänglich ist. SaaS-Produktdokumentations-Websites, Glossarsammlungen und Wissensdatenbanken passen ebenfalls gut zum Format.

Praktische Beispiele

Eine Wettbewerbs-Voting-Plattform mit umfangreichem Glossar erstellt eine llms.txt-Datei unter https://buyvotescontest.com/llms.txt. Die Datei listet die wichtigsten Glossareinträge der Website auf — SPF Record, DKIM, DMARC, Email Confirmation Vote, AI Overviews — mit kurzen Beschreibungen und direkten URLs. Ein KI-Forschungsassistent, der die Website als Teil einer RAG-Pipeline für eine Anfrage zu „E-Mail-Authentifizierung für Wettbewerbsplattformen” crawlt, ruft die llms.txt-Datei ab, identifiziert die relevanten Glossareinträge und ruft deren Inhaltsseiten direkt ab, statt zu versuchen, die vollständige HTML-Struktur der Website zu parsen. Das Ergebnis: Die Glossareinträge werden in den Antworten des KI-Systems genauer repräsentiert, als sie es wären, wenn der Assistent versucht hätte, die Website-Struktur aus einem allgemeinen Crawl abzuleiten.

Ein Entwickler, der einen internen Wissensassistenten für eine Marketingagentur aufbaut, implementiert das Parsen von llms.txt in seiner RAG-Pipeline und priorisiert in llms.txt-Dateien gelistete Seiten, wenn mehrere Seiten derselben Domain für eine bestimmte Anfrage abgerufen werden. Dies verschafft inhaltsreichen Publishern, die llms.txt-Dateien pflegen, einen kleinen, aber konstanten Vorteil bei der Zitierhäufigkeit innerhalb der Ausgaben des Assistenten.