Zum Hauptinhalt springen

llms.txt

llms.txt ist eine offene Konvention für eine Klartextdatei, die im Wurzelpfad einer Website (/llms.txt) abgelegt wird und eine strukturierte Inhaltskarte für KI-Sprachmodell-Crawler deklariert. Sie liefert Titel, Beschreibungen und URLs der wichtigsten Seiten der Website in einem Format, das für die Kontextfenster von LLMs optimiert ist.

Definition

llms.txt ist ein informeller offener Standard für eine Klartextdatei, die im Wurzelverzeichnis einer Website unter dem Pfad /llms.txt gehostet wird. Sie soll eine strukturierte, sowohl für Menschen als auch Maschinen lesbare Inhaltskarte bereitstellen, die auf Crawler von Large Language Models (LLMs) und KI-gestützte Discovery-Systeme abzielt. Die Konvention wurde 2024 von Jeremy Howard, Mitgründer von fast.ai und prominente Persönlichkeit im angewandten Deep Learning, vorgeschlagen — als Pendant zu robots.txt (das die Zugriffsberechtigungen von Crawlern regelt) und XML-Sitemaps (die Seiten-URLs zur Suchmaschinenindexierung auflisten), aber angepasst an die spezifischen Einschränkungen und Anforderungen von LLM-Inferenz-Workflows[1].

Die zugrunde liegende Prämisse: LLMs, die Webinhalte für Retrieval-Augmented Generation (RAG) oder direkte Aufnahme verarbeiten, haben einen anderen Informationsbedarf als traditionelle Webcrawler. Sie profitieren von prägnanten, strukturierten Beschreibungen dessen, was eine Seite enthält — einschließlich Kontext zum Zweck der Website, zur Natur jedes Abschnitts und zu Links auf wichtige Inhalte — in einem Format, das effizient in die token-begrenzten Kontextfenster passt, die beim Crawling oder bei der Zusammenfassung verwendet werden.

Funktionsweise

Die Datei llms.txt verwendet ein Markdown-basiertes Format statt XML oder JSON. Eine typische Datei enthält oben eine kurze Top-Level-Beschreibung der Website in einer H1-Überschrift, gefolgt von einem Blockquote-Zusammenfassungsabsatz und dann organisierten Abschnitten von Markdown-Links, die auf die wichtigsten Seiten der Website verweisen. Jeder Link kann eine kurze Inline-Beschreibung enthalten.

Die Datei kann von einer erweiterten Variante unter /llms-full.txt begleitet werden, die den vollständigen Textinhalt wichtiger Seiten anstelle nur von Links enthält — nützlich für KI-Systeme, die längere Dokumente in einem einzigen Durchgang aufnehmen können.

Die Konvention ist absichtlich einfach gehalten: keine spezielle Syntax über Standard-Markdown hinaus, keine verpflichtenden Felder über die Website-Beschreibung und mindestens eine verlinkte URL hinaus, kein erforderlicher Registrierungs- oder Validierungsschritt. Die Spezifikation wird unter llmstxt.org gepflegt und ist so gestaltet, dass jeder Web-Publisher sie in Minuten implementieren kann. CMS-Plattformen wie WordPress (über Plugin), Astro und Next.js verfügen über community-entwickelte Integrationen, die llms.txt automatisch aus der bestehenden Website-Struktur generieren.

Anders als robots.txt, das Crawlern Anweisungen zu Zugriffsberechtigungen gibt (was sie abrufen dürfen oder nicht), ist llms.txt rein deklarativ und informativ: Sie gewährt oder beschränkt keinen Zugriff, sondern signalisiert, welche Inhalte der Website-Eigentümer für KI-Systeme als am wichtigsten erachtet. Es gibt keine maßgebliche Standardisierungsorganisation (anders als bei robots.txt, das einen Draft-RFC — RFC 9309 — zur Standardisierung des Robots Exclusion Protocol hat), und die Compliance der LLM-Crawler mit llms.txt ist freiwillig und variiert je nach Betreiber[2].

KI-Systeme und -Produkte, die llms.txt Berichten zufolge respektieren oder berücksichtigen, umfassen Perplexity AI, verschiedene RAG-basierte Forschungsassistenten und einige Implementierungen des OpenAI-Web-Browsing-Tools — auch wenn sich bis 2025 kein großer LLM-Anbieter formal verpflichtet hat, sie als verpflichtenden Standard zu behandeln.

Wo Sie ihr begegnen

Die llms.txt-Konvention wird am häufigsten an der Schnittstelle von SEO, AEO (Answer Engine Optimisation) und technischen Web-Publishing-Communities diskutiert. Sie gewann erhebliche Zugkraft, nachdem Jeremy Howards initialer Vorschlagspost Ende 2024 unter Entwicklern, Web-Publishern und KI-Forschern weit geteilt wurde.

Für inhaltsreiche Websites, die Sichtbarkeit in KI-gestützten Antwortoberflächen anstreben — einschließlich Google AI Overviews, Perplexity AI, des ChatGPT-Web-Browsing-Modus, der zitierten Antworten von Microsoft Copilot und ähnlicher Funktionen —, stellt llms.txt ein kostengünstiges Signal für Inhaltsabsichten dar. Sie ergänzt bestehende Auffindbarkeitsmechanismen, ersetzt sie jedoch nicht: Strukturierte Daten über Schema.org (insbesondere DefinedTerm-, FAQPage- und HowTo-Typen), XML-Sitemaps und die semantischen Signale, die vom E-E-A-T-Framework verwendet werden, bleiben die primären Mechanismen, mit denen sowohl traditionelle Suchmaschinen als auch KI-Systeme Inhalte bewerten und ranken.

Dokumentations- und Hosting-Plattformen, API-Anbieter und Entwicklertool-Anbieter gehörten zu den frühen Adoptanten, da ihre Zielgruppe (Entwickler, die KI-Anwendungen bauen) für die Konvention besonders empfänglich ist. SaaS-Produktdokumentations-Websites, Glossarsammlungen und Wissensdatenbanken passen ebenfalls gut zum Format.

Praktische Beispiele

Eine Wettbewerbs-Voting-Plattform mit umfangreichem Glossar erstellt eine llms.txt-Datei unter https://buyvotescontest.com/llms.txt. Die Datei listet die wichtigsten Glossareinträge der Website auf — SPF Record, DKIM, DMARC, Email Confirmation Vote, AI Overviews — mit kurzen Beschreibungen und direkten URLs. Ein KI-Forschungsassistent, der die Website als Teil einer RAG-Pipeline für eine Anfrage zu „E-Mail-Authentifizierung für Wettbewerbsplattformen” crawlt, ruft die llms.txt-Datei ab, identifiziert die relevanten Glossareinträge und ruft deren Inhaltsseiten direkt ab, statt zu versuchen, die vollständige HTML-Struktur der Website zu parsen. Das Ergebnis: Die Glossareinträge werden in den Antworten des KI-Systems genauer repräsentiert, als sie es wären, wenn der Assistent versucht hätte, die Website-Struktur aus einem allgemeinen Crawl abzuleiten.

Ein Entwickler, der einen internen Wissensassistenten für eine Marketingagentur aufbaut, implementiert das Parsen von llms.txt in seiner RAG-Pipeline und priorisiert in llms.txt-Dateien gelistete Seiten, wenn mehrere Seiten derselben Domain für eine bestimmte Anfrage abgerufen werden. Dies verschafft inhaltsreichen Publishern, die llms.txt-Dateien pflegen, einen kleinen, aber konstanten Vorteil bei der Zitierhäufigkeit innerhalb der Ausgaben des Assistenten.

Verwandte Konzepte

llms.txt operiert auf der Schicht der KI-Crawler-Kommunikation und ergänzt das strukturierte semantische Vokabular, das von Schema.org bereitgestellt wird — was Inhaltstyp und Entitätsbeziehungen sowohl an Suchmaschinen als auch an KI-Systeme über JSON-LD signalisiert — sowie die Inhaltsqualitätssignale, die von Google im Rahmen des E-E-A-T-Frameworks und des Klassifikators Helpful Content Update bewertet werden. Für maximale KI-Auffindbarkeit wird Publishern empfohlen, alle drei zu pflegen: eine gültige llms.txt-Inhaltskarte, umfassende Schema.org-strukturierte Daten und Inhalte, die den E-E-A-T- und Helpful-Content-Standards entsprechen, die die Zitatberechtigung in AI Overview und ähnlichen Antwortmaschinen-Funktionen regeln.


Quellen

  1. llms.txt Specification: https://llmstxt.org
  2. Wikipedia — robots.txt: https://en.wikipedia.org/wiki/Robots.txt
  3. Google Search Central — robots.txt intro: https://developers.google.com/search/docs/crawling-indexing/robots/intro

Aus dem Blog — Guides & Fallstudien

Praktische Guides, technische Tieftauchgänge und anonymisierte Fallstudien.60+ Artikel. Auswahl rotiert.

Victor Williams — founder of Buyvotescontest.com
Victor Williams
Online · Antwort in 5 Min

Hi 👋 — schick die Wettbewerbs-URL und ich melde mich binnen einer Stunde mit Preis. Karte noch nicht nötig.