llms.txt

Definicja

llms.txt to nieformalny otwarty standard pliku tekstowego hostowanego w katalogu głównym witryny pod ścieżką /llms.txt, zaprojektowany w celu dostarczenia ustrukturyzowanej, czytelnej zarówno dla człowieka, jak i dla maszyny mapy treści ukierunkowanej na crawlery dużych modeli językowych (LLM) i systemy odkrywania zasilane AI. Konwencję zaproponował w 2024 roku Jeremy Howard, współzałożyciel fast.ai i wybitna postać w stosowanym deep learningu, jako odpowiednik dla robots.txt (które reguluje uprawnienia dostępu crawlerów) i map XML (które wyliczają adresy URL stron do indeksowania przez wyszukiwarki), ale dostosowany do konkretnych ograniczeń i wymagań przepływów wnioskowania LLM.

Główną przesłanką jest to, że LLM przetwarzające treści internetowe dla retrieval-augmented generation (RAG) lub bezpośredniego wczytywania mają inne potrzeby informacyjne niż tradycyjne crawlery internetowe: korzystają na zwięzłych, ustrukturyzowanych opisach tego, co zawiera witryna — w tym kontekstu o celu witryny, naturze każdej sekcji i linkach do kluczowych treści — w formacie, który mieści się efektywnie w ograniczonych tokenowo oknach kontekstu używanych podczas crawlowania lub streszczania.

Jak to działa

Plik llms.txt używa formatu opartego na Markdown zamiast XML czy JSON. Typowy plik zawiera krótki najwyższego poziomu opis witryny w nagłówku H1, po którym następuje akapit podsumowujący w blockquote, a następnie zorganizowane sekcje linków Markdown wskazujące na najważniejsze strony witryny. Każdy link może zawierać krótki inline opis.

Pliku może towarzyszyć rozszerzony wariant pod /llms-full.txt, który zawiera pełny tekst kluczowych stron, a nie tylko linki — przydatny dla systemów AI, które mogą wczytać dłuższe dokumenty w pojedynczym przejściu.

Konwencja jest celowo prosta: brak specjalnej składni poza standardowym Markdownem, brak obowiązkowych pól poza opisem witryny i co najmniej jednym podlinkowanym URL oraz brak wymaganego kroku rejestracji lub walidacji. Specyfikacja jest utrzymywana pod llmstxt.org i jest zaprojektowana tak, aby mogła zostać wdrożona w ciągu minut przez dowolnego wydawcę internetowego. Platformy CMS, w tym WordPress (poprzez wtyczkę), Astro i Next.js, dostały społecznościowe integracje, które automatycznie generują llms.txt z istniejącej struktury witryny.

W przeciwieństwie do robots.txt, który instruuje crawlery o uprawnieniach dostępu (co mogą lub czego nie mogą pobierać), llms.txt jest czysto deklaratywny i informacyjny: nie udziela ani nie ogranicza dostępu, lecz sygnalizuje, jakie treści właściciel witryny uważa za najważniejsze, aby systemy AI je zrozumiały. Nie ma organu standaryzacyjnego (w przeciwieństwie do robots.txt, który ma RFC w wersji roboczej — RFC 9309 — standaryzujące Robots Exclusion Protocol), a zgodność crawlerów LLM z llms.txt jest dobrowolna i różni się w zależności od operatora.

Systemy i produkty AI, które jak doniesiono respektują lub uwzględniają llms.txt, obejmują Perplexity AI, różne asystenty badawcze oparte na RAG oraz niektóre implementacje narzędzia przeglądania internetu OpenAI — choć żaden duży dostawca LLM nie zobowiązał się formalnie do traktowania go jako wymaganego standardu według stanu na 2025 rok.

Gdzie się z tym spotkasz

Konwencja llms.txt jest najczęściej dyskutowana na styku SEO, AEO (Answer Engine Optimisation) oraz społeczności technicznego publikowania internetowego. Zyskała znaczącą trakcję po tym, jak początkowy post propozycji Jeremy’ego Howarda pod koniec 2024 roku był szeroko udostępniany wśród deweloperów, wydawców internetowych i badaczy AI.

Dla witryn bogatych w treści ukierunkowanych na widoczność na powierzchniach odpowiedzi opartych na AI — w tym Google AI Overviews, Perplexity AI, trybie przeglądania internetu ChatGPT, cytowanych odpowiedziach Microsoft Copilot i podobnych funkcjach — llms.txt reprezentuje sygnał intencji treści o niskim koszcie. Uzupełnia, a nie zastępuje istniejące mechanizmy odkrywalności: dane strukturalne za pośrednictwem Schema.org (zwłaszcza typy DefinedTerm, FAQPage i HowTo), mapy XML i sygnały semantyczne używane przez framework E-E-A-T wszystkie pozostają głównymi mechanizmami, za pomocą których zarówno tradycyjne wyszukiwarki, jak i systemy AI oceniają i klasyfikują treści.

Platformy dokumentacji i hostingu, dostawcy API i dostawcy narzędzi deweloperskich należeli do najwcześniejszych adoptujących, ponieważ ich publiczność (deweloperzy budujący aplikacje AI) jest szczególnie podatna na konwencję. Witryny dokumentacji produktów SaaS, kolekcje słowników i bazy wiedzy są również dobrze dopasowane do formatu.

Praktyczne przykłady

Platforma głosowania konkursowego z obszernym słownikiem tworzy plik llms.txt pod https://buyvotescontest.com/llms.txt. Plik wymienia kluczowe wpisy słownikowe witryny — Rekord SPF, DKIM, DMARC, Email Confirmation Vote, AI Overviews — z krótkimi opisami i bezpośrednimi adresami URL. Asystent badawczy AI crawlujący witrynę jako część pipeline’u RAG dla zapytania o „uwierzytelnianie email dla platform konkursowych” pobiera plik llms.txt, identyfikuje istotne wpisy słownikowe i pobiera ich strony treściowe bezpośrednio, zamiast próbować parsować pełną strukturę HTML witryny. Rezultatem jest to, że wpisy słownikowe są dokładniej reprezentowane w odpowiedziach systemu AI niż byłyby, gdyby asystent próbował wywnioskować strukturę witryny z ogólnego crawlu.

Deweloper budujący wewnętrznego asystenta wiedzy dla agencji marketingowej implementuje parsowanie llms.txt w swoim pipeline’ie RAG, priorytetyzując strony wymienione w plikach llms.txt, gdy wiele stron z tej samej domeny jest pobieranych dla danego zapytania. Daje to wydawcom bogatym w treści, którzy utrzymują pliki llms.txt, niewielką, ale spójną przewagę w częstotliwości cytowania w wynikach asystenta.

Powiązane pojęcia

llms.txt operuje na warstwie komunikacji crawlerów AI, uzupełniając ustrukturyzowane słownictwo semantyczne dostarczane przez Schema.org — które sygnalizuje typ treści i relacje encji zarówno wyszukiwarkom, jak i systemom AI poprzez JSON-LD — oraz sygnały jakości treści ocenianych przez Google w ramach frameworka E-E-A-T i klasyfikatora Helpful Content Update. Dla maksymalnej odkrywalności AI zaleca się wydawcom utrzymywanie wszystkich trzech: ważnej mapy treści llms.txt, kompleksowych danych strukturalnych Schema.org oraz treści spełniających standardy E-E-A-T i Helpful Content, które rządzą kwalifikowalnością do cytowania w funkcjach AI Overview i podobnych funkcjach silników odpowiedzi.