llms.txt

Определение

llms.txt — неформальный открытый стандарт текстового файла, размещаемого по пути /llms.txt в корне сайта. Файл служит структурированной, понятной и людям, и машинам картой контента для крауллеров больших языковых моделей (LLM) и систем дискавери на базе ИИ. Соглашение предложено в 2024 году Джереми Ховардом, сооснователем fast.ai и заметной фигурой в прикладном глубоком обучении, как аналог robots.txt (управляющего разрешениями для крауллеров) и XML-сайтмапов (перечисляющих URL для индексации поисковыми системами), но адаптированный к ограничениям и потребностям LLM-инференса.

Базовая идея: LLM, обрабатывающие веб-контент в режиме retrieval-augmented generation (RAG) или прямого ингеста, имеют иные потребности в информации, чем классические крауллеры — им полезны лаконичные структурированные описания того, что есть на сайте, его назначения, природы каждого раздела и ссылок на ключевой контент в формате, удобно укладывающемся в ограниченные по токенам контекстные окна при кравле или суммаризации.

Как это работает

Файл llms.txt использует формат на базе Markdown, а не XML или JSON. Типичный файл содержит краткое описание сайта в заголовке H1, цитатный параграф-резюме и упорядоченные секции Markdown-ссылок на самые важные страницы. У каждой ссылки может быть короткое описание.

Файл может сопровождаться расширенной версией по адресу /llms-full.txt, содержащей полный текст ключевых страниц, а не только ссылки — полезно для ИИ-систем, способных проглатывать длинные документы за один проход.

Соглашение намеренно простое: никакого специального синтаксиса сверх стандартного Markdown, никаких обязательных полей сверх описания сайта и хотя бы одной ссылки, никакой регистрации или валидации. Спецификация поддерживается на llmstxt.org и спроектирована так, чтобы любой издатель мог реализовать её за минуты. У CMS — WordPress (через плагин), Astro, Next.js — есть сообщественные интеграции, автогенерирующие llms.txt из существующей структуры сайта.

В отличие от robots.txt, инструктирующего крауллеры о разрешениях доступа (что они могут или не могут получать), llms.txt чисто декларативен: он не предоставляет и не ограничивает доступ, а сообщает, какой контент владелец сайта считает наиболее важным для понимания ИИ-системами. У него нет управляющего органа стандартизации (в отличие от robots.txt, для которого есть RFC 9309, стандартизирующий Robots Exclusion Protocol), и соблюдение llms.txt со стороны LLM-крауллеров добровольно и зависит от оператора.

К ИИ-системам и продуктам, которые, по сообщениям, учитывают llms.txt, относят Perplexity AI, ряд RAG-ассистентов и некоторые реализации веб-инструмента OpenAI — однако ни один крупный поставщик LLM формально не обязался относиться к llms.txt как к обязательному стандарту по состоянию на 2025 год.

Где вы это встречаете

Соглашение llms.txt чаще всего обсуждается на пересечении SEO, AEO (Answer Engine Optimisation) и технических сообществ веб-публикации. Оно набрало заметную популярность после первого поста Джереми Ховарда в конце 2024 года, активно расходившегося среди разработчиков, издателей и исследователей ИИ.

Для контентных сайтов, ориентированных на видимость в ИИ-поверхностях ответа — Google AI Overviews, Perplexity AI, режим веб-навигации ChatGPT, цитированные ответы Microsoft Copilot и аналогичные функции — llms.txt является дешёвым сигналом контентного намерения. Он дополняет, а не заменяет существующие механизмы дискавери: структурированные данные Schema.org (особенно DefinedTerm, FAQPage, HowTo), XML-сайтмапы и семантические сигналы рамок E-E-A-T остаются основными средствами оценки и ранжирования контента и для классических поисковиков, и для ИИ-систем.

Платформы документации и хостинга, провайдеры API и поставщики инструментов разработчика — одни из ранних адоптеров: их аудитория (разработчики, строящие ИИ-приложения) особенно восприимчива к соглашению. Сайты документации SaaS-продуктов, коллекции глоссариев и базы знаний также хорошо подходят формату.

Практические примеры

Платформа конкурсного голосования с обширным глоссарием создаёт файл llms.txt по адресу https://buyvotescontest.com/llms.txt. В файле перечислены ключевые статьи глоссария — SPF-запись, DKIM, DMARC, голосование по подтверждению email, AI Overviews — с краткими описаниями и прямыми URL. ИИ-ассистент, кравлящий сайт в RAG-конвейере для запроса «email-аутентификация для конкурсных платформ», получает llms.txt, выбирает релевантные статьи глоссария и сразу запрашивает их страницы, не пытаясь разбирать всю HTML-структуру сайта. В итоге статьи глоссария точнее представлены в ответах ассистента, чем если бы он выводил структуру сайта из общего кравла.

Разработчик, строящий внутреннего корпоративного ассистента знаний для маркетингового агентства в Москве, реализует разбор llms.txt в RAG-конвейере, повышая приоритет страниц, перечисленных в llms.txt, когда из одного домена возвращается несколько кандидатов на запрос. Контент-богатые издатели, поддерживающие llms.txt, получают небольшое, но устойчивое преимущество в частоте цитирования в выдаче ассистента.

Связанные понятия

llms.txt работает на уровне коммуникации с ИИ-крауллерами, дополняя структурированный семантический словарь, предоставляемый Schema.org — он сообщает поисковикам и ИИ-системам тип контента и связи между сущностями через JSON-LD — и сигналы качества контента, оцениваемые Google в рамках E-E-A-T и классификатора Helpful Content Update. Для максимальной обнаруживаемости в ИИ издателям рекомендуется поддерживать всё три: валидный llms.txt, исчерпывающие структурированные данные Schema.org и контент, отвечающий стандартам E-E-A-T и Helpful Content, регулирующим право на цитирование в AI Overview и аналогичных функциях ответа.