llms.txt

定义

llms.txt 是一项非正式的开放标准——指托管在网站根路径 /llms.txt 的纯文本文件，旨在为大语言模型（LLM）爬虫与 AI 驱动的发现系统提供一份结构化、人机皆可读的内容地图。该约定由 fast.ai 联合创始人、应用深度学习领域代表人物 Jeremy Howard 于 2024 年提出，是 robots.txt（约束爬虫访问权限）与 XML 站点地图（向搜索引擎枚举页面 URL）的姊妹作，但针对 LLM 推理工作流的特定约束与需求做了调整。

核心理念在于：LLM 在为检索增强生成（RAG）或直接摄取处理网页内容时，所面临的信息需求与传统网络爬虫不同——它们更需要简洁、结构化的站点描述，包括站点宗旨、各节内容性质以及关键内容的链接，并以高效贴合受令牌限制的上下文窗口的格式呈现。

工作原理

llms.txt 文件采用基于 Markdown 的格式，而非 XML 或 JSON。一份典型文件包含一个 H1 标题做站点简短顶层描述，紧随其后是块引用形式的概要段落，再列出按 Markdown 链接组织的若干板块，指向站点最重要的页面。每条链接可附带简短的内联说明。

文件可同时附带扩展版 /llms-full.txt，其中包含关键页面的完整文本内容而非仅链接——便于一次能摄取较长文档的 AI 系统使用。

该约定有意保持简洁：没有标准 Markdown 之外的特殊语法，除站点描述与至少一条链接 URL 外没有强制字段，也无需注册或校验步骤。规范由 llmstxt.org 维护，任何网页发布者都能在数分钟内落地。WordPress（通过插件）、Astro、Next.js 等 CMS 平台已出现由社区开发的集成方案，能够基于既有站点结构自动生成 llms.txt。

与 robots.txt 不同——后者向爬虫指示访问许可（可抓取与否）——llms.txt 纯属声明性与信息性：既不授权也不限制访问，只是表明站点所有者认为哪些内容对 AI 系统理解站点最为重要。它没有主管标准机构（不像 robots.txt 那样有规范化”机器人排除协议”的草案 RFC——RFC 9309），LLM 爬虫是否遵守 llms.txt 出于自愿，且因运营方而异。

据公开信息表示尊重或考虑 llms.txt 的 AI 系统与产品包括 Perplexity AI、各类基于 RAG 的研究助理，以及 OpenAI 网页浏览工具的部分实现——但截至 2025 年仍未有任何主要 LLM 厂商正式承诺将其作为强制标准。

您会在哪里遇到它

llms.txt 约定在 SEO、AEO（回答引擎优化）以及技术性网页发布社区的交集处被广泛讨论。Jeremy Howard 在 2024 年末发布的提议帖在开发者、网页发布者与 AI 研究者中传播甚广后，该约定迅速积累热度。

对于希望在 AI 驱动的回答界面——包括 Google AI Overviews、Perplexity AI、ChatGPT 网页浏览模式、Microsoft Copilot 引用回答以及类似功能——获得曝光的内容型站点，llms.txt 是一项低成本的内容意图信号。它是对既有可发现机制的补充而非替代：通过 Schema.org 的结构化数据（尤其是 DefinedTerm、FAQPage、HowTo 类型）、XML 站点地图以及 E-E-A-T 框架所看重的语义信号，仍是传统搜索引擎与 AI 系统评估和排序内容的主要途径。

文档与托管平台、API 服务商以及开发者工具厂商是最早一批采用者，因为他们的受众（构建 AI 应用的开发者）对该约定接受度尤其高。SaaS 产品文档站、词条合集与知识库也很适合这种格式。

实际示例

某竞赛投票平台拥有完备的词条体系，便在 https://buyvotescontest.com/llms.txt 创建了一份 llms.txt。文件列出该站点的核心词条——SPF 记录、DKIM、DMARC、邮箱确认投票、AI 概览——并附简短描述与直接 URL。一名 AI 研究助理在 RAG 流水线中针对”竞赛平台邮件认证”查询抓取该站点时，会先取回这份 llms.txt，识别出相关词条并直接获取其内容页，而非尝试解析整个站点的 HTML 结构。结果是这些词条在 AI 系统响应中的呈现，比助理仅靠通用爬取去推断站点结构时更为准确。

某开发者在为一家营销代理构建内部知识助理时，在自家 RAG 流水线中加入了 llms.txt 解析逻辑：当多个页面来自同一域名时，优先采纳 llms.txt 中列出的页面。这给那些维护 llms.txt 的内容型发布者，在助理输出的引用频次中带来了虽小但稳定的优势。