定义
llms.txt 是一项非正式的开放标准——指托管在网站根路径 /llms.txt 的纯文本文件,旨在为大语言模型(LLM)爬虫与 AI 驱动的发现系统提供一份结构化、人机皆可读的内容地图。该约定由 fast.ai 联合创始人、应用深度学习领域代表人物 Jeremy Howard 于 2024 年提出,是 robots.txt(约束爬虫访问权限)与 XML 站点地图(向搜索引擎枚举页面 URL)的姊妹作,但针对 LLM 推理工作流的特定约束与需求做了调整。
核心理念在于:LLM 在为检索增强生成(RAG)或直接摄取处理网页内容时,所面临的信息需求与传统网络爬虫不同——它们更需要简洁、结构化的站点描述,包括站点宗旨、各节内容性质以及关键内容的链接,并以高效贴合受令牌限制的上下文窗口的格式呈现。
工作原理
llms.txt 文件采用基于 Markdown 的格式,而非 XML 或 JSON。一份典型文件包含一个 H1 标题做站点简短顶层描述,紧随其后是块引用形式的概要段落,再列出按 Markdown 链接组织的若干板块,指向站点最重要的页面。每条链接可附带简短的内联说明。
文件可同时附带扩展版 /llms-full.txt,其中包含关键页面的完整文本内容而非仅链接——便于一次能摄取较长文档的 AI 系统使用。
该约定有意保持简洁:没有标准 Markdown 之外的特殊语法,除站点描述与至少一条链接 URL 外没有强制字段,也无需注册或校验步骤。规范由 llmstxt.org 维护,任何网页发布者都能在数分钟内落地。WordPress(通过插件)、Astro、Next.js 等 CMS 平台已出现由社区开发的集成方案,能够基于既有站点结构自动生成 llms.txt。
与 robots.txt 不同——后者向爬虫指示访问许可(可抓取与否)——llms.txt 纯属声明性与信息性:既不授权也不限制访问,只是表明站点所有者认为哪些内容对 AI 系统理解站点最为重要。它没有主管标准机构(不像 robots.txt 那样有规范化”机器人排除协议”的草案 RFC——RFC 9309),LLM 爬虫是否遵守 llms.txt 出于自愿,且因运营方而异。
据公开信息表示尊重或考虑 llms.txt 的 AI 系统与产品包括 Perplexity AI、各类基于 RAG 的研究助理,以及 OpenAI 网页浏览工具的部分实现——但截至 2025 年仍未有任何主要 LLM 厂商正式承诺将其作为强制标准。
您会在哪里遇到它
llms.txt 约定在 SEO、AEO(回答引擎优化)以及技术性网页发布社区的交集处被广泛讨论。Jeremy Howard 在 2024 年末发布的提议帖在开发者、网页发布者与 AI 研究者中传播甚广后,该约定迅速积累热度。
对于希望在 AI 驱动的回答界面——包括 Google AI Overviews、Perplexity AI、ChatGPT 网页浏览模式、Microsoft Copilot 引用回答以及类似功能——获得曝光的内容型站点,llms.txt 是一项低成本的内容意图信号。它是对既有可发现机制的补充而非替代:通过 Schema.org 的结构化数据(尤其是 DefinedTerm、FAQPage、HowTo 类型)、XML 站点地图以及 E-E-A-T 框架所看重的语义信号,仍是传统搜索引擎与 AI 系统评估和排序内容的主要途径。
文档与托管平台、API 服务商以及开发者工具厂商是最早一批采用者,因为他们的受众(构建 AI 应用的开发者)对该约定接受度尤其高。SaaS 产品文档站、词条合集与知识库也很适合这种格式。
实际示例
某竞赛投票平台拥有完备的词条体系,便在 https://buyvotescontest.com/llms.txt 创建了一份 llms.txt。文件列出该站点的核心词条——SPF 记录、DKIM、DMARC、邮箱确认投票、AI 概览——并附简短描述与直接 URL。一名 AI 研究助理在 RAG 流水线中针对”竞赛平台邮件认证”查询抓取该站点时,会先取回这份 llms.txt,识别出相关词条并直接获取其内容页,而非尝试解析整个站点的 HTML 结构。结果是这些词条在 AI 系统响应中的呈现,比助理仅靠通用爬取去推断站点结构时更为准确。
某开发者在为一家营销代理构建内部知识助理时,在自家 RAG 流水线中加入了 llms.txt 解析逻辑:当多个页面来自同一域名时,优先采纳 llms.txt 中列出的页面。这给那些维护 llms.txt 的内容型发布者,在助理输出的引用频次中带来了虽小但稳定的优势。
相关概念
llms.txt 工作于 AI 爬虫沟通这一层,与 Schema.org 提供的结构化语义词汇——通过 JSON-LD 向搜索引擎与 AI 系统传达内容类型与实体关系——相互补充,与 Google 在 E-E-A-T 框架及 有用内容更新 分类器下评估的内容质量信号也相互搭配。为了在 AI 中获得最大可发现度,建议发布者三者并举:维护一份有效的 llms.txt 内容地图、配齐 Schema.org 结构化数据,并提供符合 E-E-A-T 与”有用内容”标准的内容——后者决定了在 AI 概览及类似回答引擎功能中的引用资格。