llms.txt

Định nghĩa

llms.txt là một tiêu chuẩn mở không chính thức cho một tệp văn bản thuần được lưu trữ tại gốc của trang web tại đường dẫn /llms.txt, được thiết kế để cung cấp một bản đồ nội dung có cấu trúc, có thể đọc được bởi con người và máy, nhắm đến các trình thu thập dữ liệu mô hình ngôn ngữ lớn (LLM) và các hệ thống khám phá được hỗ trợ bởi AI. Quy ước này được đề xuất vào năm 2024 bởi Jeremy Howard, đồng sáng lập của fast.ai và một nhân vật nổi bật trong học sâu ứng dụng, như một tương tự của robots.txt (điều chỉnh quyền truy cập trình thu thập dữ liệu) và sơ đồ trang web XML (liệt kê các URL trang cho việc lập chỉ mục công cụ tìm kiếm), nhưng được điều chỉnh cho các ràng buộc và yêu cầu cụ thể của quy trình suy luận LLM.

Tiền đề cốt lõi là các LLM xử lý nội dung web cho việc tạo sinh được tăng cường bằng truy xuất (RAG) hoặc tiếp nhận trực tiếp đối mặt với một nhu cầu thông tin khác với các trình thu thập dữ liệu web truyền thống: chúng được hưởng lợi từ các mô tả ngắn gọn, có cấu trúc về những gì một trang web chứa — bao gồm ngữ cảnh về mục đích của trang web, bản chất của mỗi phần và liên kết đến nội dung chính — ở định dạng phù hợp hiệu quả trong các cửa sổ ngữ cảnh giới hạn token được sử dụng trong khi thu thập dữ liệu hoặc tóm tắt.

Cách hoạt động

Tệp llms.txt sử dụng định dạng dựa trên Markdown thay vì XML hoặc JSON. Một tệp điển hình chứa một mô tả cấp cao nhất ngắn gọn về trang web trong tiêu đề H1, theo sau là một đoạn tóm tắt blockquote, và sau đó các phần được tổ chức của các liên kết Markdown chỉ đến các trang quan trọng nhất của trang web. Mỗi liên kết có thể bao gồm một mô tả nội tuyến ngắn gọn.

Tệp cũng có thể được đi kèm với một biến thể mở rộng tại /llms-full.txt, bao gồm nội dung văn bản đầy đủ của các trang chính thay vì chỉ các liên kết — hữu ích cho các hệ thống AI có thể tiếp nhận các tài liệu dài hơn trong một lần truyền duy nhất.

Quy ước được thiết kế đơn giản một cách có chủ ý: không có cú pháp đặc biệt nào ngoài Markdown tiêu chuẩn, không có trường bắt buộc nào ngoài mô tả trang web và ít nhất một URL được liên kết, và không có bước đăng ký hoặc xác thực bắt buộc nào. Đặc tả được duy trì tại llmstxt.org và được thiết kế để có thể triển khai trong vài phút bởi bất kỳ nhà xuất bản web nào. Các nền tảng CMS bao gồm WordPress (qua plugin), Astro và Next.js đã thấy các tích hợp do cộng đồng phát triển tự động tạo ra llms.txt từ cấu trúc trang web hiện có.

Không giống như robots.txt, hướng dẫn các trình thu thập dữ liệu về quyền truy cập (những gì chúng có thể hoặc không thể lấy), llms.txt thuần túy là khai báo và thông tin: nó không cấp hoặc hạn chế quyền truy cập mà báo hiệu nội dung nào mà chủ sở hữu trang web coi là quan trọng nhất để các hệ thống AI hiểu. Không có cơ quan tiêu chuẩn quản lý nào (không giống như robots.txt, có một bản nháp RFC — RFC 9309 — chuẩn hóa Giao thức Loại trừ Robot), và việc tuân thủ llms.txt của trình thu thập dữ liệu LLM là tự nguyện và khác nhau theo nhà điều hành.

Các hệ thống và sản phẩm AI đã được báo cáo là tôn trọng hoặc xem xét llms.txt bao gồm Perplexity AI, các trợ lý nghiên cứu dựa trên RAG khác nhau và một số triển khai của công cụ duyệt web OpenAI — mặc dù không có nhà cung cấp LLM lớn nào chính thức cam kết coi nó như một tiêu chuẩn bắt buộc tính đến năm 2025.

Bạn gặp llms.txt ở đâu

Quy ước llms.txt được thảo luận phổ biến nhất trong giao điểm của SEO, AEO (Tối ưu hóa Công cụ Trả lời) và cộng đồng xuất bản web kỹ thuật. Nó đã đạt được sự phổ biến đáng kể sau khi bài đăng đề xuất ban đầu của Jeremy Howard vào cuối năm 2024 được chia sẻ rộng rãi giữa các nhà phát triển, nhà xuất bản web và nhà nghiên cứu AI.

Đối với các trang web giàu nội dung nhắm đến khả năng hiển thị trong các bề mặt trả lời được hỗ trợ bởi AI — bao gồm Google AI Overviews, Perplexity AI, chế độ duyệt web của ChatGPT, các phản hồi được trích dẫn của Microsoft Copilot và các tính năng tương tự — llms.txt đại diện cho một tín hiệu chi phí thấp về ý định nội dung. Nó bổ sung thay vì thay thế các cơ chế khám phá hiện có: dữ liệu có cấu trúc thông qua Schema.org (đặc biệt là các loại DefinedTerm, FAQPage và HowTo), sơ đồ trang web XML và các tín hiệu ngữ nghĩa được sử dụng bởi khung E-E-A-T đều vẫn là các cơ chế chính mà cả các công cụ tìm kiếm truyền thống và các hệ thống AI đánh giá và xếp hạng nội dung.

Các nền tảng tài liệu và lưu trữ, các nhà cung cấp API và các nhà cung cấp công cụ phát triển là những người áp dụng sớm nhất, vì đối tượng của họ (các nhà phát triển xây dựng ứng dụng AI) đặc biệt tiếp thu quy ước này. Các trang tài liệu sản phẩm SaaS, các bộ sưu tập thuật ngữ và các cơ sở kiến thức cũng phù hợp với định dạng này.

Ví dụ thực tế

Một nền tảng bỏ phiếu cuộc thi với một bộ sưu tập thuật ngữ rộng rãi tạo ra một tệp llms.txt tại https://buyvotescontest.com/llms.txt. Tệp liệt kê các mục nhập thuật ngữ chính của trang web — SPF Record, DKIM, DMARC, Email Confirmation Vote, AI Overviews — với các mô tả ngắn gọn và URL trực tiếp. Một trợ lý nghiên cứu AI thu thập dữ liệu trang web như một phần của pipeline RAG cho một truy vấn về “xác thực email cho các nền tảng cuộc thi” lấy tệp llms.txt, xác định các mục nhập thuật ngữ liên quan và lấy các trang nội dung của họ trực tiếp thay vì cố gắng phân tích cú pháp cấu trúc HTML đầy đủ của trang web. Kết quả là các mục nhập thuật ngữ được biểu diễn chính xác hơn trong các phản hồi của hệ thống AI so với nếu trợ lý đã cố gắng suy ra cấu trúc trang web từ một thu thập dữ liệu chung.

Một nhà phát triển xây dựng một trợ lý kiến thức nội bộ cho một cơ quan tiếp thị triển khai phân tích cú pháp llms.txt trong pipeline RAG của họ, ưu tiên các trang được liệt kê trong các tệp llms.txt khi nhiều trang từ cùng một tên miền được lấy cho một truy vấn nhất định. Điều này cung cấp cho các nhà xuất bản giàu nội dung duy trì các tệp llms.txt một lợi thế nhỏ nhưng nhất quán trong tần suất trích dẫn trong các đầu ra của trợ lý.

Khái niệm liên quan

llms.txt hoạt động ở lớp giao tiếp trình thu thập dữ liệu AI, bổ sung cho từ vựng ngữ nghĩa có cấu trúc được cung cấp bởi Schema.org — báo hiệu loại nội dung và mối quan hệ thực thể cho cả công cụ tìm kiếm và hệ thống AI thông qua JSON-LD — và các tín hiệu chất lượng nội dung được Google đánh giá theo khung E-E-A-T và bộ phân loại Helpful Content Update. Để có khả năng khám phá AI tối đa, các nhà xuất bản được khuyên duy trì cả ba: bản đồ nội dung llms.txt hợp lệ, dữ liệu có cấu trúc Schema.org toàn diện và nội dung đáp ứng các tiêu chuẩn E-E-A-T và Helpful Content quản lý tính đủ điều kiện trích dẫn trong các tính năng AI Overview và các công cụ trả lời tương tự.