llms.txt

Definisi

llms.txt adalah standar terbuka informal untuk file teks biasa yang di-host di root situs web pada path /llms.txt, dirancang untuk menyediakan peta konten terstruktur yang dapat dibaca manusia dan mesin yang ditargetkan untuk crawler model bahasa besar (LLM) dan sistem penemuan berbasis AI. Konvensi ini diusulkan pada 2024 oleh Jeremy Howard, salah satu pendiri fast.ai dan tokoh terkemuka dalam deep learning terapan, sebagai analogi untuk robots.txt (yang mengatur izin akses crawler) dan XML sitemap (yang menyebutkan URL halaman untuk pengindeksan mesin pencari), tetapi diadaptasi dengan batasan dan persyaratan khusus alur kerja inferensi LLM.

Premis intinya adalah bahwa LLM yang memproses konten web untuk retrieval-augmented generation (RAG) atau ingesti langsung menghadapi kebutuhan informasi yang berbeda dari crawler web tradisional: mereka diuntungkan dari deskripsi yang ringkas dan terstruktur tentang isi situs — termasuk konteks tentang tujuan situs, sifat setiap bagian, dan tautan ke konten utama — dalam format yang muat dengan efisien dalam jendela konteks terbatas token yang digunakan selama crawling atau peringkasan.

Cara Kerjanya

File llms.txt menggunakan format berbasis Markdown alih-alih XML atau JSON. File yang khas berisi deskripsi tingkat atas yang singkat dari situs dalam heading H1, diikuti oleh paragraf ringkasan blockquote, dan kemudian bagian-bagian terorganisir dari tautan Markdown yang menunjuk ke halaman terpenting situs. Setiap tautan dapat menyertakan deskripsi inline singkat.

File ini juga dapat disertai oleh varian yang diperluas di /llms-full.txt, yang menyertakan teks konten lengkap dari halaman utama, bukan hanya tautan — berguna untuk sistem AI yang dapat memasukkan dokumen yang lebih panjang dalam satu kali proses.

Konvensi ini sengaja dibuat sederhana: tidak ada sintaks khusus di luar Markdown standar, tidak ada field wajib di luar deskripsi situs dan setidaknya satu URL yang ditautkan, dan tidak ada langkah registrasi atau validasi yang diperlukan. Spesifikasi dipelihara di llmstxt.org dan dirancang untuk dapat diimplementasikan dalam hitungan menit oleh penerbit web mana pun. Platform CMS termasuk WordPress (melalui plugin), Astro, dan Next.js telah melihat integrasi yang dikembangkan komunitas yang secara otomatis menghasilkan llms.txt dari struktur situs yang ada.

Tidak seperti robots.txt, yang memerintahkan crawler tentang izin akses (apa yang boleh atau tidak boleh mereka ambil), llms.txt murni deklaratif dan informasional: tidak memberikan atau membatasi akses tetapi menandakan konten mana yang dianggap pemilik situs paling penting untuk dipahami sistem AI. Tidak ada badan standar yang mengatur (tidak seperti robots.txt, yang memiliki RFC draf — RFC 9309 — yang menstandarkan Robots Exclusion Protocol), dan kepatuhan crawler LLM terhadap llms.txt bersifat sukarela dan bervariasi menurut operator.

Sistem dan produk AI yang dilaporkan menghormati atau mempertimbangkan llms.txt mencakup Perplexity AI, berbagai asisten riset berbasis RAG, dan beberapa implementasi tools penjelajahan web OpenAI — meskipun belum ada penyedia LLM utama yang secara resmi berkomitmen memperlakukannya sebagai standar wajib pada 2025.

Di Mana Anda Menemuinya

Konvensi llms.txt paling sering didiskusikan di persimpangan SEO, AEO (Answer Engine Optimisation), dan komunitas penerbitan web teknis. Konvensi ini mendapat traksi signifikan setelah postingan proposal awal Jeremy Howard pada akhir 2024 dibagikan secara luas di antara pengembang, penerbit web, dan peneliti AI.

Untuk situs web kaya konten yang menargetkan visibilitas di permukaan jawaban berbasis AI — termasuk Google AI Overviews, Perplexity AI, mode penjelajahan web ChatGPT, respons dengan kutipan Microsoft Copilot, dan fitur serupa — llms.txt mewakili sinyal niat konten dengan biaya rendah. Konvensi ini melengkapi alih-alih menggantikan mekanisme penemuan yang sudah ada: data terstruktur melalui Schema.org (terutama tipe DefinedTerm, FAQPage, dan HowTo), XML sitemap, dan sinyal semantik yang digunakan oleh framework E-E-A-T semuanya tetap menjadi mekanisme utama yang digunakan baik mesin pencari tradisional maupun sistem AI untuk mengevaluasi dan memberi peringkat konten.

Platform dokumentasi dan hosting, penyedia API, dan vendor tools pengembang termasuk yang paling awal mengadopsi, karena audiens mereka (pengembang yang membangun aplikasi AI) sangat reseptif terhadap konvensi ini. Situs dokumentasi produk SaaS, koleksi glossary, dan basis pengetahuan juga sangat cocok dengan format ini.

Contoh Praktis

Sebuah platform voting kontes dengan glossary ekstensif membuat file llms.txt di https://buyvotescontest.com/llms.txt. File tersebut mencantumkan entri glossary utama situs — SPF Record, DKIM, DMARC, Email Confirmation Vote, AI Overviews — dengan deskripsi singkat dan URL langsung. Asisten riset AI yang men-crawl situs sebagai bagian dari pipeline RAG untuk query tentang “otentikasi email untuk platform kontes” mengambil file llms.txt, mengidentifikasi entri glossary yang relevan, dan mengambil halaman kontennya secara langsung alih-alih mencoba mengurai struktur HTML lengkap situs. Hasilnya adalah entri glossary terwakili lebih akurat dalam respons sistem AI dibandingkan jika asisten mencoba menyimpulkan struktur situs dari crawl umum.

Seorang pengembang yang membangun asisten pengetahuan internal untuk sebuah agensi pemasaran mengimplementasikan parsing llms.txt dalam pipeline RAG mereka, memprioritaskan halaman yang tercantum dalam file llms.txt ketika beberapa halaman dari domain yang sama diambil untuk query tertentu. Hal ini memberi penerbit kaya konten yang memelihara file llms.txt keuntungan kecil namun konsisten dalam frekuensi kutipan dalam output asisten.

Konsep Terkait

llms.txt beroperasi pada lapisan komunikasi crawler AI, melengkapi kosakata semantik terstruktur yang disediakan oleh Schema.org — yang menandakan tipe konten dan hubungan entitas baik kepada mesin pencari maupun sistem AI melalui JSON-LD — dan sinyal kualitas konten yang dievaluasi oleh Google di bawah framework E-E-A-T dan classifier Helpful Content Update. Untuk visibilitas AI maksimal, penerbit disarankan untuk memelihara ketiganya: peta konten llms.txt yang valid, data terstruktur Schema.org yang komprehensif, dan konten yang memenuhi standar E-E-A-T dan Helpful Content yang mengatur kelayakan kutipan dalam fitur AI Overview dan mesin jawaban serupa.