llms.txt

Definizione

llms.txt è uno standard aperto informale per un file di testo ospitato alla radice di un sito al percorso /llms.txt, pensato per fornire una mappa di contenuto strutturata, leggibile da umani e macchine, indirizzata ai crawler dei large language model (LLM) e ai sistemi di scoperta basati su IA. La convenzione è stata proposta nel 2024 da Jeremy Howard, cofondatore di fast.ai e figura nota nel deep learning applicato, come analogo di robots.txt (che governa i permessi di accesso dei crawler) e delle sitemap XML (che elencano le URL per l’indicizzazione), ma adattato ai vincoli e alle esigenze specifiche dei flussi di inferenza degli LLM.

La premessa di base è che gli LLM che processano contenuto web per retrieval-augmented generation (RAG) o per ingestione diretta hanno un bisogno informativo diverso dai crawler tradizionali: traggono beneficio da descrizioni concise e strutturate di cosa contiene un sito — incluso il contesto sullo scopo del sito, la natura di ogni sezione e i link ai contenuti chiave — in un formato che entri in modo efficiente nelle finestre di contesto limitate da token usate durante crawl o riassunto.

Come funziona

Il file llms.txt usa un formato basato su Markdown invece di XML o JSON. Un file tipico contiene una breve descrizione di alto livello del sito in un’intestazione H1, seguita da un paragrafo di riepilogo in blockquote e poi sezioni organizzate di link Markdown alle pagine più importanti. Ogni link può includere una breve descrizione inline.

Il file può essere accompagnato da una variante estesa su /llms-full.txt, che include il testo completo delle pagine chiave invece dei soli link — utile per sistemi IA che possono ingerire documenti più lunghi in un unico passaggio.

La convenzione è volutamente semplice: nessuna sintassi speciale oltre al Markdown standard, nessun campo obbligatorio oltre a descrizione del sito e almeno una URL linkata, e nessun passaggio di registrazione o validazione richiesto. La specifica è mantenuta su llmstxt.org ed è progettata per essere implementabile in pochi minuti da qualunque editor web. Piattaforme CMS tra cui WordPress (via plugin), Astro e Next.js hanno visto integrazioni community-driven che generano llms.txt automaticamente dalla struttura esistente del sito.

A differenza di robots.txt, che istruisce i crawler sui permessi di accesso (cosa possono o non possono prelevare), llms.txt è puramente dichiarativo e informativo: non concede né limita l’accesso, ma segnala quale contenuto il proprietario considera più importante che i sistemi IA capiscano. Non c’è un ente di standardizzazione (a differenza di robots.txt che ha una RFC bozza — RFC 9309 — che standardizza il Robots Exclusion Protocol), e la conformità dei crawler LLM a llms.txt è volontaria e varia da operatore a operatore.

Tra i sistemi e prodotti IA che si dice rispettino o considerino llms.txt ci sono Perplexity AI, vari assistenti di ricerca basati su RAG e alcune implementazioni dello strumento di web browsing di OpenAI — anche se nessun grande provider LLM si è formalmente impegnato a trattarlo come standard obbligatorio al 2025.

Dove la incontri

La convenzione llms.txt è discussa più spesso all’incrocio tra SEO, AEO (Answer Engine Optimisation) e community di publishing tecnico. Ha guadagnato trazione significativa dopo che il post iniziale di Jeremy Howard di fine 2024 è stato ampiamente condiviso tra developer, editor web e ricercatori IA.

Per i siti ricchi di contenuti che puntano alla visibilità nelle superfici di risposta IA — inclusi Google AI Overviews, Perplexity AI, la modalità web browsing di ChatGPT, le risposte citate di Microsoft Copilot e funzioni simili — llms.txt rappresenta un segnale a basso costo dell’intento del contenuto. Integra, non sostituisce, i meccanismi esistenti di scopribilità: i dati strutturati via Schema.org (in particolare i tipi DefinedTerm, FAQPage e HowTo), le sitemap XML e i segnali semantici usati dal framework E-E-A-T restano i meccanismi principali con cui motori tradizionali e sistemi IA valutano e ordinano il contenuto.

Le piattaforme di documentazione e hosting, i provider di API e i vendor di strumenti per developer sono tra i primi adottanti, perché la loro audience (developer che costruiscono applicazioni IA) è particolarmente ricettiva alla convenzione. Anche siti di documentazione di prodotti SaaS, raccolte di glossari e knowledge base si prestano bene al formato.

Esempi pratici

Una piattaforma di voto per concorsi con un glossario esteso crea un file llms.txt su https://buyvotescontest.com/llms.txt. Il file elenca le voci di glossario chiave del sito — SPF Record, DKIM, DMARC, Email Confirmation Vote, AI Overviews — con brevi descrizioni e URL diretti. Un assistente di ricerca IA che fa crawl del sito come parte di una pipeline RAG per una query su “autenticazione email per piattaforme di concorsi” recupera il file llms.txt, identifica le voci pertinenti e va a prendere direttamente le pagine di contenuto invece di tentare di parsare l’intera struttura HTML del sito. Il risultato è che le voci di glossario vengono rappresentate più accuratamente nelle risposte del sistema IA di quanto non sarebbe accaduto con un crawl generico.

Un developer che costruisce un assistente di knowledge interno per un’agenzia di marketing implementa il parsing di llms.txt nella propria pipeline RAG, dando priorità alle pagine elencate nei file llms.txt quando vengono recuperate più pagine dello stesso dominio per una query. Questo dà agli editor che mantengono llms.txt un piccolo ma costante vantaggio nella frequenza di citazione negli output dell’assistente.

Concetti correlati

llms.txt opera sul layer di comunicazione con i crawler IA, complementando il vocabolario semantico strutturato di Schema.org — che segnala tipo di contenuto e relazioni tra entità a motori e sistemi IA via JSON-LD — e i segnali di qualità del contenuto valutati da Google con il framework E-E-A-T e con il classificatore Helpful Content Update. Per massima scopribilità IA, agli editor è consigliato mantenere tutti e tre: una llms.txt valida, dati strutturati Schema.org completi e contenuto che soddisfi gli standard E-E-A-T e Helpful Content che governano l’idoneità alle citazioni nelle funzioni di tipo AI Overview e simili.