llms.txt

التعريف

llms.txt معيار مفتوح غير رسمي لملف نصي عادي يُستضاف في جذر الموقع على المسار /llms.txt، صُمم لتقديم خريطة محتوى منظمة قابلة للقراءة بشريًا وآليًا تستهدف زواحف نماذج اللغة الكبيرة (LLM) وأنظمة الاكتشاف المدفوعة بالذكاء الاصطناعي. اقترح الاتفاقية في 2024 Jeremy Howard، المؤسس المشارك لـfast.ai وشخصية بارزة في التعلم العميق التطبيقي، بوصفها مماثلة لـrobots.txt (الذي يحكم أذونات وصول الزواحف) وخرائط XML للمواقع (التي تعدّ روابط الصفحات لفهرسة محرك البحث)، لكنها مكيّفة للقيود والمتطلبات المحددة لسير عمل استدلال نماذج اللغة الكبيرة.

الفرضية الجوهرية هي أن نماذج اللغة الكبيرة التي تعالج محتوى الويب للتوليد المعزز بالاسترداد (RAG) أو الاستيعاب المباشر تواجه حاجة معلوماتية مختلفة عن زواحف الويب التقليدية: إذ تستفيد من أوصاف موجزة ومنظمة لما يحتويه الموقع — بما في ذلك السياق حول هدف الموقع، وطبيعة كل قسم، والروابط للمحتوى الرئيسي — في صيغة تتسع بكفاءة ضمن نوافذ السياق المحدودة بالرموز المستخدمة أثناء الزحف أو التلخيص.

كيف يعمل

يستخدم ملف llms.txt صيغة قائمة على Markdown بدلًا من XML أو JSON. يحتوي ملف نموذجي على وصف موجز عالي المستوى للموقع في عنوان H1، يتبعه فقرة ملخص في كتلة اقتباس، ثم أقسام منظمة من روابط Markdown تشير إلى أهم صفحات الموقع. يمكن أن يتضمن كل رابط وصفًا قصيرًا داخل السطر.

قد يصاحب الملف متغير ممتد على /llms-full.txt، يتضمن النص الكامل لمحتوى الصفحات الرئيسية بدلًا من مجرد الروابط — مفيد لأنظمة الذكاء الاصطناعي التي يمكنها استيعاب وثائق أطول في مرور واحد.

الاتفاقية بسيطة عمدًا: لا صيغة خاصة تتجاوز Markdown القياسية، ولا حقول إلزامية تتجاوز وصف الموقع ورابط واحد على الأقل، ولا خطوة تسجيل أو تحقق مطلوبة. تُصان المواصفة على llmstxt.org وصُممت لتكون قابلة للتنفيذ في دقائق من قبل أي ناشر ويب. شهدت منصات CMS بما فيها WordPress (عبر إضافة) وAstro وNext.js تكاملات طورها المجتمع تنشئ llms.txt تلقائيًا من بنية الموقع الموجودة.

على عكس robots.txt الذي يوجّه الزواحف بشأن أذونات الوصول (ما يُسمح أو لا يُسمح لها بجلبه)، فإن llms.txt تصريحي ومعلوماتي بحت: لا يمنح أو يقيد الوصول، بل يشير إلى المحتوى الذي يعتبره صاحب الموقع الأكثر أهمية لفهم أنظمة الذكاء الاصطناعي. لا توجد هيئة معايير حاكمة (على عكس robots.txt الذي له مسوّدة RFC — RFC 9309 — تُعيّر بروتوكول استبعاد الروبوتات)، والامتثال لزواحف نماذج اللغة الكبيرة لـllms.txt طوعي ويختلف بحسب المُشغّل.

تشمل أنظمة ومنتجات الذكاء الاصطناعي التي أُفيد باحترامها أو نظرها في llms.txt Perplexity AI، ومساعدات بحث مختلفة قائمة على RAG، وبعض تنفيذات أداة تصفح الويب من OpenAI — رغم أن لا مزود LLM رئيسي ألزم رسميًا بمعاملته كمعيار مطلوب حتى 2025.

أين تصادفها

تُناقش اتفاقية llms.txt بشكل أكثر شيوعًا عند تقاطع SEO، وAEO (تحسين محرك الإجابة)، ومجتمعات نشر الويب التقني. اكتسبت زخمًا مهمًا بعد أن انتشر منشور اقتراح Jeremy Howard الأولي في أواخر 2024 على نطاق واسع بين المطورين والناشرين والباحثين في الذكاء الاصطناعي.

للمواقع الغنية بالمحتوى التي تستهدف الظهور في أسطح الإجابة المدفوعة بالذكاء الاصطناعي — بما في ذلك Google AI Overviews، وPerplexity AI، ووضع تصفح الويب في ChatGPT، والاستجابات المُستشهد بها في Microsoft Copilot، والميزات المماثلة — يمثل llms.txt إشارة منخفضة التكلفة لنية المحتوى. يُكمل الآليات الموجودة لقابلية الاكتشاف بدلًا من استبدالها: البيانات المهيكلة عبر Schema.org (وخاصة أنواع DefinedTerm وFAQPage وHowTo)، وخرائط XML للمواقع، والإشارات الدلالية التي يستخدمها إطار E-E-A-T تظل جميعها الآليات الأساسية التي تقيّم بها محركات البحث التقليدية وأنظمة الذكاء الاصطناعي المحتوى وترتبه.

كانت منصات الوثائق والاستضافة، ومزودو واجهات API، وموردو أدوات المطورين من أوائل المتبنين، إذ إن جمهورهم (المطورون الذين يبنون تطبيقات الذكاء الاصطناعي) متقبل خصوصًا للاتفاقية. تتلاءم أيضًا مواقع وثائق منتجات SaaS، وتجميعات المعجم، وقواعد المعرفة جيدًا مع الصيغة.

أمثلة عملية

تُنشئ منصة تصويت في المسابقات تحتوي معجمًا واسعًا ملف llms.txt على https://buyvotescontest.com/llms.txt. يسرد الملف مدخلات المعجم الرئيسية للموقع — SPF Record، DKIM، DMARC، Email Confirmation Vote، AI Overviews — مع أوصاف موجزة وروابط مباشرة. يستجلب مساعد بحث ذكاء اصطناعي يزحف الموقع كجزء من خط أنابيب RAG لاستفسار عن “مصادقة البريد لمنصات المسابقات” ملف llms.txt، ويحدد مدخلات المعجم ذات الصلة، ويستجلب صفحات محتواها مباشرة بدلًا من محاولة تحليل بنية HTML الكاملة للموقع. النتيجة أن مدخلات المعجم تُمثَّل بدقة أكبر في استجابات نظام الذكاء الاصطناعي مما لو حاول المساعد استنتاج بنية الموقع من زحف عام.

ينفذ مطور يبني مساعد معرفة داخلي لوكالة تسويق تحليل llms.txt في خط أنابيب RAG الخاص به، فيُولي الأولوية للصفحات المدرجة في ملفات llms.txt عند جلب صفحات متعددة من نفس النطاق لاستفسار معين. يمنح هذا الناشرين الأغنياء بالمحتوى الذين يصونون ملفات llms.txt ميزة صغيرة لكن ثابتة في تكرار الاستشهاد ضمن مخرجات المساعد.

مفاهيم ذات صلة

يعمل llms.txt على طبقة التواصل مع زواحف الذكاء الاصطناعي، مكملًا المفردات الدلالية المنظمة التي تقدمها Schema.org — التي تشير إلى نوع المحتوى وعلاقات الكيانات لمحركات البحث وأنظمة الذكاء الاصطناعي عبر JSON-LD — وإشارات جودة المحتوى التي تقيمها Google ضمن إطار E-E-A-T ومصنف Helpful Content Update. لتحقيق أقصى قابلية اكتشاف بالذكاء الاصطناعي، يُنصح الناشرون بصيانة الثلاثة معًا: ملف llms.txt صالح لخريطة المحتوى، وبيانات Schema.org مهيكلة شاملة، ومحتوى يستوفي معايير E-E-A-T وHelpful Content التي تحكم أهلية الاستشهاد في ميزات نظرات الذكاء الاصطناعي ومحركات الإجابة المماثلة.