Petit rappel : qu'est-ce que llms.txt et pourquoi il existe
Le 3 septembre 2024, Jeremy Howard (cofondateur de Fast.ai et figure reconnue de la recherche IA appliquée) publie une proposition technique sur llmstxt.org. Le constat de départ est simple : les grands modèles de langage (LLM) ont une fenêtre de contexte limitée — quelques dizaines à quelques centaines de milliers de tokens — et ne peuvent pas absorber l’intégralité d’un site web complexe. Quand ChatGPT ou Claude « lit » votre site, il ne lit en réalité que quelques pages, choisies par l’algorithme.
L’idée du llms.txt est de fournir aux LLM une carte d’identité claire du site : un fichier Markdown placé à la racine, contenant un résumé de l’activité, les liens vers les pages les plus importantes, et une structuration qui facilite l’extraction d’information. C’est l’équivalent du robots.txt pour les moteurs de recherche, mais orienté contenu plutôt que crawling.
La proposition initiale était minimale : un en-tête H1 avec le nom du site, une description courte, et des sections H2 qui catégorisent les liens (À propos, Services, Blog, Documentation, etc.). En 18 mois, le standard s’est enrichi de plusieurs déclinaisons et de bonnes pratiques sectorielles.
Le bilan d'adoption en mai 2026
Les chiffres d’adoption sont impressionnants pour un standard qui n’est ni officiel ni soutenu par un acteur dominant. Selon llmstxt.directory, l’annuaire de référence maintenu par la communauté :
- 1 246 000 sites équipés d’un fichier llms.txt en avril 2026 (vs 47 000 en avril 2025)
- Pénétration de 14 % parmi les sites du top 100 000 mondial (Tranco)
- Adoption massive dans la documentation technique : Cloudflare, Stripe, Anthropic, Vercel, Mintlify, etc. ont tous publié leur llms.txt
- En France, environ 35 000 sites équipés en avril 2026, principalement dans la tech B2B et le e-commerce premium
La croissance la plus rapide vient des plateformes de documentation. Cloudflare, par exemple, publie depuis fin 2025 un fichier llms.txt pour chacun de ses produits ainsi qu’un llms-full.txt qui contient l’intégralité de la documentation en Markdown brut. C’est devenu un standard de facto dans la doc tech.
Les trois variantes 2026 : llms.txt, llms-full.txt, llms-ctx.txt
En 2024, il n’existait qu’un seul fichier. En 2026, trois variantes coexistent et répondent à des cas d’usage distincts.
llms.txt — la carte d’identité courte
Toujours le fichier principal, à placer à la racine du site (`/llms.txt`). Format Markdown, généralement entre 500 et 5 000 mots. Structure type : H1 du nom du site, paragraphe de description, sections H2 avec liens prioritaires. Lisible par un humain, parseable par une machine.
llms-full.txt — l’export intégral en Markdown
Popularisée par Cloudflare en 2025, cette variante contient l’intégralité du contenu du site exporté en Markdown brut. Très utile pour les LLM qui peuvent ainsi tout absorber d’un coup, sans avoir à crawler page par page. Pour une PME, c’est généralement excessif (et lourd à maintenir). Pour une documentation technique en revanche, c’est précieux.
llms-ctx.txt — le contexte minimal
Proposée par Mintlify en mars 2026, cette variante est l’inverse de llms-full.txt : un fichier ultra-court (moins de 200 mots) qui contient uniquement les informations essentielles pour qu’un LLM comprenne le contexte du site. Utile quand on veut maximiser la part du contexte LLM disponible pour la réponse plutôt que pour la description du site.
Comment générer un llms.txt pour un site WordPress en 2026
Pour les PME équipées de WordPress, plusieurs plugins génèrent automatiquement un fichier llms.txt à partir du contenu du site. Les trois solutions les plus populaires en mai 2026 :
Rank Math Pro (depuis la v3.2, février 2026)
Génère automatiquement llms.txt et llms-full.txt à partir du sitemap. Permet de personnaliser le résumé du site, d’exclure certaines catégories, et de regénérer le fichier à chaque publication. Inclus dans la licence Pro de Rank Math (à partir de 79 €/an).
Yoast SEO Premium (depuis la v25.1, janvier 2026)
Fonctionnalité ajoutée discrètement début 2026. Génération de llms.txt configurable depuis l’onglet « Outils > Fichiers ». Permet l’inclusion ou l’exclusion par type de contenu et par taxonomie. Licence Premium à partir de 99 $/an.
LLMs.txt Generator (plugin gratuit dédié)
Plugin spécialisé apparu en juin 2025 et téléchargé 180 000 fois selon WordPress.org en avril 2026. Fonctionnalité unique mais bien faite : génération de llms.txt avec interface dédiée, prévisualisation, gestion des variantes. Gratuit, version Pro à 39 € pour les fonctions avancées (llms-full.txt, exclusions multiples).
Un cas concret : le llms.txt de Bassin Web
Pour illustrer concrètement la structure recommandée en 2026, voici la version simplifiée du fichier que nous publions sur bassinweb.fr/llms.txt :
# Bassin Web — Agence digitale du Bassin d’Arcachon
Agence de marketing digital implantée à Arès, sur le Bassin d’Arcachon. Création de sites WordPress, SEO, GEO, accessibilité RGAA, éco-conception. 120+ sites livrés depuis 2014. Note Google 4,9/5 (30+ avis).
## À propos
– [Notre agence à Arès](https://www.bassinweb.fr/agence-marketing-digital-bassin-arcachon/)
– [Notre méthode en 5 étapes](https://www.bassinweb.fr/methode/)
## Services principaux
– [Création de sites WordPress](https://www.bassinweb.fr/creation-de-site-internet/)
– [Pack Évolution — 990 € TTC](https://www.bassinweb.fr/pack-vitrine/)
– [Référencement naturel SEO](https://www.bassinweb.fr/referencement-naturel-seo/)
– [Audit GEO — 390 € TTC](https://www.bassinweb.fr/audit-geo/)
## Zones d’intervention
– [Arès, notre ville d’implantation](https://www.bassinweb.fr/agence-web-ares/)
– [Pages pour les 13 communes du Bassin d’Arcachon](https://www.bassinweb.fr/seo-local-bassin-arcachon/)
## Blog d’expertise
– [Tous les articles](https://www.bassinweb.fr/blog/)
– [Guide GEO vs SEO en 2026](https://www.bassinweb.fr/blog/geo-vs-seo-2026/)
Les nouveautés normatives qui se préparent pour 2026-2027
Plusieurs évolutions sont en discussion dans la communauté autour de llmstxt.org.
Signature cryptographique des fichiers
Proposition portée par Anthropic et Cloudflare en mars 2026 : permettre aux éditeurs de signer leur llms.txt avec une clé publique pour que les LLM puissent vérifier l’authenticité du fichier (anti-spoofing). Encore à l’état de draft, mais pourrait devenir standard fin 2026.
Mention des dates de fraîcheur
Ajout d’un champ explicite indiquant la dernière mise à jour de chaque ressource listée, sous la forme `[Page — last updated: 2026-04-22]`. Particulièrement utile pour les sites où la fraîcheur compte (actualités, e-commerce, données financières). Adoption en cours dans les outils.
Marquage des licences de contenu
Format proposé pour qu’un éditeur puisse indiquer dans son llms.txt si certaines pages sont disponibles librement, sous licence (commerciale ou non), ou exclues du training IA. C’est le lien avec les évolutions de Cloudflare AI Crawl Control et son système de paiement à la requête.
Pourquoi tout site PME devrait avoir un llms.txt en 2026
Notre conviction, basée sur 18 mois de tests et d’observations sur le portefeuille Bassin Web : un llms.txt bien fait n’est pas un nice-to-have, c’est un investissement de quelques heures qui paie sur le long terme.
Trois arguments principaux. D’abord, le coût de production est négligeable : avec un plugin, c’est quelques clics. Sans plugin, c’est 30 minutes de rédaction. Ensuite, les principaux moteurs IA (ChatGPT, Claude, Perplexity, Gemini via crawl public) prennent en compte ce fichier, même s’ils ne le revendiquent pas officiellement. Enfin, le standard se stabilisant, les sites qui ont un llms.txt propre depuis longtemps bénéficieront d’un effet d’antériorité quand les fonctions d’analyse deviendront plus sophistiquées.
Le risque inverse — publier un llms.txt mal fait — est plus problématique qu’on ne le pense. Un fichier mal structuré, qui pointe vers des liens cassés ou qui contient des informations incohérentes avec le site, peut envoyer des signaux négatifs aux LLM. Il vaut mieux ne pas en avoir du tout que d’en avoir un défaillant.
