Définition de Robots.txt

Définition du fichier robots.txt

Le robots.txt est fichier placer à la racine du site web qui contient des directives pour les robots crawl de Google et autres moteurs de recherche. La plupart du temps, il indique aux robots les URL du site à ne pas parcourir.

En arrivant sur votre site, les crawler de Google téléchargent et analysent le robots.txt. Avec autorisation ils parcourent ensuite les URL du site en appliquant les règles dictées par le fichier.

Fonctionnement des fichiers robots.txt

Le fichier robot.txt peut être créée manuellement à l’aide d’outils en ligne tel que Notepad, il faut faire attention à respecter la syntaxe et la structure du code. Pour éviter toute erreurs vous pouvez consulter le guide aux webmasters délivrer par Google. Pour la majorité des CMS comme WordPress il est généré automatiquement à la création, il suffit de vous rendre dans le dossier à la racine de votre site. Dans les fichiers robots.txt, on retrouve les fonctions suivantes :

User agent : c’est-à-dire à qui les règles s’adressent. L’user agent de Google (Googlebot) De Bing (bingbot) Ou tout autre moteur de recherche.
L’action : il en existe deux, Allow ou Disallow. Elle indique si le robot est autorisé ou n’est pas autorisé à l’exploration lors du crawl du site.

Exemple de fichier

# fichier pour les robots du site http://www.monsite.com/
User-Agent: * (autorise l’accès à tous les robots )
Disallow: /fichierA/
Allow: /*.php?
Sitemap: http://www.monsite.com/sitemap_index.xml

Une fois mis en place vous pouvez tester votre fichier dans la search console de Google. Tous les robots ne sont pas également capables de comprendre des expressions régulières complexes. Il est recommandé de s’en tenir à des formules simples.

Avantages SEO

L’utilisation de la mention disallow des robots vous permet d’éviter le crawl de pages moins bonnes qualités et des contenus dupliqués désavantageux pour votre référencement. Indique le sitemaps et autres informations essentielles du site. En utilisant le robots.txt vous économisez votre budget crawl. Le budget crawl correspond au nombre de pages que les bots vont crawler en fonction de la taille du site, de sa fréquence de mise à jour…

Attentions les URL ne seront pas crawler mais, ils seront toujours indexés, ce qui veut dire qu’ils apparaîtront toujours dans les pages de résultats.