Indexation SEO : Robots.txt, Sitemap XML, Schema.org

Pourquoi l'indexation est cruciale ?

Avant de pouvoir apparaître dans les résultats de recherche, votre site doit être découvert, crawlé et indexé par Google. Les fichiers robots.txt et sitemap.xml guident les robots de Google, tandis que les données structurées les aident à comprendre votre contenu.

Une mauvaise configuration de ces éléments peut bloquer l'indexation de vos pages importantes ou diluer votre budget de crawl sur des pages inutiles.

Qu'est-ce que robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site qui indique aux robots d'indexation (Googlebot, Bingbot, etc.) quelles pages ils peuvent ou ne peuvent pas explorer.

Exemple de robots.txt :

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/

Sitemap: https://www.votre-site.fr/sitemap.xml

Directives principales :

User-agent: Robot ciblé (* = tous)
Allow: Autorise le crawl d'un chemin
Disallow: Interdit le crawl d'un chemin
Sitemap: Indique l'emplacement du sitemap

Qu'est-ce qu'un Sitemap XML ?

Le sitemap XML est une liste structurée de toutes les pages de votre site que vous souhaitez voir indexées. Il aide Google à découvrir vos pages plus rapidement et à comprendre la structure de votre site.

Structure d'un sitemap :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.votre-site.fr/</loc>
    <lastmod>2024-01-15</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
</urlset>

Bonnes pratiques :

Maximum 50 000 URLs par sitemap
Inclure uniquement les pages indexables
Mettre à jour automatiquement après chaque modification
Soumettre dans Google Search Console

Qu'est-ce que Schema.org ?

Schema.org est un vocabulaire de données structurées qui aide les moteurs de recherche à comprendre le contenu de vos pages. Il permet d'obtenir des rich snippets (extraits enrichis) dans les résultats Google.

Recette : Gâteau au Chocolat

★★★★★

4.8 (234 avis)

⏱ 45 min • 🍽 8 portions • 285 kcal

Exemple JSON-LD pour un article :

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Titre de l'article",
  "author": {"@type": "Person", "name": "Auteur"},
  "datePublished": "2024-01-15"
}
</script>

Types Schema courants :

• Article

• Product

• LocalBusiness

• Recipe

• FAQPage

• BreadcrumbList

• Organization

• Person

Contrôler l'indexation page par page

La balise meta robots permet de contrôler l'indexation et le suivi des liens au niveau de chaque page, offrant un contrôle plus fin que robots.txt.

Exemples courants :

<meta name="robots" content="index, follow"> <meta name="robots" content="noindex, follow"> <meta name="robots" content="noindex, nofollow">

Directives disponibles :

index - Autoriser l'indexation

follow - Suivre les liens

noindex - Ne pas indexer

nofollow - Ne pas suivre

Ce que notre audit vérifie

Notre outil vérifie automatiquement la présence et la configuration de tous ces éléments techniques essentiels pour l'indexation de votre site.

Fichier robots.txt présent

Sitemap XML accessible

Données structurées Schema.org

Balises meta robots

Cohérence robots.txt/sitemap

Validation JSON-LD

Vérifier l'indexation de mon site

Indexation & SEO Technique