Technique

Crawl

Processus par lequel les robots de Google (Googlebot) parcourent et analysent les pages d'un site web.

Qu'est-ce que le crawl ?

Le crawl (ou exploration) est la toute première étape du processus qui permet à une page web d'apparaître dans les résultats de recherche. Les moteurs de recherche utilisent des programmes automatisés appelés robots d'exploration (crawlers, spiders ou bots) qui parcourent le web en permanence en suivant les liens hypertextes de page en page.

Fréquence de crawl selon le type de site

Fréquence de crawl par Googlebot

Type de site	Fréquence de crawl	Raison
Site d'actualités (Le Monde, BFM)	Plusieurs fois par heure	Contenu mis à jour en continu
E-commerce (100k+ pages)	Plusieurs fois par jour	Catalogue produits dynamique
Site vitrine / PME	Quelques fois par semaine	Contenu stable, faible autorité
Blog personnel	1 à 2 fois par semaine	Mises à jour peu fréquentes
Site abandonné	Quelques fois par mois	Aucun signal de fraîcheur

Optimiser le crawl de votre site

Architecture claire : chaque page accessible en 3 clics maximum depuis la page d'accueil
Sitemap XML a jour : soumettez-le via la Google Search Console pour guider Googlebot
Temps de réponse serveur : visez un TTFB sous 200 ms pour maximiser le nombre de pages crawlées
Maillage interne : liez vos pages stratégiques entre elles pour faciliter leur découverte
Corriger les erreurs : éliminez les 404 et les chaînes de redirections qui gaspillent le crawl budget

Controler le crawl avec robots.txt

Le fichier robots.txt permet de communiquer des instructions aux robots d'exploration. Vous pouvez bloquer l'accès à des sections sans valeur SEO pour economiser le crawl budget.

txt

User-agent: *
Disallow: /search/
Disallow: /cart/
Disallow: /account/
Allow: /

Sitemap: https://example.com/sitemap.xml

Termes liés

Indexation

Processus par lequel Google ajoute une page web à son index pour qu'elle puisse apparaître dans les résultats de recherche.

Voir la définition

Crawl Budget

Nombre de pages que Googlebot va explorer sur votre site lors d'une session de crawl donnée.

Voir la définition

Robots.txt

Fichier placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages explorer ou ignorer.

Voir la définition

Sitemap XML

Fichier XML listant toutes les URLs importantes d'un site pour faciliter leur découverte par les moteurs de recherche.

Voir la définition

PrécédentCore Web Vitals SuivantCrawl Budget

Besoin d'un expert SEO ?

Passez de la théorie à la pratique. Discutons de votre stratégie de référencement naturel.

Réserver un appel stratégique