Crawl
Processus par lequel les robots de Google (Googlebot) parcourent et analysent les pages d'un site web.
Qu'est-ce que le crawl ?
Le crawl (ou exploration) est la toute première étape du processus qui permet à une page web d'apparaître dans les résultats de recherche. Les moteurs de recherche utilisent des programmes automatisés appelés robots d'exploration (crawlers, spiders ou bots) qui parcourent le web en permanence en suivant les liens hypertextes de page en page.
Fréquence de crawl selon le type de site
Fréquence de crawl par Googlebot
| Type de site | Fréquence de crawl | Raison |
|---|---|---|
| Site d'actualités (Le Monde, BFM) | Plusieurs fois par heure | Contenu mis à jour en continu |
| E-commerce (100k+ pages) | Plusieurs fois par jour | Catalogue produits dynamique |
| Site vitrine / PME | Quelques fois par semaine | Contenu stable, faible autorité |
| Blog personnel | 1 à 2 fois par semaine | Mises à jour peu fréquentes |
| Site abandonné | Quelques fois par mois | Aucun signal de fraîcheur |
Optimiser le crawl de votre site
- Architecture claire : chaque page accessible en 3 clics maximum depuis la page d'accueil
- Sitemap XML a jour : soumettez-le via la Google Search Console pour guider Googlebot
- Temps de réponse serveur : visez un TTFB sous 200 ms pour maximiser le nombre de pages crawlées
- Maillage interne : liez vos pages stratégiques entre elles pour faciliter leur découverte
- Corriger les erreurs : éliminez les 404 et les chaînes de redirections qui gaspillent le crawl budget
Controler le crawl avec robots.txt
Le fichier robots.txt permet de communiquer des instructions aux robots d'exploration. Vous pouvez bloquer l'accès à des sections sans valeur SEO pour economiser le crawl budget.
User-agent: *
Disallow: /search/
Disallow: /cart/
Disallow: /account/
Allow: /
Sitemap: https://example.com/sitemap.xmlTermes liés
Indexation
Processus par lequel Google ajoute une page web à son index pour qu'elle puisse apparaître dans les résultats de recherche.
Crawl Budget
Nombre de pages que Googlebot va explorer sur votre site lors d'une session de crawl donnée.
Robots.txt
Fichier placé à la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages explorer ou ignorer.
Sitemap XML
Fichier XML listant toutes les URLs importantes d'un site pour faciliter leur découverte par les moteurs de recherche.
Besoin d'un expert SEO ?
Passez de la théorie à la pratique. Discutons de votre stratégie de référencement naturel.
Réserver un appel stratégique