Avoir du contenu DANS Google c'est difficile mais supprimer du contenu dans Google peut être aussi compliqué.
Pourtant la bible, heuu .. notice de Google est assez explicite.
http://www.google.fr/intl/fr_fr/remove.html
On le réécrit pour les étourdis ( ou ceux qui ne croient QUE ce qui est écrit ici 😉):
Supprimer votre site Web
Pour exclure de l'index Google une partie (un ou
plusieurs dossiers) ou la totalité de votre site Web, il suffit de
placer le fichier robots.txt au niveau racine/root de votre serveur.
Pour empêcher l'exploration de votre site par Google
(et par tout autre service de recherche), votre fichier robots.txt doit
contenir l'instruction suivante :
User-Agent: *
Disallow: /
Ce protocole standard est respecté par
la plupart des robots-explorateurs et autres araignées : lorsqu'ils
rencontrent cette instruction, ils n'incluent pas le serveur Web (ou le
ou les dossiers considérés) dans leur index. Pour plus de détails sur le
fichier robots.txt, consultez la page suivante (en anglais) : www.robotstxt.org/wc/norobots.html, ou la page suivante (en français) : http://www.referencement-fr.com/?file=referencement7.
|
|
Supprimer certaines pages |
Pour empêcher
l'indexation de certaines pages par Google (et par tout autre service de
recherche), insérez la balise suivante dans le code HTML de ces pages :
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Pour empêcher l'indexation de certaines pages seulement par les robots Google (et non par les autres services de recherche), insérez la balise suivante dans le code HTML de ces pages :
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">
Pour plus de détails sur cette balise, consultez la page suivante : www.robotstxt.org/wc/exclusion.html#meta.
|
|
Supprimer les extraits de page (snippets) |
Un « snippet »
Google est un court extrait de page qui permet aux utilisateurs de voir
leurs termes de recherche en caractères gras et en contexte dans les
résultats Google, et de sélectionner la page qui les intéresse. En
général, les utilisateurs sélectionneront plus volontiers (et plus
rapidement !) une page qui est présentée avec des termes en contexte.
Toutefois, si vous préférez présenter des pages sans snippet, insérez la balise suivante dans leur code HTML :
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">
Remarque : Lorsque vous demandez la suppression des extraits de page/snippets, Google supprime également les pages cachées.
|
|
Supprimer les pages archivées (cachées) |
Google dispose d'un « cache » dans
lequel il conserve une copie texte de la plupart des documents qu'il
rencontre sur le Web. Grâce à ce cache, vous pouvez à tout moment
consulter une version archivée (ou « cachée ») d'une page Web qui vous
intéresse, même si la page originale est inaccessible suite à un
incident subi par son serveur Web). Lorsque vous cliquez sur le lien
« Copie cachée » d'une page Web, Google affiche celle-ci dans l'état où
elle se trouvait lors de son indexation la plus récente, et un message
affiché en haut de page rappelle qu'il s'agit d'une version cachée de la
page demandée.
Pour empêcher l'archivage de certaines
pages par Google (et par tout autre service de recherche), insérez la
balise suivante dans leur bloc <HEAD> :
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
Pour empêcher l'archivage de certaines pages seulement par les robots Google (et non par les autres services de recherche), utilisez la balise suivante :
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">
Remarque : Cette balise annule
uniquement le lien « Copie cachée » de la page ; en l'absence d'autres
balises spécifiques, Google continue à indexer la page et à afficher un
extrait/snippet.
|
|
Supprimer un lien périmé |
Google met à jour son index
automatiquement, intégralement et à intervalles réguliers. Lorsque nous
explorons le Web, nous trouvons les nouvelles pages, nous éliminons les
liens périmés ou sans cible et nous mettons à jour les liens selon
besoin. Les liens périmés ou sans cible disparaissent automatiquement de
notre index lors de la prochaine exploration du Web.
|
|
Supprimer une image |
Si vous souhaitez qu'un élément graphique
(image) de votre site soit supprimé de l'index d'images proposé par
Google, vous devez demander à votre webmaster d'ajouter le fichier
robots.txt au niveau racine/root du serveur (si ce n'est pas possible,
placez ce fichier au niveau des dossiers du site).
Exemple : Si vous souhaitez que Google n'indexe pas l'image
ludo.jpg du site http://www.mon_site.com, soit
http://www.mon_site.com/images/ludo.jpg, créez le fichier robots.txt à
l'adresse suivante http://www.mon_site.com/robots.txt et insérez l'instruction
suivante dans ce fichier :
User-Agent: Googlebot-Image
Disallow: /images/ludo.jpg
Pour exclure toutes les images de votre
site de l'index Google, placez le fichier robots.txt suivant au niveau
racine/root de votre serveur :
User-Agent: Googlebot-Image
Disallow: /
Après avoir placé ce fichier, faites-nous parvenir un e-mail (googlebot@google.com)
pour décrire la modification effectuée et préciser l'emplacement de
votre fichier robots.txt : sous 48 heures, nous arrêterons d'indexer les
images de votre site. Pour plus de détails sur les fichiers robots.txt
et leur utilisation, consultez la page suivante (au stade actuel, en
anglais uniquement) : www.google.com/webmasters/3.html#B3.




Laisser un commentaire