DOCmémo : 117 rubriques
Tout DOCmémo    
  

Vous avez un site ou un blog ? Faites connaître DOCmémo

> NOUVEAU
• Mise à jour des serveurs de mail
• Tous les raccourcis de Windows 7

 

 

 

 

 

 

 

 

 

 

 

 

 

Les robots des moteurs de recherche

Pour indexer les sites, les moteurs de recherche envoient en exploration un robot qui visite inlassablement le Web. Pour contrôler ces robots, deux moyens sont à votre disposition :
le fichier robots.txt et la balise META robots.
Les robots, lorsqu'ils visitent un site, laisse une trace de leur passage, enregistrée dans le fichier journal du serveur (le fichier log). Voyez la liste des robots au bas de cette page.

Le fichier robots.txt

Règles générales
- Le nom du fichier est obligatoirement en minuscules.
- Il doit contenir exclusivement du texte pur.
- Il ne peut contenir aucune ligne vide.
- Il doit être situé dans le répertoire racine du site.
Par exemple : http://www.monsite.com/robots.txt.

Syntaxe
#  
Commentaire  
Exemple : # créé par jip
   
User-agent  
Nom du robot  
Exemples : User-agent: BadBot
  User-agent: *
Le caractère * signifie "tous les robots"
   
User-agent  
Nom du robot  
Exemples : User-agent: BadBot
  User-agent: *
Remarque : le caractère * signifie "tous les robots".
   
Disallow  
Exclusion  
Exemples : Disallow /
  Disallow /tmp/
  Disallow /docs/temp/
  Disallow /doc/test.html
Remarque : Les caractères jokers (* et ?) sont interdits. Par exemple : Disallow /docs/*.doc est interdit.

Quelques exemples
> Exclure tous les robots sur tout le site
User-agent: * Disallow: /
Vous pouvez aussi créer un fichier robots.txt vide.

> Exclure tous les robots dans quelques répertoires du site.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Aucun robot n'indexera les pages contenues dans les répertoires /cgi-in, /tmp et /private.

> Exclure un robot précis sur tout le site
User-agent: WebCrawler
Disallow: /

> Autoriser un seul robot sur tout le site
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /

Le robot WebCrawler peut indexer tous le site. Les autres robots sont exclus de tout le site.

> Exclure quelques pages précises à tous les robots
User-agent: *
Disallow: /docs/test.html
Disallow: /docs/perso.html
Disallow: /docs/interdit.html

Aucun robot n'indexera les fichiers test.html, perso.html et interdit.html dans le répertoire /docs.

> Autoriser tout le site à un robot, interdire tout le site à un autre robot, exclure quelques répertoires pour les autres robots.
# créé par jip
User-agent: webcrawler
Disallow:
User-agent: lycra
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs

La première ligne est un commentaire. Le robot WebCrawler peut indexer tout le site sans exception. Le robot Lycra est exclus de tout le site. Les autres sont exclus des répertoires /tmp et /logs.

La balise META robots

Règles générales
- <meta name='robots' content='param1,param2'>
- param1 : index ou noindex
- param2 : follow ou nofollow
- Cette balise doit être insérée dans la section <head> de chaque page du site.

Syntaxe
index
La page doit être indexée.

noindex
La page ne doit pas être indexée

follow
Le robot doit suivre les liens hypertextes de la page pour continuer son indexation.

nofollow
Le robot ne doit pas suivre les liens hypertextes de la page.

Exemple
Indexer la page mais empêcher les robots de poursuivre leur visite sur les pages liées
<meta name="robots" content="index,nofollow">

La liste des robots

GoogleBot
GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes.
Néanmoins il en existe deux sortes : le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours. Le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.

Adresse IP : 216.239.46. - 64.68.8
http://www.googlebot.com/bot.html

Pompos
Pompos est un outil puissant d'analyse de documents à des fins d'indexation et de classement du Web. Le but du robot Pompos est de collecter le plus de documents possible sur le web, et ce pour le moteur dir.com.
Adresse IP : 212.27.33.
http://dir.com/pompos.html

Fast
Le robot de Fast / AlTheWeb
Adresse IP : 66.77.73.

Alexa
Le robot d'Alexa.
Adresse IP : 66.28.250. - 209.237.238.
http://pages.alexa.com/help/webmasters/index.html

Mercator (Altavista)
Robot d'Altavista
Adresse IP : 204.123.28.

Slurp (Inktomi)
Robot utilisé par Inktomi
Adresse IP : 216.35.116. - 66.196.90

Openfind
Openfind data gatherer, Openbot/3.0+(robot-response@openfind.com.tw)
Used for http://www.openfind.com.tw/ search engine (Taiwan)

Adresse IP : 66.237.60.
http://www.openfind.com.tw/robot.html

Scooter (Altavista)
Robot d'Altavista
Adresse IP : 64.152.75.114 - 209.73.162.54

SlySearch
Robot de recherche de plagiat (www.plagiarism.com)
Adresse IP : 64.140.48.30
http://www.plagiarism.org/crawler/robotinfo.html

ASP seek
Adresse IP : 198.169.127.

Almaden
Almaden est le laboratoire de recherche d'IBM...
Adresse IP : 66.147.154.3
http://www.almaden.ibm.com/cs/crawler

Ask Jeeves
Adresse IP : 65.214.36.150

Googlebot-Image
Robot d'indexation des images de Google
Adresse IP : 64.68.84.
http://www.googlebot.com/bot.html

Turnitin
Adresse IP : 64.140.48.
http://www.turnitin.com/robot/crawlerinfo.html

VoilaBot
Le robot de Voila
Adresse IP : 195.101.94.

ZyBorg (WiseNut)
Robot de WiseNut
Adresse IP : 209.249.66 - 209.249.67
http://www.wisenutbot.com/

DeepIndex
DeepIndex est le principal robot d'indexation de DeepIndex le moteur de recherche. Ce robot fonctionne sur plusieurs machines et alimente la base de recherche principale du moteur en permanence. Il respecte les normes W3C en matière de robot d'indexation et suit les indications du fichier robots.txt et/ou du meta-tag robots. Il est programmé pour ne pas saturer les serveurs.
http://www.webrankinfo.com/partenaires/deepindex/

Exabot
Robot de Exalead.
http://www.exalead.com/

Zeus

Inria

Xenu
Link Checker

WWWOffle

WiseWire-Spider

Wisenut - Korea
http://wisebot.koreawisenut.com

TwoTrees

What U Seek

WebZip
http://www.spidersoft.com

WebTrends
Link Analyser

Web Stripper
Download Manager

WebSpinne

WebReaper
Download Manager

Web Image Collector
Datafire Web Image Collector

WebCopier
offline browser

WebCompass

webbandit
Web Bandit personal search software

WDG
WDG HTML-code validator

W3C
W3C HTML-Code Validator

VSpider
Verity vspider indexing software

WebThief
Web Thief Site Grabber

URLGetFile
URLGetFile downloading tool

Infoseek

Tricos
http://www.tricos.com/metacheck

Trampelpfad

Hoppa

TJGroup

Tivra

Teoma

Szukacz

SyncIT
Link Validation

Yokogao
Yokogao Search Engine robot (Kanazawa University)

Wanadoo
Wanadoo Rechereche robot

Spider.de

Speedfind

SlySearch (slysearch@slysearch.com)
Slysearch

Slider

Internetseer

Searchexpress

Search.ch

URLSearch+

PlantyNet

PortalJuice
http://www.portaljuice.com

PingALink
PingALink website monitoring

Pico

IANett
http://www.ianett.com/parasite/

Oracle Search

OpenText

NTT Dir

Google WAP

Telefonica(es)

Noago

NICO Zone

NetZippy

Netprospector

NetMechanic

NetAnts
NetAnts/1.2x Downloadmanager

NEC

NationalDirectory

Korea Telekom

GetRight
Downloadmanager

Eidetica
http://eidetica.com/spider

ASI

Wespe.de

Galaxy

Echo.com

Abador

Advanced Email Extractor

Links2GO

WiseGuys
http://webagent.wise-guys.nl/

GOO.jp
http://www.inktomi.com/slurp.html

Web Link Validator

Euroferret

SearchHippo
http://www.searchhippo.com

Check&Get

Thunderstone

WebCollector

DirectHit

SomeWhere.com

WWW.fi

Lexibot

Marvin

Kolibri

LookSmart

LycosSpider (mod_spider)

Lycos Spider (T-Rex)

Search4Free

SevenTwentyFour

Link valet

CMP

GSeek

BigFoot

Kyoto Uni

Fireball

Kenjin

Dream Train

Look.com
http://www.look.com

IncyWincy
http://www.loopimprovements.com/robot.htm

Hippias

Harvest-NG

Yuntis
www.ecsl.cs.sunysb.edu/~maxim/cgi-bin/Link/GulperBot

Northernlight

PackerdBell

GoZilla

Gnod.net

GigaBaz
http://gigabaz.com/gigabaz/

geckobot

NTTRD.com

GaisLab
http://gais.cs.ccu.edu.tw/robot.php

Seed

Fireball

Excalibur

SmartSpider

EroCrawler

Enterprise Search

EmailWolf
Mail Collector

EmailSiphon
Mail Collector

Echo.fr

dtSearchSpider

NTT

Findsame

Ditto
Picture Search

openPortal4U

DiggIt

dbDig
http://www.prairielandconsulting.com

WholeWeb

Bisnisseek

CurryGuide

TTNet

pinPoint
WapResearch

Abacho.de (1)

Abacho (2)

SA France

Combine

CheckWeb
Link Validation

CheckBot
Linkvalidation

CG-Exe
CGI Checker

BullsEye

Cybercity

BB4

Atomz

Associative Sort

Aspseek robot

ASPSeek search engine software

Excite

EuroSeek

Aport

WalHello
www.walhello.com

AllesKlar

Vestris

Aladin.de

AESOP

Acoon.de

Acoi
Picturefinder

About

AbachoBot

A-Online Search

4anything.com

MS Prototype
Robot de Microsoft
Adresse IP : 131.107.

Surfnomore
Moteur de recherche en construction
Adresse IP : 165.90.194. - 66.28.249.
http://www.surfnomore.com

MSN Bot
Robot qui alimentera peut-être un moteur de recherche de Microsoft... MSN ?
Adresse IP : 131.107. - 65.54.164
http://search.msn.com/msnbot.htm

Source : Robostats

ACCUEIL    CONTACT     AIDE     LISTE DE DIFFUSION      HAUT DE LA PAGE haut de la page  
jean-paul mesters    • DocMemo.com © 2010 •