Les
robots des moteurs de recherche
Pour indexer les sites, les moteurs de recherche envoient en exploration
un robot qui visite inlassablement le Web. Pour contrôler ces robots, deux moyens
sont à votre disposition :
le fichier robots.txt et la balise META robots.
Les robots, lorsqu'ils visitent un site, laisse une trace de leur passage, enregistrée
dans le fichier journal du serveur (le fichier log). Voyez la liste des robots
au bas de cette page.
Le fichier robots.txt
Règles générales
- Le nom du fichier est obligatoirement en minuscules.
- Il doit contenir exclusivement du texte pur.
- Il ne peut contenir aucune ligne vide.
- Il doit être situé dans le répertoire racine du site.
Par exemple : http://www.monsite.com/robots.txt.
Syntaxe
| # |
|
| Commentaire |
|
| Exemple : |
# créé par jip |
| |
|
| User-agent |
|
| Nom du robot |
|
| Exemples : |
User-agent: BadBot |
| |
User-agent: * |
| Le caractère * signifie "tous les robots" |
| |
|
| User-agent |
|
| Nom du robot |
|
| Exemples : |
User-agent: BadBot |
| |
User-agent: * |
| Remarque : |
le caractère * signifie "tous les robots". |
| |
|
| Disallow |
|
| Exclusion |
|
| Exemples : |
Disallow / |
| |
Disallow /tmp/ |
| |
Disallow /docs/temp/ |
| |
Disallow /doc/test.html |
| Remarque : |
Les caractères jokers (* et ?) sont interdits. Par exemple
: Disallow /docs/*.doc est interdit. |
Quelques exemples
> Exclure tous les robots sur tout le site
User-agent: * Disallow: /
Vous pouvez aussi créer un fichier robots.txt vide.
> Exclure tous les robots dans quelques répertoires du site.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Aucun robot n'indexera les pages contenues dans les répertoires /cgi-in, /tmp et /private.
> Exclure un robot précis sur tout le site
User-agent: WebCrawler
Disallow: /
> Autoriser un seul robot sur tout le site
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
Le robot WebCrawler peut indexer tous le site. Les autres robots sont exclus de
tout le site.
> Exclure quelques pages précises à tous les robots
User-agent: *
Disallow: /docs/test.html
Disallow: /docs/perso.html
Disallow: /docs/interdit.html
Aucun robot n'indexera les fichiers test.html, perso.html et interdit.html dans le répertoire /docs.
> Autoriser tout le site à un robot, interdire tout le site à un
autre robot, exclure quelques répertoires pour les autres robots.
# créé par jip
User-agent: webcrawler
Disallow:
User-agent: lycra
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs
La première ligne est un commentaire. Le robot WebCrawler peut indexer tout
le site sans exception. Le robot Lycra est exclus de tout le site. Les autres sont
exclus des répertoires /tmp et /logs.
La balise META robots
Règles générales
- <meta name='robots' content='param1,param2'>
- param1 : index ou noindex
- param2 : follow ou nofollow
- Cette balise doit être insérée dans la section <head> de
chaque page du site.
Syntaxe
index
La page doit être indexée.
noindex
La page ne doit pas être indexée
follow
Le robot doit suivre les liens hypertextes de la page pour continuer son indexation.
nofollow
Le robot ne doit pas suivre les liens hypertextes de la page.
Exemple
Indexer la page mais empêcher les robots de poursuivre leur visite sur les
pages liées
<meta name="robots" content="index,nofollow">
La liste des robots
GoogleBot
GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes.
Néanmoins il en existe deux sortes : le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours. Le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.
Adresse IP : 216.239.46. - 64.68.8
http://www.googlebot.com/bot.html
Pompos
Pompos est un outil puissant d'analyse de documents à des fins d'indexation et de classement du Web. Le but du robot Pompos est de collecter le plus de documents possible sur le web, et ce pour le moteur dir.com.
Adresse IP : 212.27.33.
http://dir.com/pompos.html
Fast
Le robot de Fast / AlTheWeb
Adresse IP : 66.77.73.
Alexa
Le robot d'Alexa.
Adresse IP : 66.28.250. - 209.237.238.
http://pages.alexa.com/help/webmasters/index.html
Mercator (Altavista)
Robot d'Altavista
Adresse IP : 204.123.28.
Slurp (Inktomi)
Robot utilisé par Inktomi
Adresse IP : 216.35.116. - 66.196.90
Openfind
Openfind data gatherer, Openbot/3.0+(robot-response@openfind.com.tw)
Used for http://www.openfind.com.tw/ search engine (Taiwan)
Adresse IP : 66.237.60.
http://www.openfind.com.tw/robot.html
Scooter (Altavista)
Robot d'Altavista
Adresse IP : 64.152.75.114 - 209.73.162.54
SlySearch
Robot de recherche de plagiat (www.plagiarism.com)
Adresse IP : 64.140.48.30
http://www.plagiarism.org/crawler/robotinfo.html
ASP seek
Adresse IP : 198.169.127.
Almaden
Almaden est le laboratoire de recherche d'IBM...
Adresse IP : 66.147.154.3
http://www.almaden.ibm.com/cs/crawler
Ask Jeeves
Adresse IP : 65.214.36.150
Googlebot-Image
Robot d'indexation des images de Google
Adresse IP : 64.68.84.
http://www.googlebot.com/bot.html
Turnitin
Adresse IP : 64.140.48.
http://www.turnitin.com/robot/crawlerinfo.html
VoilaBot
Le robot de Voila
Adresse IP : 195.101.94.
ZyBorg (WiseNut)
Robot de WiseNut
Adresse IP : 209.249.66 - 209.249.67
http://www.wisenutbot.com/
DeepIndex
DeepIndex est le principal robot d'indexation de DeepIndex le moteur de recherche. Ce robot fonctionne sur plusieurs machines et alimente la base de recherche principale du moteur en permanence. Il respecte les normes W3C en matière de robot d'indexation et suit les indications du fichier robots.txt et/ou du meta-tag robots. Il est programmé pour ne pas saturer les serveurs.
http://www.webrankinfo.com/partenaires/deepindex/
Exabot
Robot de Exalead.
http://www.exalead.com/
Zeus
Inria
Xenu
Link Checker
WWWOffle
WiseWire-Spider
Wisenut - Korea
http://wisebot.koreawisenut.com
TwoTrees
What U Seek
WebZip
http://www.spidersoft.com
WebTrends
Link Analyser
Web Stripper
Download Manager
WebSpinne
WebReaper
Download Manager
Web Image Collector
Datafire Web Image Collector
WebCopier
offline browser
WebCompass
webbandit
Web Bandit personal search software
WDG
WDG HTML-code validator
W3C
W3C HTML-Code Validator
VSpider
Verity vspider indexing software
WebThief
Web Thief Site Grabber
URLGetFile
URLGetFile downloading tool
Infoseek
Tricos
http://www.tricos.com/metacheck
Trampelpfad
Hoppa
TJGroup
Tivra
Teoma
Szukacz
SyncIT
Link Validation
Yokogao
Yokogao Search Engine robot (Kanazawa University)
Wanadoo
Wanadoo Rechereche robot
Spider.de
Speedfind
SlySearch (slysearch@slysearch.com)
Slysearch
Slider
Internetseer
Searchexpress
Search.ch
URLSearch+
PlantyNet
PortalJuice
http://www.portaljuice.com
PingALink
PingALink website monitoring
Pico
IANett
http://www.ianett.com/parasite/
Oracle Search
OpenText
NTT Dir
Google WAP
Telefonica(es)
Noago
NICO Zone
NetZippy
Netprospector
NetMechanic
NetAnts
NetAnts/1.2x Downloadmanager
NEC
NationalDirectory
Korea Telekom
GetRight
Downloadmanager
Eidetica
http://eidetica.com/spider
ASI
Wespe.de
Galaxy
Echo.com
Abador
Advanced Email Extractor
Links2GO
WiseGuys
http://webagent.wise-guys.nl/
GOO.jp
http://www.inktomi.com/slurp.html
Web Link Validator
Euroferret
SearchHippo
http://www.searchhippo.com
Check&Get
Thunderstone
WebCollector
DirectHit
SomeWhere.com
WWW.fi
Lexibot
Marvin
Kolibri
LookSmart
LycosSpider (mod_spider)
Lycos Spider (T-Rex)
Search4Free
SevenTwentyFour
Link valet
CMP
GSeek
BigFoot
Kyoto Uni
Fireball
Kenjin
Dream Train
Look.com
http://www.look.com
IncyWincy
http://www.loopimprovements.com/robot.htm
Hippias
Harvest-NG
Yuntis
www.ecsl.cs.sunysb.edu/~maxim/cgi-bin/Link/GulperBot
Northernlight
PackerdBell
GoZilla
Gnod.net
GigaBaz
http://gigabaz.com/gigabaz/
geckobot
NTTRD.com
GaisLab
http://gais.cs.ccu.edu.tw/robot.php
Seed
Fireball
Excalibur
SmartSpider
EroCrawler
Enterprise Search
EmailWolf
Mail Collector
EmailSiphon
Mail Collector
Echo.fr
dtSearchSpider
NTT
Findsame
Ditto
Picture Search
openPortal4U
DiggIt
dbDig
http://www.prairielandconsulting.com
WholeWeb
Bisnisseek
CurryGuide
TTNet
pinPoint
WapResearch
Abacho.de (1)
Abacho (2)
SA France
Combine
CheckWeb
Link Validation
CheckBot
Linkvalidation
CG-Exe
CGI Checker
BullsEye
Cybercity
BB4
Atomz
Associative Sort
Aspseek robot
ASPSeek search engine software
Excite
EuroSeek
Aport
WalHello
www.walhello.com
AllesKlar
Vestris
Aladin.de
AESOP
Acoon.de
Acoi
Picturefinder
About
AbachoBot
A-Online Search
4anything.com
MS Prototype
Robot de Microsoft
Adresse IP : 131.107.
Surfnomore
Moteur de recherche en construction
Adresse IP : 165.90.194. - 66.28.249.
http://www.surfnomore.com
MSN Bot
Robot qui alimentera peut-être un moteur de recherche de Microsoft... MSN ?
Adresse IP : 131.107. - 65.54.164
http://search.msn.com/msnbot.htm
Source : Robostats