Les
robots des moteurs de recherche
Pour indexer les sites, les moteurs de recherche envoient en exploration
un robot qui visite inlassablement le Web. Pour contrôler ces robots, deux moyens
sont à votre disposition :
le fichier robots.txt et la balise META robots.
Les robots, lorsqu'ils visitent un site, laisse une trace de leur passage, enregistrée
dans le fichier journal du serveur (le fichier log). Voyez la liste des robots
au bas de cette page.
Le fichier robots.txt
Règles générales
- Le nom du fichier est obligatoirement en minuscules.
- Il doit contenir exclusivement du texte pur.
- Il ne peut contenir aucune ligne vide.
- Il doit être situé dans le répertoire racine du site.
Par exemple : http://www.monsite.com/robots.txt.
Syntaxe
| # |
|
| Commentaire |
|
| Exemple : |
# créé par jip |
| |
|
| User-agent |
|
| Nom du robot |
|
| Exemples : |
User-agent: BadBot |
| |
User-agent: * |
| Le caractère * signifie "tous les robots" |
| |
|
| User-agent |
|
| Nom du robot |
|
| Exemples : |
User-agent: BadBot |
| |
User-agent: * |
| Remarque : |
le caractère * signifie "tous les robots". |
| |
|
| Disallow |
|
| Exclusion |
|
| Exemples : |
Disallow / |
| |
Disallow /tmp/ |
| |
Disallow /docs/temp/ |
| |
Disallow /doc/test.html |
| Remarque : |
Les caractères jokers (* et ?) sont interdits. Par exemple
: Disallow /docs/*.doc est interdit. |
Quelques exemples
> Exclure tous les robots sur tout le site
User-agent: * Disallow: /
Vous pouvez aussi créer un fichier robots.txt vide.
> Exclure tous les robots dans quelques répertoires du site.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Aucun robot n'indexera les pages contenues dans les répertoires /cgi-in, /tmp et /private.
> Exclure un robot précis sur tout le site
User-agent: WebCrawler
Disallow: /
> Autoriser un seul robot sur tout le site
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
Le robot WebCrawler peut indexer tous le site. Les autres robots sont exclus de
tout le site.
> Exclure quelques pages précises à tous les robots
User-agent: *
Disallow: /docs/test.html
Disallow: /docs/perso.html
Disallow: /docs/interdit.html
Aucun robot n'indexera les fichiers test.html, perso.html et interdit.html dans le répertoire /docs.
> Autoriser tout le site à un robot, interdire tout le site à un
autre robot, exclure quelques répertoires pour les autres robots.
# créé par jip
User-agent: webcrawler
Disallow:
User-agent: lycra
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs
La première ligne est un commentaire. Le robot WebCrawler peut indexer tout
le site sans exception. Le robot Lycra est exclus de tout le site. Les autres sont
exclus des répertoires /tmp et /logs.
La balise META robots
Règles générales
- <meta name='robots' content='param1,param2'>
- param1 : index ou noindex
- param2 : follow ou nofollow
- Cette balise doit être insérée dans la section <head> de
chaque page du site.
Syntaxe
index
La page doit être indexée.
noindex
La page ne doit pas être indexée
follow
Le robot doit suivre les liens hypertextes de la page pour continuer son indexation.
nofollow
Le robot ne doit pas suivre les liens hypertextes de la page.
Exemple
Indexer la page mais empêcher les robots de poursuivre leur visite sur les
pages liées
<meta name="robots" content="index,nofollow">
La liste des robots
4anything.com
A-Online Search
Abacho (2)
Abacho.de (1)
AbachoBot
Abador
About
Acoi
Picturefinder
Acoon.de
Advanced Email Extractor
AESOP
Aladin.de
Alexa
Le robot d'Alexa.
Adresse IP : 66.28.250. - 209.237.238.
http://pages.alexa.com/help/webmasters/index.html
AllesKlar
Almaden
Almaden est le laboratoire de recherche d'IBM...
Adresse IP : 66.147.154.3
http://www.almaden.ibm.com/cs/crawler
Aport
ASI
Ask Jeeves
Adresse IP : 65.214.36.150
ASP seek
Adresse IP : 198.169.127.
Aspseek robot
ASPSeek search engine software
Associative Sort
Atomz
BB4
BigFoot
Bisnisseek
BullsEye
CG-Exe
CGI Checker
Check&Get
CheckBot
Linkvalidation
CheckWeb
Link Validation
CMP
Combine
CurryGuide
Cybercity
dbDig
http://www.prairielandconsulting.com
DeepIndex
DeepIndex est le principal robot d'indexation de DeepIndex le moteur de recherche. Ce robot fonctionne sur plusieurs machines et alimente la base de recherche principale du moteur en permanence. Il respecte les normes W3C en matière de robot d'indexation et suit les indications du fichier robots.txt et/ou du meta-tag robots. Il est programmé pour ne pas saturer les serveurs.
http://www.webrankinfo.com/partenaires/deepindex/
DiggIt
DirectHit
Ditto
Picture Search
Dream Train
dtSearchSpider
Echo.com
Echo.fr
Eidetica
http://eidetica.com/spider
EmailSiphon
Mail Collector
EmailWolf
Mail Collector
Enterprise Search
EroCrawler
Euroferret
EuroSeek
Exabot
Robot de Exalead.
http://www.exalead.com/
Excalibur
Excite
Fast
Le robot de Fast / AlTheWeb
Adresse IP : 66.77.73.
Findsame
Fireball
Fireball
GaisLab
http://gais.cs.ccu.edu.tw/robot.php
Galaxy
geckobot
GetRight
Downloadmanager
GigaBaz
http://gigabaz.com/gigabaz/
Gnod.net
GOO.jp
http://www.inktomi.com/slurp.html
Google WAP
GoogleBot
GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes.
Néanmoins il en existe deux sortes : le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours. Le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.
Adresse IP : 216.239.46. - 64.68.8
http://www.googlebot.com/bot.html
Googlebot-Image
Robot d'indexation des images de Google
Adresse IP : 64.68.84.
http://www.googlebot.com/bot.html
GoZilla
GSeek
Harvest-NG
Hippias
Hoppa
IANett
http://www.ianett.com/parasite/
IncyWincy
http://www.loopimprovements.com/robot.htm
Infoseek
Inria
Internetseer
Kenjin
Kolibri
Korea Telekom
Kyoto Uni
Lexibot
Link valet
Links2GO
Look.com
http://www.look.com
LookSmart
Lycos Spider (T-Rex)
LycosSpider (mod_spider)
Marvin
Mercator (Altavista)
Robot d'Altavista
Adresse IP : 204.123.28.
MS Prototype
Robot de Microsoft
Adresse IP : 131.107.
MSN Bot
Robot qui alimentera peut-être un moteur de recherche de Microsoft... MSN ?
Adresse IP : 131.107. - 65.54.164
http://search.msn.com/msnbot.htm
NationalDirectory
NEC
NetAnts
NetAnts/1.2x Downloadmanager
NetMechanic
Netprospector
NetZippy
NICO Zone
Noago
Northernlight
NTT
NTT Dir
NTTRD.com
Openfind
Openfind data gatherer, Openbot/3.0+(robot-response@openfind.com.tw)
Used for http://www.openfind.com.tw/ search engine (Taiwan)
Adresse IP : 66.237.60.
http://www.openfind.com.tw/robot.html
openPortal4U
OpenText
Oracle Search
PackerdBell
Pico
PingALink
PingALink website monitoring
pinPoint
WapResearch
PlantyNet
Pompos
Pompos est un outil puissant d'analyse de documents à des fins d'indexation et de classement du Web. Le but du robot Pompos est de collecter le plus de documents possible sur le web, et ce pour le moteur dir.com.
Adresse IP : 212.27.33.
http://dir.com/pompos.html
PortalJuice
http://www.portaljuice.com
SA France
Scooter (Altavista)
Robot d'Altavista
Adresse IP : 64.152.75.114 - 209.73.162.54
Search.ch
Search4Free
Searchexpress
SearchHippo
http://www.searchhippo.com
Seed
SevenTwentyFour
Slider
Slurp (Inktomi)
Robot utilisé par Inktomi
Adresse IP : 216.35.116. - 66.196.90
SlySearch
Robot de recherche de plagiat (www.plagiarism.com)
Adresse IP : 64.140.48.30
http://www.plagiarism.org/crawler/robotinfo.html
SlySearch (slysearch@slysearch.com)
Slysearch
SmartSpider
SomeWhere.com
Speedfind
Spider.de
Surfnomore
Moteur de recherche en construction
Adresse IP : 165.90.194. - 66.28.249.
http://www.surfnomore.com
SyncIT
Link Validation
Szukacz
Telefonica(es)
Teoma
Thunderstone
Tivra
TJGroup
Trampelpfad
Tricos
http://www.tricos.com/metacheck
TTNet
Turnitin
Adresse IP : 64.140.48.
http://www.turnitin.com/robot/crawlerinfo.html
TwoTrees
URLGetFile
URLGetFile downloading tool
URLSearch+
Vestris
VoilaBot
Le robot de Voila
Adresse IP : 195.101.94.
VSpider
Verity vspider indexing software
W3C
W3C HTML-Code Validator
WalHello
www.walhello.com
Wanadoo
Wanadoo Rechereche robot
WDG
WDG HTML-code validator
Web Image Collector
Datafire Web Image Collector
Web Link Validator
Web Stripper
Download Manager
webbandit
Web Bandit personal search software
WebCollector
WebCompass
WebCopier
offline browser
WebReaper
Download Manager
WebSpinne
WebThief
Web Thief Site Grabber
WebTrends
Link Analyser
WebZip
http://www.spidersoft.com
Wespe.de
What U Seek
WholeWeb
WiseGuys
http://webagent.wise-guys.nl/
Wisenut - Korea
http://wisebot.koreawisenut.com
WiseWire-Spider
WWW.fi
WWWOffle
Xenu
Link Checker
Yokogao
Yokogao Search Engine robot (Kanazawa University)
Yuntis
www.ecsl.cs.sunysb.edu/~maxim/cgi-bin/Link/GulperBot
Zeus
ZyBorg (WiseNut)
Robot de WiseNut
Adresse IP : 209.249.66 - 209.249.67
http://www.wisenutbot.com/
Source : Robostats