DOCmémo : 113 rubriques
Tout DOCmémo    
  

Vous avez un site ou un blog ? Faites connaître DOCmémo

> NOUVEAU
• At
• 5 nouvelles formules Excel.

 

 

 

 

 

 

 

 

 

 

 

 

 

Les robots des moteurs de recherche

Pour indexer les sites, les moteurs de recherche envoient en exploration un robot qui visite inlassablement le Web. Pour contrôler ces robots, deux moyens sont à votre disposition :
le fichier robots.txt et la balise META robots.
Les robots, lorsqu'ils visitent un site, laisse une trace de leur passage, enregistrée dans le fichier journal du serveur (le fichier log). Voyez la liste des robots au bas de cette page.

Le fichier robots.txt

Règles générales
- Le nom du fichier est obligatoirement en minuscules.
- Il doit contenir exclusivement du texte pur.
- Il ne peut contenir aucune ligne vide.
- Il doit être situé dans le répertoire racine du site.
Par exemple : http://www.monsite.com/robots.txt.

Syntaxe
#  
Commentaire  
Exemple : # créé par jip
   
User-agent  
Nom du robot  
Exemples : User-agent: BadBot
  User-agent: *
Le caractère * signifie "tous les robots"
   
User-agent  
Nom du robot  
Exemples : User-agent: BadBot
  User-agent: *
Remarque : le caractère * signifie "tous les robots".
   
Disallow  
Exclusion  
Exemples : Disallow /
  Disallow /tmp/
  Disallow /docs/temp/
  Disallow /doc/test.html
Remarque : Les caractères jokers (* et ?) sont interdits. Par exemple : Disallow /docs/*.doc est interdit.

Quelques exemples
> Exclure tous les robots sur tout le site
User-agent: * Disallow: /
Vous pouvez aussi créer un fichier robots.txt vide.

> Exclure tous les robots dans quelques répertoires du site.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

Aucun robot n'indexera les pages contenues dans les répertoires /cgi-in, /tmp et /private.

> Exclure un robot précis sur tout le site
User-agent: WebCrawler
Disallow: /

> Autoriser un seul robot sur tout le site
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /

Le robot WebCrawler peut indexer tous le site. Les autres robots sont exclus de tout le site.

> Exclure quelques pages précises à tous les robots
User-agent: *
Disallow: /docs/test.html
Disallow: /docs/perso.html
Disallow: /docs/interdit.html

Aucun robot n'indexera les fichiers test.html, perso.html et interdit.html dans le répertoire /docs.

> Autoriser tout le site à un robot, interdire tout le site à un autre robot, exclure quelques répertoires pour les autres robots.
# créé par jip
User-agent: webcrawler
Disallow:
User-agent: lycra
Disallow: /
User-agent: *
Disallow: /tmp
Disallow: /logs

La première ligne est un commentaire. Le robot WebCrawler peut indexer tout le site sans exception. Le robot Lycra est exclus de tout le site. Les autres sont exclus des répertoires /tmp et /logs.

La balise META robots

Règles générales
- <meta name='robots' content='param1,param2'>
- param1 : index ou noindex
- param2 : follow ou nofollow
- Cette balise doit être insérée dans la section <head> de chaque page du site.

Syntaxe
index
La page doit être indexée.

noindex
La page ne doit pas être indexée

follow
Le robot doit suivre les liens hypertextes de la page pour continuer son indexation.

nofollow
Le robot ne doit pas suivre les liens hypertextes de la page.

Exemple
Indexer la page mais empêcher les robots de poursuivre leur visite sur les pages liées
<meta name="robots" content="index,nofollow">

La liste des robots

4anything.com

A-Online Search

Abacho (2)

Abacho.de (1)

AbachoBot

Abador

About

Acoi
Picturefinder

Acoon.de

Advanced Email Extractor

AESOP

Aladin.de

Alexa
Le robot d'Alexa.
Adresse IP : 66.28.250. - 209.237.238.
http://pages.alexa.com/help/webmasters/index.html

AllesKlar

Almaden
Almaden est le laboratoire de recherche d'IBM...
Adresse IP : 66.147.154.3
http://www.almaden.ibm.com/cs/crawler

Aport

ASI

Ask Jeeves
Adresse IP : 65.214.36.150

ASP seek
Adresse IP : 198.169.127.

Aspseek robot

ASPSeek search engine software

Associative Sort

Atomz

BB4

BigFoot

Bisnisseek

BullsEye

CG-Exe
CGI Checker

Check&Get

CheckBot
Linkvalidation

CheckWeb
Link Validation

CMP

Combine

CurryGuide

Cybercity

dbDig
http://www.prairielandconsulting.com

DeepIndex
DeepIndex est le principal robot d'indexation de DeepIndex le moteur de recherche. Ce robot fonctionne sur plusieurs machines et alimente la base de recherche principale du moteur en permanence. Il respecte les normes W3C en matière de robot d'indexation et suit les indications du fichier robots.txt et/ou du meta-tag robots. Il est programmé pour ne pas saturer les serveurs.
http://www.webrankinfo.com/partenaires/deepindex/

DiggIt

DirectHit

Ditto
Picture Search

Dream Train

dtSearchSpider

Echo.com

Echo.fr

Eidetica
http://eidetica.com/spider

EmailSiphon
Mail Collector

EmailWolf
Mail Collector

Enterprise Search

EroCrawler

Euroferret

EuroSeek

Exabot
Robot de Exalead.
http://www.exalead.com/

Excalibur

Excite

Fast
Le robot de Fast / AlTheWeb
Adresse IP : 66.77.73.

Findsame

Fireball

Fireball

GaisLab
http://gais.cs.ccu.edu.tw/robot.php

Galaxy

geckobot

GetRight
Downloadmanager

GigaBaz
http://gigabaz.com/gigabaz/

Gnod.net

GOO.jp
http://www.inktomi.com/slurp.html

Google WAP

GoogleBot
GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes.
Néanmoins il en existe deux sortes : le Fresh Crawler, dont l'adresse IP commence par 64.68.82., correspond au robot qui indexe les nouvelles pages trouvées par Google ; une fois visitées par ce robot, les pages apparaissent dans Google seulement quelques jours. Le Deep Crawler (ou Full Crawler), dont l'adresse IP commence par 216.239.46., correspond au robot qui effectue une indexation massive de tous les documents connus de Google, en général pendant environ une semaine, juste après la Google Dance.

Adresse IP : 216.239.46. - 64.68.8
http://www.googlebot.com/bot.html

Googlebot-Image
Robot d'indexation des images de Google
Adresse IP : 64.68.84.
http://www.googlebot.com/bot.html

GoZilla

GSeek

Harvest-NG

Hippias

Hoppa

IANett
http://www.ianett.com/parasite/

IncyWincy
http://www.loopimprovements.com/robot.htm

Infoseek

Inria

Internetseer

Kenjin

Kolibri

Korea Telekom

Kyoto Uni

Lexibot

Link valet

Links2GO

Look.com
http://www.look.com

LookSmart

Lycos Spider (T-Rex)

LycosSpider (mod_spider)

Marvin

Mercator (Altavista)
Robot d'Altavista
Adresse IP : 204.123.28.

MS Prototype
Robot de Microsoft
Adresse IP : 131.107.

MSN Bot
Robot qui alimentera peut-être un moteur de recherche de Microsoft... MSN ?
Adresse IP : 131.107. - 65.54.164
http://search.msn.com/msnbot.htm

NationalDirectory

NEC

NetAnts
NetAnts/1.2x Downloadmanager

NetMechanic

Netprospector

NetZippy

NICO Zone

Noago

Northernlight

NTT

NTT Dir

NTTRD.com

Openfind
Openfind data gatherer, Openbot/3.0+(robot-response@openfind.com.tw)
Used for http://www.openfind.com.tw/ search engine (Taiwan)

Adresse IP : 66.237.60.
http://www.openfind.com.tw/robot.html

openPortal4U

OpenText

Oracle Search

PackerdBell

Pico

PingALink
PingALink website monitoring

pinPoint
WapResearch

PlantyNet

Pompos
Pompos est un outil puissant d'analyse de documents à des fins d'indexation et de classement du Web. Le but du robot Pompos est de collecter le plus de documents possible sur le web, et ce pour le moteur dir.com.

Adresse IP : 212.27.33.
http://dir.com/pompos.html

PortalJuice
http://www.portaljuice.com

SA France

Scooter (Altavista)
Robot d'Altavista
Adresse IP : 64.152.75.114 - 209.73.162.54

Search.ch

Search4Free

Searchexpress

SearchHippo
http://www.searchhippo.com

Seed

SevenTwentyFour

Slider

Slurp (Inktomi)
Robot utilisé par Inktomi
Adresse IP : 216.35.116. - 66.196.90

SlySearch
Robot de recherche de plagiat (www.plagiarism.com)
Adresse IP : 64.140.48.30
http://www.plagiarism.org/crawler/robotinfo.html

SlySearch (slysearch@slysearch.com)
Slysearch

SmartSpider

SomeWhere.com

Speedfind

Spider.de

Surfnomore
Moteur de recherche en construction
Adresse IP : 165.90.194. - 66.28.249.
http://www.surfnomore.com

SyncIT
Link Validation

Szukacz

Telefonica(es)

Teoma

Thunderstone

Tivra

TJGroup

Trampelpfad

Tricos
http://www.tricos.com/metacheck

TTNet

Turnitin
Adresse IP : 64.140.48.
http://www.turnitin.com/robot/crawlerinfo.html

TwoTrees

URLGetFile
URLGetFile downloading tool

URLSearch+

Vestris

VoilaBot
Le robot de Voila
Adresse IP : 195.101.94.

VSpider
Verity vspider indexing software

W3C
W3C HTML-Code Validator

WalHello
www.walhello.com

Wanadoo
Wanadoo Rechereche robot

WDG
WDG HTML-code validator

Web Image Collector
Datafire Web Image Collector

Web Link Validator

Web Stripper
Download Manager

webbandit
Web Bandit personal search software

WebCollector

WebCompass

WebCopier
offline browser

WebReaper
Download Manager

WebSpinne

WebThief
Web Thief Site Grabber

WebTrends
Link Analyser

WebZip
http://www.spidersoft.com

Wespe.de

What U Seek

WholeWeb

WiseGuys
http://webagent.wise-guys.nl/

Wisenut - Korea
http://wisebot.koreawisenut.com

WiseWire-Spider

WWW.fi

WWWOffle

Xenu
Link Checker

Yokogao
Yokogao Search Engine robot (Kanazawa University)

Yuntis
www.ecsl.cs.sunysb.edu/~maxim/cgi-bin/Link/GulperBot

Zeus

ZyBorg (WiseNut)
Robot de WiseNut
Adresse IP : 209.249.66 - 209.249.67
http://www.wisenutbot.com/

Source : Robostats

ACCUEIL    CONTACT     AIDE     LISTE DE DIFFUSION      HAUT DE LA PAGE haut de la page  
jean-paul mesters    • DocMemo.com © 2008 •