referencer.unesourisetmoi.info/1

google-like-f.jpg

referencer.unesourisetmoi.info/1

Référencer un site

Référencement

Construire son site

Optimiser

Soumettre

Moteurs de Recherche

Annuaires

Glossaire du Référencement

Recherche

Google

Sur le web

Sur ce site

Le fichier robots.txt

Sur votre site , vous essayez, dans la mesure du possible, de vous expliquer comment faire en sorte que vos pages soient indexées au mieux par les robots (spiders) des moteurs de recherche. Mais il peut également arriver que certaines de vos pages soient confidentielles, ou en tout cas que votre objectif ne soit pas de les diffuser largement sur lesdits moteurs. Un site ou une page en construction, par exemple, ne doivent pas obligatoirement être la cible d'une telle aspiration. Il faut alors empêcher certains spiders de les prendre en compte.

Cela se fait au moyen d'un fichier texte, appelé robots.txt, présent sur votre serveur. Ce fichier va donner des indications au spider du moteur sur ce qu'il peut faire et ce qu'il ne doit pas faire sur le site. Dès que le spider d'un moteur arrive sur un site (par exemple, http://www.monsite.com/), il va rechercher le document présent à l'adresse http://www.monsite.com/robots.txt avant d'effectuer la moindre "aspiration de document". Si ce fichier existe, il le lit et suit les indications qui y sont inscrites. S'il ne le trouve pas, il commence son travail de lecture et de sauvegarde de la page HTML qu'il est venu visiter, considérant qu'a priori rien ne lui est interdit.

Il ne peut exister qu'un seul fichier robots.txt sur un site, et il doit se trouver au niveau de la racine, comme le montre l'exemple d'adresse ci-dessus. Le nom du fichier (robots.txt) doit toujours être créé en minuscules. La structure d'un fichier robots.txt est la suivante :

User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html


Dans cet exemple :


* User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient.
* Le robot n'ira pas explorer les répertoires /cgi-bin/, /tempo/, /perso/ et /entravaux/ du serveur ni le fichier /abonnes/prix.html.
Le répertoire /tempo/, par exemple, correspond à l'adresse http://www.monsite.com/tempo/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique. La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé.

Ainsi :
Disallow: /perso ne permettra l'indexation ni de http://www.monsite.com/perso/index.html, ni de http://www.monsite.com/perso.html

Disallow: /perso/ n'indexera pas http://www.monsite.com/perso/index.html, mais ne s'appliquera pas à l'adresse http://www.monsite.com/perso.html

D'autre part, le fichier robots.txt ne doit pas contenir de lignes vierges (blanches).
L'étoile (*) n'est acceptée que dans le champ User-agent.
Elle ne peut servir de joker (ou d'opérateur de troncature) comme dans l'exemple : Disallow: /entravaux/*.
Il n'existe pas de champ correspondant à la permission, de type Allow:.
Enfin, le champ de description (User-agent, Disallow) peut être indifféremment saisi en minuscules ou en majuscules.
Les lignes qui commencent par un signe dièse (#), ou plus exactement tout ce qui se trouve à droite de ce signe sur une ligne, est considéré comme étant un commentaire.

Voici quelques commandes et très classiques importantes du fichier robots.txt :


Disallow:/ Permet d'exclure toutes les pages du serveur (aucune aspiration possible).
Disallow: Permet de n'exclure aucune page du serveur (aucune contrainte).
Un fichier robots.txt vide ou inexistant aura une conséquence identique.
User-Agent : fast Permet d'identifier un robot particulier (ici, celui des moteur Lycos et Fast/Alltheweb).
User-agent: fast
Disallow:
User-agent: *
Disallow:/
Permet au spider d'Alltheweb et de Lycos (dont l'index est également fourni par Fast) de tout aspirer, mais refuse les autres robots.
(source : Olivier Andrieu)
A noter aussi cette indication toute récente trouvée sur le Net :

Un internaute vient de découvrir que Google prenait en compte une directive nommée "noindex" lorsqu'elle était insérée dans le fichier "robots.txt" d'un site, comme par exemple :

User-agent:Googlebot
Disallow:/perso/
Disallow:/entravaux/
Noindex:/clients/

Alors que la directive "Disallow" indique aux robots de ne pas tenir compte du contenu d'un répertoire (pas d'indexation, pas de suivi des liens), "Noindex" se réduirait à la non-indexation des pages, mais en identifiant les liens qu'elles contiennent. Un équivalent de la balise meta "Robots" qui contiendrait les informations "Noindex, Follow" en quelque sorte. Google aurait indiqué que cette mention serait en test actuellement, qu'elle n'est supportée que par le seul Google mais que rien ne dit qu'elle sera adoptée in fine. A utiliser avec précaution donc...

Dernière modification le : 25/04/2008 @ 10:46
Catégorie : Le fichier robots.txt

Syndication

RSS 2.0

Atom

fonds d'écran sur les médias sociaux : google+ facebook twitter Like-Rank

Traduction

Google

Traduire tout ce site :

Choix :

Météo

Aujourd'hui

Département

Sondage

Que pensez-vous de de notre site ?

Super !!!

Très bien !

Bien

Bof ...

Nul ;-(

Résultats

Calendrier

<< Octobre  2017 >>
Lun Mar Mer Jeu Ven Sam Dim
25 26 27 28 29 30 01
02 03 04 05 06 07 08
09 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 01 02 03 04 05

Spécial

Phortail est distribué sous licence GNU/GPL, vous pouvez le modifier et l'utiliser librement pour créer votre site web, qu'il soit personnel, associatif, institutionnel ou commercial.
Haut

| Fonds d'écran gratuits | référencement efficace | Aide au référencement | Echange de liens en dur automatique | Fonds d'écran gratuits automobiles | Fonds d'écran sexy | Gifs animés | Les indiens d'amérique | Salvador Dali | screensavers free | Artistes et photos en ligne | free wallpapers | wallpapers free |


Réalisé avec Phortail par unesourisetmoi.info pour un référencement efficace de votre site
version:

PHP version 5.6.31




Admin

audit positionnement, Audit référencement ...

Page générée en 0,062 secondes