Techniques De Referencement Sur Internet

May 2020
PDF

Download

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA

Overview

Download & View Techniques De Referencement Sur Internet as PDF for free.

More details

Words: 19,496
Pages: 64

Preview
Full text

Maîtrise MIAGE du CFA AFIA en apprentissage à l'IEA de Paris 1 – Panthéon - Sorbonne Année 2004-2005

MOUHOT

Pierre Etienne

MEMOIRE DE FIN D'ANNEE Pôle d'accueil : Direction des Systèmes d'Informations du GIE AXA

TECHNIQUES DE REFERENCEMENT SUR INTERNET

Mots-clés :

Visibilité sur Internet, référencement, positionnement, annuaire, moteur de recherche, robots, soumission manuelle.

Tutrice Enseignante :

Mme Carine SOUVEYET - Maître de Conférences à l'Université Paris 1 – Panthéon – Sorbonne.

Maître d'apprentissage :

M. Jean-François MIGNÉ - Responsable du pôle Etudes et Développement de la DSI du GIE AXA. « Accord pour diffusion universitaire »

Sommaire Remerciements .................................................................................................... 3 Préface ............................................................................................................... 4 I.

Introduction au référencement web ou la nécessité d'un bon référencement .......... 4 A. B. C. D.

II.

Classification des outils de recherche................................................................................. 5 Guerre des outils de recherche et futures évolutions du marché ........................................ 11 Différence entre référencement, indexation, positionnement et visibilité. ............................ 13 Différents points de vue du référencement ...................................................................... 14 L'état de l'art du référencement .................................................................... 16

A. B. C. D. E. F. G. H. I. J.

Les éternelles (?) balises META ....................................................................................... 16 Les autres balises .......................................................................................................... 21 Gestion des différents contenus ...................................................................................... 27 L'URL ReWriting ............................................................................................................ 28 Les fichiers robots.txt..................................................................................................... 30 Plan du site................................................................................................................... 31 Redirections .................................................................................................................. 33 Référencer un site multilingue ........................................................................................ 35 Soumission manuelle dans les annuaires.......................................................................... 36 Dernières astuces. ......................................................................................................... 38

III.

Pratiques condamnables .............................................................................. 39

A. B. C. D.

Les pages satellites........................................................................................................ 39 Spamdexing .................................................................................................................. 42 Cloaking ....................................................................................................................... 42 Google Bombing ............................................................................................................ 43

IV. A. B. C. D. V.

Les solutions payantes................................................................................. 45 Soumission payante ....................................................................................................... 45 Référencement payant ................................................................................................... 45 Positionnement payant................................................................................................... 45 Référencement par des prestataires ................................................................................ 46 Exemple de référencement........................................................................... 47

Cas du "Mangeur de cigogne".................................................................................................. 47 VI. A. B. C.

IMS-Entreprendre pour la Cité ...................................................................... 49 Présentation.................................................................................................................. 49 Le site .......................................................................................................................... 49 Application .................................................................................................................... 52

VII. Conclusion ................................................................................................. 60 Annexe 1 .......................................................................................................... 62 Annexe 2 .......................................................................................................... 63

2/64

Remerciements Mes remerciements vont tout d’abord à Jean-François MIGNE, mon maître d’apprentissage. Je le remercie de m'avoir laissé effectuer mes recherches et rédiger ce rapport en parfaite autonomie. Je lui suis extrêmement reconnaissant pour le temps qu'il a su consacrer à la relecture de ce mémoire et pour les conseils toujours justifiés qu'il aura pu me donner.

Je tenais également à remercier toutes les personnes de l'IMS-Entreprendre pour la Cité avec qui j'ai eu l'occasion de travailler au cours de la rédaction de ce mémoire. Ces personnes m'ont fait confiance en me laissant mettre en application les techniques de référencement sur leur site Internet. Sans leur aide, je n'aurais certainement pas pu avoir l'approche pratique du référencement que j'ai aujourd'hui.

Merci à Carine SOUVEYET, ma tutrice enseignante, pour m'avoir accordé de son temps et apporté une aide précieuse lors de la rédaction de ce présent mémoire.

Enfin, merci également à M. DUBUC, directeur du CFA AFIA, pour son suivi continu durant mes deux années d'apprentissage ainsi que pour les efforts qu'il fournit pour nous assurer le bon déroulement de notre formation à l'université comme en entreprise.

3/64

Préface Etudiant en dernière année d'IUP MIAGE effectué en apprentissage à la fois à Paris 1 – Panthéon – Sorbonne et au sein de la DSI du GIE AXA, j'ai choisi, pour mon mémoire de fin d'études, de traiter la question du référencement sur Internet. En effet, voilà 3 ans que je touche de près ou de loin au développement de sites web dynamiques pour différentes sociétés or je n'avais jamais eu l'occasion de réfléchir à la future visibilité sur Internet des sites que je développais. Pour illustrer ce mémoire par des exemples concrets, j'ai eu la chance de pouvoir expérimenter ce que j'ai appris au fur et à mesure de mes recherches sur le site web de l'IMS-Entreprendre pour la cité1. Dans le cadre de mes années d'apprentissage au sein d'AXA, j'ai eu à faire évoluer le site de cette association de mécénat de solidarité. Il m'a également été demandé de m'occuper de référencer ce site auprès des principaux outils de recherche. C'est de là qu'est née l'idée d'utiliser ce thème comme sujet pour mon mémoire de fin d'année.

I.

Introduction au référencement web ou la nécessité d'un bon référencement

Cela fait plus de 15 ans qu'Internet existe. D'abord peu utilisé, réservé aux initiés Américains, il s'est ensuite doucement développé pour enfin véritablement arriver en France dans les années 1996-1997. Cependant, on peut dire que les années 2000 ont réellement contribué à la démocratisation du web en France. Au cours des quatre dernières années, et principalement parce que des technologies haut débit sont arrivées sur le marché, le nombre d'internautes français est passé de 10 millions à plus de 24 millions. La France a aujourd'hui pratiquement comblé son retard en matière de nouvelles technologies. Elle se situe ainsi dans la moyenne des pays développés. Il va sans dire que si le nombre d'Internautes a explosé de la sorte, le nombre de pages et de services sur Internet a fait de même. En 2005, le nombre mondial d'internautes devrait dépasser un milliard. Et ce nombre ne va cesser d'augmenter avec l'arrivée des nouveaux pays développés. Aujourd'hui, la question n'est plus de savoir où l'on va trouver l'information qui nous intéresse mais plutôt comment est ce qu'on va pouvoir trouver une information pertinente parmi la multitude des pages qui nous sont proposées. Partant de ce principe, les différents annuaires et moteurs de recherche ont développé leurs méthodes pour indexer et référencer le contenu des sites internet. Il y a encore quelques années, seules les grandes entreprises possédaient leur site web. Celles-ci n'avaient pas besoin de se pencher sur la question du référencement puisque les moteurs de recherche et autres annuaires n'étaient que très peu nombreux.

1

Accès au site : http://www.imsentreprendre.com (ou via un moteur de recherche !)

4/64

A cette époque, la grande majorité des connexions sur un site quelconque se faisait par accès direct (en connaissant l'URLi) ou par liens externes (en suivant des liens hypertexte). Aujourd'hui, c'est différent. La majorité des entreprises, petites ou grandes possèdent un site web. Si elles ont compris qu'un bon site pouvait étendre considérablement leur zone d'influence et leurs parts de marché, elles savent aussi qu'il est impératif que leur site puisse être visible sur la toile. Des études comparatives montrent que le référencement reste une méthode moins onéreuse que les méthodes de marketing traditionnelles.ii A l'heure actuelle, en France, les différents moyens d'accéder à un site sont les suivants :

33%

Moteurs de recherche / annuaires

30% 37%

Liens Accès direct (liens et favoris)

L'accès par les outils de recherche n'est donc évidemment pas à négliger. Le principal problème pour ces outils est le nombre monumental de pages à indexer. Par exemple, Google recense à l'heure actuelle environ 8 milliards de pages au contenu statique (.html, .doc, .pdf, .ppt, image etc). Or les ordinateurs (serveurs) qu'il utilise pour l'instant ne lui permettent pas, a priori, d'indexer beaucoup plus de pages que cela. En effet, le risque est qu'en voulant indexer encore plus de pages dans sa base de données, Google soit obligé de gérer des index de 40 bits. Dans ce cas, les temps de calculs et d'accès aux différents documents seraient beaucoup trop longs. Google, comme les autres, travaille sur la possibilité de gérer des bases de données gigantesques avec des machines toujours plus puissantes (serveur 64 bits) iii. En attendant, il n'est pas rare de voir des pages, jusque là indexées, remplacées par de nouvelles au contenu plus pertinent. Cela est d'autant plus vrai pour les annuaires qui, en général, disposent d'un index plus petit et ont des critères de sélection beaucoup plus stricts. Ainsi, le classement dans les outils de recherche n'est pas définitif est doit être suivi en permanence. A. Classification des outils de recherche Nous utilisons quotidiennement les outils de recherche qui sont à notre disposition sur Internet. Cette étape est devenue quasiment obligatoire lorsque l'on recherche des informations sur le net. Il faut savoir que "plus de 80% des internautes utilisent les outils de recherche pour trouver le site d'une enseigne qu'ils connaissent"iv. Il est évident que "la recherche sur les moteurs de recherche est devenu un réflexe pour plus de 90% des utilisateurs réguliers d'Internet"v. Nous utilisons donc couramment les outils de recherche mais combien d'entre nous savent qu'il existe deux principaux types d'outils ?

5/64

Il s'agit des annuaires et des moteurs de recherche. Ils se différencient principalement par le fait qu'ils n'utilisent pas la même méthode pour indexer leurs pages. Cette distinction essentielle n'est pourtant pas celle qui saute aux yeux de l'utilisateur lambda. Pour lui, la différence s'arrête certainement au mode de recherche et à l'agencement des résultats. Plus pratiquement, si on voulait assimiler Internet à un grand un livre, "les annuaires (ou guides) thématiques en seraient la table des matières, bien partielle, et les moteurs de recherche un moyen de chercher l'information mot par mot, mais sans bien savoir le contenu du livre".vi 1. Les annuaires Les annuaires (ou répertoire) indexent les sites web grâce au travail de personnes physiques. Ils classent les sites par catégorie et sous catégorie de la plus générale à la plus spécifique. Les recherches se font donc sur ces catégories et les résultats sont présentés par ordre alphabétique. Un webmestre souhaitant enregistrer son site doit le faire au moyen d'un formulaire électronique généralement accessible depuis la page d'accueil de l'annuaire. Il renseigne alors ce formulaire avec la description de son site, son adresse, son titre, sa catégorie et la sous catégorie. Après validation du formulaire, sa demande sera traitée par une personne physique qui ira regarder le site. Suivant une notation par rapport à des critères propres à chaque annuaire, cette personne (nommée "netsurfeur") décidera ou non d'inclure le site dans la base de données de l'annuaire. Les éléments requis lors d'une demande d'inscription sont très importants car la recherche au moyen d'un mot-clé est basée sur ces éléments (adresse Web, titre, description) et non sur le contenu des pages du site en question. Les avantages

Les inconvénients

Lors d'une recherche, on obtient rapidement une sélection de sites correspondant à une catégorie précise

Les sites répertoriés doivent être inscrits manuellement1

Qualité des sites répertoriés

La mise à jour de la base de données est plus longue que pour un moteur de recherche

Comme le contenu des sites a été examiné par des personnes, il y a moins de risques d'obtenir des résultats erronés

Le classement des résultats se fait par ordre alphabétique et non par pertinence Les critères d'acceptation sont souvent sévères

L'annuaire le plus connu reste sans doute Yahoo!. Il fut le pionnier et, en 1994, recevait déjà plus de 10 000 visiteurs par jour. Aujourd'hui, c'est plus de 200 millions de visiteurs par mois.vii Pourtant il reste derrière le moteur de recherche Google. Il est vrai qu'historiquement, les annuaires sont arrivés avant les moteurs de recherche puisque la technologie ne permettait pas d'indexer automatiquement les pages. Pour contrer cette attaque, Yahoo! dispose depuis 2004 d'un moteur de recherche en plus de son annuaire. 1

Soumission manuelle via les formulaires spécifiques à chaque annuaire.

6/64

L'Open Directory Project "L'Open Directory Project (ou ODP) est le plus grand et le plus complet des répertoires du Web édités par des êtres humains. Il est développé et maintenu par une vaste communauté mondiale d'éditeurs bénévoles. […] L'Open Directory a été fondé dans l'esprit du mouvement Open Source et est le seul répertoire d'importance majeure à être totalement gratuit."viii Enfin, pour conclure sur cette partie réservée aux annuaires, l'essentiel à retenir est que le classement se fait de manière arborescente, suivant des thèmes et des rubriques et que la classification manuelle permet une approche qualitative. 2. Moteur de recherche Pour simplifier, on peut voir un moteur de recherche comme une immense base de données qui recenserait les principaux sujets de chaque page présente sur le web. Le moteur de recherche propose, contrairement à l'annuaire, une recherche par mot-clé. Il est bien évident que lorsque vous faites une requête sur un moteur de recherche celui-ci ne va pas parcourir "l'ensemble" du web pour vous fournir une réponse pertinente. Il se contente d'aller regarder dans sa base de données ce qui correspond le mieux à votre requête. Cette base de donnée est mise à jour régulièrement afin de référencer les nouveaux sites qui apparaissent quotidiennement sur la toile. Cette mise à jour est possible grâce à des "robots"1 qui parcourent en permanence et de manière automatique l'ensemble des serveurs web. Lors d'une requête sous forme de mots-clés sur un moteur de recherche, celui-ci consulte son index pour fournir l'ensemble des résultats. Ces réponses sont triées par ordre de pertinence suivant un algorithme propre à chaque moteur de recherche. A titre de comparaison, un moteur de recherche renvoie une liste de pages web alors qu'un annuaire retourne une liste de sites. Les avantages

Les inconvénients

Les recherches donnent plus de résultats car la base de données d'un moteur de recherche est beaucoup plus importante que celle d'un annuaire

Les recherches peuvent générer masse importante de résultats

La base de données est mise à jour plus fréquemment

Comme le contenu des sites n'est pas examiné par des humains, la qualité des résultats peut être moindre

une

Le classement des résultats de recherche est effectué par pertinence et non par ordre alphabétique Je pense qu'il n'est plus nécessaire de vous présenter Google et son index de plus de huit milliards de pages. 1

"Robots" ou "araignées" ou encore "crawler"

7/64

En revanche, je vais revenir sur certains points particuliers de Google car il fait office de référence en matière de moteur de recherche. De plus, et bien que nous verrons plus tard que cela peut changer, beaucoup de gens considèrent qu'un bon référencement dans Google constitue un référencement suffisant… a. Les robots – L'exemple du GoogleBot1 Nous avons vu que la mise à jour des bases de données de Google était effectuées grâce à des robots. Comprendre comment ils fonctionnent, c'est-à-dire savoir ce qu'ils recherchent réellement sur nos pages, nous permettra, je pense, de minimiser les risques de passer à côté d'un bon référencement. Nous savons qu'ils explorent le web de pages en pages à la recherche d'informations pertinentes qu'ils enregistreront dans leur gigantesque base de données. Etant donnée la taille colossale de leur travail, il faut bien comprendre qu'ils ne passent pas tous les jours sur votre site web. Partez du principe qu'ils passeront 2 à 3 fois par mois sur un site déjà bien référencé. Mais sachez qu'ils peuvent également ne jamais passer si rien n'est fait pour les "attirer". On pourrait penser que les robots sont des monstres de technologie capables de faire énormément de traitements avec une page web… Il n'en est rien. En réalité, ils se comportent exactement comme un navigateur de base. Ils fonctionnent en mode texte comme le fait le navigateur Lynx. C'est-à-dire qu'ils ne gèrent pas les images, les animations Flash, les différentes polices de caractères, leurs tailles. Les frames2, les pages à accès restreint (protégées par mot de passe) et les scripts (JavaScript, applets java, pages dynamiques etc.) sont également ignorés contrairement aux formulaires et cookies qu'ils savent gérer. Cette gestion très spartiate des pages leur permet par contre d'être très rapides à la parcourir. Concrètement, lorsque l'on souhaite accélérer le référencement d'un site, la seule chose que l'on puisse faire est soumettre l'URL aux moteurs de recherche. Pour Google, il faut se rendre sur la page (http://www.google.fr/addurl/?hl=fr) et remplir le formulaire. Cette étape est similaire à la soumission manuelle que l'on ferait avec un annuaire à la différence que le formulaire est plus sommaire. Ceci a pour unique but de mettre l'URL en queue de liste des URL que le moteur va devoir analyser. Une fois le robot arrivé sur votre site, il commence par regarder s'il existe un fichier "robots.txt" puis analyse la page courante avant de suivre les liens qu'il pourra trouver dessus. C'est pour cette raison qu'un robot peut arriver sur votre page même si vous ne lui avez pas demandé explicitement. Par contre, cela risque de lui prendre plus de temps pour trouver votre site. NB : Si votre serveur est surchargé ou en panne au moment où un robot essaye de s'y connecter, le robot est normalement configuré pour réessayer un certain nombre de fois avant de considérer que le site n'existe plus. Cette sécurité sert à éviter de supprimer des sites de l'index du moteur alors qu'ils ne sont que momentanément indisponibles. Au pire, les informations dont dispose le robot sur votre site ne seront pas mises à jour avant son prochain passage. 1 2

GoogleBot : nom du robot d'indexation développé par Google

Frames : Concept inventé par Netscape. Consiste à afficher le résultat de l'assemblage de plusieurs pages HTML dans une seule fenêtre du navigateur.

8/64

b. Le PageRank Google a développé un algorithme pour lui permettre de mesurer la popularité et la pertinence des pages qu'il retourne en réponse à une requête. Cette note s'appelle le PageRank. Le principe de PageRank est simple : tout lien pointant de la page A à la page B1 est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages"ix. Le PageRank est donc très intéressant car on peut supposer qu'un site populaire soit de meilleure qualité (fiabilité des informations disponibles par exemple) qu'un autre moins consulté. Notez cependant que cette technique, telle que je viens de vous la présenter, ne permet absolument pas d'affirmer que les résultats correspondent à votre requête. C'est pourquoi le PageRank est complété par d'autres critères plus spécifiques aux mots-clés par exemple. Le PageRank est mis à jour à chaque GoogleDance. Google fut le premier à perfectionner ses agents de recherche afin que ceux-ci ne se contentent plus seulement des balises "META" présentes en entête de chaque page. Cette technique est certainement à l'origine du succès de Google puisque, dès ses débuts, il a su proposer des résultats pertinents. c.

La GoogleDance

Pour répondre plus vite aux requêtes, Google a choisi de répartir ses nombreux serveurs (environs 40 000) en une dizaine de "Data Center" implantés principalement aux Etats-Unis et en Europe. Ainsi, les requêtes que vous faites sur www.google.fr sont traitées par un Data Center choisi en fonction de deux critères : - votre localisation géographique - la charge du Data Center le plus proche. Vous comprendrez que cette architecture ne permet pas de maintenir les bases de données parfaitement synchronisées d'un Data Center à l'autre. Sachant cela, on comprend pourquoi des requêtes identiques réalisées depuis un même poste mais à des moments différents peuvent finalement donner des résultats différents. Avant d'opter pour une indexation continue, Google mettait à jour sa base de données une fois par mois. Cette mise à jour majeure mettait les Data-Centers dans des états profondément différents les uns par rapport aux autres. Ainsi, les résultats pouvaient beaucoup varier suivant le centre que l'on interrogeait. Ce phénomène fut baptisé GoogleDance. Elle pouvait durer jusqu'à une semaine. Chaque "dance" était baptisée… comme le sont les cyclones ! Nous venons de voir ce qu'est une GoogleDance, essayons maintenant de comprendre ce qu'elle apporte aux webmasters. Google, avant de rendre accessible son nouvel index, le teste sur deux domaines particuliers accessibles aux adresses suivantes : www2.google.com et www3.google.com. Ces domaines publics possèdent, en général, une version de l'index plus à jour que celle utilisée par le site www.google.xxx. Ils permettent aux webmasters d'avoir un 1

On parle alors de BackLink (BL) de A vers B. Google utilise constamment les BL pour classer ses sites. La commande link: de Google permet de connaître ces BL.

9/64

aperçu de ce que sera leur position lorsque le nouvel index sera passé. En effet, c'est en fonction de ce qui apparaîtra dans le nouvel index que Google pourra calculer les nouvelles valeurs des PageRank. Ainsi, cette période est utile aux référenceurs pour que ceux-ci peaufinent leur technique. S'ils ratent la GoogleDance, ils n'auront qu'à attendre le prochain passage du robot. 3. Les hybrides ou outils mixtes Ils proposent une méthode de recherche soit sous forme d'annuaire, soit sous forme de mots-clés. En général, ils ne disposent que d'une taille d'index assez restreinte. Ils sont utilisés pour effectuer des recherches au sein d'un même site web. Un cas concret est celui du site http://www.telecharger.com qui propose de rechercher un logiciel par son nom ou alors de le retrouver à travers les catégories proposées. L'objectif est de dégrossir les recherches en sélectionnant les thèmes importants dans l'annuaire et terminer l'analyse par une recherche plus fine par les mots-clés.

Annuaire

Moteur de recherche

4. Les métamoteurs Les métamoteurs sont des moteurs de recherche qui basent leurs recherches sur l'interrogation de plusieurs autres moteurs de recherche. Le plus connu est sûrement Copernic qui fournit un résultat issu de plus de 100 moteurs différents. Si cela était intéressant à la fin des années 90, ça n'est plus vraiment le cas aujourd'hui. Surtout

10/64

quand on sait que Google retourne à lui tout seul des milliers de pages pour une recherche… C'est pourquoi, les métamoteurs ont dû trouver des moyens de se démarquer des moteurs de recherche. Outre le fait qu'ils n'aient pas de base de données propre ! Pour cela, ils ont dû proposer des fonctions supplémentaires telles que la suppression des doublons, des liens morts et la possibilité d'ajouter des filtres pour trier les résultats. N'utilisant pas de base de données propre, ils ne représentent aucun intérêt du point de vue du référencement. B.

Guerre des outils de recherche et futures évolutions du marché

En France, on constate que 73% des recherches se font sur Google. L'hégémonie de Google dure depuis quelques années et ne semble pour l'instant pas remise en cause. Pourtant, de nouveaux acteurs tentent de s'implanter sur ce créneau très porteur. 1. La bonne guerre de Yahoo! et Google Nous connaissons depuis le début la guerre qui oppose Google à Yahoo!. Pourtant, ces deux outils de recherche ne proposent pas tout à fait les mêmes services. En effet, Google s'est spécialisé dans le moteur de recherche et ne fait que ça, alors que Yahoo! est un annuaire (et maintenant depuis peu un moteur de recherche) qui propose aussi un portail contenant une grande source d'informations immédiatement disponibles. Pour preuve de la guerre de ces deux géants de la recherche sur Internet, il y a un an de cela, si on tapait trop vite www.yahoo.fr dans son navigateur, on avait de grandes chances d'arriver sur le site de Google. Google ayant acheté le nom de domaine www.yahooo.fr afin de faire une redirection1 sur son propre site. Yahoo! avait alors vite riposté en achetant www.gooogle.com ! Le 9 Août dernier, Yahoo! annonçait que son index recensait désormais 20 milliards de documents. Google Image a immédiatement répliqué en affirmant que son moteur de recherche dédié aux image n'indexait plus 1.3 mais 2.2 milliards de photos.

2. Un nouvel acteur : MSN Search Aujourd'hui la guerre continue mais les choses risquent d'évoluer plus rapidement avec l'arrivée de Microsoft sur le marché. En effet, le géant de Redmond a décidé de se lancer dans la recherche sur internet. La différence réside dans le fait que Microsoft possède des fonds énormes qu'il semble prêt à investir pour s'implanter rapidement sur ce marché. Notez que "le chiffre d'affaires annuel de Google ou de Yahoo! ne représente "que" deux mois de résultat de Microsoft". Ainsi, "ce que Google a mis quatre ans à construire, Microsoft peut l'obtenir en quelques mois."x L'avenir nous dira lequel des grands du référencement gagnera mais en attentant, en France, Google semble particulièrement bien tirer son épingle du jeu.

1

Une redirection est une action, transparente pour l'utilisateur, qui permet de le réacheminer d'une page vers une autre en changeant automatiquement son URL.

11/64

12%

76%

5%

(Source : http://www.barometre-referencement.com/question_du_mois.htm)

3. La guerre du nombre de pages indexées Comme je vous l'ai dit, Google se vente d'indexer le plus grand nombre de pages. Le 3 mars dernier on pouvait trouver sur la page www.google.fr : Il semblerait pourtant que son index ne fasse pas vraiment la taille indiquée… Il s'agirait plutôt d'une estimation par interpolation. D'ailleurs, Google a annoncé qu'il avait doublé la taille de son index (passant ainsi de 4 à 8 milliards de pages) le jour où Microsoft lançait la version d'essai de MSN Search qui, elle, est sensée indexer 5 milliards de pages. Bizarre donc… Si on en croit l'étude "Comptes bidons chez Google ?"xi, on remarque ainsi quelques incohérences traduisant clairement que Google et les autres se livrent une guerre acharnée. A titre d'exemple, le mot anglais "the" permet de faire une recherche sur la quasi-totalité des pages anglaises. Voici le résultat, dans toutes les langues, de la recherche sur Google.

Tout juste 8 milliards de résultats… Bref, ce qui est étonnant c'est qu'en ne cherchant que sur les pages anglaises, on obtient le résultat suivant :

Soit à peu près 1% du résultat précédant ! Sous-entendant par la même occasion que "the" se trouve dans 99% des cas dans des pages non anglaises… Pourtant, on ne peut pas dire qu'un moteur qui indexe plus de pages qu'un autre soit de meilleure qualité qu'un autre.

12/64

En général, nous autres internautes sommes plutôt perdus devant le nombre de résultats que peut nous renvoyer une recherche. Le problème est généralement que l'on obtient trop de réponses plutôt que pas assez ! L'internaute ne s'en rend même pas compte. Il s'en fiche même de savoir que sa requête sur MSN Search lui retourne 653 125 réponses alors que la même interrogation de Google lui en retourne le double. Les statistiques montrent que "91% des internautes changent de requête s'ils sont insatisfaits des quarante premiers résultats". En allant plus loin, on montre que "les 10 premiers résultats reçoivent 78% de trafic supplémentaire par rapport à ceux qui sont listés de la onzième à la trentième position."xii C'est justement en sachant ceci que l'on comprend l'intérêt d'un bon référencement et plus particulièrement celui d'un bon positionnement. Nous allons tout de suite définir ces deux termes. C. Différence entre référencement, indexation, positionnement et visibilité. Au cours de ce rapport, je vais fréquemment utiliser les quatre termes ci-dessus. Il est essentiel de bien comprendre la différence entre ces expressions. Le référencement, dans son acceptation large, peut être défini comme l'ensemble des actions permettant à un site d'être présent dans les bases de données des outils de recherche. L'action visant à être répertorié est « l'indexation »xiii Il y a encore quelques années, l'objectif était uniquement de se faire référencer par les moteurs de recherche. On constate qu'aujourd'hui le but reste bien évidemment d'être référencé par le plus de moteurs de recherches/annuaires possibles mais l'accent est surtout mis sur le positionnement. Le positionnement prend appui sur les fondements du référencement. Mais le terme de positionnement sous entend que l'on évalue le référencement par rapport à quelque chose. Dans le cas du site web d'une entreprise, on peut comparer sa position par rapport à celle de ses concurrents. On pourra ainsi estimer le rang auquel apparaîtra un site dans la liste des résultats retournés par un outil de recherche à la suite d'une requête précise. Nous avons déjà vu "que plus de 70% des internautes ne consultent que les deux premières pages de résultats"xiv. Même au sein de la première page, la compétition est rude. En effet, "le premier site qui apparaît lors d'une requête reçoit trois fois plus de clics que le cinquième"xv. La nécessité d'être bien positionné n'est donc plus à démontrer. Pour finir, la visibilité d'un site fait plus référence à la stratégie qui sera mise en place pour cibler le marché et les clients que l'on veut atteindre. L'objectif de la visibilité étant de se faire connaître des clients et de se distinguer des concurrents.

13/64

D. Différents points de vue du référencement Avant d'étudier en détail les différentes techniques de référencement, je pense qu'il est important de bien mettre l'accent sur un point essentiel du référencement. Ce point concerne la divergence qui réside entre l'objectif des outils de recherche et celui des webmasters. En effet, il faut bien comprendre que le but d'un webmaster soucieux de son référencement est de faire apparaître son site en tête des résultats des moteurs de recherche (c'est-à-dire être bien positionné). Par contre, l'objectif des moteurs de recherche et des annuaires est, quant à lui, de retourner le maximum de résultats pertinents par rapport à une requête faite par un internaute. Cette divergence de points de vue entre les deux principaux acteurs du référencement explique pourquoi les techniques de référencement ont tellement évolué au cours des dernières années. Vous l'aurez compris, les webmasters étudient les moteurs de recherche afin de comprendre comment ils fonctionnent. Grâce à ces informations, ils sont capables de trouver les failles leur permettant d'atteindre le haut des classements. De leur côté, les moteurs de recherche sont obligés de réagir rapidement afin de condamner les abus des référenceurs et ainsi toujours garantir des résultats cohérents. Ainsi, on peut classer les techniques1 suivant leurs évolutions :

Action des moteurs de recherche Les balises méta du langage HTML ont été inventées dans le but de permettre le référencement des pages. Les premiers robots ne prenaient alors en compte QUE ces balises Les moteurs ont du riposter en prenant de moins en moins en compte ces balises. Ils se sont alors focalisés sur d'autres balises : title, Hx, b et alt La technologie ayant suffisamment évolué, les robots ont alors étés capables de rechercher eux-mêmes les mots pertinents dans le contenu textuel des pages. Le webmaster ne devait alors plus pouvoir tromper les robots Pour éviter d'indexer de trop nombreuses pages satellites, les moteurs tentent de les repérer et de les bannir de leurs index 1

sens

Æ

Æ

Æ

Æ

Riposte des webmasters Du coup, les webmasters en ont profité pour abuser de ces balises… Ils ont créé le spamdexing et le "bourrage de mots-clés" De la même manière, on a vu apparaître des pages contenant de nombreuses répétitions de mots-clés dans ces balises Les webmasters ont alors choisi de créer de nombreuses pages au contenu optimisé pour les moteurs de recherche. En couplant ces pages avec une redirection, ils on inventés les pages satellites… Pages qui furent rapidement condamnées par les moteurs de recherche Pour limiter le risque de se faire exclure des moteurs de recherche par une utilisation abusive des pages satellites, les webmasters ont développé une

Ce tableau donne le nom et les grandes lignes de quelques techniques. Elles seront explicitées par la suite.

14/64

Pour réduire le risque de cloaking, certains moteurs changent le nom de leurs robots Il semble que les moteurs n'aient pas encore vraiment réagi à ce sujet. Cela vient sûrement du fait qu'un bombing n'est pas facile à mettre en œuvre puisqu'il doit être réalisé simultanément par plusieurs milliers de webmasters.

Æ

nouvelle technique. Celle dite du cloaking qui permet de présenter un contenu différent d'une même page suivant que c'est un internaute qui la visionne ou un robot qui la parcourt. Les webmasters ont amélioré leurs scripts de cloaking pour identifier les robots en fonction de leur adresse IP et non plus seulement à partir de leur nom Une des dernières techniques utilisée par les webmasters est le bombing.

Å

Ce cycle d'évolution peut se résumer de la manière suivante :

15/64

II. L'état de l'art du référencement A. Les éternelles (?) balises META 1. Présentation Historiquement, les premiers moyens mis en œuvre pour référencer un site étaient simples et efficaces. La raison que l'on a déjà vue est que le nombre de page sur Internet était bien moindre. Technologiquement moins performants, les premier "spiders" étaient lents. Couplés à des bases de données limitées, ils ne pouvaient pas stocker beaucoup d'information pour chaque site. Ainsi, pour préparer le travail des robots, les webmasters avaient la possibilité de leur fournir directement les informations pertinentes en utilisant des balises HTML créer spécifiquement pour cela. Ces balises META étaient à placer entre les balises HEAD d'un document HTML. Invisibles des internautes (à moins bien sûr d'afficher le code source de la page), elles renseignent sur le nom de l'auteur de la page, sa langue et son contenu (résumé et les mots-clés). Cette technique a longuement été le meilleur (voire le seul) moyen de référencer son site. Quant au positionnement, il se faisait alors en comptant le nombre de mots-clés identiques entre la recherche et les pages trouvées. 2. Liste exhaustive Voici une liste quasiment complète des principales balises META avec leur fonction. Cette liste est classée par ordre d'importance croissante. Beaucoup de ces balises ne sont plus prises en considération par les robots des moteurs de recherche pour des raisons que nous verrons par la suite. Toujours est-il qu'elles sont très simples à mettre en œuvre et qu'il serait dommage de s'en priver. D'autant plus qu'elles ne peuvent en aucun cas nuire au référencement tant que l'on ne s'en sert pas pour tromper les robots… Balises

Fonction / Utilisation

<META NAME="geographie" CONTENT="Paris, France, 75000">

Localise géographiquement la société détenant le site. Elle peut servir pour les nouvelles fonctions des moteurs de recherche qui proposent maintenant en priorité des réponses "proches" de l'internaute.

<META NAME="Publisher" CONTENT="Prénom NOM">

Donne un moyen de faire apparaître le nom de la société dans le code source de la page. Si l'on utilise un outil (tel que Deamweaver) pour générer la page, celui-ci renseigne automatiquement la balise avec son nom.

16/64

<META NAME="Reply-to" CONTENT="[email protected](Pierre Etienne MOUHOT)">

Spécifie une adresse de réponse pour les utilisateurs avertis qui consulteront le code source de la page. Permet également de faire apparaître l'adresse email dans le code source de la page et donc augmente les chances d'indexation par les robots. Par contre, cette adresse sera aussi repérée par les robots qui parcourent le web à la recherche d'adresses mails à spammer…

<META NAME="Copyright" CONTENT="2001 IMS">

Balise spécifique aux Copyright où l'on peut encore mettre le nom de l'entreprise.

<META NAME="Subject" CONTENT="Le référencement des sites sur internet ">

Permet de définir le thème principal de la page.

<META NAME="Category" CONTENT="Association">

Permet à un annuaire de savoir dans quelle rubrique il va pouvoir classer le site. Il est possible de mettre plusieurs catégories. Elles doivent être écrites en anglais.

<META HTTP-EQUIV="Pragma" CONTENT="no-cache">

Spécifie au navigateur qu'il doit recharger toute la page avant de l'afficher, et ceci même s'il l'a déjà en cache.

<META NAME="Identifier-URL" CONTENT="http://www.imsentreprendre.com">

Cette balise permet simplement de faire apparaître l'URL de la page principale du site dans le code source de la page

<META NAME="Date-Creationyyyymmdd" content="20041201">

Spécifie la date de création de la page en cours.

<META NAME="Date-Revisionyyyymmdd" content="20050303">

Spécifie la date de dernière modification de la page en cours.

<META NAME="Revisit-After" CONTENT="15 days">

Spécifie avec quelle fréquence le robot peut revenir visiter la page.

<META HTTP-EQUIV="Expires" CONTENT="Wed, 05 June 2005 12:00:00 GMT">

Donne une indication au robot sur la date jusqu'à laquelle il doit garder la page en cache. De même le navigateur n'utilisera pas la page qu'il pourrait avoir en cache au delà de cette date. Cette balise sert essentiellement pour des pages dont le contenu est souvent mis à jour.

17/64

<META HTTP-EQUIV="refresh" CONTENT="60; URL=http://www.humagora.com">

Cette balise redirige automatiquement l'internaute vers la page spécifiée. Elle peut être utile en matière de référencement lors d'un changement d'url. Elle permet ainsi aux robots de trouver la nouvelle URL du site.

<META NAME="Author" CONTENT="IMS" lang="fr">

Permet d'indiquer le nom de l'auteur du site ou de la société. Elle permet d'ajouter une fois de plus ce nom en question dans le code source de la page.

<META NAME="Description" content="phrase de description">

<META NAME="Keywords" content="mot1, exp2, …">

Cette balise, dont la taille ne doit pas excéder 200 caractères, est (était...) utilisée par les moteurs de recherche pour afficher un résumé (snippetsxvi) de la page à l'utilisateur. Aujourd'hui, bien des moteurs de recherche génèrent dynamiquement un résumé de la page contenant les mots-clés de la recherche. Dans ce cas, le contenu de la balise n'est plus affiché à l'internaute. Comme son nom l'indique, cette balise pouvant contenir jusqu'à 1000 caractères, permet de lister les mots-clés en rapport avec la page. Les mots-clés représentent des termes qui se rapportent directement au sujet de votre page. Il est important de mettre plusieurs synonymes (voire même des antonymes) d'un mot-clé important pour éviter toute ambiguïté. Vos motsclés peuvent également comporter des fautes d'orthographe volontaires afin de ressortir comme résultat suite à une recherche comportant des erreurs de frappe. Quasiment tous les moteurs de recherche et 65% des sites utilisent encore cette balise.

1

Le résultat de cette enquête représente le pourcentage de pages retournées par un moteur de recherche et ayant au moins un mot-clé figurant dans la requête. Comme quoi, les keywords gardent une relative importance.

Pour éviter les problèmes de "casse" (différenciation des lettres minuscules et majuscules) il est conseillé de mettre tous les mots-clés en minuscules. Contrairement à ce que l'on peut penser, répéter les mots-clés ou en mettre trop peut avoir l'effet inverse à l'effet souhaité. Les spiders comprendront alors cette balise comme une méthode frauduleuse pour augmenter le positionnement et préféreront ne pas indexer la page2.

1 L'étude date d'Octobre 2004. Sa version complète est disponible à l'adresse suivante : http://www.revuereferencement.com/ETUDES/0410-referencement-title-h1.htm 2 Le keywords stuffing ou bourrage de mots-clés en français, est banni par les moteurs de recherche

18/64

En revanche, dans le cas de site multi-langues, il est conseillé de rajouter l'attribut1 lang="" pour spécifier la langue dans laquelle sont les mots-clés qui suivent. On aura ainsi, dans le cas d'un site bilingue, ceci : <META name="keywords" lang="en" content="mots-clés en anglais"> <META name="keywords" lang="fr" content="mots-clés en français">

<META NAME="Robots" content="noindex">

<META NAME="Robots" CONTENT="index, follow">

Cette balise spécifie au robot s'il peut indexer ou non votre page. En général, elle sert plutôt à exclure des pages du référencement. Elle sera donc utile dans le cas d'une page en cours de réalisation et qui ne doit pas être accessible. Idem pour une page destinée à un usage personnel (page de statistiques par exemple). L'attribut content peut prendre les valeurs suivantes : - ALL (défaut) : Indique qu'il faut indexer la page et suivre les liens hypertextes. - NONE : Ne pas indexer la page et de ne pas suivre les liens. - INDEX : La page peut être indexée par les robots. - NOINDEX : Pas d'indexation de la page par les robots. - FOLLOW : Donne la permission de suivre les liens hypertextes. - NOFOLLOW : Indique qu'il ne faut pas suivre les liens de la page. - NOIMAGEINDEX - Pas d'indexation des images, seulement le texte le sera - NOIMAGECLICK : Pas d'indexation des liens des images.

1

Un attribut est une instruction contenue à l'intérieur d'une balise et dont le but est de fournir une information supplémentaire sur la manière dont cette balise doit être interprétée.

19/64

<META NAME="Robots" CONTENT="noarchive">

"noarchive" indique aux robots qu'ils ne doivent pas mettre en cache la page en cours. Par contre, ils peuvent l'indexer et suivre les liens. Beaucoup de moteurs de recherche mettent les pages en cache. Cela permet à l'Internaute de tout de même pouvoir consulter la page même si elle a été supprimée ou est momentanément inaccessible. Le webmaster pourra lui connaître la date du dernier passage du robot sur sa page. Sachez cependant que les moteurs de recherche mettent un long moment (entre 1 et 6 mois, dépend du PageRank) avant d'actualiser leur cache. Ainsi, pour un site ayant un contenu souvent actualisé (site d'informations par exemple) il est nécessaire de mettre cette balise. De même pour un site dont le contenu serait payant. Sinon, il suffirait d'attendre que Google l'indexe pour ensuite consulter la page en cache !

3. Limites de ces balises Si ces balises ont eu leurs heures de gloire lors des débuts du référencement, elles n'ont plus aujourd'hui qu'une influence très limitée. Les différentes raisons qui confirment la mort de balises META : L'évolution technologique qu'a connue le secteur de l'informatique ces dernières années a bien évidemment profité aux moteurs de recherche. Les personnes en charge du développement des robots ont alors décidé de baser leurs indexations sur des mots-clés générés automatiquement. C'est-à-dire que les informations collectées ne devaient plus uniquement être celles que le webmaster voulait bien mettre à la disposition des robots via les balises META. Ce que je veux dire c'est que des serveurs de plus grosse capacité, couplés à des sipders plus rapides leur permettent d'analyser les pages plus en profondeur. Les analyses se basent maintenant directement sur le contenu textuel de la page. Cette nouvelle orientation de la part des moteurs de recherche cherche uniquement à obtenir des résultats probants. Il faut savoir que de nombreux webmasters peu scrupuleux avaient trouvé comment générer facilement du trafic sur leurs pages. Leur but n'était alors pas d'offrir une information de qualité aux internautes de tous horizons mais de gagner de l'argent grâce aux publicités présentes sur leurs pages. L'idée était simple et efficace : il leur suffisait d'utiliser comme mots-clés de leurs pages, la liste la plus exhaustive possible des mots ou expression les plus recherchés dans les moteurs. Ainsi, la majorité des recherches faites retournait leur site comme résultat. Pour illustrer ce phénomène, on peut rappeler qu'en 1998, de nombreux sites Internet personnels avaient comme mots-clés : Bill Clinton et Monica Lewinsky…

20/64

Aujourd'hui bien connues, ces techniques sont cataloguées comme étant du spamdexing. Ce barbarisme anglophone se définit comme étant l'ensemble des méthodes abusives de référencement qui consistent à tromper l'internaute (à travers les moteurs de recherche) sur le contenu réel de la page. La compétition qui existe entre les moteurs de recherche les a contraints à passer d'un objectif quantitatif à un objectif qualitatif. Pourtant, lorsque l'on compare le nombre de résultats intéressants et le nombre total de résultats retournés par les moteurs de recherche, on peut se demander s'ils y sont parvenus. Toujours est-il que les moteurs actuels ont pris des mesures pour limiter, voire condamner, le spamdexing. En général, la mesure la plus radicale est de ne pas référencer les pages concernées. Cela revient à inscrire le site sur une "BlackList". Une fois sur cette liste noire, le seul moyen pour le webmaster de voir son site ré-indexé par le moteur est de contacter directement le service concerné de l'outil de recherche dans le but de lui présenter un site modifié qui réponde à ses critères de sélection. B. Les autres balises Les concepteurs de spiders ont dû trouver d'autres moyens de repérer les informations importantes dans les pages web. On sait maintenant que d'autres balises présentent plus d'intérêt du point du vue du référencement que celles qui initialement créées pour cela ! 1. Le titre GoogleBot, par exemple, donne une place très importante au titre des pages. La balise <TITLE> renseigne en général sur le contenu global de la page. Une étude datant d'octobre 2004xvii montre à quel point la balise titre est importante pour les principaux moteurs de recherche. Le graphe ci-dessous montre la proportion des mots-clés que l'on retrouve, dans la balise <TITLE> des pages retournées, en réponse à 100 questions posées.

21/64

2. Les paragraphes De la même manière, on sait que la balise

qui représente les titres des paragraphes, a également une grande importance. Malheureusement, comme pour les balises META, il y eu beaucoup d'abus de type spamdexing. Les moteurs de recherche n'accordent aujourd'hui plus autant d'importance à ce type de balise (H1 et ses dérivés H2, H3, …) qu'ils n'en ont accordé par le passé. Si la balise TITLE sert toujours, c'est parce que la taille du texte est limitée. En revanche, il est possible de mettre autant de commentaire que l'on veut entre une balise H1 ouvrante et une balise H1 fermante…

Sur cet exemple trivial, on comprend qu'en écrivant une grande quantité de mots-clés de la même couleur de texte que le fond d'écran, on peut garder une présentation agréable pour l'Internaute tout en fournissant une grande quantité d'informations aux robots. Cependant, faites attention aux moteurs de recherche qui traquent ces abus en comparant systématiquement la couleur de la police avec celle du fond d'écran. Enfin, depuis la version 4.0 d'HTML (datant de la fin de l'année 1997), ce langage supporte les feuilles de style CSS1. Celles-ci ont alors connu un fort développement car elles permettent aisément de changer l'intégralité de la charte graphique d'un site en ne modifiant qu'un seul fichier. Je rappelle qu'en HTML, il faut modifier le code de toutes les pages… De ce fait, la mise en forme via les balises n'est plus utilisée que dans un quart des sites web. Pour cacher du texte à l'utilisateur tout en s'assurant qu'il restera accessible aux robots puisque présent dans le code source de la page, on peut utiliser la propriété suivante des feuilles des styles : .TextInvisible {visibility:hidden} ou encore : .TextInvisible {display:none;} 1

Cascading Style Sheets : Langage permettant de compenser les manques de l'HTML en termes de mise en forme et de présentation.

22/64

Pour combattre ceci, les moteurs de recherche tiennent compte de toutes les autres balises de mise en forme HTML telles que (gras), (souligné), (italique) ainsi que de la taille du texte. A titre d'exemple, Voila est le moteur de recherche qui utilise le plus cette balise avec un total de 16% de mots-clés trouvés entre des balises H1 sachant qu'ils étaient dans la requête. 3. Le texte alternatif des images Nos premiers pas sur Internet étaient, souvenez vous, très lents… A l'époque, la connexion 56k était un must. Pourtant, le langage HTML avait été au début développé pour permettre d'offrir des documents sous forme textuelle à la consultation. Plus tard, et devant l'essor du web, on a commencé à inclure des images dans nos documents et donc à alourdir considérablement les pages, rallongeant ainsi le temps de chargement. Les deux principaux navigateurs qu'étaient Internet Explorer et Netscape avaient bien compris ce problème et proposaient tous les deux une option qui servait à charger la page sans télécharger les images. Apparaissait alors à la place, une brève description de la photo sous forme de texte. Celle-ci était directement renseignée par le développeur grâce à l'attribut ALT de la balise IMG. Cet attribut a longtemps permis aux spiders d'indexer les balises images qu'ils ne savaient pas traiter autrement. Il s'est donc avéré que ces petites descriptions textuelles associées aux images étaient recherchées et contribuaient fortement l'indexation du site par les moteurs. Aujourd'hui, ces balises ne sont quasiment plus utilisées par les développeurs puisque les connexions que nous avons nous permettent généralement d'afficher rapidement toutes les photos. Seuls les webmasters soucieux de leur référencement s'en servent encore. Notez que nous risquons de voir réapparaître cette balise puisqu'elle fait partie intégrante des dernières recommandations du W3C1 (plus particulièrement de la WAI2). Dorénavant, une balise IMG devra forcement contenir un attribut ALT pour être conforme à la norme. En effet, cette balise permet de traduire les images en texte. Elle est donc primordiale pour une accessibilité au site des personnes non voyantes ou mal voyantes. C'est sur cet attribut que se base leur navigateur pour leur décrire / lire la page. De la même manière, on peut mettre un texte sous forme d'info bulle sur un lien en utilisant cette fois ci l'attribut TITLE. Par contre, on ne peut pas affirmer que cette balise soit réellement prise en compte.

1 2

Word Wilde Web Consortium : Organisme international qui développe et fait évoluer les standards du web.

Web Accessibility Initiative : commission du W3C et référence mondiale pour l'accessibilité des sites web aux personnes handicapées.

23/64

4. Référencement et cadres Les cadres (ou frames en anglais) furent inventés par la société Netscape. Ils ont été intégrés dans la version 4.0 d'HTML. Les frames permettent d'afficher plusieurs pages HTML dans une même fenêtre de navigateur. Elles ont révolutionné la gestion des menus dans les pages HTML puisqu'elles ont permis de faire de véritables barres de navigation. Jusque là, la gestion de la navigation compliquait beaucoup la conception des pages web. Avec l'arrivée des frames, on a vu beaucoup de pages construites de la manière suivante :

24/64

La fenêtre principale (dans notre exemple frame.html) est appelée page mère. Elle n'a normalement que pour but d'appeler les pages filles (menu.html et droite.html) Aujourd'hui, les frames sont de moins en moins utilisées pour les raisons suivantes : -

de nouvelles techniques permettent maintenant de créer des menus plus élégants et plus dynamiques.

Source : http://www.henri-ruch.ch/referencement/referencement_frames/referencement_frames.asp

-

On ne peut pas enregistrer une page en favoris. L'impression est souvent très mal gérée. Mais surtout, elles nuisent au référencement En effet, face à un site dont la fenêtre principale serait constituée de frames, les moteurs de recherche ont 4 possibilités : o

Ignorer les pages et ne pas les indexer du tout. Cette solution radicale est bien sûr la plus problématique.

25/64

o

Indexer toutes les pages du site indépendamment les unes des autres. Cela a au moins le mérite de permettre de retrouver, au travers d'une recherche, une page fille. En revanche, le lien qui apparaîtra dans le snippet du moteur pointera directement sur la page en question. Ainsi, lors de l'affichage, on perdra l'intégralité de la barre de navigation. Illustration :

Page d'accueil normale

Exemple de recherche avec Google

Résultat : la page finale est ouverte indépendamment du cadre parent

o

Référencer la page mère et les pages filles tout en étant capable de rappeler la frame parent au cas où l'internaute souhaite afficher une page différente de la Home. Sachez seulement que très peu de moteurs de recherche font ça (voire aucun…)

o

Indexer uniquement la page mère. Sachant que les robots fonctionnent en mode texte, ils ne prennent pas en compte les frames. A l'affichage d'une page avec des frames, ils ne verront que le texte se trouvant entre les balises