Maîtrise MIAGE du CFA AFIA en apprentissage à l'IEA de Paris 1 – Panthéon - Sorbonne Année 2004-2005
MOUHOT
Pierre Etienne
MEMOIRE DE FIN D'ANNEE Pôle d'accueil : Direction des Systèmes d'Informations du GIE AXA
TECHNIQUES DE REFERENCEMENT SUR INTERNET
Mots-clés :
Visibilité sur Internet, référencement, positionnement, annuaire, moteur de recherche, robots, soumission manuelle.
Tutrice Enseignante :
Mme Carine SOUVEYET - Maître de Conférences à l'Université Paris 1 – Panthéon – Sorbonne.
Maître d'apprentissage :
M. Jean-François MIGNÉ - Responsable du pôle Etudes et Développement de la DSI du GIE AXA. « Accord pour diffusion universitaire »
Sommaire Remerciements .................................................................................................... 3 Préface ............................................................................................................... 4 I.
Introduction au référencement web ou la nécessité d'un bon référencement .......... 4 A. B. C. D.
II.
Classification des outils de recherche................................................................................. 5 Guerre des outils de recherche et futures évolutions du marché ........................................ 11 Différence entre référencement, indexation, positionnement et visibilité. ............................ 13 Différents points de vue du référencement ...................................................................... 14 L'état de l'art du référencement .................................................................... 16
A. B. C. D. E. F. G. H. I. J.
Les éternelles (?) balises META ....................................................................................... 16 Les autres balises .......................................................................................................... 21 Gestion des différents contenus ...................................................................................... 27 L'URL ReWriting ............................................................................................................ 28 Les fichiers robots.txt..................................................................................................... 30 Plan du site................................................................................................................... 31 Redirections .................................................................................................................. 33 Référencer un site multilingue ........................................................................................ 35 Soumission manuelle dans les annuaires.......................................................................... 36 Dernières astuces. ......................................................................................................... 38
III.
Pratiques condamnables .............................................................................. 39
A. B. C. D.
Les pages satellites........................................................................................................ 39 Spamdexing .................................................................................................................. 42 Cloaking ....................................................................................................................... 42 Google Bombing ............................................................................................................ 43
IV. A. B. C. D. V.
Les solutions payantes................................................................................. 45 Soumission payante ....................................................................................................... 45 Référencement payant ................................................................................................... 45 Positionnement payant................................................................................................... 45 Référencement par des prestataires ................................................................................ 46 Exemple de référencement........................................................................... 47
Cas du "Mangeur de cigogne".................................................................................................. 47 VI. A. B. C.
IMS-Entreprendre pour la Cité ...................................................................... 49 Présentation.................................................................................................................. 49 Le site .......................................................................................................................... 49 Application .................................................................................................................... 52
VII. Conclusion ................................................................................................. 60 Annexe 1 .......................................................................................................... 62 Annexe 2 .......................................................................................................... 63
2/64
Remerciements Mes remerciements vont tout d’abord à Jean-François MIGNE, mon maître d’apprentissage. Je le remercie de m'avoir laissé effectuer mes recherches et rédiger ce rapport en parfaite autonomie. Je lui suis extrêmement reconnaissant pour le temps qu'il a su consacrer à la relecture de ce mémoire et pour les conseils toujours justifiés qu'il aura pu me donner.
Je tenais également à remercier toutes les personnes de l'IMS-Entreprendre pour la Cité avec qui j'ai eu l'occasion de travailler au cours de la rédaction de ce mémoire. Ces personnes m'ont fait confiance en me laissant mettre en application les techniques de référencement sur leur site Internet. Sans leur aide, je n'aurais certainement pas pu avoir l'approche pratique du référencement que j'ai aujourd'hui.
Merci à Carine SOUVEYET, ma tutrice enseignante, pour m'avoir accordé de son temps et apporté une aide précieuse lors de la rédaction de ce présent mémoire.
Enfin, merci également à M. DUBUC, directeur du CFA AFIA, pour son suivi continu durant mes deux années d'apprentissage ainsi que pour les efforts qu'il fournit pour nous assurer le bon déroulement de notre formation à l'université comme en entreprise.
3/64
Préface Etudiant en dernière année d'IUP MIAGE effectué en apprentissage à la fois à Paris 1 – Panthéon – Sorbonne et au sein de la DSI du GIE AXA, j'ai choisi, pour mon mémoire de fin d'études, de traiter la question du référencement sur Internet. En effet, voilà 3 ans que je touche de près ou de loin au développement de sites web dynamiques pour différentes sociétés or je n'avais jamais eu l'occasion de réfléchir à la future visibilité sur Internet des sites que je développais. Pour illustrer ce mémoire par des exemples concrets, j'ai eu la chance de pouvoir expérimenter ce que j'ai appris au fur et à mesure de mes recherches sur le site web de l'IMS-Entreprendre pour la cité1. Dans le cadre de mes années d'apprentissage au sein d'AXA, j'ai eu à faire évoluer le site de cette association de mécénat de solidarité. Il m'a également été demandé de m'occuper de référencer ce site auprès des principaux outils de recherche. C'est de là qu'est née l'idée d'utiliser ce thème comme sujet pour mon mémoire de fin d'année.
I.
Introduction au référencement web ou la nécessité d'un bon référencement
Cela fait plus de 15 ans qu'Internet existe. D'abord peu utilisé, réservé aux initiés Américains, il s'est ensuite doucement développé pour enfin véritablement arriver en France dans les années 1996-1997. Cependant, on peut dire que les années 2000 ont réellement contribué à la démocratisation du web en France. Au cours des quatre dernières années, et principalement parce que des technologies haut débit sont arrivées sur le marché, le nombre d'internautes français est passé de 10 millions à plus de 24 millions. La France a aujourd'hui pratiquement comblé son retard en matière de nouvelles technologies. Elle se situe ainsi dans la moyenne des pays développés. Il va sans dire que si le nombre d'Internautes a explosé de la sorte, le nombre de pages et de services sur Internet a fait de même. En 2005, le nombre mondial d'internautes devrait dépasser un milliard. Et ce nombre ne va cesser d'augmenter avec l'arrivée des nouveaux pays développés. Aujourd'hui, la question n'est plus de savoir où l'on va trouver l'information qui nous intéresse mais plutôt comment est ce qu'on va pouvoir trouver une information pertinente parmi la multitude des pages qui nous sont proposées. Partant de ce principe, les différents annuaires et moteurs de recherche ont développé leurs méthodes pour indexer et référencer le contenu des sites internet. Il y a encore quelques années, seules les grandes entreprises possédaient leur site web. Celles-ci n'avaient pas besoin de se pencher sur la question du référencement puisque les moteurs de recherche et autres annuaires n'étaient que très peu nombreux.
1
Accès au site : http://www.imsentreprendre.com (ou via un moteur de recherche !)
4/64
A cette époque, la grande majorité des connexions sur un site quelconque se faisait par accès direct (en connaissant l'URLi) ou par liens externes (en suivant des liens hypertexte). Aujourd'hui, c'est différent. La majorité des entreprises, petites ou grandes possèdent un site web. Si elles ont compris qu'un bon site pouvait étendre considérablement leur zone d'influence et leurs parts de marché, elles savent aussi qu'il est impératif que leur site puisse être visible sur la toile. Des études comparatives montrent que le référencement reste une méthode moins onéreuse que les méthodes de marketing traditionnelles.ii A l'heure actuelle, en France, les différents moyens d'accéder à un site sont les suivants :
33%
Moteurs de recherche / annuaires
30% 37%
Liens Accès direct (liens et favoris)
L'accès par les outils de recherche n'est donc évidemment pas à négliger. Le principal problème pour ces outils est le nombre monumental de pages à indexer. Par exemple, Google recense à l'heure actuelle environ 8 milliards de pages au contenu statique (.html, .doc, .pdf, .ppt, image etc). Or les ordinateurs (serveurs) qu'il utilise pour l'instant ne lui permettent pas, a priori, d'indexer beaucoup plus de pages que cela. En effet, le risque est qu'en voulant indexer encore plus de pages dans sa base de données, Google soit obligé de gérer des index de 40 bits. Dans ce cas, les temps de calculs et d'accès aux différents documents seraient beaucoup trop longs. Google, comme les autres, travaille sur la possibilité de gérer des bases de données gigantesques avec des machines toujours plus puissantes (serveur 64 bits) iii. En attendant, il n'est pas rare de voir des pages, jusque là indexées, remplacées par de nouvelles au contenu plus pertinent. Cela est d'autant plus vrai pour les annuaires qui, en général, disposent d'un index plus petit et ont des critères de sélection beaucoup plus stricts. Ainsi, le classement dans les outils de recherche n'est pas définitif est doit être suivi en permanence. A. Classification des outils de recherche Nous utilisons quotidiennement les outils de recherche qui sont à notre disposition sur Internet. Cette étape est devenue quasiment obligatoire lorsque l'on recherche des informations sur le net. Il faut savoir que "plus de 80% des internautes utilisent les outils de recherche pour trouver le site d'une enseigne qu'ils connaissent"iv. Il est évident que "la recherche sur les moteurs de recherche est devenu un réflexe pour plus de 90% des utilisateurs réguliers d'Internet"v. Nous utilisons donc couramment les outils de recherche mais combien d'entre nous savent qu'il existe deux principaux types d'outils ?
5/64
Il s'agit des annuaires et des moteurs de recherche. Ils se différencient principalement par le fait qu'ils n'utilisent pas la même méthode pour indexer leurs pages. Cette distinction essentielle n'est pourtant pas celle qui saute aux yeux de l'utilisateur lambda. Pour lui, la différence s'arrête certainement au mode de recherche et à l'agencement des résultats. Plus pratiquement, si on voulait assimiler Internet à un grand un livre, "les annuaires (ou guides) thématiques en seraient la table des matières, bien partielle, et les moteurs de recherche un moyen de chercher l'information mot par mot, mais sans bien savoir le contenu du livre".vi 1. Les annuaires Les annuaires (ou répertoire) indexent les sites web grâce au travail de personnes physiques. Ils classent les sites par catégorie et sous catégorie de la plus générale à la plus spécifique. Les recherches se font donc sur ces catégories et les résultats sont présentés par ordre alphabétique. Un webmestre souhaitant enregistrer son site doit le faire au moyen d'un formulaire électronique généralement accessible depuis la page d'accueil de l'annuaire. Il renseigne alors ce formulaire avec la description de son site, son adresse, son titre, sa catégorie et la sous catégorie. Après validation du formulaire, sa demande sera traitée par une personne physique qui ira regarder le site. Suivant une notation par rapport à des critères propres à chaque annuaire, cette personne (nommée "netsurfeur") décidera ou non d'inclure le site dans la base de données de l'annuaire. Les éléments requis lors d'une demande d'inscription sont très importants car la recherche au moyen d'un mot-clé est basée sur ces éléments (adresse Web, titre, description) et non sur le contenu des pages du site en question. Les avantages
Les inconvénients
Lors d'une recherche, on obtient rapidement une sélection de sites correspondant à une catégorie précise
Les sites répertoriés doivent être inscrits manuellement1
Qualité des sites répertoriés
La mise à jour de la base de données est plus longue que pour un moteur de recherche
Comme le contenu des sites a été examiné par des personnes, il y a moins de risques d'obtenir des résultats erronés
Le classement des résultats se fait par ordre alphabétique et non par pertinence Les critères d'acceptation sont souvent sévères
L'annuaire le plus connu reste sans doute Yahoo!. Il fut le pionnier et, en 1994, recevait déjà plus de 10 000 visiteurs par jour. Aujourd'hui, c'est plus de 200 millions de visiteurs par mois.vii Pourtant il reste derrière le moteur de recherche Google. Il est vrai qu'historiquement, les annuaires sont arrivés avant les moteurs de recherche puisque la technologie ne permettait pas d'indexer automatiquement les pages. Pour contrer cette attaque, Yahoo! dispose depuis 2004 d'un moteur de recherche en plus de son annuaire. 1
Soumission manuelle via les formulaires spécifiques à chaque annuaire.
6/64
L'Open Directory Project "L'Open Directory Project (ou ODP) est le plus grand et le plus complet des répertoires du Web édités par des êtres humains. Il est développé et maintenu par une vaste communauté mondiale d'éditeurs bénévoles. […] L'Open Directory a été fondé dans l'esprit du mouvement Open Source et est le seul répertoire d'importance majeure à être totalement gratuit."viii Enfin, pour conclure sur cette partie réservée aux annuaires, l'essentiel à retenir est que le classement se fait de manière arborescente, suivant des thèmes et des rubriques et que la classification manuelle permet une approche qualitative. 2. Moteur de recherche Pour simplifier, on peut voir un moteur de recherche comme une immense base de données qui recenserait les principaux sujets de chaque page présente sur le web. Le moteur de recherche propose, contrairement à l'annuaire, une recherche par mot-clé. Il est bien évident que lorsque vous faites une requête sur un moteur de recherche celui-ci ne va pas parcourir "l'ensemble" du web pour vous fournir une réponse pertinente. Il se contente d'aller regarder dans sa base de données ce qui correspond le mieux à votre requête. Cette base de donnée est mise à jour régulièrement afin de référencer les nouveaux sites qui apparaissent quotidiennement sur la toile. Cette mise à jour est possible grâce à des "robots"1 qui parcourent en permanence et de manière automatique l'ensemble des serveurs web. Lors d'une requête sous forme de mots-clés sur un moteur de recherche, celui-ci consulte son index pour fournir l'ensemble des résultats. Ces réponses sont triées par ordre de pertinence suivant un algorithme propre à chaque moteur de recherche. A titre de comparaison, un moteur de recherche renvoie une liste de pages web alors qu'un annuaire retourne une liste de sites. Les avantages
Les inconvénients
Les recherches donnent plus de résultats car la base de données d'un moteur de recherche est beaucoup plus importante que celle d'un annuaire
Les recherches peuvent générer masse importante de résultats
La base de données est mise à jour plus fréquemment
Comme le contenu des sites n'est pas examiné par des humains, la qualité des résultats peut être moindre
une
Le classement des résultats de recherche est effectué par pertinence et non par ordre alphabétique Je pense qu'il n'est plus nécessaire de vous présenter Google et son index de plus de huit milliards de pages. 1
"Robots" ou "araignées" ou encore "crawler"
7/64
En revanche, je vais revenir sur certains points particuliers de Google car il fait office de référence en matière de moteur de recherche. De plus, et bien que nous verrons plus tard que cela peut changer, beaucoup de gens considèrent qu'un bon référencement dans Google constitue un référencement suffisant… a. Les robots – L'exemple du GoogleBot1 Nous avons vu que la mise à jour des bases de données de Google était effectuées grâce à des robots. Comprendre comment ils fonctionnent, c'est-à-dire savoir ce qu'ils recherchent réellement sur nos pages, nous permettra, je pense, de minimiser les risques de passer à côté d'un bon référencement. Nous savons qu'ils explorent le web de pages en pages à la recherche d'informations pertinentes qu'ils enregistreront dans leur gigantesque base de données. Etant donnée la taille colossale de leur travail, il faut bien comprendre qu'ils ne passent pas tous les jours sur votre site web. Partez du principe qu'ils passeront 2 à 3 fois par mois sur un site déjà bien référencé. Mais sachez qu'ils peuvent également ne jamais passer si rien n'est fait pour les "attirer". On pourrait penser que les robots sont des monstres de technologie capables de faire énormément de traitements avec une page web… Il n'en est rien. En réalité, ils se comportent exactement comme un navigateur de base. Ils fonctionnent en mode texte comme le fait le navigateur Lynx. C'est-à-dire qu'ils ne gèrent pas les images, les animations Flash, les différentes polices de caractères, leurs tailles. Les frames2, les pages à accès restreint (protégées par mot de passe) et les scripts (JavaScript, applets java, pages dynamiques etc.) sont également ignorés contrairement aux formulaires et cookies qu'ils savent gérer. Cette gestion très spartiate des pages leur permet par contre d'être très rapides à la parcourir. Concrètement, lorsque l'on souhaite accélérer le référencement d'un site, la seule chose que l'on puisse faire est soumettre l'URL aux moteurs de recherche. Pour Google, il faut se rendre sur la page (http://www.google.fr/addurl/?hl=fr) et remplir le formulaire. Cette étape est similaire à la soumission manuelle que l'on ferait avec un annuaire à la différence que le formulaire est plus sommaire. Ceci a pour unique but de mettre l'URL en queue de liste des URL que le moteur va devoir analyser. Une fois le robot arrivé sur votre site, il commence par regarder s'il existe un fichier "robots.txt" puis analyse la page courante avant de suivre les liens qu'il pourra trouver dessus. C'est pour cette raison qu'un robot peut arriver sur votre page même si vous ne lui avez pas demandé explicitement. Par contre, cela risque de lui prendre plus de temps pour trouver votre site. NB : Si votre serveur est surchargé ou en panne au moment où un robot essaye de s'y connecter, le robot est normalement configuré pour réessayer un certain nombre de fois avant de considérer que le site n'existe plus. Cette sécurité sert à éviter de supprimer des sites de l'index du moteur alors qu'ils ne sont que momentanément indisponibles. Au pire, les informations dont dispose le robot sur votre site ne seront pas mises à jour avant son prochain passage. 1 2
GoogleBot : nom du robot d'indexation développé par Google
Frames : Concept inventé par Netscape. Consiste à afficher le résultat de l'assemblage de plusieurs pages HTML dans une seule fenêtre du navigateur.
8/64
b. Le PageRank Google a développé un algorithme pour lui permettre de mesurer la popularité et la pertinence des pages qu'il retourne en réponse à une requête. Cette note s'appelle le PageRank. Le principe de PageRank est simple : tout lien pointant de la page A à la page B1 est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages"ix. Le PageRank est donc très intéressant car on peut supposer qu'un site populaire soit de meilleure qualité (fiabilité des informations disponibles par exemple) qu'un autre moins consulté. Notez cependant que cette technique, telle que je viens de vous la présenter, ne permet absolument pas d'affirmer que les résultats correspondent à votre requête. C'est pourquoi le PageRank est complété par d'autres critères plus spécifiques aux mots-clés par exemple. Le PageRank est mis à jour à chaque GoogleDance. Google fut le premier à perfectionner ses agents de recherche afin que ceux-ci ne se contentent plus seulement des balises "META" présentes en entête de chaque page. Cette technique est certainement à l'origine du succès de Google puisque, dès ses débuts, il a su proposer des résultats pertinents. c.
La GoogleDance
Pour répondre plus vite aux requêtes, Google a choisi de répartir ses nombreux serveurs (environs 40 000) en une dizaine de "Data Center" implantés principalement aux Etats-Unis et en Europe. Ainsi, les requêtes que vous faites sur www.google.fr sont traitées par un Data Center choisi en fonction de deux critères : - votre localisation géographique - la charge du Data Center le plus proche. Vous comprendrez que cette architecture ne permet pas de maintenir les bases de données parfaitement synchronisées d'un Data Center à l'autre. Sachant cela, on comprend pourquoi des requêtes identiques réalisées depuis un même poste mais à des moments différents peuvent finalement donner des résultats différents. Avant d'opter pour une indexation continue, Google mettait à jour sa base de données une fois par mois. Cette mise à jour majeure mettait les Data-Centers dans des états profondément différents les uns par rapport aux autres. Ainsi, les résultats pouvaient beaucoup varier suivant le centre que l'on interrogeait. Ce phénomène fut baptisé GoogleDance. Elle pouvait durer jusqu'à une semaine. Chaque "dance" était baptisée… comme le sont les cyclones ! Nous venons de voir ce qu'est une GoogleDance, essayons maintenant de comprendre ce qu'elle apporte aux webmasters. Google, avant de rendre accessible son nouvel index, le teste sur deux domaines particuliers accessibles aux adresses suivantes : www2.google.com et www3.google.com. Ces domaines publics possèdent, en général, une version de l'index plus à jour que celle utilisée par le site www.google.xxx. Ils permettent aux webmasters d'avoir un 1
On parle alors de BackLink (BL) de A vers B. Google utilise constamment les BL pour classer ses sites. La commande link: de Google permet de connaître ces BL.
9/64
aperçu de ce que sera leur position lorsque le nouvel index sera passé. En effet, c'est en fonction de ce qui apparaîtra dans le nouvel index que Google pourra calculer les nouvelles valeurs des PageRank. Ainsi, cette période est utile aux référenceurs pour que ceux-ci peaufinent leur technique. S'ils ratent la GoogleDance, ils n'auront qu'à attendre le prochain passage du robot. 3. Les hybrides ou outils mixtes Ils proposent une méthode de recherche soit sous forme d'annuaire, soit sous forme de mots-clés. En général, ils ne disposent que d'une taille d'index assez restreinte. Ils sont utilisés pour effectuer des recherches au sein d'un même site web. Un cas concret est celui du site http://www.telecharger.com qui propose de rechercher un logiciel par son nom ou alors de le retrouver à travers les catégories proposées. L'objectif est de dégrossir les recherches en sélectionnant les thèmes importants dans l'annuaire et terminer l'analyse par une recherche plus fine par les mots-clés.
Annuaire
Moteur de recherche
4. Les métamoteurs Les métamoteurs sont des moteurs de recherche qui basent leurs recherches sur l'interrogation de plusieurs autres moteurs de recherche. Le plus connu est sûrement Copernic qui fournit un résultat issu de plus de 100 moteurs différents. Si cela était intéressant à la fin des années 90, ça n'est plus vraiment le cas aujourd'hui. Surtout
10/64
quand on sait que Google retourne à lui tout seul des milliers de pages pour une recherche… C'est pourquoi, les métamoteurs ont dû trouver des moyens de se démarquer des moteurs de recherche. Outre le fait qu'ils n'aient pas de base de données propre ! Pour cela, ils ont dû proposer des fonctions supplémentaires telles que la suppression des doublons, des liens morts et la possibilité d'ajouter des filtres pour trier les résultats. N'utilisant pas de base de données propre, ils ne représentent aucun intérêt du point de vue du référencement. B.
Guerre des outils de recherche et futures évolutions du marché
En France, on constate que 73% des recherches se font sur Google. L'hégémonie de Google dure depuis quelques années et ne semble pour l'instant pas remise en cause. Pourtant, de nouveaux acteurs tentent de s'implanter sur ce créneau très porteur. 1. La bonne guerre de Yahoo! et Google Nous connaissons depuis le début la guerre qui oppose Google à Yahoo!. Pourtant, ces deux outils de recherche ne proposent pas tout à fait les mêmes services. En effet, Google s'est spécialisé dans le moteur de recherche et ne fait que ça, alors que Yahoo! est un annuaire (et maintenant depuis peu un moteur de recherche) qui propose aussi un portail contenant une grande source d'informations immédiatement disponibles. Pour preuve de la guerre de ces deux géants de la recherche sur Internet, il y a un an de cela, si on tapait trop vite www.yahoo.fr dans son navigateur, on avait de grandes chances d'arriver sur le site de Google. Google ayant acheté le nom de domaine www.yahooo.fr afin de faire une redirection1 sur son propre site. Yahoo! avait alors vite riposté en achetant www.gooogle.com ! Le 9 Août dernier, Yahoo! annonçait que son index recensait désormais 20 milliards de documents. Google Image a immédiatement répliqué en affirmant que son moteur de recherche dédié aux image n'indexait plus 1.3 mais 2.2 milliards de photos.
2. Un nouvel acteur : MSN Search Aujourd'hui la guerre continue mais les choses risquent d'évoluer plus rapidement avec l'arrivée de Microsoft sur le marché. En effet, le géant de Redmond a décidé de se lancer dans la recherche sur internet. La différence réside dans le fait que Microsoft possède des fonds énormes qu'il semble prêt à investir pour s'implanter rapidement sur ce marché. Notez que "le chiffre d'affaires annuel de Google ou de Yahoo! ne représente "que" deux mois de résultat de Microsoft". Ainsi, "ce que Google a mis quatre ans à construire, Microsoft peut l'obtenir en quelques mois."x L'avenir nous dira lequel des grands du référencement gagnera mais en attentant, en France, Google semble particulièrement bien tirer son épingle du jeu.
1
Une redirection est une action, transparente pour l'utilisateur, qui permet de le réacheminer d'une page vers une autre en changeant automatiquement son URL.
11/64
12%
76%
5%
(Source : http://www.barometre-referencement.com/question_du_mois.htm)
3. La guerre du nombre de pages indexées Comme je vous l'ai dit, Google se vente d'indexer le plus grand nombre de pages. Le 3 mars dernier on pouvait trouver sur la page www.google.fr : Il semblerait pourtant que son index ne fasse pas vraiment la taille indiquée… Il s'agirait plutôt d'une estimation par interpolation. D'ailleurs, Google a annoncé qu'il avait doublé la taille de son index (passant ainsi de 4 à 8 milliards de pages) le jour où Microsoft lançait la version d'essai de MSN Search qui, elle, est sensée indexer 5 milliards de pages. Bizarre donc… Si on en croit l'étude "Comptes bidons chez Google ?"xi, on remarque ainsi quelques incohérences traduisant clairement que Google et les autres se livrent une guerre acharnée. A titre d'exemple, le mot anglais "the" permet de faire une recherche sur la quasi-totalité des pages anglaises. Voici le résultat, dans toutes les langues, de la recherche sur Google.
Tout juste 8 milliards de résultats… Bref, ce qui est étonnant c'est qu'en ne cherchant que sur les pages anglaises, on obtient le résultat suivant :
Soit à peu près 1% du résultat précédant ! Sous-entendant par la même occasion que "the" se trouve dans 99% des cas dans des pages non anglaises… Pourtant, on ne peut pas dire qu'un moteur qui indexe plus de pages qu'un autre soit de meilleure qualité qu'un autre.
12/64
En général, nous autres internautes sommes plutôt perdus devant le nombre de résultats que peut nous renvoyer une recherche. Le problème est généralement que l'on obtient trop de réponses plutôt que pas assez ! L'internaute ne s'en rend même pas compte. Il s'en fiche même de savoir que sa requête sur MSN Search lui retourne 653 125 réponses alors que la même interrogation de Google lui en retourne le double. Les statistiques montrent que "91% des internautes changent de requête s'ils sont insatisfaits des quarante premiers résultats". En allant plus loin, on montre que "les 10 premiers résultats reçoivent 78% de trafic supplémentaire par rapport à ceux qui sont listés de la onzième à la trentième position."xii C'est justement en sachant ceci que l'on comprend l'intérêt d'un bon référencement et plus particulièrement celui d'un bon positionnement. Nous allons tout de suite définir ces deux termes. C. Différence entre référencement, indexation, positionnement et visibilité. Au cours de ce rapport, je vais fréquemment utiliser les quatre termes ci-dessus. Il est essentiel de bien comprendre la différence entre ces expressions. Le référencement, dans son acceptation large, peut être défini comme l'ensemble des actions permettant à un site d'être présent dans les bases de données des outils de recherche. L'action visant à être répertorié est « l'indexation »xiii Il y a encore quelques années, l'objectif était uniquement de se faire référencer par les moteurs de recherche. On constate qu'aujourd'hui le but reste bien évidemment d'être référencé par le plus de moteurs de recherches/annuaires possibles mais l'accent est surtout mis sur le positionnement. Le positionnement prend appui sur les fondements du référencement. Mais le terme de positionnement sous entend que l'on évalue le référencement par rapport à quelque chose. Dans le cas du site web d'une entreprise, on peut comparer sa position par rapport à celle de ses concurrents. On pourra ainsi estimer le rang auquel apparaîtra un site dans la liste des résultats retournés par un outil de recherche à la suite d'une requête précise. Nous avons déjà vu "que plus de 70% des internautes ne consultent que les deux premières pages de résultats"xiv. Même au sein de la première page, la compétition est rude. En effet, "le premier site qui apparaît lors d'une requête reçoit trois fois plus de clics que le cinquième"xv. La nécessité d'être bien positionné n'est donc plus à démontrer. Pour finir, la visibilité d'un site fait plus référence à la stratégie qui sera mise en place pour cibler le marché et les clients que l'on veut atteindre. L'objectif de la visibilité étant de se faire connaître des clients et de se distinguer des concurrents.
13/64
D. Différents points de vue du référencement Avant d'étudier en détail les différentes techniques de référencement, je pense qu'il est important de bien mettre l'accent sur un point essentiel du référencement. Ce point concerne la divergence qui réside entre l'objectif des outils de recherche et celui des webmasters. En effet, il faut bien comprendre que le but d'un webmaster soucieux de son référencement est de faire apparaître son site en tête des résultats des moteurs de recherche (c'est-à-dire être bien positionné). Par contre, l'objectif des moteurs de recherche et des annuaires est, quant à lui, de retourner le maximum de résultats pertinents par rapport à une requête faite par un internaute. Cette divergence de points de vue entre les deux principaux acteurs du référencement explique pourquoi les techniques de référencement ont tellement évolué au cours des dernières années. Vous l'aurez compris, les webmasters étudient les moteurs de recherche afin de comprendre comment ils fonctionnent. Grâce à ces informations, ils sont capables de trouver les failles leur permettant d'atteindre le haut des classements. De leur côté, les moteurs de recherche sont obligés de réagir rapidement afin de condamner les abus des référenceurs et ainsi toujours garantir des résultats cohérents. Ainsi, on peut classer les techniques1 suivant leurs évolutions :
Action des moteurs de recherche Les balises méta du langage HTML ont été inventées dans le but de permettre le référencement des pages. Les premiers robots ne prenaient alors en compte QUE ces balises Les moteurs ont du riposter en prenant de moins en moins en compte ces balises. Ils se sont alors focalisés sur d'autres balises : title, Hx, b et alt La technologie ayant suffisamment évolué, les robots ont alors étés capables de rechercher eux-mêmes les mots pertinents dans le contenu textuel des pages. Le webmaster ne devait alors plus pouvoir tromper les robots Pour éviter d'indexer de trop nombreuses pages satellites, les moteurs tentent de les repérer et de les bannir de leurs index 1
sens
Æ
Æ
Æ
Æ
Riposte des webmasters Du coup, les webmasters en ont profité pour abuser de ces balises… Ils ont créé le spamdexing et le "bourrage de mots-clés" De la même manière, on a vu apparaître des pages contenant de nombreuses répétitions de mots-clés dans ces balises Les webmasters ont alors choisi de créer de nombreuses pages au contenu optimisé pour les moteurs de recherche. En couplant ces pages avec une redirection, ils on inventés les pages satellites… Pages qui furent rapidement condamnées par les moteurs de recherche Pour limiter le risque de se faire exclure des moteurs de recherche par une utilisation abusive des pages satellites, les webmasters ont développé une
Ce tableau donne le nom et les grandes lignes de quelques techniques. Elles seront explicitées par la suite.
14/64
Pour réduire le risque de cloaking, certains moteurs changent le nom de leurs robots Il semble que les moteurs n'aient pas encore vraiment réagi à ce sujet. Cela vient sûrement du fait qu'un bombing n'est pas facile à mettre en œuvre puisqu'il doit être réalisé simultanément par plusieurs milliers de webmasters.
Æ
nouvelle technique. Celle dite du cloaking qui permet de présenter un contenu différent d'une même page suivant que c'est un internaute qui la visionne ou un robot qui la parcourt. Les webmasters ont amélioré leurs scripts de cloaking pour identifier les robots en fonction de leur adresse IP et non plus seulement à partir de leur nom Une des dernières techniques utilisée par les webmasters est le bombing.
Å
Ce cycle d'évolution peut se résumer de la manière suivante :
15/64
II. L'état de l'art du référencement A. Les éternelles (?) balises META 1. Présentation Historiquement, les premiers moyens mis en œuvre pour référencer un site étaient simples et efficaces. La raison que l'on a déjà vue est que le nombre de page sur Internet était bien moindre. Technologiquement moins performants, les premier "spiders" étaient lents. Couplés à des bases de données limitées, ils ne pouvaient pas stocker beaucoup d'information pour chaque site. Ainsi, pour préparer le travail des robots, les webmasters avaient la possibilité de leur fournir directement les informations pertinentes en utilisant des balises HTML créer spécifiquement pour cela. Ces balises META étaient à placer entre les balises HEAD d'un document HTML. Invisibles des internautes (à moins bien sûr d'afficher le code source de la page), elles renseignent sur le nom de l'auteur de la page, sa langue et son contenu (résumé et les mots-clés). Cette technique a longuement été le meilleur (voire le seul) moyen de référencer son site. Quant au positionnement, il se faisait alors en comptant le nombre de mots-clés identiques entre la recherche et les pages trouvées. 2. Liste exhaustive Voici une liste quasiment complète des principales balises META avec leur fonction. Cette liste est classée par ordre d'importance croissante. Beaucoup de ces balises ne sont plus prises en considération par les robots des moteurs de recherche pour des raisons que nous verrons par la suite. Toujours est-il qu'elles sont très simples à mettre en œuvre et qu'il serait dommage de s'en priver. D'autant plus qu'elles ne peuvent en aucun cas nuire au référencement tant que l'on ne s'en sert pas pour tromper les robots… Balises
Fonction / Utilisation
<META NAME="geographie" CONTENT="Paris, France, 75000">
Localise géographiquement la société détenant le site. Elle peut servir pour les nouvelles fonctions des moteurs de recherche qui proposent maintenant en priorité des réponses "proches" de l'internaute.
<META NAME="Publisher" CONTENT="Prénom NOM">
Donne un moyen de faire apparaître le nom de la société dans le code source de la page. Si l'on utilise un outil (tel que Deamweaver) pour générer la page, celui-ci renseigne automatiquement la balise avec son nom.
16/64
<META NAME="Reply-to" CONTENT="
[email protected](Pierre Etienne MOUHOT)">
Spécifie une adresse de réponse pour les utilisateurs avertis qui consulteront le code source de la page. Permet également de faire apparaître l'adresse email dans le code source de la page et donc augmente les chances d'indexation par les robots. Par contre, cette adresse sera aussi repérée par les robots qui parcourent le web à la recherche d'adresses mails à spammer…
<META NAME="Copyright" CONTENT="2001 IMS">
Balise spécifique aux Copyright où l'on peut encore mettre le nom de l'entreprise.
<META NAME="Subject" CONTENT="Le référencement des sites sur internet ">
Permet de définir le thème principal de la page.
<META NAME="Category" CONTENT="Association">
Permet à un annuaire de savoir dans quelle rubrique il va pouvoir classer le site. Il est possible de mettre plusieurs catégories. Elles doivent être écrites en anglais.
<META HTTP-EQUIV="Pragma" CONTENT="no-cache">
Spécifie au navigateur qu'il doit recharger toute la page avant de l'afficher, et ceci même s'il l'a déjà en cache.
<META NAME="Identifier-URL" CONTENT="http://www.imsentreprendre.com">
Cette balise permet simplement de faire apparaître l'URL de la page principale du site dans le code source de la page
<META NAME="Date-Creationyyyymmdd" content="20041201">
Spécifie la date de création de la page en cours.
<META NAME="Date-Revisionyyyymmdd" content="20050303">
Spécifie la date de dernière modification de la page en cours.
<META NAME="Revisit-After" CONTENT="15 days">
Spécifie avec quelle fréquence le robot peut revenir visiter la page.
<META HTTP-EQUIV="Expires" CONTENT="Wed, 05 June 2005 12:00:00 GMT">
Donne une indication au robot sur la date jusqu'à laquelle il doit garder la page en cache. De même le navigateur n'utilisera pas la page qu'il pourrait avoir en cache au delà de cette date. Cette balise sert essentiellement pour des pages dont le contenu est souvent mis à jour.
17/64
<META HTTP-EQUIV="refresh" CONTENT="60; URL=http://www.humagora.com">
Cette balise redirige automatiquement l'internaute vers la page spécifiée. Elle peut être utile en matière de référencement lors d'un changement d'url. Elle permet ainsi aux robots de trouver la nouvelle URL du site.
<META NAME="Author" CONTENT="IMS" lang="fr">
Permet d'indiquer le nom de l'auteur du site ou de la société. Elle permet d'ajouter une fois de plus ce nom en question dans le code source de la page.
<META NAME="Description" content="phrase de description">
<META NAME="Keywords" content="mot1, exp2, …">
Cette balise, dont la taille ne doit pas excéder 200 caractères, est (était...) utilisée par les moteurs de recherche pour afficher un résumé (snippetsxvi) de la page à l'utilisateur. Aujourd'hui, bien des moteurs de recherche génèrent dynamiquement un résumé de la page contenant les mots-clés de la recherche. Dans ce cas, le contenu de la balise n'est plus affiché à l'internaute. Comme son nom l'indique, cette balise pouvant contenir jusqu'à 1000 caractères, permet de lister les mots-clés en rapport avec la page. Les mots-clés représentent des termes qui se rapportent directement au sujet de votre page. Il est important de mettre plusieurs synonymes (voire même des antonymes) d'un mot-clé important pour éviter toute ambiguïté. Vos motsclés peuvent également comporter des fautes d'orthographe volontaires afin de ressortir comme résultat suite à une recherche comportant des erreurs de frappe. Quasiment tous les moteurs de recherche et 65% des sites utilisent encore cette balise.
1
Le résultat de cette enquête représente le pourcentage de pages retournées par un moteur de recherche et ayant au moins un mot-clé figurant dans la requête. Comme quoi, les keywords gardent une relative importance.
Pour éviter les problèmes de "casse" (différenciation des lettres minuscules et majuscules) il est conseillé de mettre tous les mots-clés en minuscules. Contrairement à ce que l'on peut penser, répéter les mots-clés ou en mettre trop peut avoir l'effet inverse à l'effet souhaité. Les spiders comprendront alors cette balise comme une méthode frauduleuse pour augmenter le positionnement et préféreront ne pas indexer la page2.
1 L'étude date d'Octobre 2004. Sa version complète est disponible à l'adresse suivante : http://www.revuereferencement.com/ETUDES/0410-referencement-title-h1.htm 2 Le keywords stuffing ou bourrage de mots-clés en français, est banni par les moteurs de recherche
18/64
En revanche, dans le cas de site multi-langues, il est conseillé de rajouter l'attribut1 lang="" pour spécifier la langue dans laquelle sont les mots-clés qui suivent. On aura ainsi, dans le cas d'un site bilingue, ceci : <META name="keywords" lang="en" content="mots-clés en anglais"> <META name="keywords" lang="fr" content="mots-clés en français">
<META NAME="Robots" content="noindex">
<META NAME="Robots" CONTENT="index, follow">
Cette balise spécifie au robot s'il peut indexer ou non votre page. En général, elle sert plutôt à exclure des pages du référencement. Elle sera donc utile dans le cas d'une page en cours de réalisation et qui ne doit pas être accessible. Idem pour une page destinée à un usage personnel (page de statistiques par exemple). L'attribut content peut prendre les valeurs suivantes : - ALL (défaut) : Indique qu'il faut indexer la page et suivre les liens hypertextes. - NONE : Ne pas indexer la page et de ne pas suivre les liens. - INDEX : La page peut être indexée par les robots. - NOINDEX : Pas d'indexation de la page par les robots. - FOLLOW : Donne la permission de suivre les liens hypertextes. - NOFOLLOW : Indique qu'il ne faut pas suivre les liens de la page. - NOIMAGEINDEX - Pas d'indexation des images, seulement le texte le sera - NOIMAGECLICK : Pas d'indexation des liens des images.
1
Un attribut est une instruction contenue à l'intérieur d'une balise et dont le but est de fournir une information supplémentaire sur la manière dont cette balise doit être interprétée.
19/64
<META NAME="Robots" CONTENT="noarchive">
"noarchive" indique aux robots qu'ils ne doivent pas mettre en cache la page en cours. Par contre, ils peuvent l'indexer et suivre les liens. Beaucoup de moteurs de recherche mettent les pages en cache. Cela permet à l'Internaute de tout de même pouvoir consulter la page même si elle a été supprimée ou est momentanément inaccessible. Le webmaster pourra lui connaître la date du dernier passage du robot sur sa page. Sachez cependant que les moteurs de recherche mettent un long moment (entre 1 et 6 mois, dépend du PageRank) avant d'actualiser leur cache. Ainsi, pour un site ayant un contenu souvent actualisé (site d'informations par exemple) il est nécessaire de mettre cette balise. De même pour un site dont le contenu serait payant. Sinon, il suffirait d'attendre que Google l'indexe pour ensuite consulter la page en cache !
3. Limites de ces balises Si ces balises ont eu leurs heures de gloire lors des débuts du référencement, elles n'ont plus aujourd'hui qu'une influence très limitée. Les différentes raisons qui confirment la mort de balises META : L'évolution technologique qu'a connue le secteur de l'informatique ces dernières années a bien évidemment profité aux moteurs de recherche. Les personnes en charge du développement des robots ont alors décidé de baser leurs indexations sur des mots-clés générés automatiquement. C'est-à-dire que les informations collectées ne devaient plus uniquement être celles que le webmaster voulait bien mettre à la disposition des robots via les balises META. Ce que je veux dire c'est que des serveurs de plus grosse capacité, couplés à des sipders plus rapides leur permettent d'analyser les pages plus en profondeur. Les analyses se basent maintenant directement sur le contenu textuel de la page. Cette nouvelle orientation de la part des moteurs de recherche cherche uniquement à obtenir des résultats probants. Il faut savoir que de nombreux webmasters peu scrupuleux avaient trouvé comment générer facilement du trafic sur leurs pages. Leur but n'était alors pas d'offrir une information de qualité aux internautes de tous horizons mais de gagner de l'argent grâce aux publicités présentes sur leurs pages. L'idée était simple et efficace : il leur suffisait d'utiliser comme mots-clés de leurs pages, la liste la plus exhaustive possible des mots ou expression les plus recherchés dans les moteurs. Ainsi, la majorité des recherches faites retournait leur site comme résultat. Pour illustrer ce phénomène, on peut rappeler qu'en 1998, de nombreux sites Internet personnels avaient comme mots-clés : Bill Clinton et Monica Lewinsky…
20/64
Aujourd'hui bien connues, ces techniques sont cataloguées comme étant du spamdexing. Ce barbarisme anglophone se définit comme étant l'ensemble des méthodes abusives de référencement qui consistent à tromper l'internaute (à travers les moteurs de recherche) sur le contenu réel de la page. La compétition qui existe entre les moteurs de recherche les a contraints à passer d'un objectif quantitatif à un objectif qualitatif. Pourtant, lorsque l'on compare le nombre de résultats intéressants et le nombre total de résultats retournés par les moteurs de recherche, on peut se demander s'ils y sont parvenus. Toujours est-il que les moteurs actuels ont pris des mesures pour limiter, voire condamner, le spamdexing. En général, la mesure la plus radicale est de ne pas référencer les pages concernées. Cela revient à inscrire le site sur une "BlackList". Une fois sur cette liste noire, le seul moyen pour le webmaster de voir son site ré-indexé par le moteur est de contacter directement le service concerné de l'outil de recherche dans le but de lui présenter un site modifié qui réponde à ses critères de sélection. B. Les autres balises Les concepteurs de spiders ont dû trouver d'autres moyens de repérer les informations importantes dans les pages web. On sait maintenant que d'autres balises présentent plus d'intérêt du point du vue du référencement que celles qui initialement créées pour cela ! 1. Le titre GoogleBot, par exemple, donne une place très importante au titre des pages. La balise <TITLE> renseigne en général sur le contenu global de la page. Une étude datant d'octobre 2004xvii montre à quel point la balise titre est importante pour les principaux moteurs de recherche. Le graphe ci-dessous montre la proportion des mots-clés que l'on retrouve, dans la balise <TITLE> des pages retournées, en réponse à 100 questions posées.
21/64
2. Les paragraphes De la même manière, on sait que la balise
qui représente les titres des paragraphes, a également une grande importance. Malheureusement, comme pour les balises META, il y eu beaucoup d'abus de type spamdexing. Les moteurs de recherche n'accordent aujourd'hui plus autant d'importance à ce type de balise (H1 et ses dérivés H2, H3, …) qu'ils n'en ont accordé par le passé. Si la balise TITLE sert toujours, c'est parce que la taille du texte est limitée. En revanche, il est possible de mettre autant de commentaire que l'on veut entre une balise H1 ouvrante et une balise H1 fermante…
Sur cet exemple trivial, on comprend qu'en écrivant une grande quantité de mots-clés de la même couleur de texte que le fond d'écran, on peut garder une présentation agréable pour l'Internaute tout en fournissant une grande quantité d'informations aux robots. Cependant, faites attention aux moteurs de recherche qui traquent ces abus en comparant systématiquement la couleur de la police avec celle du fond d'écran. Enfin, depuis la version 4.0 d'HTML (datant de la fin de l'année 1997), ce langage supporte les feuilles de style CSS1. Celles-ci ont alors connu un fort développement car elles permettent aisément de changer l'intégralité de la charte graphique d'un site en ne modifiant qu'un seul fichier. Je rappelle qu'en HTML, il faut modifier le code de toutes les pages… De ce fait, la mise en forme via les balises n'est plus utilisée que dans un quart des sites web. Pour cacher du texte à l'utilisateur tout en s'assurant qu'il restera accessible aux robots puisque présent dans le code source de la page, on peut utiliser la propriété suivante des feuilles des styles : .TextInvisible {visibility:hidden} ou encore : .TextInvisible {display:none;} 1
Cascading Style Sheets : Langage permettant de compenser les manques de l'HTML en termes de mise en forme et de présentation.
22/64
Pour combattre ceci, les moteurs de recherche tiennent compte de toutes les autres balises de mise en forme HTML telles que (gras), (souligné), (italique) ainsi que de la taille du texte. A titre d'exemple, Voila est le moteur de recherche qui utilise le plus cette balise avec un total de 16% de mots-clés trouvés entre des balises H1 sachant qu'ils étaient dans la requête. 3. Le texte alternatif des images Nos premiers pas sur Internet étaient, souvenez vous, très lents… A l'époque, la connexion 56k était un must. Pourtant, le langage HTML avait été au début développé pour permettre d'offrir des documents sous forme textuelle à la consultation. Plus tard, et devant l'essor du web, on a commencé à inclure des images dans nos documents et donc à alourdir considérablement les pages, rallongeant ainsi le temps de chargement. Les deux principaux navigateurs qu'étaient Internet Explorer et Netscape avaient bien compris ce problème et proposaient tous les deux une option qui servait à charger la page sans télécharger les images. Apparaissait alors à la place, une brève description de la photo sous forme de texte. Celle-ci était directement renseignée par le développeur grâce à l'attribut ALT de la balise IMG. Cet attribut a longtemps permis aux spiders d'indexer les balises images qu'ils ne savaient pas traiter autrement. Il s'est donc avéré que ces petites descriptions textuelles associées aux images étaient recherchées et contribuaient fortement l'indexation du site par les moteurs. Aujourd'hui, ces balises ne sont quasiment plus utilisées par les développeurs puisque les connexions que nous avons nous permettent généralement d'afficher rapidement toutes les photos. Seuls les webmasters soucieux de leur référencement s'en servent encore. Notez que nous risquons de voir réapparaître cette balise puisqu'elle fait partie intégrante des dernières recommandations du W3C1 (plus particulièrement de la WAI2). Dorénavant, une balise IMG devra forcement contenir un attribut ALT pour être conforme à la norme. En effet, cette balise permet de traduire les images en texte. Elle est donc primordiale pour une accessibilité au site des personnes non voyantes ou mal voyantes. C'est sur cet attribut que se base leur navigateur pour leur décrire / lire la page. De la même manière, on peut mettre un texte sous forme d'info bulle sur un lien en utilisant cette fois ci l'attribut TITLE. Par contre, on ne peut pas affirmer que cette balise soit réellement prise en compte.
1 2
Word Wilde Web Consortium : Organisme international qui développe et fait évoluer les standards du web.
Web Accessibility Initiative : commission du W3C et référence mondiale pour l'accessibilité des sites web aux personnes handicapées.
23/64
4. Référencement et cadres Les cadres (ou frames en anglais) furent inventés par la société Netscape. Ils ont été intégrés dans la version 4.0 d'HTML. Les frames permettent d'afficher plusieurs pages HTML dans une même fenêtre de navigateur. Elles ont révolutionné la gestion des menus dans les pages HTML puisqu'elles ont permis de faire de véritables barres de navigation. Jusque là, la gestion de la navigation compliquait beaucoup la conception des pages web. Avec l'arrivée des frames, on a vu beaucoup de pages construites de la manière suivante :
24/64
La fenêtre principale (dans notre exemple frame.html) est appelée page mère. Elle n'a normalement que pour but d'appeler les pages filles (menu.html et droite.html) Aujourd'hui, les frames sont de moins en moins utilisées pour les raisons suivantes : -
de nouvelles techniques permettent maintenant de créer des menus plus élégants et plus dynamiques.
Source : http://www.henri-ruch.ch/referencement/referencement_frames/referencement_frames.asp
-
On ne peut pas enregistrer une page en favoris. L'impression est souvent très mal gérée. Mais surtout, elles nuisent au référencement En effet, face à un site dont la fenêtre principale serait constituée de frames, les moteurs de recherche ont 4 possibilités : o
Ignorer les pages et ne pas les indexer du tout. Cette solution radicale est bien sûr la plus problématique.
25/64
o
Indexer toutes les pages du site indépendamment les unes des autres. Cela a au moins le mérite de permettre de retrouver, au travers d'une recherche, une page fille. En revanche, le lien qui apparaîtra dans le snippet du moteur pointera directement sur la page en question. Ainsi, lors de l'affichage, on perdra l'intégralité de la barre de navigation. Illustration :
Page d'accueil normale
Exemple de recherche avec Google
Résultat : la page finale est ouverte indépendamment du cadre parent
o
Référencer la page mère et les pages filles tout en étant capable de rappeler la frame parent au cas où l'internaute souhaite afficher une page différente de la Home. Sachez seulement que très peu de moteurs de recherche font ça (voire aucun…)
o
Indexer uniquement la page mère. Sachant que les robots fonctionnent en mode texte, ils ne prennent pas en compte les frames. A l'affichage d'une page avec des frames, ils ne verront que le texte se trouvant entre les balises . On se rend compte à quel point ces balises peuvent s'avérer importantes en terme de référencement. Notez qu'en général, lorsqu'un moteur de recherche dit supporter les frames (Google affirme le faire "dans la mesure du possible"…) cela veut simplement dire qu'il est capable de lire (d'indexer) le contenu de la balise . Sachant que les frames tendent à disparaître, les moteurs de recherche affirment ne pas faire d'efforts pour développer des robots supportant mieux ces structures de pages.
26/64
Quant à Yahoo!, je cite : "Le robot Yahoo! suit les liens HREF. Il ne suit pas les liens SRC, ce qui signifie qu'il ne recherche pas ou ne classe pas les frames qui sont pointées par des liens SRC."xviii Pourtant, comme moi, vous serez peut être un jour confronté à ce problème. Dans ce cas, plutôt que de laisser les moteurs se débrouiller comme ils peuvent/veulent avec vos frames, sachez que vous pouvez gérer ce problème vous-même. L'important reste de bien prendre en compte ce problème dès la conception du site afin de tout de suite mettre en œuvre la méthode adéquate. Cette technique est très simple. Elle est basée sur le langage JavaScript. L'idée est d'inclure, au début de chaque page, une fonction vérifiant que la page en cours est bien ouverte par l'intermédiaire de la frame. Si ça n'est pas le cas, la frame parent est automatiquement rechargée. Voici un exemple de script permettant de faire cela : <SCRIPT Language="javascript"> if (parent.frames.length==0) parent.location.href="frame.htm";
Cette version extrêmement simpliste présente tout de même un problème majeur. Imaginez que vous souhaitiez afficher la page : page2.html. Vous l'avez trouvée grâce à Google qui vous donne le lien suivant : http://lesite.fr/page2.html. Si la page contient le script donné ci-dessus, en suivant le lien, vous allez finalement ouvrir la page HTML (donc statique) frame.html. Malheureusement pour vous, frame.html sert à ouvrir les deux pages suivantes : menu.html et page1.html. Conclusion, votre page s'affiche bien dans la frame parent, vous avez bien la barre de navigation mais vous ne retombez pas sur le page qui vous intéresse ! Pour contrer ce nouveau problème, il existe des solutions qui reposent sur l'utilisation d'un langage dynamique. Nous utiliserons cette méthode dans la partie de mise en application de ces concepts.
C. Gestion des différents contenus Nous savons que le web est constitué de documents de types variés. Pour assurer un référencement performant, les robots doivent s'adapter à ces différents types. Aujourd'hui, outre l'HTML, ils sont capables de lire les documents texte, Word, PowerPoint, PDF, XML. Par contre, il n'en est pas de même pour les animations Flash1. Ce langage permet de créer des pages beaucoup plus interactives et graphiquement plus évoluée que ce que nous pouvons faire pour l'instant avec les langages courants. En revanche, ces animations écrites dans un langage propriétaire1 ne sont pas encore prises en compte du point de vue du référencement. 1
Fichier qui peut être inclus dans une page HTML et dont l'extension est .swf. Si tout le site est fait en Flash, le fichier HTML appelant le Flash est quasiment vide.
27/64
Contrairement aux frames que nous venons de voir, des efforts sont faits pour indexer le mieux possible ces animations. Ceci vient du fait que la technologie Flash est récente sur Internet et qu'elle risque d'encore beaucoup se développer dans les années à venir. La plupart des sipders se limitent à suivre les liens contenus dans les animations Flash. Les récentes innovations des robots les autorisent à pouvoir lire le contenu textuel de ces animations. Pour cela, ils se basent sur un kit qui leur est fourni par Macromedia. Conscient que ce problème de référencement nuisait à la propagation de son langage, Macromedia propose en effet un kit qui permettra aux robots de pouvoir interpréter le langage Flash afin de pouvoir retrouver les parties de texte contenues dans le code des animations. Pour l'instant, cette technologie reste peu fiable. Comme pour les frames, des balises spécifiques permettent d'ignorer le Flash. Ces balises <noembed> et servent à insérer le code HTML qui sera lu par les navigateurs qui ne supportent pas le Flash.
D. L'URL ReWriting 1. Le problème Nous savons maintenant que l'adresse a une place importante dans le référencement. Pour preuve, les moteurs de recherche retournent souvent comme résultat des sites contenants certains des mots-clés de votre recherche dans leur nom de domaine. Sachant cela, on peut se demander comment fait le robot pour gérer les URL exotiques que l'on obtient en passant les paramètres des pages dynamiques par la méthode GET. Ex : http://www.monsite.net/documents/articles/lire.php?id=12&page=2&rubrique=5 La réponse est simple, Google et les autres, le gèrent… mal. Au mieux ils peuvent indexer des pages ayant des URL contenant jusqu'à deux variables. Mais pas plus. On sait qu'une URL telle que celle donnée dans l'exemple ci-dessus, appelle toujours la même page dynamique. Celle-ci va alors chercher dans une base de données les informations correspondantes à l'article de la page 2, de la rubrique 5 ayant 12 comme identifiant. Ce qui est dommage c'est que cet article accessible à cette adresse parle justement d'une technique de référencement qui s'appelle l'URL ReWriting. Mais comment le deviner juste en regardant cette adresse ? L'objectif de la méthode de réécriture d'URL est d'arriver à faire croire au robot qu'il est en présence d'une page statique. Pour cela, le serveur web devra transformer l'adresse en une URL finale du type : article_12_2_5.html ou mieux : referencement-12-2-5.html. 1
L'éditeur est Macromedia
28/64
Cela doit rester transparent pour l'utilisateur. Le serveur web Apache quant à lui reçoit toujours l'adresse sous la forme lire.php?id=12&page=2&rubrique=5. Pour effectuer cette transformation, le webmaster devra fixer des règles de réécriture.
2. Mode d'emploi Pour commencer, il est nécessaire de configurer Apache. Nous prendrons Apache comme exemple car il s'agit d'un serveur web qui se prête bien à la réécriture d'URL et qui est très utilisé dans le monde libre. Ouvrez le fichier "httpd.conf" et retirez les symboles de commentaires (#) devant les lignes suivantes: LoadModule rewrite_module modules/mod_rewrite.so AddModule mod_rewrite.c Pour vraiment accroître votre référencement, l'idéal serait d'arriver à générer des adresses sous cette forme : http://www.monsite.com/articles/ISAPI-rewrite-pour-url-rewriting_12_3.html C'est-à-dire avec le sujet de l'article contenu dans l'adresse de la page. Les paramètres réellement utilisés doivent bien sûr également apparaître. Ensuite, il faut forcer Apache à exécuter toutes les pages dans le répertoire articles comme étant des pages PHP, et ce, malgré l'extension .HTML. Cette étape se fait via le fichier texte .htaccess : ForceType application/x-httpd-php FilesMatch permet à Apache d'analyser le nom de fichier pour y rechercher une expression régulière. Nous venons de voir que les règles de réécriture d'URL étaient définies dans le fichier .htaccess. Cela ne marche donc pas avec le serveur web Microsoft Internet Information Services (IIS). Pour faire de l'URL-rewriting avec les serveurs web Microsoft, il est nécessaire d'installer un module additionnel qui propose les mêmes fonctionnalités que le fichier d'Apache. Bien que la plupart de ces modules soient payants, il est possible de télécharger une version allégée de l'outil "ISAPI rewrite"xix. Cet utilitaire est fourni avec un module permettant de tester vos expressions régulières. Exemple :
29/64
Voilà ce que l'on obtient (4) en appliquant la règle de réécriture (3) à la partie de l'adresse de test (2) identifiée par l'expression régulière (1).
E. Les fichiers robots.txt Dans la partie II a, je vous disais que la première chose que fait un robot en arrivant à la racine de votre site est de regarder s'il existe un fichier nommé robots.txt. Ce simple fichier texte va donner des informations au robot sous forme de commandes. En l'absence d'un tel fichier, les robots regarderont tout le site (action par défaut). On constate alors que le seul intérêt d'un fichier robots.txt est d'exclure des parties de site des spiders. Il est également possible de filtrer les robots autorisés à indexer le site. • •
User-Agent:nom du robot ou * : permet de préciser le robot concerné par les directives qui suivront. La valeur * désigne tous les spiders. Disallow:nom du répertoire ou du fichier : permet d'indiquer les pages à exclure de l'indexation. Chaque page ou dossier à exclure doit être sur une ligne à part et doit commencer par /. La valeur / seule signifie que cela s'appliquera à toutes les pages du site.xx
Exemple de fichier type : Le style de contenu du fichier robots.txt se présente de la façon suivante : User-agent: * Disallow: /cgi-bin/ Disallow: /temp/ Disallow: /prive/ Disallow: /admin/statistiques.html
30/64
Clairement, voici la signification du contenu : - User-agent: * signifie que l'accès est accordé à tous les robots. - Disallow: /cgi-bin/ : l'accès est refusé aux robots pour tous les fichiers contenus dans le dossier cgi-bin, temp et prive. - Disallow: /admin/statistiques.html : l'accès est refusé aux robots pour la page de statistiques contenu dans le répertoire admin. Les autres fichiers de ce répertoire ne sont pas concernés. Attention : Ne laissez jamais de lignes vierges ou blanches (la touche entrée) le robot l'interprèterait comme étant la fin du fichier.xxi Remarque : Les fichiers de logs du site de l'IMS (ne disposant pas, pour l'instant, de fichier robots.txt) nous permettent de tracer l'activité des robots. En effet, une erreur 404 "fichier non trouvé" est enregistrée dans les logs à chaque passage des spiders puisqu'ils commencent par demander ce fichier. Sur le total du mois de février, ce fichier a été demandé 742 fois. Finalement, ce fichier permet d'empêcher les robots d'indexer certaines parties du site comme des parties privées, des pages de test, des images, des fichiers JavaScript et autres feuilles de style, etc. Ma dernière remarque concerne la sécurité. Il est en effet important d'avoir à l'esprit que ce fichier reste accessible à tout le monde (et non pas seulement aux robots). Il suffit de taper http://www.NomDeDomaine.fr/robots.txt pour récupérer le fichier de n'importe quel site. J'ai moi-même utilisé cette méthode pour avoir des exemples de syntaxe des ces fichiers. Il peut être dangereux de mettre en clair le chemin d'un fichier ou d'un répertoire confidentiel. Par exemple la ligne : Disallow: /admin/AjoutDroits.asp peut servir de point de départ à une personne mal intentionnée pour attaquer votre site. Dans ce cas, on préférera une balise <META> classique. F. Plan du site Encore une page facile à faire et à intégrer qui, en plus de faciliter la navigation dans des sites ayant un grand nombre de pages et de rubriques, augmente sensiblement le référencement. En effet, cette simple page contient un grand nombre de liens internes. Notez que GoogleBot et les autres spiders ne vont pas analyser les pages qui auraient une profondeur supérieure à 4. Cela veut dire qu'une page uniquement accessible en suivant les liens de 3 autres pages précédentes ne sera pas référencée. Un plan de site permet alors de réduire cette profondeur et de rendre accessible ce genre de pages. Début juin 2005, Google a lancé un nouvel outil gratuit basé sur ce principe. Google SiteMap devrait lui permettre d'indexer plus de pages. La véritable innovation par rapport au plan de site que nous venons de voir est, qu'avec cet outil, le webmaster est capable d'indiquer rapidement à GoogleBot qu'il y a de nouvelles pages à indexer ou que le contenu du site a changé. Cet outil repose sur un ou plusieurs fichiers qui peuvent avoir des formats différents. Le format XML reste le plus utilisé car il est plus performant. Ces fichiers ont pour objectif d'aider Google à référencer toutes les pages et mieux prendre en compte les évolutions de votre site. Ce fichier est généré par le webmaster.
31/64
Voici la syntaxe type d'un fichier SiteMap.xml xxii : Le fichier final ne doit pas forcément s'appeler sitemap.xml mais il est préférable de le nommer ainsi au cas ou d'autre robots décident de s'en servir également.
L'idée est la même que celle d'un plan de site classique, c'est-à-dire de faire des liens directs vers toutes les pages que l'on souhaite indexer. La nouveauté se traduit par les informations supplémentaires que l'on trouve dans les balises lastmod, changefreq, et priority. Ces dernières sont toutes facultatives. Ne pas les utiliser reviendrait à lister les URL à analyser. Cela ne serait pas beaucoup plus intéressant qu'un plan classique. •
La balise peut prendre les valeurs suivantes : "always", "hourly", "daily", "weekly", "monthly", "yearly" ou "never". Google précise tout de même qu'il ne considère ces balises que comme étant des conseils et qu'une valeur mise à "always" n'obligera pas le robot à passer plusieurs fois par jour sur la page. De même, si vous mettez "yearly" ou "never, sachez que le robot visitera quand même votre page.
•
La balise permet simplement d'éviter aux robots d'analyser une page s'il elle n'a pas connu de changement depuis son dernier passage.
•
Enfin, la balise <priority> autorise le développeur à privilégier certaines pages par rapport à d'autres. Les valeurs de cette balise vont de 0.0 à 1.0. 0.0 étant bien sûr pour désigner les pages les moins prioritaires. Par défaut, la valeur d'une page est de 0.5. Comprenez également que cette balise ne change en rien votre positionnement dans les pages de résultats. Cela joue simplement sur la probabilité que les pages que vous considérez comme plus importantes ressortent plus souvent. Lorsque Google trouve plus de 2 pages d'un même site qui satisfont à une requête, il procède alors à un clustering. C'est-à-dire que plutôt que d'afficher
32/64
toutes les pages de résultat, il en prendra deux au hasard et ne retournera que ces deux résultats pour ce site. Voila ce que l'on retrouve alors à l'écran :
La balise <priority> permettra à Google de privilégier les pages importantes lors de ce clustering. Dernière remarque, mettre toutes les pages de son site avec une priorité de 1.0 ne sert absolument à rien puisque cette priorité est relative entre les autres pages du site. En aucun cas, cette priorité ne s'applique entre des pages de sites différents. Lorsque vous avez généré votre fichier XML, il faut l'enregistrer auprès de Google. Cela peut se faire de deux manières. La première consiste à indiquer directement l'adresse de votre fichier SiteMap par le biais d'une requête faite à cette URL : www.google.com/webmasters/sitemaps/ping?sitemap=http%3A%2F%2Fvotresite.com%2F sitemap.xml
La deuxième solution est d'ouvrir un compte sur Google et d'utiliser les outils que propose le moteur de recherche. Il s'agit d'un portail permettant de gérer l'insertion, la mise à jour. Google propose également un outil (sous forme de script) permettant de générer directement un SiteMap. Afin d'éviter d'utiliser cet outil peu pratique (car écrit dans le langage Python peu répandu) il est préférable d'utiliser d'autres outils disponibles sur Internet. Ils permettent par exemple de générer un fichier SiteMap.xml à partir d'un scan des répertoires de votre site, des fichiers de logs ou d'une extraction de la base de données. G. Redirections Lors de la conception ou de la maintenance d'un site web, vous allez certainement être, à un moment ou à un autre, obligé d'utiliser une méthode de redirection. Celle-ci peut être nécessaire pour orienter une personne non reconnue vers une page d'identification, créer une page d'erreur spécifique ou encore indiquer l'adresse du nouveau nom de domaine de votre site etc. Pour cela, il existe plusieurs techniques qui peuvent se faire soit côté serveur, soit côté client. Du point de vue du référencement, elles n'ont pas le même impact. "En effet, pour que les robots des moteurs de recherche interprètent correctement la redirection, il faut que l'en-tête HTTP envoyé avec la page corresponde au statut de la page. Par exemple, si une page a changé d'emplacement dans votre site, il faut que
33/64
l'ancienne URL fasse une redirection vers la nouvelle en utilisant un en-tête HTTP qui précise que cette page a changé définitivement d'adresse (code 301). Cela permettra au robot de ne plus venir indexer l'ancienne URL, et de mettre à jour sa base de données en affectant la nouvelle URL à la page. Si vous ne mettez pas de redirection depuis l'ancienne URL, le robot obtiendra une erreur 404 et ne sera pas forcément au courant de la nouvelle adresse." xxiii 1. Redirection sur le serveur Il faut se référer à la documentation de votre serveur web car les redirections se font différemment sous Apache, IIS ou Tomcat… Sachez cependant que ce type de redirection n'a pas d'effet néfaste sur le référencement. 2. Url-ReWriting Nous le savons maintenant, l'URL-ReWriting est une technique particulièrement efficace en termes de référencement. Dans le cas d'un serveur web Apache, le fichier .htaccess permet de rediriger facilement vers une page d'erreur. 3. Redirection par un script serveur
autre :
Les langages dynamiques permettent de rediriger facilement une page vers une PHP : header("Location: http://www.votresite.com/unepage.htm");
ou ASP : response.addheader "location", "http://www.votre-site.com/" Cependant, n'oubliez pas de préciser le nouvel en-tête de la page : PHP : header("Status: 301 Moved Permanently"); ou ASP : response.status = "301 Moved Permanently" pour ne pas que cela pose de problème aux robots. 4. Redirection HTML avec balise META Bien que très pratique et simple d'utilisation, <META http-equiv="Refresh" content="20;URL=page2.html"> ce type de redirection est à proscrire. Elle fut principalement utilisée dans les pages satellites pour rediriger l'internaute sur la page principale après un délai de 0 secondes. Les moteurs n'indexeront donc pas le contenu de la page. 5. Redirection côté client avec JavaScript Elle s'utilise de la manière suivante : window.location.replace("http://www.un-site.com/une-page.htm"); En revanche, elle ne modifie pas l'en-tête HTTP.
34/64
Les robots ne lisant pas le JavaScript, ils ne suivront pas ces redirections. Le risque est donc d'indexer le contenu d'une vieille page alors que la nouvelle ne sera pas vue des moteurs de recherche. H. Référencer un site multilingue Le référencement d'un site multilingue peut poser des problèmes, ou tout du moins soulever quelques questions auxquelles nous n'avons pas encore répondu. Par exemple : o Faut-il créer autant de sites que de langues différentes ? o Est-ce mieux d'avoir autant d'URL que de langues utilisées ? o L'architecture globale du site est-elle différente ? Architecture d'un site multilingue : "La première page n'est pas forcément la page que visitera en premier l'internaute s'il vient d'un moteur de recherche. Mais c'est une "vitrine" du site qu'il convient particulièrement de soigner."xxiv Plusieurs possibilités : o Page d'accueil propose à l'internaute de choisir sa langue. Cette solution est rapide et efficace mais pas optimisée en termes de référencement. En effet, elle sous-entend une page d'accueil quasiment vierge de tout contenu. o Choisir une langue par défaut et permettre à l'internaute de la changer s'il le souhaite. o Détecter la langue de son navigateur afin de choisir une première langue. Il aura la possibilité de la changer par la suite. Gestion du paramètre de la langue Le développeur du site devra prévoir une manière pour conserver la langue choisie d'une page à l'autre. Plusieurs possibilités sont offertes par les techniques du développement web : cookie, variable de session, passage du paramètre par la méthode POST ou la méthode GET (variable dans l'URL). Les cookies peuvent être intéressants parce qu'ils sont persistants d'une visite à l'autre tant que l'utilisateur ne supprime pas ses cookies ou qu'ils n'expirent pas. En revanche, les robots des moteurs de recherche ne les acceptent pas. Il en est de même pour l'internaute qui a la possibilité de les refuser. Le passage du paramètre par "variable de session" ou par la méthode POST fonctionne mais n'apporte rien de plus. En revanche, la méthode préconisée est celle de la méthode GET. Premièrement parce qu'elle permet de mettre l'URL en "favori" et donc de conserver cette information. Deuxièmement parce qu'elle permet aux moteurs de recherche d'enregistrer des adresses différentes suivant la langue utilisée. Exemple :
et
http://www.monsite.com?lang=fr http://www.monsite.com?lang=en
35/64
Dans ce cas, l'architecture du site pourra être identique à celle d'un site monolingue. Il suffit juste d'inclure au début de chaque page une procédure permettant d'aller chercher le contenu textuel de la page en fonction du paramètre. Enfin, il est toujours intéressant d'établir une règle de réécriture d'URL pour ce paramètre. Utilisation de la balise META. La balise méta <META HTTP-EQUIV="Content-Language" content="fr"> va définir la langue globale de la page. Ainsi, elle pourra également servir à définir l'orientation (de droite à gauche) du texte dans la page. Encodage de la page Dans le cas d'une page pouvant accueillir plusieurs langues, il ne faut pas oublier de bien définir l'encodage de la page. Un encodage en UTF-8, "contrairement à d'autres comme la série ISO 8859, permet de représenter des milliers de caractères de toutes sortes de langues."xxv Cas des annuaires : En ce qui concerne les annuaires, la soumission étant manuelle et contrôlée par une personne physique, la pertinence du site reste donc de sa responsabilité. Que le site soit dans une langue ou une autre ne doit rien changer. La seule chose que vous ayez à faire est de soumettre votre (vos) site(s) sur chaque version de l'annuaire. Par exemple sur yahoo.fr, yahoo.co.uk, yahoo.it, etc. Cas des moteurs de recherche : Nous le savons, le référencement par les robots est automatique. Il n'y a donc rien de plus à faire. Tant que les mots-clés sont définis dans toutes les langues, et que vos pages comportent du contenu dans toutes les langues, il ne devrait pas y avoir de problèmes particuliers.
I.
Soumission manuelle dans les annuaires
Jusqu'à présent, nous avons privilégié les moteurs de recherche. Cependant, il ne faut pas pour autant oublier la deuxième sorte d'outil de recherche que sont les annuaires. Il peut être intéressant d'enregistrer manuellement son site dans les principaux annuaires généralistes tels que Yahoo! et l'Open Directory sans oublier les plus petits annuaires spécialisés. A titre d'exemple, je peux vous assurer que le fait d'avoir inscrit mon site personnel sur un annuaire spécialisé m'apporte beaucoup plus de visites que celles issues de recherches sur Google.
36/64
En tant que réserviste de la Gendarmerie, j'ai décidé il y a quelques mois de faire une page racontant mon expérience dans la Gendarmerie. J'ai donc créé quelques pages sur ma Préparation Militaire Gendarmerie, pages sur lesquelles j'ai inclus un script me permettant de suivre la fréquentation de mon site. J'ai également pris soin de construire mes pages sans frames, avec beaucoup de texte et peu d'images, d'y inclure des liens vers les principaux sites traitant du même sujet, de nommer explicitement mes pages et renseigner correctement les balises META… Bref, j'ai mis en application tout ce que je viens de vous expliquer jusque là. Mes Logs m'ont permis de tracer le passage des robots (GoogleBot et Yahoo! Slurp entres autres) et au bout de quelques semaines, ma page ressortait déjà en 4ème position sur les recherches "preparation militaire pmg" ou encore "pmg réserviste gendarmerie". J'étais loin d'imaginer que j'allais pouvoir me placer à cette position en si peu de temps… Pourtant les visites sur mon site provenant de Google plafonnaient à 5 par jour. Je trouvais déjà cela pas mal pour un site sans prétention comme le mien mais bon… Enfin, en regardant de plus près les sites devant le mien, je me suis aperçu qu'un résultat ressortait toujours au dessus du mien (outre les sites officiels de la Gendarmerie). Il s'agissait su site www.annugend.com qui n'est en fait qu'un annuaire des différents sites, officiels ou non, de la Gendarmerie. Ce site a un PageRank de 4 alors que celui de mon site est nul puisque le PR est mis à jour lors des Googles Dances et que celles-ci ne se produisent que 2 à 3 fois par an. La dernière a eu lieu avant que je ne crée mes pages. J'ai donc décidé d'inscrire mon site sur cet annuaire spécialisé. J'ai préparé un petit texte d'accroche et je me suis rendu sur le site annugend.com pour compléter le formulaire d'inscription. Le processus ne m'a pris que 2 minutes en tout. Finalement, deux jours plus tard, je recevais un courrier électronique du webmaster du site me disant que mes pages correspondaient parfaitement aux attentes du site et que je faisais désormais partie de leur base de données. Depuis, la rubrique "Les derniers inscrits" qui apparaît en haut à gauche de la page principale du site annugend fait un lien vers mon site. Un lien vers mon site est également proposé dans la sous-catégorie "réserves" de la catégorie "Gendarmerie Départementale". Cette inscription m'a permis de multiplier par trois la fréquentation journalière de mon site… Comme quoi, les annuaires spécialisés représentent un point d'entrée intéressant vers votre site. La soumission dans ce type d'annuaire se fait manuellement et prend donc nécessairement un peu de temps. Le choix de l'annuaire est également important. J'ai parallèlement voulu tester un outil qui, soit-disant, allait automatiquement soumettre mon site à plusieurs dizaines d'annuaires. Et cela, en ne remplissant qu'un seul formulaire. Ce gain de temps me paraissait prometteur suite à ma première expérience avec l'annuaire annugend. Malheureusement, je n'ai pas mis longtemps avant de regretter l'utilisation de cet outil. Premièrement, lors de son utilisation, il m'a retourné beaucoup d'erreurs (a priori car il voulait soumettre mon site à des annuaires ayant disparu). Ensuite, j'ai reçu plusieurs dizaines de mails provenant des annuaires qui me disaient que mon site ne correspondait pas du tout au thème de leur site. Finalement, les quelques annuaires qui ont accepté mon site ne m'ont jamais apporté de visite…
37/64
J. Dernières astuces. Préférez un nom de domaine avec des tirets (-) plutôt que des undescores (_). En effet, beaucoup de moteurs considèrent le tiret comme un espace. Ainsi, pour un site comme : http://www.sonneries-de-telephone.com, il ressortira avec comme mots-clés "sonneries de téléphone" alors que http://www.sonneries_de_telephone.com non. Idem pour vos noms de page.xxvi Un site mis à jour régulièrement est généralement mieux référencé. Nous pouvons constater cela en regardant à quelle vitesse les blogs et les forums sont indexés. Les pages ne doivent pas être trop lourdes. Une moyenne de 30ko est recommandée. Si votre site possède un moteur de recherche interne, il peut être intéressant de garder une trace de ce qui est recherché afin de voir les sujets les plus convoités par vos internautes. Dans ce cas, développez-les… En effet, c'est en regardant la provenance des internautes sur mon site personnel que j'ai constaté que beaucoup arrivaient sur la page de mon curriculum-vitae suite à une recherche portant sur ma préparation militaire gendarmerie (ce terme revient à plusieurs reprises sur mon CV et Google l'avait déjà repéré). C'est cette constatation qui m'a décidé à créer les pages dont je vous parlais dans le précédent paragraphe. Contrairement à ce que l'on peut penser, il est préférable de nouer des liens avec vos partenaires / concurrents. En effet, avoir des liens sur des sites qui traitent globalement du même sujet que vous vous permet d'avoir une pertinence plus importante vis-à-vis des moteurs de recherche. Vérifier que les liens ne sont pas cassés et que les balises ouvertes sont bien refermées. Si le nom de votre société apparaît dans son logo (images), réécrivez-le de manière textuelle. Au minimum, nommez votre image avec le nom de votre société. Concernant les liens, préférez un lien du style : "accéder à ma page sur ma préparation militaire gendarmerie" plutôt que "cliquez ici pour accéder à la page sur ma préparation militaire gendarmerie."
Si toutes les pratiques que nous venons d'entrevoir favorisent le référencement naturel, d'autres techniques améliorent grandement le positionnement de certains sites. Ce référencement artificiel fonctionne en général à la limite des outils de recherche. Malheureusement, cette limite n'étant pas parfaitement définie, il arrive que des webmasters la dépasse et retrouvent leur site sur les listes noires des moteurs. En revanche les techniques bien connues utilisant volontairement les failles des robots restent très périlleuses d'utilisation.
38/64
III. Pratiques condamnables A. Les pages satellites Les pages satellites, Miroir, Alias ou Doorway page en anglais, sont des pages qui ne servent qu'à fournir aux moteurs de recherche des mots-clés à se "mettre sous la dent"! Leur contenu est donc optimisé (par des répétitions, des synonymes, de nombreux liens, etc.) pour un mot-clé donné. Lorsque le moteur la parcourt, il enregistre ces mots-clés. Il est donc plus facile de trouver ce type de page lors d'une recherche. Une fois que l'internaute arrive sur un page satellite, celle-ci contient généralement un lien qui lui permet de retourner sur la page principale du site. C'est pour cela que l'on appelle ces pages des pages satellites. Elles ne contiennent pas l'information que recherche l'internaute mais sert juste à l'attirer sur le site. La redirection peut également être automatique et instantanée (avec la balise <META refresh> réglée sur 0 seconde par exemple) afin que cela soit complètement transparent pour l'internaute. Notez que votre page d'accueil doit avoir un lien (généralement caché) vers chacune de vos pages satellites afin qu'elles puissent être détectées et donc référencées par les robots. Bien que ces pages permettent souvent de combler les problèmes techniques liés au graphisme (moyen de référencer un site en Flash), elles servent dans beaucoup de cas à faire du spamdexing. Par exemple, un vendeur de DVD en ligne peut créer une page par film, et ceci, qu'il le vende ou non. Lorsque l'utilisateur, suite à une recherche, tombera sur une de ces pages, il sera automatiquement redirigé vers la page d'accueil. Les moteurs de recherche cherchent donc à condamner ces pratiques. Par exemple, nous savons maintenant qu'il est inutile de faire 200 pages satellites avec un contenu optimisé si c'est pour les faire toutes sur le même principe (trop forte ressemblance du code HTML) ou avec une redirection de type <META refresh>. Les moteurs comparent les pages pour déterminer les pages satellites et excluent systématiquement les pages contenant la balise <META refresh>. Une redirection côté serveur de type (301 ou 302) est également inutile puisqu'elle indique au robot que la page a été déplacée. Dans ce cas, le robot ira directement indexer la page cible. La technique de redirection la plus utilisée pour les pages satellites est la redirection client en JavaScript. <script language="javascript" type="text/javascript"> Mais, là encore, les robots sont chargés de traquer ce genre de scripts… Des solutions équivalentes mais plus difficiles à repérer de façon automatisée existent.
39/64
Pour illustrer cette technique, prenons l'exemple du site http://www.4-6.fr qui utilise les pages satellites. La page suivante illustre comment 3 pages différentes redirigent chacune à sa façon vers la page principale (http://www.3vallées.com/4-6/index2.html). Pour l'internaute non averti, cette redirection est transparente. Les redirections se font en JavaScript. Pour voir les pages satellites, il suffit donc tout simplement de désactiver le JavaScript de notre navigateur.
Notons tout de même que les pages satellites de cet exemple ne cherchent pas à tromper l'Internaute. En effet, celles-ci son optimisées pour des mots-clés qui restent en rapport avec le sujet de la page principale. Ca n'est bien évidement, par le cas de toutes les pages satellites.
40/64
http://www.4-6.fr http://www.3vallees.com <script language="JavaScript"> LES MENUIRES, LES 3 ...
http://www.3vallees.com/4-6/index.html
http://www.3vallees.com/4-6/index2.html
B. Spamdexing Nous venons de voir que tout ce qui se rapproche du spamdexing est prohibé par les robots. On peut toujours utiliser les mots-clés, renseigner judicieusement les balises TITLE et H1, mais il ne faut pas tenter de tromper les robots… Et c'est précisément là qu'est la limite. Il est souvent difficile de faire la part des choses entre un site ayant un référencement trop poussé et un autre ayant une volonté délibérée d'induire en erreur les robots. Certains sites passent donc à travers les mailles du filet mais il faut savoir que les robots se perfectionnent de jour en jour. Il n'est donc pas étonnant de voir des sites bannis des index pour cette raison. Vous aurez compris qu'il est dangereux de multiplier les répétitions de mots-clés dans une même balise. En revanche il est fortement conseillé de répéter ces "keywords" dans le contenu (titre, texte, liens, etc.) de vos pages. Rappelez vous que Google (et d'autres) conserve les mots les plus récurrents de la page et les utilisent comme mots-clés. Il est même recommandé d'utiliser des synonymes des principaux mots-clés parce que les moteurs recherchent de plus en plus à connaître le thème principal de la page. C. Cloaking La technique dite de cloaking consiste à présenter un contenu différent d'une même page web suivant qu'il s'agisse d'un Internaute ou bien d'un moteur de recherche. Cela est très facile à faire car les moteurs de recherche ne font rien pour cacher leur identité. Deux méthodes permettent d'identifier les robots : -
La première identifie le robot par son nom contenu dans le champ User-Agent de l'entête HTTP de la requête.
Exemple d'un script PHP permettant cela : ... page cloakée pour Googlebot... ... page HTML "standard"... } ?>
Cependant, cette technique n'est plus vraiment fiable car, le cloaking étant condamné par les moteurs de recherche, ceux-ci modifient de plus en plus leur UserAgent pour limiter ce type de repérage.
42/64
-
La seconde technique de cloaking consiste à déterminer l'agent grâce à son adresse IP. Elle suppose donc que l'on ait une liste exhaustive et à jour des adresses IP des robots. On peut se procurer ces listes sur des forums spécialisés.
Le script peut alors être : ... page HTML cloakée pour Googlebot et Slurp. ... page HTML "standard"...
D. Google Bombing Le Google Bombing est un "référencement sauvage d'un site web sur un mot-clé péjoratif."xxvii Le principe est assez simple. Il exploite juste une faille de Google, faille qui a pourtant fait le succès du moteur de recherche. Rappelez-vous que Google aime particulièrement les liens HTML classiques de cette forme : intitulé du lien Il fut le premier à tenir compte du nombre de liens et de leur intitulé dans le classement de ses résultats. Sachant cela, pour mettre en œuvre un Google Bombing, il n'y a plus qu'à trouver les nombreux partenaires nécessaires pour faire cette attaque massive… Pour voir les résultats (voire les dégâts !) d'un Google Bombing. Regardez ce que retourne la recherche "miserable failure"…
43/64
Et pourtant, concrètement, ce Google Bombing ne se résume qu'à cela : Miserable failure Ou sur les forums : [url=http://www.whitehouse.gov/president/gwbbio.html] Miserable failure [/url] Mais, retrouvant ce lien sur de très nombreux sites, Google associe l'intitulé et le lien luimême. Pour combattre ce phénomène, les moteurs de recherche et les annuaires essayent de faire évoluer les normes HTML en déclarant tenir compte d'un nouvel attribut pour les balises de lien : lien Cet attribut sera particulièrement utile aux modérateurs1 des forums… Il leur suffira alors d'inclure une seule fois cet attribut dans leur page dynamique et ils seront sûrs que leur forum ne servira pas de collecteur pour des liens destinés à un bombing. Nous venons de passer en revue la plupart des méthodes classiques de référencement. Depuis quelques années, les outils de recherche proposent des solutions payantes qui peuvent s'avérer rentables dans bien des cas. Elles peuvent également combler certaines lacunes du référencement traditionnel tel que le besoin de réactivité pour des événements ponctuels.
1
Modérateur : personne qui suit les discussions d'un forum afin de supprimer les messages irrespectueux, à caractère social ou raciste etc.
44/64
IV. Les solutions payantes A. Soumission payante Pour accélérer la prise en compte de son site par les annuaires, ceux-ci proposent en général une méthode payante. Elle garantit qu'un salarié de l'annuaire visitera le site sous X jours. X dépend généralement de l'annuaire et de la solution que vous choisissez. Attention, cela ne veut en aucun cas dire que le site sera inclus à l'index de l'annuaire. La personne est tout à fait libre de refuser le site si le contenu ne lui semble pas pertinent. B. Référencement payant Une autre solution est le référencement payant. Dans ce cas, le moteur de recherche doit obligatoirement indexer le site… mais il ne garantit en aucuns cas un bon positionnement. C. Positionnement payant La dernière solution est de payer pour obtenir un référencement optimal. Cela revient, ni plus ni moins, qu'à faire de a publicité. Elle correspond à des liens supplémentaires qui n'apparaissent pas dans la liste des résultats principaux. Exemple de Google : Pour Google, cette technique s'appelle "AdWords". Un annonceur peut acheter un mot-clé aux enchères. Les enchères permettent à Google d'optimiser son profit. Normalement le nombre total de liens commerciaux qui apparaît lors d'une recherche est limité à huit. Le coût d'une campagne de publicité de ce type dépend directement du nombre de clic sur le lien. C'est ce que l'on appelle le Coût Par Clic ou (CPC). Un autre avantage de cette technique est qu'il est possible de spécifier une zone géographique dans laquelle les internautes verront la publicité. Ce peut être très intéressant pour un annonceur qui ne souhaite apparaître que pour les recherches des utilisateurs résidant dans son périmètre.
45/64
D. Référencement par des prestataires Conscientes de l'intérêt d'un bon référencement, certaines sociétés qui développaient des sites Internet se sont spécialisées dans le référencement. Elles proposent donc un forfait qui peut aller de quelques euros à plusieurs milliers suivant les prestations. Les premiers forfaits ne font que soumettre l'URL dans une centaine de moteurs de recherche et d'annuaires. Ensuite, et en fonction du prix que l'on est prêt à mettre, le prestataire peut effectuer un audit du site et proposer des mots-clés plus pertinents, redéfinir les balises META, mettre en place un fichier robots.txt, optimiser le site en appliquant les techniques que nous venons de voir. Faites cependant attention aux prestataires qui vous proposent un grand nombre de backlinks. En général ils disposent de pages web qui ne représentent qu'une longue liste des adresses des sites de leurs précédents clients. Ils se contenteront alors de rajouter l'URL de votre site à la liste existante. Si cela marchait bien il y a encore quelques années, aujourd'hui ces liens ne représentent plus beaucoup d'intérêt pour Google qui recherche plutôt des liens provenant de sites ayant des sujets principaux communs. Enfin évitez tous les prestataires qui vous disent qu'ils ont des liens particuliers avec Google ce qui leur permet d'avoir une position privilégiée. Google ne passe effectivement aucun partenariat de ce type. Finalement, vous pouvez même opter pour une garantie contractuelle du positionnement. Enfin, d'autres sociétés peuvent être payées en fonction de leurs résultats effectifs. C'est-à-dire qu'elles toucheront une indemnité pour chaque visite du site provenant d'un moteur de recherche.
Maintenant que nous avons un aperçu assez complet de l'ensemble des techniques pouvant être mises en œuvre dans un processus de référencement, nous allons voir concrètement comment celles-ci peuvent être implémentées.
46/64
V.
Exemple de référencement
Nous allons étudier la mise en œuvre du référencement à partir d'un exemple concret. Cas du "Mangeur de cigogne" Les nombreuses recherches que j'ai effectuées pour élaborer ce mémoire m'ont permis de découvrir qu'il se déroulait régulièrement des concours de référencement… Le principe est simple : une fois le moteur de recherche désigné, le gagnant est celui qui place son site en première place du moteur. L'un des derniers concours de ce genre portait sur la phrase "mangeur de cigognes" et le moteur de recherche Google. Les candidats avaient 3 mois pour arriver en tête du moteur. Deux gagnants furent désignés1 : celui qui était en tête à la date du 15 Juin 2004 (date de fin du concours) et celui qui était resté le plus longtemps en première place de Google sur les 3 mois. J'ai trouvé intéressant de regarder, ne serait-ce qu'à travers le code source de leur page, comment ils ont réussi à se placer en tête du moteur. L'analyse des deux pages principales de chaque site donne : http://www.actulab. com/mangeur-decigogne.php
http://www.nonam e.fr/mangeur-decigogne/
Occurrences de "mangeur de cigogne" dans la page
67
49
Occurrences du mot "Mangeur"
100
51
Occurrences du mot "cigogne"
98
51
Occurrence dans la balise de titre
1
1
Occurrence dans les balises
1
1
Occurrence dans les balises
5
1
2
2
1
1
Occurrence dans les attributs ALT
2
2
Occurrences dans les attributs TITLE
18
13
Occurrences dans les attributs
4
0
Occurrence dans les balises <META DESCRITPION…> Occurrence dans les balises <META KEYWORDS…>
1
Résultat disponible à l'url : http://www.7-dragons.com/mangeur_de_cigogne.htm
47/64
Occurrences dans les attributs
1
7
Occurrences dans les attributs
0
0
Nombre de liens total sortant de la page
32
15
Nombre de liens de la page sur elle-même
11
2
Nombre de liens vers Google
1
1
Frames
non
non
Flash
non
non
Images
1
1 (mangeur-decigogne.png")
Feuille de style
oui (style1.css)
oui (mangeur-decigogne.css)
Commentaire
non
oui
Back Link (mars 2005)
204
186
PageRank (mars 2005)
7
5
Ce tableau ne fait que confirmer ce que nous avons vu jusqu'ici. On remarque içi les BackLinks sont très nombreux pour les deux sites finalistes.
48/64
VI. IMS-Entreprendre pour la Cité A. Présentation C'est donc dans le cadre de ma dernière année d'apprentissage au sein du GIE AXA que j'ai eu l'opportunité de mettre en application sur un cas concret certaines des techniques que nous venons de voir. Le site sur lequel j'ai travaillé est accessible à l'adresse suivante : http://www.imsentreprendre.com L'Institut du Mécénat de Solidarité (IMS-Entreprendre pour la Cité) est une association qui a pour vocation de présenter les projets réalisés par des entreprises et des associations dans le domaine de la responsabilité sociétale. L'institut permet également de mettre en relation des professionnels et des associations grâce à une banque de données de projets associatifs concrets. Lors des mes deux années passées au sein de la DSI du GIE AXA, j'ai eu pour principale mission de mettre à jour et de faire évoluer le site de l'IMS-Entreprendre pour la Cité. L'IMS-Entreprendre pour la Cité m'a demandé de faire une étude de son référencement en portant une attention toute particulière sur le positionnement du site dans Google. Cela ne pose pas de gros problème puisqu'un grand nombre de principes utilisés pour accroître son référencement dans Google fonctionne avec les autres moteurs de recherche. B. Le site Le site a été développé en interne (par l'équipe développement de la DSI du GIE AXA) pour le salon Humagora de 2001. Jusqu'en 2004, il n'avait pas subi d'évolutions majeures. Il repose sur une architecture entièrement Microsoft. C'est-à-dire que les pages dynamiques développées en ASP3.0 dialoguent, via une DLL en VBScript, avec une base de données SQL Serveur. Le tout est hébergé sur un serveur web IIS.
1. Audit du site actuel L'idée était de faire, à la vue des techniques que je viens de vous décrire, une liste de celles que je pourrai mettre en œuvre dans le cas de l'IMS. Il n'est évidemment pas question d'utiliser des techniques "douteuses" et, a priori, nous nous contenterons des solutions gratuites.
49/64
2. Les points positifs pour le référencement En analysant l'existant, voici ce que je peux d'ores et déjà constater comme points positifs. Hébergement Nom de domaine
Le site est hébergé en France. Le public visé par le site est principalement français. L'hébergement est fiable et les interruptions de service très peu fréquentes et toujours de courte durée. Le nom de domaine contient deux mots-clés importants : ims et entreprendre. Par le passé, le site a changé deux fois de nom de domaine. De http://www.humagora.com il est devenu http://www.imsolidarite.com puis http://www.imsentreprendre.com. Les anciens noms de domaines fonctionnent toujours et, si l'on regarde les fichiers de logs, on s'aperçoit que de nombreux visiteurs utilisent encore ces anciennes adresses. Il n'est donc pas prévu des les supprimer pour l'instant. En revanche, une redirection sur le nouveau nom de domaine est opérée par le serveur. Il s'agit d'une redirection permanente de code 301 qui ne nuit donc pas au référencement. Nous pouvons constater cela en utilisant un outil disponible sur le site http://www.webrankinfo.com/ HTTP/1.1 301 OK Connection: close Content-Length: 153 Date: Tue, 10 May 2005 13:03:55 GMT Location: http://www.imsentreprendre.com
Flash / images Pop-Up BackLinks
Site PageRank
Le site ne contient qu'une seule animation Flash sur la page d'accueil. Les images ne contiennent pas d'information importante. Celle-ci se trouve essentiellement sous forme textuelle. Le site ne contient pas de page de type pop-up. En général, les pages contenant un grand nombre de pop-up sont moins bien positionnées car elles contiennent souvent beaucoup de publicité. La commande : link:http://www.imsentreprendre.com retourne 47 résultats. Cette commande nous retourne le nombre de liens pointant vers l'URL du site. Elle donne le nombre de BackLinks. Il est à noter que le site de l'IMS-Entreprendre pour la Cité propose deux pleines pages de liens vers les sites de ses partenaires. En général, les sites pointés possèdent également une page de liens avec un BackLink vers celui de l'IMS. La commande : site:http://www.imsentreprendre.com retourne 721 résultats. Elle nous renseigne sur le nombre de pages qui sont déjà connues de Google. La barre d'outils Google nous permet de connaître la valeur du PageRank d'une page. La page d'accueil du site de l'IMS possède un PageRank de 6. Cela est déjà une note très honorable.
50/64
pages satellites
Le site n'a pas de pages satellites
3. Les points négatifs pour le référencement Il reste néanmoins de nombreux points noirs sur lesquels je vais pouvoir travailler. Frames
Le site est fait de 3 cadres différents. Il n'y a pour l'instant aucune balise de définie. Les liens n'apparaissent pas clairement sous la forme … dans la page principale. Les liens se font par appel de fonction JavaScript.
Liens
Contenu des pages
Robots.txt
Hormis les quelques pages de présentation, les autres pages contiennent principalement du texte issu de la base de données. Ces informations sont recherchées grâce à des paramètres passés par la méthode GET. Étant donné que le site repose sur un serveur web Microsoft Internet Information System, nous ne pourrons pas mettre en place une réécriture d'URL basée sur un fichier .htaccess. Ce fichier n'existe pas.
Titres
Les balises <TITLE> ne sont pas renseignées
Style
Alt
Le site utilise des feuilles de style. Les styles utilisés ne s'appliquent pas aux balises reconnues par les robots. C'est-à-dire qu'il n'y a pas de redéfinition des balises classiques (Hx, B, etc.) de mise en forme dans les CSS. Il n'y a pas d'attribut ALT associés aux balises d'image
META
Il n'y a aucune balise META de définie pour le moment
Plan
Il n'y a pas de page de plan de site
A la vue de ces deux analyses, j'ai proposé les solutions suivantes aux personnes de l'IMS responsables du site :
Domaine
Application
Hébergement
Robots.txt Restauration du cadre (frame) de la fenêtre principale Balise Plan de site MapSite Balise <méta> Balise <Titre>
Architecture du site Navigation Pages HTML Annuaires
Soumission manuelle
Parmi cette liste il y a des techniques que j'allais pouvoir mettre en œuvre directement et d'autres où il me fallait une aide de l'IMS-Entreprendre pour la Cité.
51/64
C. Application 1. Création du plan du site HTML. Dans un premier temps, j'ai choisi de créer une page HTML classique qui servirait de plan du site. L'intérêt de cette page est essentiellement de faire des liens … vers les principales pages du site. Techniquement, cette page ne comporte aucune difficulté. L'important est de ne pas oublier de faire un lien direct dessus pour que les robots puissent y accéder. J'ai choisi de mettre ce lien dans la balise que j'ai mis sur la page default.asp qui génère le cadre principal. De cette façon, la page sera automatiquement détectée par les moteurs de recherche. Cette page doit également contenir un minimum de texte.
Il peut également être intéressant de remplacer la page d'erreur 404 par défaut par ce plan. Cela se configure au niveau du serveur web IIS.
52/64
2. Utilisation des balises Afin de permettre aux divers robots d'accéder à la page d'accueil du site, et ceci malgré les frames, j'ai utilisé la balise HTML . Voici donc le code source de la page défault.asp qui génère le cadre.
3. Génération du SiteMap de Google Le nouvel outil proposé par Google semble prometteur et il m'a paru intéressant de le tester plus en détail. J'ai donc décidé de créer un fichier SiteMap.xml et de le soumettre au moteur de recherche via l'interface web de l'outil.
53/64
Afin de générer ce fichier XML, plusieurs possibilités m'étaient offertes : 1. La première solution qui m'est venue à l'esprit est de générer le fichier à la main ! Si cette option s'avère efficace pour des petits sites statiques, elle ne l'est pas dans notre cas. En effet, l'essentiel du contenu des pages est extrait de la base de données. Il serait donc trop long et trop fastidieux d'identifier de manière exhaustive les différentes URL des pages du site. 2. Pour automatiser un peu la première solution, il sera envisageable de créer un script qui parcourt récursivement les répertoires du site et qui génère automatiquement le fichier XML à partir de cela. Cette solution est efficace dans le cas de sites peu dynamiques mais qui auraient un grand nombre de pages statiques. Si le site évolue rapidement, avec l'apparition fréquente de nouvelles pages, la suppression d'anciennes et la mise à jour de pages existantes, cette possibilité est sans doute la mieux adaptée. En effet, ce type de script permet, en plus d'avoir une liste complète de tous les fichiers qui se trouvent en ligne, de récupérer la date de dernière modification dont on a besoin pour rendre le fichier sitemap.xml plus pertinent. Pourtant, dans notre cas, cette solution n'est pas appropriée puisque le nombre de page est statique… contrairement aux pages elles-mêmes ! 3. Réaliser un script capable de récupérer les URL des pages contenues dans les fichiers de logs du site. Cette solution est acceptable mais le risque est de ne pas recenser toutes les pages. On peut se retrouver dans un cercle vicieux. En partant du principe que les pages les moins bien référencées sont également les moins consultées, il est possible que certaines de celles-ci ne figurent pas dans le fichier de log. Elles n'apparaîtront donc pas dans le fichier SiteMap. 4. Finalement, la dernière méthode consiste à générer le fichier à l'aide d'un script ASP qui va chercher les informations nécessaires dans la base de données. La méthode que j'ai retenue est donc la dernière que j'ai citée car elle me paraît plus appropriée à notre cas. En effet, l'arborescence du site de l'IMS est figée et il y a très peu de nouveaux documents. Seules des "lettres d'actualité" sont mises à disposition régulièrement dans un répertoire spécifique. Les internautes (donc également les robots) peuvent y avoir accès à partir d'une page dynamique qui va chercher en base de données le nom des documents pour construire le lien vers ceux-ci. La grande majorité des pages du site est construite de la même manière. Par exemple, pour accéder à une Initiative, l'URL est du type : http://www.imsentreprendre.com/ASP/Cyberjardin/fiche_initiative.asp?init=102 Ce type de lien se prête donc particulièrement bien à une construction du fichier SiteMap à partir d'une page dynamique. En effet, il suffit d'aller récupérer tous les identifiants dans la base de données et de construire le fichier XML. En revanche, j'ai préféré écrire les URL des pages principales "en dur" dans le fichier XML. Cela me paraissait plus simple étant donné le petit nombre de ces pages.
54/64
Je pensais également pouvoir récupérer la date de dernière modification dans les champs datetime de la base de données. Ils devaient me permettre de renseigner les balises du fichier XML. Malheureusement, il n'existe aucun champ date dans la base actuelle. Plutôt que de les rajouter dans toutes les tables dont j'ai besoin pour générer le fichier XML, ce qui sous entend également de modifier les procédures stockées, j'ai préféré mettre dans la balise la date du jour auquel sera généré le fichier sitemap.xml. Cela aura au moins l'avantage d'indiquer à Google qu'il y a eu des modifications récentes. Le fichier ainsi engendré devra être placé à la racine du site. En effet, un fichier sitemap ne donne accès qu'aux pages qui se trouvent en dessous dans l'arborescence. Dans notre cas, le fichier généré sera suffisamment petit pour pouvoir contenir tous les liens du site. Je serai donc obligé de le mettre dans le répertoire de plus haut niveau. Dans le cas d'un fichier contenant plus de 50 000 liens (ou supérieur à 10Mo décompressé), il est nécessaire de le décomposer en fichiers de taille inférieure qui, eux, peuvent être placés à n'importe quels emplacements dans l'arborescence du site. Capture d'écran de la soumission du SiteMap dans Google :
55/64
Après quelques heures, voici la nouvelle capture d'écran :
On remarque par exemple que le fichier ne contient pas d'erreurs et qu'il a bien été reconnu comme un fichier SiteMap valide. Les fichiers de Log du mois de juillet montrent que le fichier sitemap.xml a été consulté 104 fois par le robot de Google (et uniquement par ce robot). Sachant que j'ai mis le fichier en ligne le 6 juillet, cela veut dire qu'il a été téléchargé en moyenne 4 fois par jour. Il s'emble qu'a priori, cela ait effectivement permis à Google d'indexer de nombreuses pages supplémentaires du site. En effet, la requête suivante : Site:http://www.imsentreprendre.com retournait 193 résultats effectifs en au début du mois de juillet contre 695 au 23 août !
4. Reconstruction de la frame parent Nous venons de mettre en place un fichier qui autorise un accès direct aux pages du site. C'est-à-dire que les moteurs de recherche, une fois les URL du fichier SiteMap indexées, seront capables de ressortir ces URL dès qu'une recherche correspondra au contenu. Concrètement, l'internaute risque d'arriver sur une page du site sans passer par la page d'index donc sans avoir sa page dans la frame principale. Il est donc nécessaire de coupler la mise en place du fichier sitemap.xml avec celle d'un script permettant de reconstruire la barre de navigation. Le script que je vous ai donné (page 27) ne constitue qu'un point de départ. Il faut l'enrichir pour permettre aux internautes d'arriver sur la page qu'ils souhaitent et non pas simplement sur la page d'accueil. Dans notre cas, voici le script que j'ai utilisé pour rediriger sur la page default.asp if (window.parent.location==document.location) window.parent.location="/?page="+document.location;
56/64
J'ai donc inclus ce script en entête de toutes pages du site. Voici ce que contient la page cette page default.asp pour réafficher la bonne page : <% … if request.querystring("page")<>"" then page=request.querystring("page") // je récupère l'URL de la page désirée passée en GET else // par le script Javascript. page="" end if … %>
5. Révision des balises META et TITLE Bien que certainement moins utilisées qu'avant, les balises META sont faciles à réaliser et ne peuvent en aucun cas nuire au référencement. Il est donc intéressant de tout de même les utiliser. Ainsi pour faciliter le travail des personnes de l'IMS, je leur ai fourni un canevas1 à compléter contenant une liste complète des pages du site avec le contenu des balises <TITLE> et <META> existantes. Ainsi elles ont pu renseigner ces balises avec des titres, des mots-clés et des descriptions pertinents. Ensuite de quoi, je n'ai eu qu'à reprendre les pages et rajouter ou modifier les balises suivantes : <META <META <META <META <META <META <META <META <META <META <META
NAME="keywords" lang="fr" content=" "> NAME="description" lang="fr" content=" "> NAME="geographie" CONTENT="paris, france, 75009"> NAME="Publisher" CONTENT="IMS – Entreprendre pour la Cité"> NAME="Copyright" CONTENT="IMS – Entreprendre pour la Cité"> NAME="Subject" CONTENT=" "> NAME="Category" CONTENT=" "> NAME="Identifier-URL" CONTENT=" "> NAME="Revisit-After" CONTENT="7 days"> NAME="Author" CONTENT="IMS – Entreprendre pour la Cité"> NAME="Robots" CONTENT="index, follow">
Ainsi, les informations qui m'ont été fournies par l'IMS-Entreprendre pour la Cité m'ont permis d'inclure cet en-tête à toutes les pages du site : Ici l'exemple de la page plan du site : ims-entreprendre-pour-la-cite.html
1
Cf. Annexe 1. Extrait du document remit à l'IMS.
57/64
6. Soumission manuelle Encore une fois, je pense qu'il est important de soigner cette étape pour les deux raisons suivantes : •
Le fait d'apparaître dans un annuaire sous entend qu'un lien existe de l'annuaire vers votre site. Cela correspond donc implicitement à un BackLink de plus pour votre site. Cela est d'autant plus important si le PageRank de l'annuaire est élevé.
•
Les internautes qui viennent sur votre site à partir d'un annuaire spécialisé n'arrivent en général pas là par hasard. Ils ont pris le temps de bien cibler leur recherche. Je pense donc qu'en proportion, les annuaires apportent un meilleur public que celui issu des moteurs de recherche. C'est du moins ce que j'ai pu observer en analysant le temps moyen passé par les divers internautes qui visitent mon site personnel. C'est-à-dire que ce public consulte généralement plus de pages que celui issu d'un moteur de recherche quelconque. J'imagine que je peux généraliser cette observation à la plupart des sites.
L'essentiel lors de cette étape reste tout de même de sélectionner les bons annuaires. Avant même de rechercher dans Google les annuaires spécialisés susceptibles de générer du trafic sur votre site, il est bon de commencer par une soumission dans l'Open Directory Project. Je rappelle que l'ODP sert de base à de nombreux outils de recherche tels que Google, Yahoo! ou encore MSN. Pour y soumettre votre site, il suffit de vous rendre sur la page d'accueil de l'annuaire (http://dmoz.org/) et de sélectionner le domaine et les sous-rubriques en rapport avec votre site. Ensuite il ne reste plus qu'à cliquer sur le lien "proposer un site" qui se trouve en haut de la page pour accéder au formulaire. Dans le cas du site web de l'IMS, il se trouve qu'il était déjà inscrit dans cet annuaire. J'ai souhaité refaire une inscription car l'URL utilisée par l'ODP était : www.humagora.com.
58/64
Une fois la soumission réalisée, voici la capture d'écran que l'on obtient :
On remarque ainsi que la procédure peut prendre un certain temps. Après cette première étape, j'ai cherché sur Google d'autres annuaires spécialisés dans le domaine de la responsabilité sociétale et du développement durable. Je me suis alors retrouvé confronté à une nouvelle difficulté. En effet, pour mon site personnel, j'avais remarqué que quelques annuaires se retrouvaient systématiquement devant mon site lorsque je faisais une recherche sur des mots-clés précis. J'ai donc décidé d'inclure mon site dans ces annuaires. Dans le cas du site de l'IMS, il se trouve qu'aucun annuaire spécialisé n'apparaît dans les premières pages de résultats. Ceci vient certainement du fait que les mots-clés de l'IMS-Entreprendre pour la Cité sont des mots excessivement courants et qu'il existe une très forte concurrence sur ces mots ou expressions-clés. Ainsi, les annuaires n'apparaissent pas systématiquement en tête des résultats. Cela veut dire que toutes les inscriptions que je pourrais faire ne seront certainement pas source de beaucoup de trafic puisque peu de personnes trouveront les annuaires. Malgré ce point négatif, nous avons vu qu'une inscription dans un annuaire apporte systématiquement un (ou plusieurs) BackLink vers votre site. Cela reste donc une démarche intéressante. C'est pour cette raison que j'ai tout de même souhaité inscrire le site dans de petits annuaires. Beaucoup de ces annuaires gratuits proposent d'ajouter votre site à condition que vous mettiez une banderole publicitaire (ou au minimum un lien) sur votre site. Tous ne l'exigent pas. Il faut donc sélectionner les annuaires qui vous conviennent. Le problème que l'on rencontre avec un site comme celui de l'IMS est qu'il touche à plusieurs grands domaines. Ainsi, il faut définir un thème suffisamment général sous lequel inscrire le site. En effet, les annuaires ne proposent généralement pas de mettre un même site dans plusieurs catégories.
59/64
VII. Conclusion Contrairement à ce que je pensais avant de commencer cette analyse sur les différents moyens de rendre visible son site sur internet, les techniques de référencement évoluent sans cesse et de plus en plus rapidement. Nous pouvons expliquer cela par le décalage qui existe entre ce que recherchent les webmasters et les contraintes auxquelles doivent faire face les outils de recherche. C'est également pour cette raison que les moteurs de recherche ne peuvent pas se permettre de dévoiler comment fonctionnent leurs robots d'indexation. Ils risqueraient alors de favoriser le spamdexing. Il faut cependant garder à l'idée que l'ensemble des techniques qui peuvent être mises en œuvre pour augmenter le positionnement d'un site provient de déductions empiriques faites par les webmasters. Cette précision explique pourquoi il est si difficile de connaître le véritable impact qu'a une technique sur une page particulière. Prenons l'exemple des balises META qui furent longtemps le seul moyen de référencer efficacement son site Internet. Aujourd'hui, personne n'est capable de mesurer leur réel impact. Tout le monde s'entend sur le fait qu'elles existent, que leur efficacité décroît depuis plusieurs années mais qu'il est toujours intéressant de les utiliser. Notons également que très peu d'outils liés au référencement existent. Les seuls que j'ai utilisés se trouvent sur Le site webrankinfo. Ils permettent par exemple de suivre le positionnement d'un site au cours du temps. Tous les autres outils douteux qui vous proposent d'indexer votre site dans tous les moteurs de recherche sont à proscrire. Aujourd'hui, on peut dire que les moteurs de recherche préfèrent baser leurs notations sur des critères off-the-line (informations collectées spécifiquement par les spiders telles que le nombre de backlinks) plutôt que sur des critères on-the-line (balises META, occurrences du mot dans la page, position du mot) qui risquent plus facilement de les tromper. La solution SiteMap de Google, qui à première vue paraissait innovante et pratique, autorise effectivement d'indexer de nombreuses pages à la fois. Pourtant, cela ne semble pas être le cas avec tous les sites. En effet, en consultant des forums spécialisés sur ce sujet, on s'aperçoit que cette solution a permis à certains webmasters d'indexer plus de 200 pages en quelques jours alors que pour d'autres sites, cela ne semble pas avoir eu l'effet escompté. On peut cependant supposer que cela vient du fait que l'outil reste pour l'instant en phase de test. Probablement que la montée en charge fait partie des préoccupations de Google sur le sujet. Toujours est-il qu'une fois de plus Google a devancé ses principaux rivaux. Nous pensions que les autres moteurs allaient alors utiliser le fichier sitemap.xml initialement destiné à Google afin de combler leur retard. Finalement Yahoo! a préféré utiliser un fichier texte nommé urllist.txt. Pourtant, celui-ci semble moins performant que le sitemap de Google puisqu'il n'utilise pas les possibilités offertes par le XML. Avant de mettre en œuvre les techniques que nous venons de voir, je pense qu'il est essentiel de s'assurer que les pages possèdent suffisamment de texte. Cela me parait être la base d'un bon référencement.
60/64
Avant de conclure cette analyse, je tenais à souligner quelques unes des lacunes que les moteurs de recherche et autres annuaires vont devoir combler pour réellement se différencier des autres. Bien qu'une récente et nette amélioration ait été observée en ce qui concerne la prise en compte des mots accentués dans les outils de recherche, il n'en est pas de même pour les recherches sur des mots-clés composés et au pluriel.
Cet exemple montre qu'une recherche avec ou sans accent retourne quasiment les mêmes résultats. En revanche, les résultats sont très différents pour le terme au singulier ou au pluriel. Cette constatation faite dans Google s'observe également dans la grande majorité des outils de recherche. La prochaine évolution majeure des moteurs de recherche devrait être de pouvoir formuler des requêtes sous la forme de phrases complexes. Celles-ci pourraient prendre cette forme : "Où pourrais-je trouver une recette miracle pour augmenter significativement la visibilité de mon site Internet ?" Des sites payants proposent déjà ce service. Il s'agit en fait de personnes qui analysent votre demande pour vous fournir, en général sous 12heures, une réponse. Pour plus d'informations, consultez le site : http://www.lesmoteursderecherche.com/moteur-de-recherche-humain.htm Enfin, pour information, j'attends toujours leur devis…
61/64
Annexe 1
62/64
Annexe 2 Positionnement des compétences : Expert en technologie internet et multimédia 0 : Pas de connaissance dans ce domaine 1 : connaissances universitaires (générales, théoriques) 2 : mise en pratique universitaire de ces connaissances générales théoriques (projets tutorés) 3 : expérience professionnelle de ces connaissances générales théoriques 4 : maîtrise du domaine décrit permettant d'être autonome 5 : expertise du domaine décrit permettant de juger ou diriger le travail de collaborateurs
Votre niveau de compétence Savoir-Faire technologiques
Niveau de compétence du métier
Architecture fonctionnelle du SI de l'entreprise (logiciels, applications métiers)
3
Ergonomie et interfaces homme-machine
3
4
Evaluation et maîtrise des risques I&T Méthode, normes et outils de développement
2 2 2 2 4
Méthodes, normes et outils de développement
2 2 4
Méthodologie de développement d'architecture
5 Normes et procédures associées aux réseaux
2 4 3
Techniques liées aux systèmes de communication
5 Savoir-Faire généraux Compétences juridiques
2 2
Compréhension de la stratégie de l'entreprise en matière de systèmes d'information
4
Conceptualisation et modélisation du SI
4 4 4 4
5
Connaissance de l'entreprise (processus, environnement, organisation et stratégie)
Aptitudes comportementales Analyse Ecoute et communication
3 2 2 2 3
Négociation 2
4
Ouverture d'esprit 2 3
Résistance aux pressions 2
63/64
URL : (Uniform Resource Locator) Adresse Internet exploitée par les navigateurs. C'est l'adressage standard de n'importe quel document, sur n'importe quel ordinateur en local ou sur Internet. Structure de base d'une URL : protocole://serveur/répertoire/document.extension (http://www.dicofr.com/cgi-bin/n.pl/dicofr/definition/20010101005151) i
ii iii
http://www.agenceweb.ch/Promotion/Referencement.asp http://www.revue-referencement.com/ZOOM/google_casse_2.htm
iv
Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation / p32 v Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation / p49 vi http://histoire.univ-paris1.fr/moteurs.htm § Qu'est-ce qu'un outil de recherches sur le net ? vii
viii ix x xi
http://fr.download.yahoo.com/rp/h1histy.pdf http://dmoz.org/World/Fran%C3%A7ais/about.html
http://www.google.fr/intl/fr/why_use.html http://www.revue-referencement.com/ENCOURS/google_msn_yahoo.htm
Etude complète disponible à l'adresse : http://aixtal.blogspot.com/2005/01/web-comptes-bidons-chezgoogle.html xii Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation / p32 xiii Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation / p19 xiv Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation / p17 xv Référencement sur le net – Les nouvelles méthodes gagnantes / Sandrine Saporta / Editions d'Organisation / p132 xvi Snippets : C'est le petit texte et les liens retournés par Google pour chaque résultat de recherche Exemple de deux snippets générés par Google :
xvii
L'optimisation des pages pour le référencement, L'importance de la balise titre et de la balise H1 : http://www.revue-referencement.com/ETUDES/0410-referencement-title-h1.htm xviii http://help.yahoo.com/help/fr/ysearch/slurp/slurp-08.html xix xx xxi
http://www.helicontech.com/download/ http://www.commentcamarche.net/web/robots-txt.php3
xxii
http://www.global-dev.com/dossiers/article.php?id=9
xxiii
https://www.google.com/webmasters/sitemaps/docs/en/protocol.html http://www.webrankinfo.com/referencement/liens/redirections.php
xxiv xxv xxvi
http://www.webrankinfo.com/analyses/autres/multilingues.php http://fr.wikipedia.org/wiki/UTF-8
xxvii
http://www.7-dragons.com/tiret-underscore.htm http://www.dicodunet.com/definitions/google/google-bombing.htm
64/64