LA QUALITE DE L’INFORMATION SUR INTERNET
Présentation – IFU
Quels sont les objectifs d’une bonne recherche sur internet ?
Qu’est-ce qu’une bonne recherche? Disposer d’une information de
qualité ?
Objectifs d’une bonne maîtrise de la recherche sur internet
Attention à l’information ! Trouver le bon outil de recherche Etablir une bonne stratégie de recherche Trouver la bonne combinaison de mots clés
L’INFORMATION SUR LE WEB : quel est votre niveau de confiance ?
Présentation – IFU
Pourquoi la qualité de l’information varie-t-elle?
N’importe qui peut mettre de l’information en ligne un «expert » comme un « plaisantin »
De n’importe quel lieu géographique On peut dire ce que l’on veut : vrai ou faux On peut laisser l’information aussi longtemps qu’on le souhaite
Ou la faire disparaître sans avertissement
Ex d’une bibliothèque :
L’auteur a vérifié son travail d’écriture Le rédacteur l’a sélectionné en vue d’une
possible publication Puis l’éditeur a décidé qu’il fallait le publier Peut-être qu’un préfacier l’a commenté Et le bibliothécaire a pensé qu’il était suffisamment intéressant pour le sélectionner
Sur internet : aucune vérification
Sur internet : la technique du WWW – des 3 W
Who qui écrit l’information? Qui l’a publié? Est-ce
une source fiable? Est-ce qu’on veut me convaincre? Me vendre quelque chose? M’informer? Me désinformer? Chercher : le nom de auteur – le nom de l’organisation qui publie « About Us »- un contact – une URL Where D’où provient l’information? Que sait-on de sa production? When Est-elle mise à jour?
Que trouve-t-on sur Internet?
un panorama unique d’informations de toute nature en un temps record.
des bases de données et catalogues de
bibliothèques http://www.cairn.info/accueil.php?PG=START
des extraits de livres http://scholar.google.com/ des revues généralistes ou spécialisées , des articles de journaux ;
des rapports d’activités etc….
MAITRISER INTERNET Internet : qu’est-ce que c’est?
INTERNET Contraction de : Inter Network
l'interconnexion de multiples réseaux : « le réseau de réseaux » qui permet de relier des ordinateurs de toute taille
Des protocoles font fonctionner le réseau
Protocole = série d'étapes à suivre pour permettre une communication harmonieuse entre plusieurs ordinateurs.
Internet désigne : ensemble de protocoles
regroupés sous le terme "TCP-IP" (Transmission Control Protocol/Internet Protocol)
HTTP : (Hyper Texte Transfert Protocol) : pour consulter les pages web
FTP (File Transfert Protocol) pour transférer des fichiers
SMTP (Simple Mail Transfert Protocol) pour envoyer des mails
Protocoles (suite)
POP pour recevoir des mails,
IP (internet Protocol) : attribue une adresse lors de votre connexion à un serveur.
Lire une adresse URL (Uniform Resource Locator)
:
(de l’ordinateur)
document HTML situé sur le serveur du département de chimie de l'université Laval
Adresse
Donne une connaissance intuitive sur sujet
Que peut-on savoir?
Attention : le nom d’un site peut-être trompeur
1. Whitehouse.org 2. Whitehouse.gov 3. Whitehouse.com
La structure de l’adresse URL (Uniform Resource Locator) Adresse d’un site ou d’une page
:
http correspond au protocole de transmission des données
www
, correspond aux initiales du web (world wide web)
Nom de domaine
correspond au domaine de l’organisme, de la personne, du service, etc.
Extension ou initiales correspond à l’activité com : organisations à but commercial, .net : entreprises dans le domaine des réseaux, .org : organisations à but non lucratif;
Correspond à la situation géographique Suffixes pays .eu - .ca - .fr...
Les noms de domaine
conçus pour simplifier l’utilisation de l’internet
plus facile de retenir et taper un nom de domaine ex : http://www.google.fr
qu’une adresse IP http://216.239.59.104
LA RECHERCHE D’INFORMATION SUR INTERNET Comment accéder à l’information ?
Les outils de recherche
Les annuaires Les moteurs de recherche Les méta-moteurs
Qu'est-ce qu'un annuaire ?
Outil (pages jaunes) qui recense un certain nombre de sites au travers de fiches descriptives classés dans les catégories par des personnes, les surfeurs catégories définies par des spécialistes, des documentalistes
regroupe les sites internet dans des catégories thématiques La recherche s'effectue en entonnoir : vous cliquez sur une
catégorie, puis une sous-catégorie... Ainsi de suite, jusqu'à atteindre le site qui vous intéresse. La recherche sur un annuaire s ’effectue sur les mot-clés saisis dans les fiches descriptives des sites, et non pas dans les pages des sites en question
Qu'est-ce qu'un moteur de recherche ?
Robots logiciels (crawlers ou spiders) qui
scrutent le Web, de page en page Sauvegardent au fur et à mesure le contenu texte des pages rencontrées dans un "index" (collection plus ou moins grande de pages Web) "index" = plusieurs centaines de millions de pages Ces robots sont des programmes informatiques fruits du travail commun de linguistes, statisticiens et informaticiens. le "lot" de pages contenant le terme demandé identifié, le moteur classe les pages par ordre de pertinence, selon un ordre et un algorithme (basé sur certains critères de tri) qui lui est spécifique.
Ex de critères de tri pour le calcul de pertinence
place du mot dans la page (page contenant le mot demandé en haut du document sera mieux "notée" qu'une autre le présentant en bas de page)
mise en exergue (gras, taille des caractères, etc.) ; présence du mot demandé dans l'adresse de la page (urbanisme-mag.tm.fr
ou
urbanisme.equipement.gouv.fr
Indice de popularité du document nombre de liens "pointant" vers cette page sur le Web nombre de clics (à chaque consultation d'un internaute, le moteur va noter sur quel lien il a cliqué et quel était le classement de ce lien. Il calcule ensuite combien de temps l'utilisateur met avant de revenir sur la page de résultats du moteur. S'il ne revient pas, il en "déduit" que le site proposé était a priori pertinent. Son adresse sera alors mieux classée dans les résultats suivants, lors d'une interrogation sur le même mot-clé.
Le délai de rafraîchissement d'un moteur
Temps passé entre deux passages de son robot pour sauvegarder une version plus récente d'une page.
2 à 4 semaines pour la plupart des moteurs, mais peut, temporairement, être beaucoup plus "élastique".
Annuaires / Moteurs Connaître leurs limites Le référencement n'est pas exhaustif : il porte seulement sur les sites sélectionnés par les personnes.
Délais de rafraîssement des index
Le classement par catégories et la description de chaque site restent subjectives.
Syntaxe des moteurs de recherche (OU – ET – « … » etc)
L'actualisation des sites référencés ne se fait pas automatiquement, mais en fonction des disponibilités des personnes chargées de l'opération. Risques d’informations périmées.
Critères de pertinence des résultats
Quels éléments de syntaxe à retenir ?
Caractères minuscules sauf pour les sigles ? Guillemets pour la recherche sur des expressions Inscrivez les opérateurs ET, AND, AND NOT, SAUF toujours en majuscules Pas d’espace entre l’opérateur* et le mot ? Si vous hésitez dans l’ordre des mots, saisissez en premier le terme le plus précis. Sélectionnez la langue (n’hésitez pas à utiliser la version anglo-saxonne des outils de recherche)
Les méta-moteurs
Outils qui, pour une même interrogation, activent plusieurs moteurs de façon simultanée
rapatrient les résultats, Les synthétisent et proposent un récapitulatif des réponses données.
Limites et difficultés Syntaxe différentes aux différents moteurs Restitution des résultats propres à chaque moteur Quelle est la qualité de la synthèse du méta-moteur? Risque de fragilisation du modèle des moteurs qui se financent sur la pub affichée (les méta moteurs ne donnent plus accès aux pages de pub des moteurs et ont leur propre pub…)
Tester
http://outils.abondance.com/
Méta moteurs
http://www.ariane6.com/ http://www.netoo.fr/ http://www.kartoo.com/ (visualisation cartographique)
http://www.search.com/
LA RECHERCHE D’INFORMATION SUR INTERNET Méthodologie de recherche
Le plus utilisé : google
« Pour » : Utile pour trouver des informations très précises Peut fournir des informations quelque soit le sujet
« Contre » Fournit trop de résultats – temps de recherche disproportionné Peut fournir des informations peu pertinentes voir inappropriées
Durée de la recherche
En connaissant bien les outils de recherche et en appliquant les bonnes méthodologies,
On doit savoir deux choses en une demiheure 1. Si l'info recherchée se trouve ou pas sur le Web. 2. Si elle s’y trouve : il faut avoir identifié les sources fiables d'information
Quelques conseils simples
Quatre étapes incontournables dans la recherche d’information sur le web : un bon choix de mots-clés descriptifs en rapport au thème traité ; un bon choix de l’outil de recherche adapté à l’information désirée ; une bonne connaissance de la syntaxe d’interrogation ; une bonne interprétation des résultats.
Les mots clés : Veiller à trouver les mots les plus appropriés
Trouvez les mots clés – posez-vous les bonnes questions et recherchez !
Quel est votre sujet précis de recherche ?
Quels sont les 3 ou 4 mots clés ou concepts sur votre sujet ?
Y a-t-il d’autres mots qui décrivent ces concepts ?
Y a-t-il des mots spécifiques qui pourraient limiter votre recherche ? (limitation territoriale par ex)
Comment pouvez-vous combiner les mots ensemble pour optimiser la recherche ?
Les opérateurs AND – OR
Utilisez de préférence
les annuaires pour : explorer un sujet, trouver des sites ressources dans un domaine, trouver des sites similaires
les moteurs pour : trouver une information précise sur une personne, un organisme, un produit... effectuer des recherches complexes en utilisant la puissance de la syntaxe, repérer des sites récents non indexés encore par les annuaires
les méta moteurs pour débroussailler rapidement un sujet
LA RECHERCHE D’INFORMATION SUR INTERNET Et le web invisible ? (deep web, hidden web)
Le web invisible
Non accessible aux moteurs classiques – web profond : car ne peut être exploré par les moteurs
Les robots des moteurs se heurtent à des obstacles et sont incapables d'indexer certains documents du web invisible
Google, MSN/Live Search, Yahoo! Search donnent accès à moins de 10% du web visible !!
Le web invisible
certains documents sont trop volumineux pour être entièrement indexés (Les 7 millions de pages d’un site ne sont indexés par les moteurs conventionnels indexation varie entre 5 et 60 % selon les moteurs). certaines pages sont interdites de référencement car l'auteur les protège (Le Monde interdit l’accès aux pages payantes) l'accès à certaines pages est protégé par un mot de passe Certains formats de fichiers ne sont reconnus par les moteurs de recherche
Etude Bright Planet Web invisible serait 260 fois plus vaste que le web visible.
les 60 sites les plus importants représentent à eux seuls plus de 40 fois le volume du web visible soit 550 milliards de pages.
Ce sont des sites scientifiques (NASA), des bases de donées (Lexis Nexis, Dialog), des sites universitaires (Berkeley), de médias et presse (USAToday), de commerce en ligne (e-bay), des sites internes de grosses
ACCES A UN REPERTORIE DE BASES DE DONNEES GRATUITES SUR iNTERNET
http://dadi.univ-
lyon1.fr/index.php?page=search
Quatre catégories d’outils pour exploiter le web profond
Les portails (Sites fédérant de nombreuses ressources (articles, forums...) organisées autour d'un annuaire thématique). les bases de données et serveurs de banques de données ; les répertoires sélectifs (sites sélectionnés de manière qualitative et portails spécialisés) http://www.intute.ac.uk les moteurs de recherche ou méta-moteurs spécialisés (qui interrogent simultanément plusieurs outils tout en étant spécialisés dans une thématique) ; les bibliothèques en ligne. La plupart de ces outils sont gratuits : à peine 1,1 % des sites du web invisible proposent un contenu entièrement payant. (banques de données tels que Dialog, Factiva ou encore Lexis Nexis).