Analyse & traitement de données : mesurer, tester des hypothèses Rémi Bachelet
Diapos disponibles http://rb.ec-lille.fr
Cours distribué sous licence Creative Commons, selon les conditions suivantes :
[email protected] École Centrale de Lille Villeneuve d’Ascq - France Rémi BACHELET – Centrale Lille
1 Source des images indiquées Utilisation au-dessous ou copie ou eninterdites cliquant sur sansl’image citation
Comment utiliser ce cours : Mettre les diapos en format plein écran en cliquant sur Faire défiler l’animation en cliquant sur les diapositives (attention : cliquer sur une image ou un lien ouvre la page web correspondante)
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
Tester des hypothèses Exemple : Le réchauffement climatique est-il une certitude ? Si oui d’où vient-il ? • •
« Il n’y a pas de réchauffement climatique » => réfuté avec de plus en plus de certitude d’année en année (désormais >95%) Autres hypothèses 1. 2. –
Le réchauffement climatique est lié à l’activité solaire => réfuté Le réchauffement climatique est lié à l’activité humaine => …
Cf : travaux du GIEC
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
3
A la recherche de la vérité … Alors, faut-il tester des hypothèses, jusqu’à faire « sortir la vérité du puits » ? Qui ne veut pas voir « la vérité toute nue » ?
Rémi BACHELET – Centrale Lille
La Vérité sortant du puits Edouard Debat-Ponsan, musée de l'Hôtel de ville d'Amboise © Ville d’Amboise
Utilisation ou copie interdites sans citation
Conjectures et réfutations On ne prouve pas qu’une théorie est vraie, on prouve que les théories concurrentes sont fausses ⇒ La théorie « vraie » est celle qui • • •
•
Explique un phénomène le mieux possible … permet de formuler des hypothèses réfutables … mais pas encore réfutées
Autrement dit, il n’y a pas de théorie vraie, mais seulement une « meilleure théorie » qui est : – parmi celles qui sont proposées…. – … la plus « élégante » (pouvoir explicatif, clarté, rasoir d’Occam) … – …. dont on dispose à un moment donné, en attendant…
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
5
Il n’y a pas de vérité scientifique, mais une population de théories en concurrence
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
6
Mesurer Comment tester une théorie ? Une théorie propose des construits qui permettent de formuler des hypothèses 4. Définir rigoureusement les construits –
1/ Concept => 2/dimensions => 3/composantes
–
Température de la terre => t° eau;t° air, t° du sol => mesures (x, y, z, t)
5. Puis mesurer des variables pour tester les hypothèses –
Variables métriques (sc physiques), mais aussi nominales, ordinales (sc humaines)
–
Variables indépendantes/dépendantes
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
En sciences humaines/génie industriel, les variables mesurées sont rarement quantitatives au départ • Affirmation – Opinion, réponse sur une échelle d’estime de soi
• Comportement – Rencontrer quelqu’un, éviter de faire quelque chose
• …. Voire discours sur un comportement – Par exemple « utilisation d’un préservatif » – Cf. biodata
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
8
Les variables métriques sont aussi de divers types • Continues ou discrètes – Poids, taille (métrique continu) – Image scanner, capacité à grimper sur une échelle jusqu’à un certain barreau (métrique discret)
• On peut faire énormément de calculs, surtout avec les variables continues : ACP
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
9
Les variables nominales • Elles ne peuvent faire l’objet d’un classement par ordre croissant… par exemple – Sexe (var. dichotomique) – Lieu de naissance, plat préféré
• La plupart des calculs, sont impossibles, car il n’ont pas de sens. – Calculer une « moyenne » entre des marques de voitures ? – On peut parfois les convertir en variables métriques – destinations de vacances => distance (km) – vote à une élection => échelle droite <=> gauche.
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
10
Variables Ordinales •
Elles sont ordonnées, mais pas métriques – –
Réponse sur une échelle d’estime de soi par exemple une échelle du type de celles proposées par Rensis Likert (1903 - 1981) « J’ai confiance en moi », cochez la case correspondant à votre opinion => tout à fait d’accord / plutôt d’accord / pas d’accord / pas d’accord du tout
•
Problème pour les traiter.. Faut-il les considérer comme .. 1. … des variables métriques (pas du tout = 1, un peu = 2 …) 2. Ou des variables nominales ?
•
Effets pervers – –
En numérisant un Likert (pas du tout d’accord = 1, assez d’accord =2..) on est tenté de faire des calculs : moyenne écart-type .. Or, ces chiffres n’ont en fait que peu de sens, il impliquent notamment un postulat caché sur les « distances » entre les réponses •
passer de « pas du tout d’accord » à « assez d’accord » est-il identique à passer de « assez d’accord » à « plutôt d’accord » ?
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
11
Autres types de variables •
Rangs de classement – –
•
Graphes – –
•
Premier choix, réponses multiples .. Données dures à exploiter ! Par exemple réseau relationnel / sociogramme Conversion du graphe en matrice et analyse structurale
Variables textuelles – –
Texte brut ou transcription d’un entretien analyse de contenu, voir ci-après
⇒ Erreur très fréquente : collecter des données et ne pas être capable de les exploiter ensuite ! Savoir-faire : logiciels maitrisés, éviter de croire que « plus on utilise de mathématiques, meilleur c’est » Méthodologie : rigoureuse et comprise par le lecteur Temps .. et coût..(3* la durée d’un entretien pour le taper et autant pour l’analyser).
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
12
L’analyse de contenu •
Elle se fait souvent « avec sa tête » ! 1. Construire un tableau des concepts 2. Faire une carte cognitive / conceptuelle
Création d’une carte conceptuelle + Critères pour valider qu’une carte conceptuelle est bonne…. Logiciels d’aide à la fabrication de cartes conceptuelles : • FreeMind • Visual Understanding Environment (VUE) [[Guide - Réaliser une carte conceptuelle]]
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
13
Une bonne synthèse méthodologique
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
Analyse & traitement de données : fiabilité et validité
Source des images indiquées au-dessous ou en cliquant sur l’image
Diapos disponibles http://rb.ec-lille.fr
Cours distribué sous licence Creative Commons, selon les conditions suivantes :
Image : Source
[email protected] École Centrale de Lille Villeneuve d’Ascq - France
15
Validité et Fiabilité Lorsque l’on mesure une grandeur, on souhaite que les résultats soient utiles et reflètent bien les concepts qu’elle représente. À cet effet, on a deux préoccupations : – –
Le dispositif de recherche doit être valide La mesure doit être fiable
Bibliographie / sources :
Rémi BACHELET – Centrale Lille
– William D. Richards http://www.uwm.edu/People/hessling/p325/Psy325_Chap3.pdf – Bob Hessling http://www.sfu.ca/~richards/Zen/show4/ch4.html – Igalens et Roussel, « Méthodes de recherche en management », chap 10 Utilisation ou copie interdites sans citation
La Validité Suis-je proche de la vérité ? Les trois exigences de validité 1. 2. 3.
Rémi BACHELET – Centrale Lille
Validité interne Validité externe Validité de construit / concept
Utilisation ou copie interdites sans citation
Validité interne Validité interne = On a bien identifié cause et effet Autrement dit, pas d’explication rivale : les variations de la variable à expliquer sont causées uniquement par les variables explicatives
A
B
X
? ou A
Rémi BACHELET – Centrale Lille
B
Utilisation ou copie interdites sans citation
18
Qu’est-ce que la causalité ? Selon John Stuart Mill (1806-1873), trois critères permettent d’inférer la causalité : i.
La covariation, •
Cause et effet sont corrélés
ii. La précédence temporelle •
La cause précède l’effet
iii. L’élimination d’explications alternatives. •
Pas de troisième variable
Trouvez huit biais limitant la validité interne … et les moyens de les éviter (application à un questionnaire d’intention d’achat d’une population dans un centre commercial...)
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
19
Huit biais limitant la validité interne (1/2) Type
Origine
Comment l’éviter
Effet d’histoire
Des évènements extérieurs à l’étude faussent les résultats (Noël)
• Réduire la période d’étude • Examen critique de la période d’étude
Effet de maturation
Les individus ont changé pendant l’étude (réussite/échec au bac, entre ou sort du centre commercial)
• Réduire la période d’étude • Examen critique des individus
Les réponses au deuxième questionnaire sont affectées par le fait d’avoir déjà répondu (mémoire)
• Ne pas questionner deux fois les mêmes individus (?) • Éviter la mémorisation ?
Effet de test (pour une étude longitudinale/ par panel)
Effet d’instrumentation
Rémi BACHELET – Centrale Lille
Les questions utilisées pour recueillir les données sont mal formulées (mots compliqués….)
• faire valider le questionnaire par un expert • protocole normalisé •Méthode de la pensée à voix haute..
Campbell DT, Stanley JC (1966). “Experimental 20 and quasi-experimental designs Utilisation ou copie interditesfor sansresearch”. citation
Huit biais limitant la validité interne (2/2) Type Effet de régression statistique
Origine
Comment l’éviter
Présélection des individus sur la base de caractère extrêmes (les participants avec les plus mauvais résultats à un test sont inclus dans un programme de formation, ils réussissent au prochain test peu importe le programme, … parce que les probabilités d'obtenir d'aussi mauvais résultats deux fois sont faibles)
Effet de sélection
L’échantillon n’est pas représentatif de la population pertinente (les enquêteurs sont
Effet de mortalité expérimentale (pour
Des sujets disparaissent en cours d’étude (des participants abandonnent
une étude longitudinale/ par panel)
Effet de contamination
Rémi BACHELET – Centrale Lille
actifs la journée, mais plus après 20h… les PCS faisant les courses tard sont oubliées)
• Revoir la constitution de l’échantillon
• Attention au plan de collecte !
• Remplacer les sujets perdus • Trouver des moyens de garder le contact.
l’étude. Ceux qui agissent ainsi peuvent être différents de ceux qui restent)
Un individu interrogé apprend à l’avance par les autres l’objet de l’étude ou les réponses attendues
• Mener l’étude rapidement • Cacher son objectif • Prévenir la communication entre sujets
Campbell DT, Stanley JC (1966). “Experimental 21 and quasi-experimental designs Utilisation ou copie interditesfor sansresearch”. citation
Validité externe Validité externe = Les résultats sont-ils généralisables ? Autres situations : pays, époques, populations ….
Un risque : – « Overfit » : en recherche inductive, on construit une théorie à partir de données… et le modèle construit colle tellement à ces données … qu’il ne représente plus le phénomène qu’on voulait étudier au départ.… mais uniquement les données.
Une faible validité externe signifie que l’on ne peut pas généraliser, mais la recherche peut tout de même être intéressante (on a très bien étudié un terrain donné).
Toujours revenir sur la validité externe en conclusion d’une étude (« limites et perspectives »).
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
22
Validité interne et externe s’opposent-elles ?
À votre avis ? Oui, souvent car – la validité interne demande un meilleur contrôle des situations observées – la validité externe demande des situations, méthodes et terrains de collecte plus variés et ouverts
Plus on multiplie les situations, plus le contrôle qu’on peut exercer sur les biais est faible. Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
23
Validité de construit / concept Validité de construit = on mesure bien ce que l’on veut mesurer Les recherches en sciences humaines portent sur des concepts abstraits non toujours directement observables (le changement, l’autonomie, les savoirs-être... ). Les théories étudiées reposent sur ces concepts, souvent polysémiques et difficiles à définir. Il faut donc valider la relation :
Construit (définition opérationnelle du concept)
Concept abstrait
Croyance en dieu Rémi BACHELET – Centrale Lille
Dimension conséquentielle
• Faites-vous des dons à des organisations caritatives ?
Dimension Ritualiste
• Allez-vous à la messe ?
• Vous est-il arrivé de payer quelqu’un « au noir » ?
• Avez-vous fait baptiser vos enfants ? Utilisation ou copie interdites sans citation
24
Les critères de validité de concept / construit On compte jusqu’à douze moyens de l’évaluer, retenons notamment – La validité de contenu L’opérationnalisation représente le concept sous tous ses aspects
– La validité d’observation Degré auquel le concept étudié peut se réduire à des observations
– La validité de critère Degré auquel on peut affirmer que le construit opérationnalisé est corrélé au concept qu’il est sensé représenter.
– La validité de trait Degré auquel on peut affirmer que le construit opérationnalisé permet de mesurer le concept qu’il est sensé représenter.
– La validité convergente Deux mesures du concept par deux méthodes différentes sont efficaces.
– La validité discriminante Degré auquel le concept diffère d’autres concepts proches
– La validité systémique Degré auquel le concept permet l’intégration de concepts antérieurs ou de produire de nouveaux concepts
– …
C’est le type de validité le plus difficile à garantir Rémi BACHELET – Centrale Lille
Zaltman, Pinson, and Angelmar, 1973 “Metatheory and Consumer Research” Utilisation ou copie interdites sans citation
25
Évaluer la validité de construit : Matrice multitraits-multiméthodes
Campbell DT, Stanley JC (1966). “Convergent and discriminant validation by the multitrait-multimethod matrix”.
La matrice multitraits-multiméthodes synthétise la corrélation entre les mesures de différents traits par des méthodes différentes Method 1 – Experiment 1
Method 2 – Experiment 1
Method 1 – Experiment 1
=1 diagonale Method 2 – Experiment 1
monotraitmonométhode
Method 3 – Experiment 1
On peut aussi corréler les traits et méthodes avec eux-mêmes (plusieurs expériences). On évalue ainsi la reproductibilité d’une méthode …. = sa fiabilité
multitraits-multiméthodes = validité discriminante
Method 3 – Experiment 1
diagonale monotrait-multiméthodes = validité convergente
Rémi BACHELET – Centrale Lille
26 Image d’origine: http://www.acm.org/sigchi/chi97/proceedings/paper/nt-tb3.gif Utilisation ou copie interdites sans citation
La Fiabilité (reliability) La mesure est-elle régulière ? La question de la fiabilité de l’instrument de mesure
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
Qu’est-ce que la fiabilité? Les opérations de la recherche peuvent être répétées à un autre moment par un autre chercheur avec le même résultat. Si l’objet de la recherche ne change pas, une mesure parfaite donne le même résultat à chaque fois qu’elle est refaite. •
Trop de variabilité (écart-type) entre mesures = instrument pas fiable
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
28
Mesures de fiabilité en recherche quantitative Mesure lue = vraie valeur + erreur aléatoire + erreur systématique Méthodes d’estimation de la fiabilité 6. Re-retest Refaire exactement la même mesure à des moments différents.
7. Méthodes des formes alternatives Re-retest avec un test différent (alternatif) mais mesurant la même chose.
8. Mesure de la cohérence interne Pour une échelle construite à partir de plusieurs items, tester leur cohérence. Alpha de Cronbach, rho de Joreskog
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
29
Validité et Fiabilité sont ils réservés à la recherche quantitative ? Non ! Mais on ne procède pas de la même manière deux ces deux cas – Quanti => tests statistiques – Quali => prendre certaines précautions, par exemple vérifier si on conserve le même résultat en changeant d’observateur Problèmes possibles pour le qualitatif : – Critères observés ambigus – Mal former les observateurs/enquêteurs problème d’harmonisation ses données collectées – Situation trop dure à étudier
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
30
Questions ?
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
Rémi BACHELET
Enseignant-chercheur, Ecole Centrale de Lille Mon CV est disponible ici.
Mes principaux cours à Centrale Gestion de projet, sociologie des organisations, recueil, analyse et traitement de données, prévention du plagiat, module de marchés financiers, cours de qualité et méthodes de résolution de problèmes, établir des cartes conceptuelles, utiliser Wikipédia et CentraleWiki, formation au coaching pédagogique et à l'encadrement Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
Pour mémoriser ce cours, voici une carte conceptuelle, vous trouverez ici d’autres cartes heuristiques sur ce cours
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
Autres cours : 1. 2. 3. 4. 5.
Explorer ou vérifier ? Deux catégories d’approches Éventails des démarches de recueil de données Conception de questionnaires Techniques d’entretien et reformulation L'Analyse Factorielle des Correspondances pour les nuls 6. Validité et Fiabilité des données
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation
Rémi BACHELET – Centrale Lille
Utilisation ou copie interdites sans citation