Patrice Roussel Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur Powered by TCPDF (www.tcpdf.org)
Management des ressources humaines De Boeck Supérieur | « Méthodes & Recherches » 2005 | pages 245 à 276 ISBN 9782804147112 Article disponible en ligne à l'adresse : -------------------------------------------------------------------------------------------------------------------http://www.cairn.info/management-des-ressourceshumaines--9782804147112-page-245.htm -------------------------------------------------------------------------------------------------------------------Pour citer cet article : -------------------------------------------------------------------------------------------------------------------Patrice Roussel, « Chapitre 9. Méthodes de développement d'échelles pour questionnaires d'enquête », Management des ressources humaines, De Boeck Supérieur « Méthodes & Recherches », 2005 (), p. 245-276. --------------------------------------------------------------------------------------------------------------------
Distribution électronique Cairn.info pour De Boeck Supérieur. © De Boeck Supérieur. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
CHAPITRE 9. MÉTHODES DE DÉVELOPPEMENT D'ÉCHELLES POUR QUESTIONNAIRES D'ENQUÊTE
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Méthodes de développement d’échelles pour questionnaires d’enquête Patrice ROUSSEL 1
Sommaire 1 Le paradigme de Churchill : une méthode classique de développement d’échelles de questionnaire
247
2 Application de la démarche de développement d’échelle pour questionnaire
3 Conclusion
262 273
1 L’auteur remercie Saïd Jmel et Stéphane Vautier pour leurs nombreux commentaires et conseils contribuant à la réalisation de ce chapitre.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Chapitre 9
Méthodes de développement d’échelles pour questionnaires d’enquête
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Les sciences de gestion couvrent des domaines de recherche très variés. Néanmoins, un point commun aux questions de recherche traitées en gestion des ressources humaines, marketing, management stratégique, finance, contrôle de gestion, etc., est d’étudier régulièrement des phénomènes non directement observables. Des concepts tels que la motivation, la satisfaction, l’implication, etc., désignent des phénomènes hypothétiques, supposés influencer l’activité sociale des individus : des salariés à l’égard de leur organisation, des consommateurs à l’égard de produits ou de marques, d’actionnaires à l’égard de dirigeants. Ces concepts sont développés dans le cadre de théories et décrits dans des modèles d’analyse. Cette caractéristique des phénomènes étudiés non observables dans les sciences de gestion, est également un point commun aux autres domaines de recherche des sciences sociales, des sciences humaines ou encore des sciences de la vie. La mesure de phénomènes non directement observables peut poser à l’évidence de nombreuses questions méthodologiques. Comment « mesurer un concept » ? Avec quelle précision ? Est-on certain de ne pas mesurer autre chose ? Pour répondre à ces questions, des méthodologues comme Likert, Thurstone, Guttman ont dans les années 1930 développé des techniques de mesure de concepts attitudinaux et plus largement ont contribué à l’essor de la psychométrie. Leurs travaux ont profondément influencé la méthodologie de la recherche en améliorant les techniques de développement d’échelles de questionnaires. Destinées à recueillir des données non directement observables, elles permettent d’interroger les personnes directement concernées par le domaine étudié. Un chercheur important des années 1940, 1950 est actuellement redécouvert. Il s’agit de Paul Lazarsfeld qui a réalisé plusieurs travaux au cours de cette période sur la notion de variable latente. Psychologue social et mathématicien américain d’origine autrichienne, Paul Lazarsfeld introduit le concept méthodologique de structures latentes pour décrire ou modéliser des concepts. Cet apport est fondamental puisque dans les sciences humaines et sociales, les concepts sont difficiles à observer et nécessitent de poser des hypothèses quant à la définition de leurs caractéristiques. Partant d’une définition théorique, il est possible de caractériser le phénomène étudié. Par exemple, le concept d’attitude défini par Ajzen et Fishbein (1977) distingue trois caractéristiques difficilement observables : les dimensions cognitives, affectives et normatives. Dès lors, la notion de variable latente est-elle utilisée pour désigner la variable conceptuelle que l’on cherche à mesurer. Elle correspond à un construit pour lequel on ne dispose pas de mesures directes. Cette difficulté de la mesure nécessite de recourir à des variables manifestes appelées aussi variables observables ou encore indicateurs. Ces indicateurs sont présumés fortement reliés à la variable latente et permettent alors de mesurer et d’analyser les différentes facettes du concept étudié (Lazarsfeld, 1950). Ces indicateurs peuvent être, dans l’exemple du concept de motivation, le degré d’effort consenti pour telle ou telle réalisation (travail, achat), sa variabilité dans le temps, ses liens perçus avec les performances réalisées et des résultats obtenus (récompenses, reconnaissance, etc.). Les indicateurs des variables latentes sont supposés être les manifestations les plus concrètes du concept. Ce sont eux que les chercheurs tentent de mesurer en construisant des instruments de type échelle d’attitudes. Ainsi, le chapitre va-t-il être consacré aux méthodes de développement d’instruments de mesure de variables latentes. Il va dans un premier temps rappeler les
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
246
Le paradigme de Churchill
247
1. Le paradigme de Churchill : une méthode classique de développement d’échelles de questionnaire Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Churchill présente en 1979 une démarche méthodologique conçue pour développer des questionnaires constitués d’échelles multiples d’attitudes. Ses recherches se situent en marketing mais s’appuient sur les travaux de psychométrie. Nous en présentons les enjeux et les fondements dans un premier temps. Puis, la méthode sera exposée avec une mise à jour des techniques utilisées.
1.1
ENJEUX ET FONDEMENTS
Churchill (1979) propose une méthode qu’il qualifie de paradigme méthodologique pour développer des échelles d’attitudes pour questionnaire d’enquête. L’enjeu de la méthode est, d’une part, d’anticiper et de réduire les biais que pourraient engendrer un effet d’instrumentation 2 (effets de halo, de désidérabilité sociale, de contamination, de polarisation des réponses), d’autre part, de vérifier la validité interne d’une recherche. Cette qualité est satisfaite lorsque l’on a l’assurance que les variations des variables explicatives sont les seules à provoquer les variations de variables à expliquer. Ce test se concentre sur l’évaluation de la fiabilité de cohérence interne de l’instrument de mesure (quel que soit le contexte, le répondant donnera des réponses similaires aux items représentant une même variable conceptuelle), sur celle de la validité convergente (les items représentant les différentes facettes d’une variable conceptuelle sont corrélées), sur celle de la validité discriminante (les items représentant une variable conceptuelle permettent d’en donner une mesure clairement distincte de celles d’autres variables conceptuelles). La démarche méthodologique de Churchill trouve ses fondements dans les travaux de psychométrie traitant de la théorie de la mesure (Ghiselli, 1964 3 ; Nunnally, 1967) qui étudie le modèle de la vraie valeur (Evrard et al., 1993, pp. 277-278) : M = V + Es + Ea Mesure obtenue = Vraie Valeur + Erreur systématique + Erreur aléatoire Un instrument de mesure doit tendre vers une mesure parfaite du phénomène étudié, ce que l’on appelle la vraie valeur. Aussi, la méthodologie développée par Churchill vise-t-elle à réduire deux types d’erreur de mesure qui sont susceptibles de susciter les biais d’effets d’instrumentation et l’absence de validité. Elle prend appui sur le modèle de la vraie valeur pour distinguer l’erreur systématique de l’erreur aléa2 3
Cf. Igalens J. et Roussel P. (1998). E.E. Ghiselli (1964), Theory of psychological measurement, NY, McGraw-Hill.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
approches classiques. Elles vont être discutées afin d’en analyser les qualités et limites. Ce travail critique permettra de proposer de nouvelles approches mieux adaptées aux conditions de recherche contemporaines. La seconde partie de ce chapitre proposera un exemple mettant en application les nouvelles approches ayant notamment recours aux méthodes d’équations structurelles.
Méthodes de développement d’échelles pour questionnaires d’enquête
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
toire. La première phase de la méthodologie est qualifiée d’exploratoire. Elle est destinée à la réduction de l’erreur aléatoire. Celle-ci provient de l’exposition de l’instrument de mesure à des « aléas tels que les circonstances, l’humeur des personnes interrogées… » (Evrard et al., 1993, p. 278). Son objectif est de limiter les réponses perturbées par des effets notamment de polarisation, de halo, de contamination, etc. La seconde phase de la méthodologie est qualifiée de phase de validation. Elle est destinée à la réduction de l’erreur aléatoire, renforçant le travail effectué lors de la phase exploratoire, et à celle de l’erreur systématique, c’est-à-dire aux biais générés par la conception même de l’instrument. L’erreur systématique provient généralement d’une définition non pertinente ou insuffisante des variables conceptuelles et d’une mauvaise représentation par les items de l’échelle. Dans la figure 9.1 qui représente le paradigme de Churchill, la phase exploratoire correspond aux quatre premières étapes de la démarche alors que la phase de validation regroupe les quatre suivantes. Allant plus loin dans l’analyse du modèle de la vraie valeur, Roehrich (1993) se réfère à la théorie de l’erreur de mesure de Campbell et O’Connell (1967) 4. Celle-ci suggère qu’une échelle de mesure qui satisferait aux conditions de validités convergente et discriminante, devrait être moins exposée aux risques d’erreurs systématique et aléatoire. Elle traite également des problèmes de biais générés par l’instrument de mesure et des erreurs de représentation des variables conceptuelles qui s’en suivent. En effet, malgré les faiblesses d’une échelle de mesure, des résultats sont parfois interprétés, allant dans le sens soit de la vérification, soit de la falsification des hypothèses de la recherche. Or dans ce cas, les résultats trouvés ne sont pas valides et sont le fruit d’une interaction appelée « construit-méthode ». Kalleberg et Kluegel (1975) 5 ont montré que l’analyse des corrélations entre les construits n’était pas suffisante pour estimer les qualités de validité interne d’une échelle de mesure (validités convergente et discriminante). Notamment, ils observent que l’analyse des corrélations ne permet pas de savoir si les résultats obtenus par questionnaire sont influencés par la méthode utilisée (instrument, méthode d’enquête, etc.). En revanche, ils montrent que les méthodes d’analyse factorielle permettent de mieux isoler les sources de variance des résultats. Elle permet également d’examiner si les différentes échelles d’un questionnaire ont la capacité de discriminer plusieurs construits, c’està-dire de les identifier clairement. Ces travaux suggèrent ainsi de généraliser les techniques d’analyse factorielle dans les processus de tests d’échelles pour questionnaires d’enquêtes.
1.2
MISE EN ŒUVRE ET ACTUALISATION DU PARADIGME DE CHURCHILL
La démarche méthodologique de Churchill distingue deux grandes phases, en l’occurrence la phase exploratoire et celle de validation. Elles vont permettre de structurer la présentation des huit étapes de la démarche méthodologique. Ce cadre n’est pas rigide, il est suffisamment souple pour accepter des aménagements et l’introduction de nouvelles avancées tant en matière méthodologique que de techniques d’analyse de données. L’actualisation du paradigme de Churchill (1979) s’appuie sur deux 4 5
in Roehrich (1993). in Roehrich (1993).
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
248
Le paradigme de Churchill
249
Coefficients ou techniques recommandées
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Spécifier le domaine du construit
2.
Générer un échantillon d'items
3.
Collecte de données
4.
Purifier l'instrument de mesure
5.
Collecte de données
6.
Estimer la fiabilité
Coefficient alpha Fiabilité des deux moitiés
7.
Estimer la validité
Matrice MultiTraits-MultiMéthodes Critère de validité
8.
Développer des normes
Moyenne et autres statistiques résumant la distribution des scores
Revue de littérature Expérience - enquête Exemples types Incidents critiques Entretiens de groupes Coefficient alpha Analyse factorielle
Source : G.A. Churchill, 1979, p. 64 FIGURE 9.1 – Démarche méthodologique pour développer des échelles de mesure
états de l’art traitant des techniques d’enquête et du traitement des données collectées par questionnaire (Hinkin, 1998 ; Igalens et Roussel, 1998). Les huit étapes de la démarche méthodologique ne sont pas parfaitement séquentielles. Elles doivent être abordées comme des séquences itératives (Parasuraman et al., 1990). En effet, la démarche prévoit des aller et retour entre différentes phases, permettant des réajustements dans les choix théoriques et méthodologiques qui sont faits. L’enjeu est de mieux progresser au cours des étapes suivantes. Il est également possible d’utiliser des techniques et des outils méthodologiques initialement prévus dans une étape, dans une autre, afin de gagner en efficacité dans le développement de l’échelle de mesure. Enfin, cette démarche méthodologique a la capacité d’aider le chercheur ou l’expert dans la conduite de sa recherche ou de son étude. Elle définit les phases qu’il devra suivre pour mettre en place son dispositif expérimental.
1.2.1 Les quatre étapes de la phase exploratoire La phase exploratoire regroupe les étapes de découverte du domaine étudié, de construction d’une échelle de mesure et de tests de validités de contenu et de construit.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Revue de littérature
1.
250
Méthodes de développement d’échelles pour questionnaires d’enquête
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
La première étape du Paradigme de Churchill est consacrée à la définition du construit. Méthodologiquement on peut s’appuyer sur les recommandations de Wallace (1983) et utiliser une ou plusieurs des trois approches possibles qu’il a identifiées. En premier lieu, la réalisation d’un design exploratoire consiste à effectuer une revue de littérature exhaustive et actualisée afin de se familiariser avec le concept et d’en maîtriser les définitions et les caractéristiques. En second lieu, la réalisation d’études de cas permet de confronter les connaissances théoriques aux observations du terrain. Les méthodes d’entretien peuvent être largement mobilisées pour apprécier la pertinence des modèles théoriques et leurs insuffisances (capacité des concepts à appréhender les phénomènes étudiés, définitions adaptées). En vue de l’élaboration d’un questionnaire, cette phase permet également de mieux cerner le type de langage qui est employé sur le terrain par les participants potentiels à une enquête. La rédaction des items en sera ainsi facilitée. Enfin, la conception d’un design taxinomique a pour but de classer les courants théoriques qui ont étudié le phénomène analysé. Ce travail permet de comparer les apports et les limites de chacun d’eux et leur pertinence au regard du thème étudié. Puis, on s’inscrit dans l’un d’eux en justifiant ce choix pour élaborer un modèle théorique approprié à la définition du concept, ou encore, on peut associer plusieurs d’entre eux afin d’élaborer un modèle intégré. Ces différentes techniques conduiront à proposer une définition précise, rigoureuse et pertinente du concept, en mettant en exergue ses différentes caractéristiques ou facettes.
B. GÉNÉRER UN ÉCHANTILLON D’ITEMS Cette deuxième étape est consacrée à l’élaboration de l’échelle de mesure du concept et au test de validité de contenu. Le principe consiste à générer le plus grand nombre possible d’énoncés aptes à saisir les différentes caractéristiques du concept. Deux approches peuvent être envisagées : déductive ou inductive. Le choix dépend du résultat obtenu lors de la précédente étape.
Approche déductive Lorsque les travaux théoriques procurent assez de connaissances sur le phénomène étudié et posent des bases théoriques intellectuellement cohérentes et empiriquement pertinentes (en fonction des entretiens et études de cas réalisés précédemment, ou des travaux publiés dans les revues scientifiques), l’approche déductive est souhaitable. Dans ce cas, la définition du concept et de ses caractéristiques va guider la création des items. La phase de génération des items doit également s’appuyer sur une revue de littérature exhaustive des échelles créées pour mesurer le concept étudié. Le but est d’identifier toutes les échelles qui ont été construites et testées par d’autres chercheurs, puis de procéder à une analyse comparative afin de s’en inspirer ou de s’en écarter dans la rédaction des énoncés.
Approche inductive Inversement, lorsque les fondements théoriques sont insuffisants et ne procurent ni une bonne compréhension du phénomène étudié, ni une définition précise des facettes du concept, l’approche inductive est souhaitable. Dans ce cas, il est néces-
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
A. SPÉCIFIER LE DOMAINE DU CONSTRUIT
251
saire d’interroger des répondants appartenant à la population concernée par le phénomène étudié (salariés, représentants syndicaux, responsables et consultants en ressources humaines pour un thème en GRH). Les techniques d’enquête qualitatives sont utilisées afin de demander aux répondants de décrire leurs sentiments à l’égard du domaine étudié (l’organisation du travail, les comportements organisationnels). Les entretiens sont retranscrits verbatim et traités par analyse de contenu basée sur les mots clés ou les thèmes principaux (cf. partie sur les méthodes qualitatives). Parfois, la technique du Q-Sort est utilisée (cf. chapitre 7). Quelle que soit la technique de collecte et de traitement des données choisie, les réponses sont regroupées en catégories et des items sont générés pour en donner une représentation. Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Rédaction des items Quelques recommandations classiques sont reprises. La rédaction des énoncés doit être simple et aussi courte que possible. Le langage adopté doit être familier aux répondants de l’échantillon cible. Il faut générer un maximum d’items cohérents avec les différentes facettes du concept étudié. Il faut écarter ceux qui mesurent autre chose que des attitudes, des intentions ou des comportements, comme des opinions ou des affects généraux. Chaque énoncé doit traiter d’un seul problème. Il faut donc écarter les items ayant une double idée, et éviter l’usage de « et », « ou », « de plus », etc. Il est prudent d’éviter les items traitant d’idées « vedettes » pouvant entraîner des biais de désidérabilité sociale et peu de variance dans les réponses. Les items représentant une même facette du concept doivent être rédigés différemment afin d’éviter les réponses similaires et l’absence de variance ou encore l’augmentation artificielle des indices de fiabilité de cohérence interne. Par ailleurs l’introduction de quelques items inversés ou négatifs, dispersés aléatoirement dans le questionnaire peut être faite de façon parcimonieuse, en prenant soin d’éviter les problèmes d’interprétation des énoncés.
Les formats des modalités de réponse Il s’agit de définir le type de modalités de réponse et le nombre d’échelons de l’échelle (ou degrés), c’est-à-dire le nombre de possibilités de réponses données aux répondants. Deux types de modalités de réponses sont le plus souvent utilisés. Le premier est l’échelle de Likert qui propose généralement 5 ou 7 modalités de réponse sur un continuum allant de « Tout à fait en désaccord » à « Tout à fait d’accord ». Le second est l’échelle d’intervalle à support sémantique qui propose de 4 à 9 échelons. Les supports sémantiques utilisés sur ces continuums sont très variés et sont choisis au cas par cas (échelle ad hoc). À titre d’exemple, on rencontre des échelles à modalités de réponse du type « Jamais » à « Toujours », ou « Extrêmement mauvais » à « Excellent », « Beaucoup diminué » à « Beaucoup augmenté », etc. Le choix de ces modalités de réponse exige généralement de rédiger les items sous forme affirmative, et non, interrogative. Cette technique permet au répondant de se situer par rapport à une affirmation au lieu d’être interrogé frontalement par rapport à ses choix personnels. Ainsi, le choix du format de modalités de réponse va-t-il influencer la rédaction des items. De nombreux débats ont eut lieu sur le nombre optimal d’échelons (degrés) qu’il fallait adopter pour une échelle ; 5, 7 ou 9 étant les plus souvent discutés.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Le paradigme de Churchill
Méthodes de développement d’échelles pour questionnaires d’enquête
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
L’échelle de Likert 6 optait initialement pour 5 échelons avec un point neutre sur le continuum intitulé « ni d’accord, ni pas d’accord ». Il est devenu ultérieurement « indécis » ou « ni d’accord, ni en désaccord ». La question du nombre d’échelons est d’importance car plus le nombre augmente, plus la variance des réponses peut être importante et par conséquent, plus l’échelle peut se rapprocher des qualités des échelles d’intervalle, c’est-à-dire, des échelles permettant de représenter des variables métriques 7. En contrepartie, l’augmentation du nombre d’échelons conduit à solliciter davantage les capacités cognitives, d’endurance et de concentration des répondants. Les biais d’effets de halo, de mortalité expérimentale ou l’importance des non-réponses peuvent être accentués. Il n’existe donc pas de solutions idéales. Une approche pragmatique consisterait à recommander des échelles en 5 points lorsque les questionnaires sont longs (plus de 60 items à titre indicatif), et en 7 ou 9 points dans le cas inverse.
Le nombre d’items dans l’échelle Une préoccupation du concepteur de l’échelle est à cet instant de connaître le nombre optimal d’items à retenir. Il existe des recommandations empiriques qui peuvent l’aider : ■
■
■
La longueur totale d’un questionnaire : l’échelle construite pour mesurer un concept va être probablement introduite dans un questionnaire plus vaste où plusieurs variables vont être étudiées simultanément. Au-delà de 100 items, un questionnaire devient lourd à administrer et s’expose davantage aux risques de biais (effets de halo, de contamination, de polarisation des réponses, données manquantes). Dans ce cas, une échelle composée de 60 ou de 80 énoncés destinée à mesurer un seul concept risquerait d’être beaucoup trop longue et détériorerait la mesure des autres variables. Le nombre de dimensions du concept : si la définition du concept conduit à en identifier plusieurs, l’échelle devra comporter autant de sous échelles que de dimensions ; celles-ci devant correspondre aux caractéristiques principales déterminées de façon théorique ou empirique. Le nombre d’items par dimension du concept : à chaque dimension du concept doit correspondre une sous échelle et à chacune d’elle un certain nombre d’items. Ce nombre dépendra de deux facteurs. Premièrement, la complexité de chaque dimension du concept impliquera de multiplier les énoncés pour bien la représenter. Deuxièmement, des techniques d’analyse de données telles que la fiabilité de cohérence interne avec l’alpha de Cronbach s’avèrent plus efficaces lorsque le nombre d’énoncés s’accroît. La stratégie consiste alors à générer environ 6 à 8 items par dimension du concept à ce stade de la phase exploratoire. Nous verrons que pendant les autres étapes, des items vont être proba-
6 Likert, R. (1932). A technique for the measurement of attitudes. Archives of Pyschology, vol. 140, p. 1-55. 7 Les échelles de type Likert et supports sémantiques sont de type ordinal. Elles mesurent par conséquent des variables non métriques. Néanmoins, il est accepté dans l’analyse de données en sciences sociales de les traiter comme des échelles d’intervalle et des variables métriques. Par ailleurs, les méthodes adaptées au traitement de données ordinales exigent de très grands échantillons rarement réunis dans les recherches du domaine (cf. méthode WLS dans Lisrel, Roussel et al., 2002).
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
252
253
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
blement éliminés avec les tests de Cronbach, mais également avec l’analyse factorielle. Il est recommandé empiriquement de retenir in fine quatre à cinq énoncés minimum dans chaque sous échelle. Techniquement et mathématiquement, des sous échelles à un, deux ou trois items sont défendables, mais au risque d’avoir de faibles niveaux de cohérence interne et une mauvaise structure factorielle. Néanmoins, si l’utilisateur de l’échelle envisage d’effectuer des traitements statistiques avec des méthodes d’équations structurelles et une technique d’agrégation d’items (Parceling, cf. chapitre suivant), il sera alors souhaitable de sélectionner in fine 6 items par facette du concept. Cela facilitera la construction des indicateurs dont les qualités métriques devraient être satisfaisantes. Par conséquent, dans cette perspective, il est souhaitable de générer 10 à 12 items dans la phase exploratoire. Certains de ces items seront éliminés au cours du test de validité de contenu, puis de validité de construit.
Évaluation de la validité de contenu Ce test consiste à éliminer les items conceptuellement incohérents avec les définitions retenues des construits. Il nécessite de recourir au jugement des auteurs et des évaluateurs de l’échelle en cours de construction. Un premier tri peut être opéré à l’issue d’échanges avec des pairs, tels que des collègues travaillant sur le domaine étudié ou rompu à l’exercice de la rédaction d’énoncés de questionnaires. Puis, il est nécessaire de faire appel à différentes techniques d’entretien pour tester le niveau de compréhension des questions : entretiens de groupes, entretiens individuels directifs ou semi-directifs, etc. Il est alors vérifié le degré de compréhension des items, de représentativité du phénomène étudié, de cohérence avec les définitions retenues du concept. Le travail le plus complexe est alors de résoudre l’équation :pertinence de l’item pour représenter le concept, et, facilité de compréhension par les participants potentiels à l’enquête. En dépendront alors le taux de retour des questionnaires et la réduction des biais (effets de halo, de contamination, etc.). Au cours de cette phase, un premier travail de condensation de l’échelle débute. Le test de validité de contenu conduit à éliminer les items les moins bien rédigés, les moins représentatifs de la définition du concept, les plus ambiguës, et les plus redondants. Le but recherché est d’optimiser le taux de réponse tout en conservant une excellente mesure du construit. Au cours de cette phase, au moins deux pré-enquêtes doivent être conduites par techniques d’entretien. La première est réalisée auprès des pairs et des experts, la seconde auprès d’un échantillon test de la population qui est l’objet de l’étude. Dans les deux cas, il est généralement conseillé de réunir des échantillons de 10 à 30 personnes. Le questionnaire est soumis en face à face afin d’observer le comportement du répondant à chaque question. Toute gêne observée doit pousser l’enquêteur à interroger le participant sur l’item concerné. Il est possible d’arrêter la série d’entretiens avant même de réunir 10 personnes lorsque l’on observe un effet de saturation. Il se produit lorsque toutes les critiques émises par les participants reviennent régulièrement au fur et à mesure des entretiens. Si le chercheur a la conviction de ne plus progresser dans l’amélioration de son échelle, il peut passer à l’étape suivante.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Le paradigme de Churchill
254
Méthodes de développement d’échelles pour questionnaires d’enquête
C. LA COLLECTE DE DONNÉES
Le mode d’administration du questionnaire Cinq méthodes sont distinguées pour réaliser l’administration d’un questionnaire, en l’occurrence l’enquête : en face à face, auto-administrée en contact direct, par voie postale, par téléphone, ou par internet. Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
■
L’enquête en face à face peut être très efficace au regard du critère du taux de réponse. En revanche, pour réunir un large échantillon, il est nécessaire soit d’étaler dans le temps la réalisation des entretiens, au risque de subir des biais d’effet d’histoire (modification du contexte de la population étudiée), soit de travailler avec un groupe d’enquêteurs. Cette seconde solution exige de former une équipe d’enquêteurs à des techniques de passation du questionnaire identiques et au même niveau de rigueur afin de créer des conditions d’administration du questionnaire les plus homogènes possibles.
■
Le questionnaire auto-administré en contact direct permet de limiter l’équipe d’enquêteurs et son influence sur la passation des échelles. L’organisation logistique en est facilitée et son coût réduit. Dans ce cas, le formulaire d’enquête est remis directement aux participants. Une explication est donnée oralement sur les objectifs de l’enquête, son intérêt et sur la méthode de remplissage du formulaire. Les participants remplissent le questionnaire de façon autonome. Cette solution permet à l’enquêteur de rencontrer des groupes de participants et de leur proposer un rendez-vous pour recueillir les formulaires remplis, ainsi que leur impression d’ensemble. En GRH, ce mode d’administration est utile pour rencontrer des salariés en formation continue, ou lors de réunions de groupes de projet.
■
L’enquête par voie postale est une méthode couramment pratiquée dans les sciences de gestion où l’on dispose de fichiers d’entreprises, de dirigeants, de salariés ou de consommateurs. Elle exige une infrastructure logistique importante : adresse d’expédition incitatrice et transparente, moyens matériels et humains pour gérer une enquête postale, moyens financiers pour supporter les frais d’envois, de relances (par téléphone ou par courrier) et d’expédition du rapport d’enquête aux participants demandeurs. Enfin, il faut acquérir un fichier d’adresses actualisé, « propre » et en adéquation avec la population étudiée.
■
Les enquêtes par téléphone ne sont pas extrêmement répandues en gestion des ressources humaines, mais sont beaucoup plus fréquentes en marketing. Des études sur la satisfaction à l’égard de la rémunération (Berkowitz et al., 1987) et sur l’impact de la culture organisationnelle sur l’implication (Dubost et al., 2000) sont quelques exemples récents. Néanmoins, la difficulté d’obtenir des réponses fiables, de passer des échelles d’attitudes à cinq ou sept modalités de réponse et son coût financier sont des freins à l’usage de cette technique d’enquête.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
La collecte de données pose des questions ayant trait aux choix de la technique d’enquête, de la taille de l’échantillon pour tester le questionnaire, et du terrain d’enquête.
■
255
Enfin, les enquêtes par internet se développent actuellement. L’une des premières expériences françaises en GRH a été conduite par Cerdin (1996) qui étudiait les salariés expatriés. Malgré l’aspect séduisant du support et son potentiel immense pour contacter des participants, il faut être conscient des difficultés logistiques et humaines inhérentes. Elles sont multiples : qualité du fichier d’adresses courriel, identification du site internet organisateur par les internautes, motivation des internautes, sélection des participants, représentativité de cet échantillon et adéquation avec le sujet d’étude, coût d’acquisition d’un logiciel de saisie automatique des réponses, etc.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
La taille d’échantillon La question de la taille d’échantillon fait partie intégrante de la réflexion sur le choix d’une technique d’enquête. Les techniques statistiques d’échantillonnage sont connues et souvent présentées dans les ouvrages de méthodes de recherche (ex. Evrard et al., 1993). Cependant l’observation des recherches empiriques montre un décalage entre les recommandations et la pratique. L’application des techniques les plus rigoureuses (sondages aléatoires, méthode des quotas) est finalement assez rare dans certains domaines des sciences de gestion. Le plus souvent, les recherches s’appuient sur des échantillons de convenance où le chercheur contacte toutes les personnes qui lui sont accessibles dans la mesure où elles correspondent à la définition précise de la population étudiée et permettent de créer un échantillon homogène au regard de critères clés (ex. salariés du public versus du privé, de PME versus de grandes entreprises, de secteurs d’activité comparables, etc.). Les recherches publiées dans les revues scientifiques n’échappent pas à cette observation. Même lorsque les échantillons sont très importants, de 1000 ou 3000 personnes, voire davantage, la représentativité n’est par garantie. Un « pari » est finalement pris sur la qualité de l’échantillon et des données collectées. Néanmoins une décision doit être prise pour réaliser l’enquête. Elle dépend bien souvent du choix des techniques d’analyse des données choisies pour effectuer les tests des échelles. Dans le paradigme de Churchill, c’est l’analyse factorielle (AF) qui jouit de cette influence. Les pratiques observées par Igalens et Roussel (1998) montrent qu’il existe des marges de manœuvre selon la rigueur que l’enquêteur s’impose. La taille de l’échantillon doit réunir de 5 à 10 fois plus d’individus qu’il n’y a d’items soumis à une même analyse factorielle. Pour être précis, il faut considérer l’échelle du questionnaire qui est composée du plus grand nombre d’items. Par exemple, si un questionnaire de 100 items réunit des échelles de motivation, d’implication et de perception de la culture d’entreprise, il n’y a probablement pas de raisons théoriques de les traiter toutes simultanément. Si l’échelle la plus importante est celle de la culture d’entreprise avec 54 items par exemple, la taille de l’échantillon variera entre : 5 x 54 et 10 x 54, soit entre 270 et 540 individus. Pedhazur et Pedhazur Schmelkin (1991) signalent des recherches empiriques qui se sont contentées d’échantillons de 150 personnes pour des analyses factorielles sur 40 items. Il est nécessaire de prendre du recul par rapport à ces préconisations normatives. En effet, un échantillon de 150 individus est exceptionnel lorsqu’il s’agit d’enquêter sur les présidents directeurs généraux des 500 premières entreprises françaises. Il sera probablement bon si le test porte sur une population homogène : les agents de maîtrise
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Le paradigme de Churchill
256
Méthodes de développement d’échelles pour questionnaires d’enquête
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Enfin, l’usage de plus en plus répandu de l’analyse factorielle confirmatoire (AFC) 8 conduit à réunir des échantillons d’au moins 200 individus. Cette norme devrait être adoptée si l’utilisation de cette méthode d’équations structurelles est envisagée dans la phase de validation. Néanmoins, pour traiter des échantillons d’une population de faible importance, par exemple les responsables de ressources humaines des banques généralistes françaises, cette norme pourrait devenir une contrainte. Il existe alors des techniques du type test de Bootstrap (cf. chapitre de F. Durrieu et P. Valette-Florence) qui permettent de traiter de petits échantillons d’environ 80 individus. Ce cas de figure doit néanmoins répondre à une situation particulière : la faible importance de la population étudiée.
D. PURIFIER L’INSTRUMENT DE MESURE La phase exploratoire de développement d’une échelle se termine, dans le paradigme de Churchill, par la purification de l’instrument de mesure (Figure 9.2). Elle est réalisée selon une démarche par itérations qui vise à condenser les échelles du questionnaire par élimination des items qui en réduisent les qualités métriques. La procédure dite d’épuration a alors pour finalité de réduire l’erreur aléatoire de la mesure des variables conceptuelles étudiées. La première itération consiste à soumettre une échelle de questionnaire successivement aux tests de fiabilité de cohérence interne et de validité de construit. Le premier est effectué à l’aide du coefficient alpha de Cronbach, le second avec l’analyse factorielle, souvent de type « analyse en composantes principales » (ACP). Selon les résultats obtenus, des items peuvent être éliminés. Il s’ensuit alors une seconde itération sur l’échelle modifiée après le retrait d’items. Les mêmes traitements statistiques sont effectués au cours d’une deuxième itération voire d’une troisième et parfois davantage. L’objectif vise à établir les qualités métriques des échelles en termes de fiabilité de cohérence interne et de validité de construit. Seuls sont conservés les items contribuant à un niveau satisfaisant de fiabilité de cohérence interne de l’échelle (alpha supérieur à 0,70) et de validité de construit (échelle satisfaisant aux tests de validité convergente et discriminante) 9.
Analyse critique de la démarche de Churchill La démarche de Churchill présente plusieurs aspects qui ont été remis en cause ultérieurement, au point qu’aujourd’hui on peut rencontrer plusieurs approches alternatives. En premier lieu, la démarche initiale de Churchill suppose que l’on ait une très bonne maîtrise de la théorie qui sous-tend l’échelle développée. Le concept est bien analysé et défini. Ses caractéristiques semblent parfaitement connues d’un point de vue théorique. Il s’agit alors de vérifier si elles sont correctement capturées par 8 Par opposition, les analyses factorielles (en axes principaux, en composantes principales, par maximum de vraisemblance) utilisées dans les phases initiales d’une recherche sont appelées Analyses Factorielles Exploratoires (AFE). 9 Pour des exemples d’application, voir Parasuraman et al. (1990) et Roussel (1996).
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
des grandes entreprises du secteur automobile. Il sera probablement critiqué pour une population hétérogène de non cadres des secteurs de l’industrie.
Le paradigme de Churchill
257
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
1re étape : test de fiabilité de cohérence interne de Cronbach
élimination d’items en cas de faible niveau du coefficient alpha de Cronbach
2e étape : analyse de la structure factorielle par analyse factorielle exploratoire
élimination d’items en cas de structure factorielle et de validité de construit médiocres
FIGURE 9.2 – Les itérations dans l’approche initiale de Churchill
l’échelle développée. Dans ce cas, la démarche est purement hypothéticodéductive. Le concepteur de l’échelle souhaite vérifier la qualité de fiabilité de cohérence interne de l’instrument et ses hypothèses quant à la structure factorielle du construit. L’analyse factorielle est donc mise en œuvre dans un second temps, après le test de fiabilité de Cronbach. Elle est destinée à vérifier que les dimensions du concept sont clairement identifiées par des facteurs communs bien distincts répondant aux critères de validités convergente et discriminante. Or, de nombreuses recherches sont confrontées à l’incertitude quant aux fondements théoriques d’un modèle d’analyse et aux caractéristiques d’un concept à mesurer. D’autres ne parviennent pas à identifier les structures factorielles de concepts observées par les auteurs de recherches antérieures sur le même domaine, mais souvent testées sur des échantillons très différents. L’analyse factorielle exploratoire est finalement devenue progressivement la technique mobilisée dans les premières phases du traitement des données. Le test de Cronbach intervient alors dans un second temps. Cette inversion apparaît souvent nécessaire et s’accommode fort bien de la démarche de Churchill. En second lieu, la critique porte sur la démarche qui est utilisée pour établir des scores individuels sur une échelle d’un concept. La vérification de l’homogénéité de l’échelle par des tests de fiabilité de cohérence interne et de la validité de construit, donne la possibilité d’établir des scores individuels. Ils se calculent en faisant la somme totale ou la moyenne des réponses d’une personne aux items de l’échelle. Le calcul d’un score dépend par conséquent de la technique d’agrégation d’items qui est choisie. Ce score est calculé au niveau soit de l’échelle globale, soit de chaque dimension du concept. L’objectif consiste dans ce cas à créer une information de nature statistique pour effectuer des tests mettant en relation ce concept avec d’autres. À titre d’exemple, si l’on teste une échelle d’implication de Allen et Meyer (1991) avec ses trois dimensions conceptuelles (implications normative, continue-calculée, affective), il devient possible, pour chaque individu d’un échantillon, de calculer son score sur chacune des sous échelles. Dans une analyse de plus grande ampleur, ces scores permettent de confronter, à l’aide d’analyses de régression, le concept d’implication et
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Itérations successives jusqu’à la réalisation de tests de fiabilité et de validité de construit satisfaisants
258
Méthodes de développement d’échelles pour questionnaires d’enquête
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Une autre critique porte sur l’utilisation courante de l’analyse en composantes principales (ACP) par les utilisateurs de ce type de démarche méthodologique, en lieu et place de l’analyse factorielle (en facteurs communs et uniques). L’ACP est utilisée comme une approximation de l’analyse factorielle. Cependant, les résultats de cette analyse permettent d’extraire uniquement des groupes de variables et non des facteurs latents, en raison de plusieurs limites inhérentes à cette technique (Falissard, 1999). En effet, les variables traitées (items d’un questionnaire) sont considérées comme des variables manifestes. Elles sont considérées comme directement et entièrement observables car l’ACP ne calcule pas d’estimation d’erreurs de mesure. En conséquence, cette technique, d’une part, sur-évalue les saturations (contributions factorielles) et les communautés (variance expliquée des variables par les facteurs communs), d’autre part, sous-évalue les corrélations entre les facteurs (Fabrigar et al., 1999). Ce dernier point est d’importance car lorsqu’une rotation orthogonale est effectuée avec l’ACP, la rotation varimax étant la plus courante, les composantes principales ne sont généralement pas indépendantes (Falissard, 1999 ; Joliffe, 2002). De nombreuses études récentes dans les domaines de la statistique et de l’analyse des données encouragent à utiliser exclusivement l’analyse factorielle lorsque l’objectif est de construire un modèle linéaire avec variables latentes (ex. Preacher et MacCallum, 2003 ; Falissard, 2001 ; Nunnally et Bernstein, 1994 ; Tabacnick et Fidell, 1996 ; Kop et Tournois, 1996). L’analyse factorielle dite en axes principaux ou en facteurs principaux est particulièrement recommandée (MacCallum et al., 1999). C’est une technique itérative qui permet d’identifier le nombre de facteurs communs, puis les saturations des items sur chaque facteur. Techniquement, elle tient compte de l’estimation des erreurs de mesure, en ne considérant que la communauté 10. Elle ne s’expose pas aux limites de l’ACP, et par conséquent ne sur-évalue pas les saturations et les communautés, ne sous-évalue pas les corrélations entre les facteurs, et ces derniers sont toujours indépendants après une rotation orthogonale. Pour exécuter une analyse factorielle en axes principaux avec un logiciel d’analyse de données, il suffit de remplacer la procédure par défaut qui est celle de l’ACP (comme dans le logiciel SPSS), par celle de l’analyse factorielle en axes principaux. Une autre critique qui est portée à l’endroit de la démarche de Churchill est liée à la précédente. Si l’analyse factorielle confirmatoire est envisagée au cours de l’étude, l’objectif de calcul des scores individuels sur chaque sous échelle n’est plus adapté (ou à de rares exceptions près). Les modèles d’équations structurelles auxquels il est ici fait référence recourent parfois à la construction de plusieurs agrégats pour chaque facette du construit (Figure 9.3). Ces agrégats sont utilisés comme indicateurs de la variable latente. Ils sont calculés comme dans le cas précédent : pour chaque individu de l’échantillon, soit par la somme des scores aux items, soit par leur moyenne. Les travaux récents (cf. le chapitre suivant) conduisent à recommander de 10 En analyse factorielle, la variance d’un item (ou d’une variable) se décompose de deux parties : la communauté qui représente la variance expliquée de chaque item par les facteurs communs, et l’unicité qui prend en charge la spécificité de l’item et sa variance d’erreur. L’ACP quant à elle, considère la variance totale sans faire cette distinction.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
ses différentes facettes, à d’autres concepts tels que la satisfaction au travail, la motivation au travail, le contrat psychologique, le stress professionnel, etc.
Le paradigme de Churchill
X1
δ2
X2
δ3
X3
δ4
X4
δ5
X5
δ6
X6
δ7
X7
δ8
X8
δ9
X9
Implication affective
Implication calculée
Implication normative
N.B. la variable delta correspond à l’estimation de l’erreur de mesure qui est effectuée dans toute analyse factorielle confirmatoire. FIGURE 9.3 – Objectif de l’agrégation d’items – La construction d’indicateurs de variables latentes
construire au minimum 3 indicateurs pour chaque variable latente, chaque indicateur devant être le score moyen ou la somme totale d’au minimum 2 items. Par conséquent, chaque facteur devrait être composé d’un minimum de 6 items. L’illustration suivante (Figure 9.3) permet de visualiser l’enjeu de la méthode. Cette technique est connue sous le nom de parceling (construction d’indicateurs agrégats d’items). Dans ce schéma, l’exemple du modèle de mesure de l’implication au sens d’Allen et Meyer est repris. Chacune des trois dimensions ou facettes du concept est spécifiée comme variable latente (figurée par une forme ovale). Elle représente un facteur commun de plusieurs variables observables Xi. Ces variables observables 11 (représentées par des rectangles ou carrés) correspondent à des agrégats de scores d’items issus de l’échelle d’implication à 18 énoncés. La technique d’agrégation supposée optimale exige de spécifier trois indicateurs Xi par variable latente. Cela suppose qu’en amont, l’analyse factorielle exploratoire (en axes principaux) retienne suffisamment d’items pour construire des indicateurs. Il est souhaitable de sélectionner au moins 6 items par facette du construit afin de composer trois agrégats de 2 items. Ainsi est-il possible de constituer un modèle de mesure à 3 indicateurs par variable latente. Un autre cas de figure consisterait à tester l’échelle uniquement dans un but d’éprouver la théorie qui sous-tend le concept, en procédant à des tests de validité de construit. La technique d’agrégation des items en indicateurs n’est pas nécessaire dans ce cas. La figure 9.3 devrait reporter autant d’indicateurs qu’il n’y a d’items dans l’échelle, soit 18 dans l’exemple utilisé sur l’implication. 11 Appelées également indicateurs ou variables manifestes.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
δ1
259
260
Méthodes de développement d’échelles pour questionnaires d’enquête
À partir des analyses précédentes, nous proposons un schéma qui permet de prendre des décisions en matière de démarche d’épuration d’une échelle selon les principaux cas de figure rencontrés dans une recherche ou dans une enquête par questionnaire (Figure 9.4). Pour choisir une démarche méthodologique, il est suggéré de réfléchir au préalable au niveau de connaissance de la structure factorielle de l’échelle du concept étudié. En fonction de cette analyse, la figure 9.4 montre les différentes approches offertes au concepteur d’une échelle d’attitude. Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
1.2.2 La phase de validation Les quatre dernières étapes du paradigme de Churchill forment la phase de validation appelée parfois phase confirmatoire de la recherche. Au préalable, le concepteur d’un questionnaire analyse l’ensemble des résultats de la phase exploratoire pour procéder à l’élimination de certains items, à la modification de certains autres, voire à l’adjonction de nouveaux énoncés. En phase confirmatoire, la version modifiée du questionnaire est soumise de nouveau aux tests de fiabilité et de validité. Ici le paradigme de Churchill connaît de nouveau des transformations. En effet, la technique d’analyse factorielle confirmatoire citée précédemment (Figure 9.4) est utilisée au cours de cette phase. Alors que l’objectif de la phase exploratoire était de réduire l’exposition de l’échelle au risque d’erreur aléatoire, il est poursuivi en phase de validation. Il est complété par celui de la réduction du risque d’erreur systématique. Ce risque dépend de la qualité de la conception des échelles et peut être évalué et réduit en reproduisant les tests de fiabilité et de validité sur de nouveaux échantillons.
A. LA COLLECTE DE DONNÉES Les conditions de collecte de données demeurent identiques à celles de la troisième étape de la phase exploratoire. Cependant, il est possible de changer de mode de recueil des données entre les phases exploratoire et de validation à condition que l’on ait observé précédemment des problèmes de biais importants ou d’inefficacité de la méthode. De plus, si le test de fiabilité retenu est celui de l’alpha de Cronbach, il est souhaitable de réunir un nouvel échantillon. Les résultats obtenus permettront d’apprécier la stabilité de la fiabilité. Mais également, la stabilité de la structure factorielle pourra être évaluée en la testant de nouveau par analyse factorielle exploratoire.
B. ESTIMER LA FIABILITÉ ET LA VALIDITÉ En se référant à la figure 9.4, plusieurs situations peuvent se produire. Cela nécessite de procéder en premier lieu soit au test de fiabilité (alpha de Cronbach), soit au test de validité (analyse factorielle en axes principaux ou en composantes principales). La procédure se fait par itération et vise à épurer les items qui entraveraient les qualités de cohérence interne et de validité de construit. Le même type d’analyse qu’en phase exploratoire est reproduit.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Actualisation de la démarche de Churchill
Le paradigme de Churchill
261
élevé
faible
Test de fiabilité de cohérence interne
Objectif de calcul de scores individuels sur chaque dimension de l’échelle pour effectuer des traitements d’analyse de données de type première génération (régression)
Analyse factorielle exploratoire
Analyse factorielle exploratoire (ACP ou autre technique)
Itérations successives de ces deux analyses pour épurer l’échelle
Test de fiabilité de cohérence interne
Démarche de Churchill
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Objectif de calcul de scores individuels pour chaque indicateur en vue d’effectuer des traitements d’analyse de données de seconde génération (modèles d’équations structurelles) Analyse factorielle exploratoire en axes principaux
Test de fiabilité de cohérence interne
FIGURE 9.4 – Les étapes de la phase exploratoire d’épuration d’une échelle
D’autres analyses peuvent intervenir en phase de validation. La démarche méthodologique de Churchill préconise l’utilisation de la matrice MultiTraits-MultiMéthodes (MTMM) de Campbell et Fiske (1959). Elle nécessite d’utiliser deux instruments de mesure différents du concept étudié pour effectuer les tests de validité convergente et discriminante. Cette technique exige par conséquent d’alourdir le questionnaire. Aussi, les techniques d’analyse factorielle, plus flexibles, demeurent-elles les plus utilisées, quoique non interchangeables. De plus, l’émergence des analyses factorielles confirmatoires renouvelle la démarche de Churchill et peuvent être intégrées au cours de cette étape.
C. DÉVELOPPER DES NORMES La dernière étape du paradigme de Churchill vise à établir les principales normes statistiques des échelles. Elle ne peut intervenir tant que la fiabilité et la validité du questionnaire ne sont pas vérifiées. Lorsque ces conditions sont réunies, il devient possible d’agréger les items constituant chaque échelle pour établir des scores par individu et par variable conceptuelle. Les normes calculées sont généralement la moyenne et l’écart type. D’autres statistiques descriptives sont plus rarement utilisées (médiane, mode, etc.). Selon le type d’échantillon et l’utilité des normes, le calcul des scores peut être effectué par catégorie de salariés (sexe, ancienneté, catégories socioprofessionnelles) ou d’entreprises (taille, effectif, branche d’activité, structure, …).
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Niveau de connaissance de la structure factorielle de l’échelle du concept étudié
262
Méthodes de développement d’échelles pour questionnaires d’enquête
L’application de la démarche de Churchill actualisée porte sur le Minnesota Satisfaction Questionnaire (MSQ) de Weiss et al. (1967 et 1977).
2.1
LES PHASES DE SPÉCIFICATION DU DOMAINE DU CONSTRUIT ET DE GÉNÉRATION DES ITEMS
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Les fondements théoriques et l’adaptation française de cette échelle de satisfaction au travail ont été présentés dans des travaux en gestion des ressources humaines (Roussel, 1996). La phase de spécification du domaine du construit et de génération d’un échantillon d’items se limite dans ce cas à la transposition et à l’adaptation de travaux nord-américains dans un contexte français. L’échelle de satisfaction au travail regroupe 20 items sur un format de type support sémantique à cinq échelons (Encadré 9.1).
2.2
LA COLLECTE DE DONNÉES
La phase de collecte de données recourt à deux modes d’administration du questionnaire. L’une est réalisée par envoi postal, à l’aide de différents fichiers de salariés anciens diplômés de plusieurs centres universitaires. L’autre est effectuée par administration directe aux répondants potentiels, dans le cadre de formations du soir pour salariés de tout niveau (du brevet professionnel aux études supérieures). Un échantillon de convenance de 579 salariés est constitué en fonction des retours de questionnaires. Il est composé de salariés représentant l’ensemble des catégories socioprofessionnelles, une large part des principaux secteurs d’activités économiques, ainsi que l’éventail des tailles d’entreprises. L’absence de représentativité statistique de l’échantillon ne permet pas toutefois au test de l’échelle de satisfaire à la qualité de validité externe. Nous verrons que les méthodes de seconde génération (analyse factorielle confirmatoire) apportent des réponses partielles aux questions de validité externe.
2.3
PURIFIER L’INSTRUMENT DE MESURE
Pour simplifier la présentation, seules sont exposées les étapes de la phase de validation de la démarche de Churchill. En effet, techniquement, les mêmes opérations sont réalisées en phase exploratoire. L’actualisation de la méthode conduira ensuite à introduire une utilisation de l’analyse factorielle confirmatoire.
2.3.1 Analyse de la structure factorielle L’absence de certitudes par rapport à la structure factorielle de l’échelle dans un contexte français conduit à opérer dans un premier temps par analyse factorielle exploratoire (AFE). L’un des objectifs subséquents sera d’établir un modèle de mesure permettant d’analyser statistiquement la satisfaction au travail et de mettre en rela-
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
2. Application de la démarche de développement d’échelle pour questionnaire
Application de la démarche de développement d’échelle pour questionnaire
263
ENCADRÉ 9.1
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
1. de vos possibilités d’avancement 2. des conditions de travail 3. des possibilités de faire des choses différentes de temps en temps 4. de votre importance aux yeux des autres 5. de la manière dont votre supérieur dirige ses employés (rapports humains) 6. de la compétence de votre supérieur dans les prises de décision (compétences techniques) 7. des possibilités de faire des choses qui ne sont pas contraires à votre conscience 8. de la stabilité de votre emploi 9. des possibilités d’aider les gens dans l’entreprise 10. des possibilités de dire aux gens ce qu’il faut faire 11. des possibilités de faire des choses qui utilisent vos capacités 12. de la manière dont les règles et les procédures internes de l’entreprise sont mises en application 13. de votre salaire par rapport à l’importance du travail que vous faites 14. des possibilités de prendre des décisions de votre propre initiative 15. des possibilités de rester occupé tout le temps au cours de la journée de travail 16. des possibilités d’essayer vos propres méthodes pour réaliser le travail 17. des possibilités de travailler seul dans votre emploi 18. de la manière dont vos collègues s’entendent entre eux 19. des compliments que vous recevez pour la réalisation d’un bon travail 20. du sentiment d’accomplissement que vous retirez de votre travail Source : Copyright 1993, Vocational Psychology Research, University of Minnesota. Reproduced by Permission. In Roussel, P. (1996), Rémunération, Motivation et Satisfaction au Travail. Paris : Economica, pp. 170-171.
tion ce concept avec d’autres, tels que la motivation ou l’implication. Ainsi est-il souhaitable de choisir comme technique d’AFE, celle en axes principaux. En phase exploratoire, la mise en œuvre de l’AFE vise deux objectifs : (1) tester la multidimensionnalité du concept de satisfaction au travail, (2) épurer le questionnaire des items qui détériorent la qualité de la structure factorielle.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
très satisfait
satisfait
ni satisfait ni insatisfait
insatisfait
Dans votre emploi actuel, êtes-vous satisfait ?
très insatisfait
Échelle de satisfaction au travail – Minnesota Satisfaction Questionnaire
Méthodes de développement d’échelles pour questionnaires d’enquête
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
L’AFE en axes principaux, dans un premier temps, ne permet pas d’identifier une structure factorielle claire. Le tableau 9.1 des communalités (ou communautés) fait apparaître une mauvaise représentation des items. La communalité mesure la part de variance de chaque variable (item) restituée par les facteurs retenus. Des seuils empiriques sont fixés en deçà desquels des items sont considérés comme ayant une représentation médiocre (Philippeau, 1986). Ils doivent être, de préférence, éliminés. Une variance des items expliquée par les axes principaux supérieure à 0.80 indique que les énoncés sont très bien représentés. Ils le sont bien quand la variance est comprise entre 0,65 et 0,80. Ils le sont moyennement quand elle est située entre 0,40 et 0,65. Enfin, ils le sont médiocrement en deçà de 0,40 et devraient être éliminés. Le conditionnel est utilisé car nous verrons que d’autres arguments, prioritaires, peuvent conduire à maintenir certains de ces items, par exemple, la nécessité d’en conserver suffisamment pour représenter une facette d’une variable (six items pour le Parceling), ou encore, de ne pas nuire à la validité de contenu de l’échelle. Le tableau 9.1 indique également le nombre de facteurs principaux restitués par l’AFE. Les deux premiers axes sont sélectionnés en appliquant la règle des valeurs propres supérieures ou égales à 1. Les valeurs propres représentent la part de variance totale restituée par les facteurs communs. Cette règle empirique est parfois discutée par les statisticiens qui estiment qu’un niveau de valeurs propres supérieur à 0,70 ou 0,80 pourrait convenir (Everitt et Dunn, 1991 ; Philippeau, 1986). Toutefois, le seuil de 1,00 fixé par défaut dans les logiciels d’analyse de données correspond à une approche pragmatique, qui évite de sélectionner des facteurs de qualité souvent médiocre. L’AFE en axes principaux va être poursuivie sur l’espace factoriel à deux
Items
Communalité
Facteur
Valeur propre
Pourcentage de variance
Pourcentage de variance cumulé
ITEM 1
0,677
1
6,646
33,229
33,229
ITEM2
0,371
2
1,183
5,914
39,143
ITEM 3
0,448
3
0,698
3,491
42,634
ITEM 4
0,416
4
0,511
2,554
45,188
ITEM 5
0,674
ITEM 6
0,554
ITEM 7
0,349
ITEM 8
0,165
ITEM 9
0,513
extrait …
extrait …
ITEM 20
0,536
TABLEAU 9.1 – Communalités, valeurs propres et pourcentages de variance expliquée par les facteurs principaux
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
264
Application de la démarche de développement d’échelle pour questionnaire
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
ITEM11 ITEM14 ITEM16 ITEM20 ITEM3 ITEM10 ITEM4 ITEM15 ITEM 17 ITEM1 ITEM9 ITEM5 ITEM6 ITEM12 ITEM19 ITEM2 ITEM18 ITEM13 ITEM7 ITEM8
FACTEUR 1 0,759 0,744 0,683 0,656 0,607 0,535 0,531 0,512 0,498 0,464 0,359
0,389 0,318
0,340
FACTEUR 2
0,331
0,369
0,431 0,782 0,722 0,593 0,514 0,504 0,406 0,383 0,369 0,350
TABLEAU 9.2 – Contributions factorielles des items du MSQ après une rotation varimax (Analyse factorielle en axes principaux)
dimensions identifié au cours de cette première itération. Or, les deux facteurs retenus n’expliquent que 39 % de variance totale. Ce résultat confirme l’analyse initiale d’une structure factorielle insatisfaisante. De nouvelles itérations doivent être conduites en introduisant une rotation orthogonale de type varimax dans la procédure de l’AFE. Son objectif est de produire une rotation dans cet espace factoriel à deux dimensions. Cette technique rend plus aisée l’épuration des items qui nuisent à la qualité de l’échelle, ainsi que l’interprétation des axes factoriels. Le tableau 9.2 présente les contributions factorielles de chaque item sur les deux axes principaux soumis à une seconde itération. Celle-ci permet d’identifier les items qui sont mal représentés par les facteurs principaux et qui doivent être épurés de l’échelle du MSQ. Dans le tableau 9.2, toutes les contributions factorielles inférieures à 0,30 ne sont pas reproduites afin de gagner en lisibilité. Pour procéder à l’interprétation des résultats, dont l’objectif est d’épurer le questionnaire, deux critères empiriques sont souvent utilisés : ■
élimination des items ayant des contributions supérieures à 0,30 sur plusieurs facteurs, ou aucune contribution au moins égale à 0,30 sur l’un des facteurs principaux retenus ;
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Items
265
266
élimination des items n’ayant aucune contribution supérieure ou égale à 0,50 sur l’un des axes principaux identifiés.
Everitt et Dunn (1991, p. 54) soulignent le caractère arbitraire, subjectif de la procédure d’épuration d’une échelle par analyse factorielle. La seconde approche, plus sélective, est choisie afin de générer une structure factorielle la plus claire possible. Cette optique s’entend particulièrement lorsqu’une analyse factorielle confirmatoire est envisagée à la suite. En fonction de ce premier critère d’épuration, sont éliminés les items : 1, 7, 8, 9, 13 et 18. Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Une troisième itération est réalisée par AFE en axes principaux et rotation varimax sur les items restant. La procédure d’itération est arrêtée lorsqu’une structure factorielle claire apparaît : c’est-à-dire que plus aucun item n’est à éliminer. Dans le cas présent, elle prend fin à la quatrième itération (Tableaux 9.3 et 9.4). Le tableau 9.3 indique que 2 facteurs principaux restituent 47 % de la variance totale, et que les communalités sont médiocres pour les items : 10, 12, 15 et 17. La structure factorielle, quant à elle, est claire (Tableau 9.4). Ces résultats suggèrent que la validité de contenu de l’échelle est imparfaite. Une part importante de l’information a disparu au cours de la procédure. Par exemple, les items sur l’avancement, les conditions de travail et le salaire ont été éliminés. Ceci conduit à supposer que la rédaction de certains items devrait être reconsidérée, ou la méthodologie d’enquête améliorée. Le tableau 9.4 indique que les items ont des contributions factorielles claires sur chaque facteur commun. Elles sont supérieures à 0,50. Cette structure factorielle suggère que la validité de construit est satisfaisante au regard du critère de validité
Items
Communalité
Facteur
Valeur propre
Pourcentage de variance
Pourcentage de variance cumulé
ITEM 3
0,433
1
5,109
39,297
39,297
ITEM 4
0,422
2
1,016
7,816
47,113
ITEM 5
0,803
ITEM 6
0,527
ITEM 10
0,291
ITEM 11
0,599
ITEM 12
0,323
ITEM 14
0,665
ITEM 15
0,295
ITEM 16
0,539
ITEM 17
0,280
ITEM 19
0,406
ITEM 20
0,542
TABLEAU 9.3 – Communalités, valeurs propres et pourcentages de variance expliquée par les facteurs principaux (4e itération)
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
■
Méthodes de développement d’échelles pour questionnaires d’enquête
Application de la démarche de développement d’échelle pour questionnaire
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
ITEM14 ITEM11 ITEM16 ITEM20 ITEM3 ITEM15 ITEM4 ITEM17 ITEM10 ITEM5 ITEM6 ITEM12 ITEM19
FACTEUR 1 0,763 0,745 0,701 0,665 0,581 0,531 0,524 0,516 0,509
0,395
FACTEUR 2
0,315 0,310 0,384
0,876 0,710 0,517 0,500
TABLEAU 9.4 – Contributions factorielles des items du MSQ après une rotation varimax (Analyse factorielle en axes principaux — 4e itération)
convergente. Chaque item associé à un facteur a une contribution forte ou assez forte à ce seul axe factoriel. En termes de validité discriminante, on observe un peu de chevauchement entre les facteurs avec six items qui ont une contribution modérée sur une seconde composante. Une analyse complémentaire de la validité discriminante peut être réalisée avec la matrice de corrélations. Celle-ci n’étant pas présentée, nous indiquerons qu’elle confirme des chevauchements entre les deux axes pour plusieurs items qui présentent de une à trois corrélations supérieures avec des items appartenant à l’autre axe factoriel. Cette observation suggère l’existence d’un facteur de second ordre de satisfaction globale au travail. L’interprétation des facteurs est basée sur une revue de littérature et sur le cadre théorique des travaux de Weiss et al. (1967). ■
Le premier facteur se compose des items 3, 4, 10, 11, 14, 15, 16, 17, 20. Il représente la dimension de satisfaction intrinsèque. Théoriquement, elle est supposée liée aux sentiments suscités par la réalisation du travail (ex. possibilité de faire des choses variées) et la réalisation de soi dans le travail (ex. sentiment d’accomplissement).
■
Le deuxième facteur se compose des items 5, 6, 12 et 19. Il représente la dimension de satisfaction extrinsèque qui est supposée être suscitée par des éléments externes contrôlés par l’environnement de travail (ex. manière dont les règles et les procédures internes de l’entreprise sont mises en application) et les supérieurs (ex. compétence du supérieur dans les prises de décision).
2.3.2 Analyse de la fiabilité de cohérence interne Cette analyse est effectuée pour chaque facette de la satisfaction au travail. Couplée à l’analyse factorielle, elles permettent de tester l’homogénéité des sous
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Items
267
268
Méthodes de développement d’échelles pour questionnaires d’enquête
échelles, c’est-à-dire, la capacité d’un ensemble d’items à ne représenter qu’une seule et même facette du construit.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Les statistiques par item (Tableau 9.5) indiquent notamment la corrélation entre l’item et le score de l’échelle (somme des réponses aux items), ainsi que le niveau du coefficient alpha si un item est retiré. Les indices sont en permanence élevés. Le seuil qui est étudié est celui du coefficient de Cronbach. Celui qui est généralement retenu est de 0,70 dans les phases exploratoires d’une recherche (Nunnally, 1978). Les statistiques de l’échelle (Tableau 9.6) sont dans la suite logique du tableau précédent et confirment le niveau élevé de fiabilité de cohérence interne de l’échelle.
B. ÉCHELLE DE SATISFACTION EXTRINSÈQUE Les statistiques par item (Tableau 9.7) montrent que le niveau de corrélation entre l’item et le score de l’échelle est relativement élevé. Pour interpréter les indices alpha, il faut en premier lieu se reporter au tableau 9.8. Il permet d’examiner le niveau du coefficient alpha de Cronbach pour l’ensemble de l’échelle. Celui-ci est proche de 0,78 et correspond à un niveau satisfaisant de fiabilité de cohérence interne. Aucun item n’est à retirer de l’échelle. Remarque : dans l’hypothèse où ce coefficient eut été inférieur à 0,70, la lecture du tableau 9.7 aurait servi à identifier l’item de l’échelle qui dégraderait le plus le niveau de ce coefficient. Dans un tel cas de figure, c’est l’item 19 qu’il aurait fallu
Items
Fréquence
Corrélation entre l’item et le score de l’échelle
Coefficient alpha si l’item est éliminé
Moyenne
Écart type
ITEM3
3,6350
1,0636
526
0,6128
0,8626
ITEM4
3,3080
0,8795
526
0,5814
0,8652
ITEM10
3,4278
0,8693
526
0,5109
0,8706
ITEM11
3,3992
1,1231
526
0,7223
0,8518
ITEM14
3,4677
1,1305
526
0,7534
0,8485
ITEM15
3,9030
0,8751
526
0,4978
0,8716
ITEM16
3,7053
0,9927
526
0,6806
0,8562
ITEM17
3,7605
0,8550
526
0,4861
0,8725
ITEM20
3,4772
1,0486
526
0,6791
0,8562
TABLEAU 9.5 – Statistiques par item
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
A. ÉCHELLE DE SATISFACTION INTRINSÈQUE
Nombre d’items
Fréquences pour le calcul du coefficient alpha
Score moyen
Écart type des scores
Corrélation moyenne entre items
Coefficient alpha de Cronbach
9
526
32,0837
6,2932
0,4323
0,8756
TABLEAU 9.6 – Statistiques de l’échelle et coefficient de fiabilité alpha de Cronbach
retirer, car cela aurait permis de relever le plus le niveau du coefficient alpha de l’ensemble de l’échelle (niveau alpha sans l’item : 0,7661). Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Le tableau 9.8 confirme le niveau élevé du coefficient de fiabilité de cohérence interne de l’échelle.
C. LIMITES DE L’INTERPRÉTATION DU COEFFICIENT DE CRONBACH Pour vérifier la qualité des coefficients alpha de Cronbach, il est souhaitable d’observer le niveau de la corrélation moyenne entre items (Tableaux 9.6 et 9.8). Il n’existe pas de seuil d’interprétation, mais nous suggérons sur la base d’observations empiriques qu’en deçà de 0,40 l’interprétation du coefficient alpha soit approfondie. En effet, les travaux de Cortina (1993) tendent à montrer que certaines études peuvent présenter d’excellents indices alpha, mais « artificiellement gonflés » par le nombre important d’énoncés et/ou la redondance sémantique des items. Plus le nombre d’items est important, et/ou, plus les items d’une échelle sont rédigés de façon similaire, plus le coefficient alpha devrait être élevé. Si les niveaux de corrélations moyennes inter items sont médiocres (par exemple, inférieurs à 0,30 ou 0,40), et le coefficient alpha satisfaisant (supérieur à 0,70), on peut suspecter une inflation arti-
Items
Fréquence
Corrélation entre l’item et le score de l’échelle
Coefficient alpha si l’item est éliminé
Moyenne
Écart type
ITEM5
2,8327
1,2421
544
0,7187
0,6486
ITEM6
3,1103
1,2057
544
0,6248
0,7047
ITEM12
2,7040
0,9628
544
0,5102
0,7626
ITEM19
3,0184
1,0528
544
0,5013
0,7661
N.B. : les fréquences sont calculées sur le nombre de répondants ayant répondu à tous les items de l’échelle TABLEAU 9.7 – Statistiques par item
Nombre d’items
Fréquences pour le calcul du coefficient alpha
Score moyen
Écart type des scores
Corrélation moyenne entre items
Coefficient alpha de Cronbach
4
544
11,6654
3,4808
0,4653
0,7796
TABLEAU 9.8 – Statistiques de l’échelle et coefficient de fiabilité alpha de Cronbach
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
269
Application de la démarche de développement d’échelle pour questionnaire
270
Méthodes de développement d’échelles pour questionnaires d’enquête
ficielle de ce dernier et critiquer les résultats obtenus, et inversement dans le cas d’échelles à deux ou trois items (cas néanmoins non conseillé).
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Ce type d’analyse factorielle tend à se généraliser dans les publications scientifiques et concourt à la réalisation des tests de validation d’échelles. L’analyse factorielle confirmatoire (AFC) permet de tester la validité d’une structure factorielle définie a priori. Cette structure est conçue à partir d’un modèle théorique qui propose une définition précise des caractéristiques d’une variable conceptuelle. À l’inverse, l’analyse factorielle exploratoire (AFE) vue précédemment permet d’explorer des données afin d’identifier a posteriori une structure factorielle d’un concept. Dans le cas présent, plusieurs modèles théoriques ayant de fortes proximités conceptuelles, pourraient être soutenus par l’utilisation de l’échelle de satisfaction MSQ. Or, l’un des usages principaux de l’AFC est de procéder à des comparaisons de plusieurs modèles théoriques afin d’identifier celui qui s’ajuste le mieux aux données empiriques obtenues au cours d’une enquête. C’est la démarche que nous allons présenter. D’autres usages sont possibles. Certains chercheurs limitent l’emploi de l’AFC au test d’ajustement d’un seul modèle théorique aux données empiriques collectées. Une autre des applications de l’AFC est de concevoir le modèle de mesure d’une variable conceptuelle (ou variable latente) afin de l’intégrer dans un modèle théorique de plus grande ampleur où seraient inter reliées plusieurs variables conceptuelles. Une des procédures possibles est dénommée Parceling (cf. chapitre suivant). Elle consiste à construire des indicateurs (trois étant optimal) à partir de regroupement d’items formant un vecteur approprié (deux au minimum par indicateur). Cette démarche est fort utile pour rendre possible techniquement le test d’un modèle d’équations structurelles complexe. Enfin, une dernière application importante de l’AFC consiste à procéder à des tests de validité de construit permettant d’éprouver la validité convergente et discriminante d’une échelle, plutôt que par d’autres méthodes, telles l’AFE et la matrice MTMM discutées plus haut. L’application proposée vise à comparer plusieurs modèles alternatifs, en l’occurrence, celui élaboré par les concepteurs de l’échelle du MSQ, puis celui identifié sur la base d’une démarche classique de type Churchill appliquée à deux échantillons de salariés français, enfin, celui établi dans la présente étude. Les modèles qui vont être comparés sont donc les suivants : ■
Le premier modèle à tester correspond à la structure factorielle du MSQ définie par les auteurs de l’instrument (Weiss et al., 1967). Ce modèle théorique distingue deux dimensions du concept de satisfaction au travail : – premier facteur : satisfaction intrinsèque (items 3, 4, 7, 8, 9, 10, 11, 14, 15, 16, 17, 20) ; – deuxième facteur : satisfaction extrinsèque (items 1, 5, 6, 12, 13, 19) ;
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
2.3.3 Analyse factorielle confirmatoire
271
Application de la démarche de développement d’échelle pour questionnaire
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
■
Le deuxième modèle représente la structure factorielle confirmée selon une démarche de type Churchill. Elle fut appliquée à deux échantillons de salariés français (Roussel, 1996) avec itérations successives utilisant les analyses de l’alpha de Cronbach et l’AFE en composantes principales, puis l’AFC sur l’ensemble des deux échantillons avec indices d’ajustement utilisés selon des critères « souples » : – premier facteur : satisfaction intrinsèque (items 3, 4, 11, 14, 15, 16, 17, 20) ; – deuxième facteur : satisfaction extrinsèque (items 2, 5, 6, 7, 8, 12, 18, 19) ; – troisième facteur : reconnaissance (items 1 et 13) ; – quatrième facteur : besoins de rapports sociaux (items 9 et 10).
■
Le troisième modèle correspond à la structure factorielle générée par l’AFE en axes principaux réalisée pour la présente étude (démarche de Churchill actualisée) : – premier facteur : satisfaction intrinsèque (items 3, 4, 10, 11, 14, 15, 16, 17, 20) ; – deuxième facteur : satisfaction extrinsèque (items 5, 6, 12, 19).
La comparaison de modèles théoriques repose sur le principe de résolution des tests d’ajustement. Ces tests procèdent par la confrontation de deux types de matrices : les matrices de covariances (ou de corrélations) des variables observées S (les items des échelles), et les matrices de covariances (ou de corrélations) estimées Σ. La procédure d’estimation adoptée est le plus souvent celle du maximum de vraisemblance. Plus les covariances ou les corrélations des deux matrices sont proches les unes des autres, plus le modèle théorique s’ajuste bien aux données empiriques. En simplifiant le processus, il s’agit de comparer les données collectées sur un échantillon (les participants à l’enquête) à ces mêmes données estimées pour une population plus importante. La comparaison porte sur des structures de covariances désignées par un modèle hypothétique (ex. une structure factorielle du concept). Le tableau 9.9 présente les résultats de l’analyse factorielle confirmatoire. Il indique que globalement le modèle trois se caractérise par un meilleur ajustement aux données empiriques. Ce modèle théorique permet le mieux de reproduire un modèle théorique adapté aux données collectées. Par ces tests, les différents modèles de structures factorielles du questionnaire sont comparés entre eux afin d’identifier
χ2
Dl
χ2/dl
GFI
AGFI
Modèle un
572,79
134
4,27
0,88
0,85
0,06
Modèle deux
510,59
164
3,11
0,90
0,88
Modèle trois
247,45
64
3,87
0,93
0,90
Modèles
SRMR RMSEA
NFI
NNFI
CFI
AIC
CAIC
0,08
0,84
0,85
0,87
304,79
–394,77
0,05
0,06
0,87
0,89
0,90
182,59
–673,58
0,06
0,07
0,91
0,92
0,93
119,45
–216,79
TABLEAU 9.9 – Comparaison des modèles d’analyses factorielles confirmatoires
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
– les items de conditions de travail (item 2) et d’entente entre collègues (item 18) ne sont représentés par aucun des axes principaux (ils sont utilisés pour établir un score de satisfaction générale).
Méthodes de développement d’échelles pour questionnaires d’enquête
celui qui s’ajuste le mieux aux données empiriques. La décision repose sur l’interprétation de plusieurs indices d’ajustement. Ces indices sont forts nombreux et tous sujets à des problèmes de taille d’échantillon (Marsh et al., 1988 ; Roussel et al., 2002 ; Valette-Florence, 1993). La multiplication des travaux de statisticiens dans le domaine conduit à offrir une batterie d’indices aux propriétés différentes. Nous présentons les plus courants d’entre eux. Ils appartiennent à trois familles d’indices. En pratique, plusieurs indices appartenant à ces trois familles sont analysés afin de prendre une décision basée sur un choix multicritères.
A. LES INDICES DE MESURE ABSOLUS Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Un indice d’ajustement absolu permet d’évaluer dans quelle mesure le modèle théorique posé a priori reproduit correctement les données collectées. ■
Chi-Deux : il sert à tester l’hypothèse nulle selon laquelle le modèle théorique s’ajuste bien aux données collectées. La proposition de cette hypothèse est que les éléments de la matrice de covariances ou de corrélations reproduite par estimation (Σ) sont significativement non différents de ceux de la matrice de covariances ou de corrélations observée (S). Mais cet indice est très sensible à la taille des échantillons. Il n’est généralement pas commenté, il sert essentiellement à l’élaboration des autres indices d’ajustement.
■
GFI et AGFI : les indices de bon ajustement mesurent la part relative de la variance-covariance expliquée par le modèle testé (GFI : Goodness of Fit Index), ajustée par le nombre de variables par rapport au nombre de degrés de liberté (AGFI : Adjusted Goodness of Fit Index). Analogues au r2 et au r2 ajusté de la régression multiple, ils varient entre 0 et 1. Ils sont peu sensibles à la taille de l’échantillon. En revanche, ils le sont à la complexité du modèle. Un modèle est bien ajusté aux données lorsque ces indices dépassent 0,90.
■
SRMR : le Standardized Root Mean square Residual représente l’appréciation moyenne des résidus, les résidus étant la différence entre les covariances (ou corrélations) estimées, et celles observées. Son interprétation est équivalente à celle du RMR (même indice, non standardisé, utilisé si la matrice de données de départ est celle des corrélations). Il varie entre 0 et |1| et doit se rapprocher de 0, en restant inférieur à |0,05| car un bon ajustement nécessite de faibles résidus.
■
RMSEA : le Root Mean Square Error of Approximation représente la différence moyenne d’ajustement, par degré de liberté, attendue dans la population totale et non dans l’échantillon. Il est indépendant de la taille de l’échantillon et de la complexité du modèle et dispose d’un intervalle de confiance associé (90 %). Il doit être inférieur à 0,08 et si possible à 0,05.
B. LES INDICES DE MESURE « INCRÉMENTAUX » (OU INDICES RELATIFS DE COMPARAISON) Les indices de mesure « incrémentaux » évaluent l’amélioration de l’ajustement d’un modèle en le comparant à un modèle plus restrictif, dit « modèle de base » (Bentler et Bonett, 1980 ; Bentler, 1990). Le modèle de base le plus couramment utilisé est le « modèle nul » ou « modèle indépendant ». Il s’agit d’un modèle pour
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
272
Conclusion
273
■
■ Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
■
NFI : le Normed Fit Index représente la proportion de la covariance totale entre les variables, expliquée par le modèle testé, lorsque le modèle nul est pris comme référence. Sa valeur est sous-estimée lorsque l’échantillon est de taille réduite. NNFI : le Non Normed Fit Index compare le manque d’ajustement du modèle à tester à celui du modèle de base. Sa valeur permet d’estimer l’amélioration relative, par degré de liberté, du modèle testé par rapport au modèle de base. Cet indice n’est pas recommandé pour les petits échantillons (N < 150 observations). CFI : le Comparative Fit Index est l’indice relatif de comparaison qui est le moins sensible aux tailles d’échantillon. Il mesure la diminution relative du manque d’ajustement entre le modèle testé et le modèle de base.
C. LES INDICES DE MESURE DE PARCIMONIE Ils permettent de déterminer, parmi plusieurs modèles plausibles équivalents, celui qui présente la meilleure parcimonie et qui devrait, par conséquent, être préféré aux autres. Ces indices, issus de la théorie de l’information, visent à pénaliser les modèles complexes. ■
■
AIC (Akaike Information Criterion) et CAIC (Consistent Akaike’s Information Criterion) : ils sont assez peu sensibles à la taille de l’échantillon. Leur niveau doit être le plus faible possible comparativement à d’autres modèles concurrents. χ2/dl : le chi-deux normé sur le degré de liberté (dl = 1/2 (p + q) (p + q + 1) – t ; où p + q = nombre de variables observées, t = nombre de paramètres estimés) est un indice qui permet de déceler les modèles « surajustés » et « sousajustés ». Il peut être utilisé pour mesurer le degré de parcimonie « absolu » d’un modèle. Il permet également de distinguer, parmi plusieurs modèles alternatifs, lequel est le plus parcimonieux. Son niveau doit être compris entre 1, 2 ou 3, voire 5.
En se reportant au tableau 9.9, nous pouvons constater que le modèle trois répond le mieux à l’ensemble des critères de bon ajustement.
3. Conclusion L’élaboration des échelles d’attitudes pour questionnaires d’enquête est une entreprise longue et complexe. Si la démarche proposée par Churchill à la fin des années 1970 demeure une référence pour organiser et diriger le travail de construction de questionnaire, nous avons pu observer l’émergence de nouvelles méthodes et techniques. Si elles remettent en cause l’organisation classique de la phase de validation d’échelles de mesure, en revanche, la phase exploratoire ne connaît pas de gran-
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
lequel toutes les variables observées seraient non corrélées, c’est-à-dire qu’aucune relation structurelle entre les variables ne serait supposée a priori. Ces indices varient entre 0 et 1 et doivent dépasser 0,90 pour conclure au bon ajustement d’un modèle théorique aux données.
274
Méthodes de développement d’échelles pour questionnaires d’enquête
La présentation qui vient d’être faite n’est pas exhaustive. Elle se prolonge dans le chapitre suivant par un usage quelque peu différent de l’analyse factorielle, basé sur des hypothèses théoriques concernant les concepts à mesurer, et la modélisation explicite de la structure des données en fonction de ces concepts. Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Bibliographie Ajzen I. et Fishbein M. (1977), Attitude-behavior relations : a theoretical analysis and review of empirical research. Psychological Bulletin, vol. 84, pp. 888-918. Alderfer C.P. (1969), An empirical test of a new theory of human needs. Organizational Behavior and Human Performance, vol. 4, n° 2, pp. 142-175. Allen N.J. et Meyer J.-P. (1991), A three component conceptualization of organizational commitment. Human Resource Management Review, vol. 1, n° 1, pp. 61-89. Bentler P.M. (1990), Comparative fit indexes in structural models. Psychological Bulletin, vol. 107, pp. 238-246. Bentler P.M. et Bonett D.G. (1980), Significance tests and goodness of fit in the analysis of covariance structures. Psychological Bulletin, vol. 88, pp. 588-606. Berkowitz L., Cochran S., Fraser C. et Treasure F.P. (1987), Pay, Equity, Job Gratifications, and Comparisons in Pay Satisfaction. Journal of Applied Psychology, vol. 72, n° 4, pp. 544-551. Campbell D.T. et Fiske D.W. (1959), Convergent and discriminant validation by the Multitrait-Multimethod Matrix. Psychological Bulletin, vol. 56, pp. 81-103. Cerdin J.-L. (1996), Mobilité internationale des cadres, adaptation et decision d’expatriation. Thèse de doctorat en sciences de gestion, Université Toulouse 1. Churchill G.A. (1979), A paradigm for developing better measures of marketing constructs. Journal of Marketing Research, vol. 16, pp. 64-73. Cortina J.M. (1993), What is coefficient alpha ? An examination of theory and applications. Journal of Applied Psychology, vol. 78, n° 1, pp. 98-104. Cronbach L.J. (1951), Coefficient alpha and the internal structure of tests. Psychometrika, vol. 16, pp. 297-334. Dubost N., Gauzente C., Guilloux V., Roussel P. et Kalika M. (2000), Franchise et culture managériale : étude des facteurs humains et organisationnels, versus franchiseur, conditionnant la pratique de la franchise — typologie de franchiseurs, rapport pour la Fédération Française de la Franchise, octobre 2000, Crepa — Université Paris IX Dauphine et Lirhe — Université Toulouse 1. Everitt B.S. et Dunn G. (1991), Applied multivariate data analysis. Londres : Edward Arnold. Evrard Y., Pras B., Roux E., Choffray J.-M. et Dussaix A.M. (1993), Market, études et recherches en marketing, fondements, méthodes. Paris : Nathan.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
des mutations. L’apport des méthodes d’équations structurelles est principalement à l’origine des transformations récentes du travail de validation d’échelles de mesure. L’objectif de ces changements vise à mettre à la disposition des chercheurs et des utilisateurs de questionnaires d’enquête des instruments de meilleure qualité.
275
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Fabrigar L. R., Wegener D. T., MacCallum R. C. et Strahan E. J. (1999), Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, n° 4, pp. 272–299. Falissard B. (1999), Comprendre et utiliser les statistiques dans les sciences de la vie. Collection Évaluation et statistique. Masson, 2e édition. Falissard B. (2001), Mesurer la subjectivité en santé. Perspective méthodologique et statistique. Collection Évaluation et statistique. Masson. Hinkin T.R. (1998), A brief tutorial on the development of measures for use in survey questionnaires. Organizational Research Methods, vol. 1, n° 1, pp. 104-121. Hu L.T. et Bentler P.M. (1995), « Evaluating model fit » in Hoyle R.H. (Eds), Structural equation modeling : concepts, issues, and applications. Thousand Oaks, CA : Sage, pp. 76-99. Hu L.T. et Bentler P.M. (1999), Cutoff criteria for fit indices in covariance structure analysis : conventional criteria versus new alternatives. Structural Equation Modeling, vol. 6, pp. 1-55. Igalens J. et Roussel P. (1998), Méthodes de recherche en gestion des ressources humaines. Paris : Economica, collection Recherche en gestion. Jolliffe I.T. (2002), Principal component analysis. Springer Series in Statistics (2e édition). Kop J.-L. et Tournoi J. (1996), Échelonnement multidimensionnel, analyse en composantes principales et analyses en facteurs communs : une étude de leur convergence sur données Monte Carlo, Les Cahiers de Recherche de l’ADEPS, n° 19, Nancy. Lazarsfeld P.F. (1950), The logical and mathematical foundations of latent structure analysis. In Stouffer S. (Eds), Studies in social psychology in World War II, measurement and prediction, vol. 4. MacCallum R. (1998), Commentary on quantitative methods in I/O research. The Industrial-Organisational Psychologist, vol. 35, pp. 18-30. MacCallum R.C., Widaman K.F., Zhang S. et Hong S. (1999), Sample size in factor analysis. Psychological Methods, n° 4, pp. 84-99. Marsh H.W., Balla J.R. et McDonald R.P. (1988), Goodness-of-fit indexes in confirmatory factor analysis : the effect of sample size. Psychological Bulletin, vol. 103, n° 3, pp. 391-410. Nunnally J.C. (1978), Psychometric theory. New York : McGraw-Hill (1re éd., 1967). Nunnally J.C. et Bernstein I. (1994), Psychometric Theory. New York : McGraw Hill (3e édition). Parasuraman A., Zeithaml V.A. et Berry L.L. (1990), SERVQUAL : une échelle multi-items de mesure des perceptions de la qualité de service par les consommateurs. Recherche et Applications en Marketing, vol. 6, n° 2, pp. 19-42. Pedhazur E.J. et Pedhazur Schmelkin L. (1991), Measurement, design, and analysis, an integrated approach. Hillsdale, N.J. : Lawrence Erlbaum. Philippeau G. (1986), Comment interpréter les résultats d’une analyse en composantes principales, Paris : ITCF. Preacher K. J. et MacCallum R.C. (2003), Repairing Tom Swift’s electric factor analysis machine. Understanding Statistics, vol. 2, n° 1, pp. 13-32. Roehrich G. (1993), Validité convergente et validité discriminante : l’apport des modèles d’équations structurelles, ESA Grenoble, Cahier de recherche : CERAG 93-23. Roussel P. (1996), Rémunération, motivation et satisfaction au travail. Paris : Economica, collection Recherche en gestion.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Bibliographie
Méthodes de développement d’échelles pour questionnaires d’enquête
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
Roussel P., Durrieu F., Campoy E. et El Akremi A. (2002), Méthodes d’équations structurelles : recherche et applications en gestion. Paris : Economica, collection Recherche en gestion. Tabachnick B.G. et Fidell L.S. (1996), Using multivariate statistics. New York : HarperCollins. Valette-Florence P. (1993), Dix années de modèles d’équations structurelles : un état de l’art, ESA Grenoble, Cahier de recherche : CERAG 93-11. Wallace M.J. (1983), Methodology, Research Practice, and Progress in Personnel and Industrial Relations. Academy of Management Review, vol. 8, n° 1, pp. 6-13. Weiss D.J., Dawis R.V., England G.W. et Lofquist L.H. (1977), Manual for the Minnesota Satisfaction Questionnaire, Université du Minnesota (1967 et 1977), Minnesota studies in vocational rehabilitation, n° 22.
Document téléchargé depuis www.cairn.info - Université Paris-Descartes - Paris 5 - - 193.51.85.197 - 22/08/2017 14h32. © De Boeck Supérieur
276