La validité de construit est également nommée validité de construction, validité théorique ou encore validité conceptuelle par certains auteurs. Ce type de validité vise à s’assurer que l’instrument mesure vraiment le ou les construits qu’il a été conçu pour mesurer et qu’il offre une mesure adéquate du modèle théorique sur lequel il s’appuie. En effet, mis à part quelques exceptions, tout instrument psychométrique s’appuie sur un modèle théorique. Par exemple, l’Inventaire de personnalité NEO-3 (Costa et McCrae, 2010) vise à mesurer les traits de la personnalité en s’appuyant sur le Modèle en cinq facteurs de la personnalité (ou Big Five), qui stipule que la personnalité humaine peut se résumer à cinq grands traits, alors que pour sa part, l’Inventaire des types psychologiques Myers-Briggs s’appuie sur le modèle de Myers et Myers-Briggs basé sur la théorie des types psychologiques de C. G. Jung. Ces deux inventaires de personnalité s’appuient donc sur des modèles théoriques différents. En conséquence, la définition des construits mesurés et les items dont ils seront composés diffèreront et pourtant, ils s’avèrent tous deux être des inventaires de personnalité ayant une bonne validité de construit, puisqu’ils mesurent adéquatement leur modèle théorique de la personnalité respectif et les construit qui y sont associés.
La validité de construit d’un instrument psychométrique est généralement évaluée selon trois méthodes, soient par les corrélations avec une autre version du même instrument, par les corrélations convergentes et divergentes, ainsi que par analyse factorielle. Deux raisons principales peuvent généralement expliquer qu’un instrument démontre un faible niveau de validité de construit. La première cause d’une faible validité de construit est que l’instrument n’offre pas une bonne mesure des construits proposés par le modèle théorique. L’instrument doit alors être révisé de manière à offrir une mesure dont la validité sera satisfaisante. La seconde cause est que la théorie sur laquelle s’appuie l’instrument n’est pas être adéquate (elle n’est pas confirmée par les données empiriques). La compréhension d’un phénomène psychologique va de pair avec la capacité à le mesurer, et inversement. En d’autres mots, la capacité à mesurer un construit psychologique dépend des connaissances dont nous disposons à son sujet, mais le développement des connaissances scientifiques en psychologie nécessite de mesurer les variables que l’on souhaite étudier. Ainsi, la mesure d’un construit augmente la compréhension que nous en avons, et cette compréhension permet de mieux connaître ce qui doit être mesuré. Les analyses de validité de construit peuvent donc parfois permettre d’apporter des améliorations au modèle théorique et aux construits mesurés.
Corrélations avec une autre version de l’instrument
Il s’agit d’étudier les corrélations entre l’instrument dont on souhaite vérifier la validité et une autre version de l’instrument dont la validité a été démontrée. Si les corrélations s’avèrent très élevées (supérieures à 0,80 mais idéalement supérieures à 0,90), alors on considérera que la version de l’instrument examinée mesure les même construits et le même modèle théorique que la version de comparaison dont la validité a déjà été établie. Trois cas de figure peuvent se présenter. Un premier cas se présente lors du développement d’une nouvelle version ou d’une mise à jour d’un instrument. On pourra alors étudier les corrélations entre l’ancienne version et la nouvelle. Un second cas se présente lorsqu’une version est développée pour être administrée à un autre répondant. Par exemple, un instrument évaluant les problèmes de comportement chez l’enfant tel que rapportés par les parents peut être comparé à une version de ce même questionnaire mais destinée à être répondue par l’enfant lui-même. Enfin, un troisième cas de figure concerne le changement de modalité d’administration d’un instrument. Par exemple, on pourra étudier les corrélations entre les versions papier-crayon et Internet d’un même instrument. Il va de soi que cette méthode ne s’applique pas lorsque l’on ne dispose que d’une seule version d’un instrument, ce qui est en pratique souvent le cas.
Corrélations convergentes et divergentes
Un instrument psychométrique ayant une bonne validité de construit devrait normalement avoir des corrélations élevées avec d’autres instruments (dont la validité a été préalablement établie) mesurant les mêmes construits ou des construits similaires (corrélations convergentes). L’instrument devrait également avoir des corrélations faibles ou nulles avec des instruments mesurant des construits différents (corrélations divergentes). Par exemple, l’Inventaire de personnalité Le Corff (IPLC) et l’Inventaire de personnalité NEO-3 (NEO-PI-3) mesurent tous deux les traits du Modèle en cinq facteurs de la personnalité. Afin de vérifier la validité de construit de l’IPLC, les corrélations entre ses échelles et celles du NEO-PI-3 (dont la validité pour la mesure du Modèle en cinq facteurs de la personnalité a été démontrée) ont été calculées. Le fait que des corrélations élevées aient été observées entre les échelles de ces deux instruments constitue une preuve de la validité de construit de l’IPLC (par exemple, la corrélation entre l’échelle Extraversion de l’IPLC et du NEO-PI-3 est de 0,83). Un exemple de corrélation divergente serait l’association entre une échelle d’extraversion et un test d’aptitudes numériques; en théorie, l’extraversion et les aptitudes numériques ne devraient pas être liées et en conséquence, une corrélation très faible ou nulle devrait être observée.
Les corrélations convergentes et divergentes peuvent également être étudiées à l’intérieur d’un même instrument. En effet, le modèle théorique mesuré par un instrument permet souvent de faire des prédictions sur les corrélations qui devraient être observées entre les échelles. Si les corrélations observées sont cohérentes avec les prédictions théoriques, cela constitue une preuve de la validité de construit de l’instrument. Par exemple, le modèle des intérêts professionnels proposé par John Holland (le « RIASEC »), et mesuré entre autres par l’Inventaire des intérêts professionnels Strong, stipule que les intérêts de type Social devraient être corrélés aux intérêts de type Entrepreneur, alors qu’ils devraient être associés négativement aux intérêts de type Réaliste. Une corrélation positive élevée entre les échelles Social et Entreprenant de l’Inventaire des intérêts professionnels Strong, tout comme une corrélation négative entre les échelles Social et Réaliste, constitueraient des preuves de la validité de construit de ces échelles.
Analyse factorielle
L’analyse factorielle désigne une série de techniques qui visent à regrouper statistiquement les variables d’un questionnaire qui sont associées entre elles (pour une introduction à l’une de ces techniques, voir cette rubrique sur l’analyse en composantes principales). L’analyse factorielle permet donc de vérifier si les items ou épreuves d’un instrument psychométrique se regroupent en cohérence avec les échelles prévues ou, en d’autres mots, si les construits que l’instrument vise à mesurer forment des facteurs distincts les uns des autres. Par exemple, une analyse factorielle réalisée sur les items de l’IPLC ou du NEO-PI-3 (voir la section sur les corrélations convergentes et divergentes ci-dessus) devrait permettre d’observer – ou d’extraire – cinq facteurs correspondant aux cinq traits du Modèle en cinq facteurs. De plus, chaque item devrait être associé aux facteurs représentant l’échelle qu’il est censé mesurer. En ce sens, il est possible d’utiliser l’analyse factorielle pour étudier la validité de contenu d’un instrument.