Le principe de la validité différentielle repose sur le fait que la validité d’un instrument psychométrique n’est pas toujours équivalente pour toutes les personnes auxquelles il est destiné. En effet, certaines variables font en sorte que l’instrument ne sera pas aussi valide pour tous en raison, entre autres, de l’âge, du sexe (genre), de la culture, ou encore de limitations particulières. Par exemple, un test peut être tout-à-fait valide pour mesurer les compétences en mathématiques. Toutefois, une condition particulière, telle que des difficultés en lecture, peut en affecter considérablement la validité. Les personnes évaluées présentant des difficultés en lecture verraient leurs scores affectés en raison de leur difficulté à bien comprendre les questions et du temps supplémentaire requis pour les lire, ce qui pourrait conduire à une sous-estimation de leurs compétences en mathématiques. Dans un tel cas, le test ne mesure alors plus, chez ces personnes, ce qu’il devrait puisque ses résultats sont affectés par une variable qui n’est pas en lien avec ce qu’il mesure (les compétences en lecture ne sont pas en lien avec les compétences en mathématiques); cet instrument aurait donc un moins bon degré de validité chez les personnes ayant des difficultés en lecture.
Pour vérifier la validité différentielle, il faut évaluer les 3 principaux types de validité (de contenu, de construit et de critère) d’un instrument psychométrique en fonction des différents sous-groupes ou populations auxquels on souhaite l’appliquer. La validité d’un instrument doit donc être établie pour chacun des groupes de personnes qui ont des caractéristiques de nature à en affecter la validité.
Sur le plan de la validité de contenu, certains items pourraient ne pas avoir le même sens, ne pas avoir la même importance ou la même pertinence pour l’évaluation du construit, ou encore ne pas s’appliquer, pour certains sous-groupes de la population. Par exemple, dans un questionnaire sur l’impulsivité, la question « vous arrive-t-il de brûler volontairement un feu rouge lorsque vous conduisez un véhicule » pourrait être pertinente pour la population générale adulte détenant un permis de conduire mais ne s’appliquerait pas à plusieurs sous-groupes de la population (adolescents n’étant pas en âge de conduire, etc.) De plus, certains items pourraient créer des biais systématiques chez certaines personnes. Par exemple, il a été démontré que les femmes sont plus enclines que les hommes à témoigner de leurs émotions négatives intériorisées (telles que la tristesse et l’anxiété), ce qui peut avoir pour effet de créer un biais lié au sexe dans les instruments qui mesurent ce type de construit. L’évaluation de la validité de contenu par des experts (tel qu’expliqué dans la section sur la validité de contenu) et des techniques statistiques telles que l’analyse du fonctionnement différentiel d’items, permettent de vérifier cet aspect de la validité différentielle.
Sur le plan de la validité de construit, il s’agit de s’assurer que l’instrument mesure adéquatement le ou les construits qu’il a été conçu pour mesurer dans tous les groupes auxquels il est destiné. Il s’agit également de s’assurer que, d’une part, il offre une mesure adéquate du modèle théorique sur lequel il s’appuie dans tous les groupes visés et d’autre part, que le modèle théorique sur lequel il s’appuie s’applique à tous ces sous-groupes.
En ce qui concerne la validité de critère, sachant que les résultats aux instruments psychométriques sont souvent associés à un enjeu décisionnel, la validité différentielle s’avère cruciale. Qu’il s’agisse, par exemple, d’une évaluation diagnostique donnant accès à des services spécialisés ou d’un processus de sélection pour accéder à un programme d’étude ou à un emploi, il est nécessaire que la validité de critère des instruments utilisés soit équivalente pour tous les groupes évalués, sans quoi l’évaluation pourrait s’avérer discriminatoire. Par exemple, un test d’aptitudes qui favoriserait systématiquement les hommes en comparaison aux femmes serait jugé discriminatoire et sexiste (à moins qu’il ne soit démontré que la différence liée au sexe représente une réelle différence entre les hommes et les femmes et non un problème de validité différentielle de l’instrument). Différentes méthodes et analyses statistiques permettent de vérifier si la validité prédictive d’un instrument est équivalente pour tous les groupes concernés.
On comprend donc qu’un instrument psychométrique pourrait démontrer une bonne validité pour certaines populations, mais pas pour d’autres (ou encore le modèle théorique pourrait ne pas s’appliquer à certains groupes ou populations), auquel cas l’instrument ne pourra être utilisé que chez les personnes pour lesquelles il a démontré un bon niveau de validité.