(3) L’approche des graphes causaux
Published:
À quelles conditions peut-on tirer des conclusions causales à partir d’une régression ? Pour répondre à cette question, il est important de mieux comprendre comment fonctionne la relation de causalité. C’est précisément ce que propose une approche récente, qui a non seulement réussi à systématiser les conditions que doit remplir une relation causale, mais en a également tiré des éclairages méthodologiques majeurs.
Pour un aperçu de cette littérature, vous pouvez commencer par cet article très bien fait de Rohrer (2018). Cette entrée encylopédique de Hitchcock va plus en profondeur dans les fondements théoriques, et il y a sinon le livre Causal Inference in Statistics: A Primer de Pearl, Glymour & Jewell (2016) que vous pouvez lire ici.
Les bases
Le point de départ est tout à fait intuitif : il s’agit de représenter les relations causales comme des flèches reliant une variable – la cause – à une autre – son effet, ce sur quoi elle a une influence causale. On développe donc un modèle basé sur un graphe. Ce qui est suprenant, c’est que ce point de départ assez basique nous amène à des conclusions loin d’être triviales.
Commençons par un modèle très simple à trois variables : salaire, diplôme, genre. Si on pense que le niveau de diplôme a une influence causale sur notre niveau de salaire, on peut noter ça diplôme → salaire. Si on pense que le genre a une influence causale sur le diplôme, mais pas directement sur le salaire (cela implique, par exemple, qu’il n’y a pas de discrimination de genre lors de la négociation du salaire), on obtient le modèle suivant :
genre → diplôme → salaire
Si certaines conditions mathématiques assez intuitives sont remplies, ce modèle causal simple a des implications intéressantes sur les liens de probabilité entre ces variables, c’est-à-dire sur notre capacité à prédire une variable à partir d’une autre, que l’on peut vérifier dans les données qu’on a à disposition. Par exemple, le modèle implique que le diplôme et le salaire ne sont pas des variables indépendantes (au sens probabiliste). Apprendre que quelqu’un a tel ou tel diplôme nous donne de l’information sur son salaire, et vice versa. Ainsi, le salaire et le diplôme s’expliquent prédictivement de façon mutuelle, mais seul le diplôme explique causalement le salaire. De même, le genre et le salaire ne sont pas des variables indépendantes. En effet, si le genre nous donne de l’information sur le diplôme et le diplôme nous donne de l’information sur le salaire, alors le genre nous donne de l’information sur le salaire.
Dans ce type de modèle, il est assez facile de calculer l’ampleur de l’effet causal du genre sur le salaire, c’est-à-dire la « force » de la flèche entre les deux. Si p (salaire élevé | homme) – la probabilité d’avoir un salaire élevé sachant que l’individu est un homme – est supérieure à p (salaire élevé | femme) – la probabilité d’avoir un salaire élevé sachant que l’individu est un femme –, on peut en conclure qu’être un homme a un effet causal positif sur le salaire, et la différence entre les deux correspond à la taille de l’effet causal.
Supposez maintenant qu’une collègue n’est pas d’accord, elle pense que le modèle suivant représente mieux la réalité :
genre → salaire ← diplôme
Si c’est le cas, on doit d’attendre à ce que le genre et le diplôme soient indépendants (sauf s’ils ont une cause commune qui n’est pas représentée dans le modèle, c’est-à-dire une variable Z ayant des flèches partant à la fois vers le genre et le diplôme). Notez que si les flèches étaient inversées, et qu’on avait donc “genre ← salaire → diplôme” (il est difficile d’imaginer que le salaire cause le genre, mais essayons quand même !), on saurait que le genre et le diplôme ne sont pas indépendants, parce qu’ils partageraient une cause commune – le salaire.
Le sens des flèches, et donc le sens de la causalité, est important pour déterminer les implications probabilistes (c’est-à-dire prédictives) du modèle. C’est une première leçon importante de l’approche des graphes causaux : causalité et prédiction ne s’articulent pas n’importe comment. Les relations de causalité déterminent un certain pattern de relations prédictives.
Le raisonnement « toutes choses égales par ailleurs »
Tout ceci parait sûrement assez intuitif. On peut maintenant introduire l’idée fondamentale du raisonnement « toutes choses égales par ailleurs », en regardant ce que ça fait de conditionner certaines variables. Dans le premier modèle (genre → diplôme → salaire), le genre et le salaire ne sont pas indépendants parce que le diplôme « fait le pont » entre les deux. On dit que le diplôme est un médiateur. Le genre est bien une cause du salaire, mais seulement via le diplôme, il a donc un effet causal indirect, qui correspond à la différence entre p (salaire élevé | homme) et p (salaire élevé | femme).
Ce qui est intéressant, c’est que cela veut dire que, si on bloquait cette influence en empêchant le genre d’influencer le diplôme (en « cassant » la flèche entre les deux), le genre et le salaire deviendraient indépendants. Comment tester cela sur nos données ? En principe, il faudrait intervenir de l’extérieur en forçant la variable du diplôme à prendre une certaine valeur quelle que soit la valeur prise par la variable du genre.
On pourrait par exemple imaginer une expérience sociale de grande ampleur, impossible à réaliser en pratique, où on contraindrait les individus à se diriger vers telle ou telle filière d’étude de façon aléatoire. On observerait alors, si le modèle représente bien la réalité, que le genre et le salaire des individus qui ont participé à l’expérience sont indépendants.
C’est là que ça devient intéressant : on peut simuler ce genre d’intervention extérieure en calculant des probabilités conditionnellement à la valeur du diplôme. En termes formels, cela revient à comparer, pour chaque niveau de diplôme d, p (salaire élevé | homme, diplôme = d) avec p (salaire élevé | femme, diplôme = d). Si le modèle représente bien la réalité, alors les deux doivent être égaux : pour les individus qui ont le même niveau de diplôme, la probabilité d’avoir un salaire élevé si on est un homme ou une femme est identique, donc le genre n’apporte aucune information supplémentaire pour prédire le salaire. On reconnait là le raisonnement « toutes choses égales par ailleurs » : à diplôme égal, le genre et le salaire sont indépendants.
Mais comment obtient-on ces probabilités conditionnelles ? Pour estimer p (salaire élevé | homme, diplôme = d) et p (salaire élevé | femme, diplôme = d) à partir de nos données, il suffit de trier les individus de notre échantillon en plusieurs groupes selon le diplôme. On peut ensuite comparer le salaire des hommes et des femmes dans chaque groupe créé. Si le modèle représente bien nos données, le salaire des hommes et des femmes devrait être à peu près égal dans chaque groupe. On reconnait là aussi la méthode des variations concomitantes de Durkheim. La différence, c’est que cette fois on a un modèle causal explicite, et on peut prouver rigoureusement que la méthode fonctionne pour tirer des conclusions causales1!
Il faut faire une distinction entre l’effet causal direct, donc sans intermédiaire, et l’effet causal total, qui inclut les effets causaux directs et indirects. Cette distinction est très importante : si je m’interroge sur l’existence d’une discrimination à l’embauche contre les femmes, je m’intéresse à l’effet causal direct, au moment de l’embauche, de la variable « genre », en laissant de côté tous les effets causaux indirects qui peuvent être en jeu entre le genre et le salaire. Par exemple, l’effet causal indirect qu’on observerait si les femmes avaient en moyenne un moins bon diplôme et que c’est ça qui diminuerait leurs chances d’embauche.
Prenez maintenant un modèle un poil plus complexe qui reflète cette hypothèse :
genre → diplôme
↓ ↙
salaire
Supposons que ce modèle représente bien la réalité. Ce qu’on voudrait savoir, c’est à quel point le diplôme influence causalement le salaire, donc la taille de son effet causal. Or le genre est malheureusement une cause commune du salaire et du diplôme. On dit que c’est un facteur confondant (confounder en anglais). Dans ce cas, on ne peut pas estimer cet effet causal en comparant simplement les probabilités d’avoir un salaire élevé sachant que l’individu a un certain diplôme, parce qu’on sait qu’une partie de cette probabilité provient juste de la variable du genre en cause commune.
Pour isoler l’effet causal du diplôme, il faudrait voir ce qui se passe si on intervenait pour bloquer l’influence du genre. De nouveau, pour simuler cette intervention la solution est simplement de regarder le lien probabiliste entre le diplôme et le salaire conditionnellement au genre. Ce lien probabiliste-là sera équivalent à l’effet causal du diplôme sur le genre. Voilà pourquoi conditionner des variables et raisonner « toutes choses égales par ailleurs » permet, quand certaines conditions sont remplies, de découvrir des véritables effets causaux[2].
Et la théorie des graphes causaux nous donne ces conditions. Par exemple, il ne faut pas conditionner par une variable qui serait causée par la variable à expliquer : on doit conditionner seulement par des variables en « amont » causal ; si l’on veut découvrir l’effet causal total d’une variable sur une autre, il faut faire très attention à ne pas conditionner par une variable médiatrice par laquelle l’effet causal est censé passer ; etc.
La principale leçon de tout ça, c’est que pour utiliser des régressions en sciences sociales et en tirer des conclusions causales, il est important d’avoir un graphe causal en tête parce que c’est ce dernier qui détermine comment on doit construire notre régression. Contrairement à ce qui est parfois suggéré par les sociologues, la recherche de relations causales ne doit pas être une étape supplémentaire (et optionnelle) après le travail initial de modélisation prédictive.
En construisant le graphe causal, on est aussi amené à faire un travail de clarification salutaire sur le plan théorique. Suis-je intéressé-e par l’effet causal total du genre sur le salaire, ou seulement son effet direct pour rendre compte d’une éventuelle discrimination à l’embauche ? Quel autre mécanisme pourrait être en jeu dans cet effet causal direct ? Y a-t-il des variables non mesurées qui pourraient être des causes communes du genre et du salaire ? …
Une autre leçon qu’on peut tirer concerne l’interprétation de la régression en termes d’effets de structure. Je la mentionnais dans mon post précédent en la distinguant de l’interprétation causale. En fait, ce qu’on a dit ici éclaire la logique sous-jacente à la découverte d’effets de structure et vient nuancer cette distinction. En gros, je pense que découvrir un effet de structure, c’est découvrir l’absence d’une relation causale directe entre deux variables, et on arrive à ce résultat en conditionnant par des variables pertinentes. Bien sûr, il y aurait beaucoup plus à dire à ce sujet. L’approche des graphes causaux montre bien qu’il ne faut pas conditionner par n’importe quelle variable, et la découverte d’effets de structure peut recouvrir aussi bien des cas de médiation que des cas de cause commune. Quoi qu’il en soit, je pense qu’on gagnerait à aborder les effets de structure en parlant explicitement de causalité.
La vision courante de la régression en sociologie est erronée
En éclairant ce qu’on cherche à faire quand on fait une régression, l’approche des graphes causaux vient contredire la vision courante de la régression en sociologie 2. Même quand elle va de pair avec une interprétation causale, cette vision courante promeut souvent des principes qui se révèlent purement et simplement erronés. En voici deux :
Les variables explicatives ont le même statut dans le modèle. C’est explicitement dit par Selz et Maillochon (2009) : « Dans l’analyse, les rôles de variables explicatives et variables de contrôle ne sont pas différenciés et peuvent être intervertis dans l’interprétation qui en est faite. » (p. 286) Pourtant, l’approche des graphes causaux montre bien que ce n’est pas le cas : chaque effet causal qu’on souhaite découvrir (c’est-à-dire chaque flèche dans le graphe) requiert un modèle de régression spécifique. Pour en savoir plus sur comment (ne pas) interpréter les coefficients des variables de contrôle dans une régression, je vous renvoie vers Hünermund & Louw (2022).
L’ajout d’une variable explicative ne peut pas faire de mal, donc il vaut mieux ajouter le plus de variables de contrôle possible. Après avoir pointé du doigt la difficulté de contrôler toutes les variables pertinentes, Selz et Maillochon (2009) nous disent : « En pratique, on peut compenser cet inconvénient en mettant dans le modèle de nombreuses variables de contrôle (ce qui n’est envisageable que dans les gros échantillons) » (p. 64-65). Cette invitation à ajouter autant de variables de contrôle que possible est en fait très problématique, puisque la sélection de chaque variable de contrôle devrait être faite à la lumière de leur rôle dans le modèle causal graphique proposé.
Ces deux principes sont parfois justifiées en invoquant des critères plus fondamentaux sur la causalité en statistiques. Des Nétumières (1997) en donne une présentation très claire. Contrairement à d’autres, elle assume l’ambition causale de la régression, mais voici ce qu’elle identifie comme les « critères habituellement avancés en statistique de l’existence d’une relation causale » :
1) il existe une liaison statistique [ce que j’ai appelé un lien probabiliste, ou prédictif] entre la variable A et la variable B,
2) A précède B dans l’ordre temporel,
3) la corrélation entre A et B subsiste lorsque l’on contrôle l’effet d’autres variables qui peuvent avoir un lien avec A ou B. » (p. 279)
De tels critères pourraient effectivement légitimer la vision courante de la régression. Mais le critère 3) est évidemment erroné. La mise en application de la vision courante mène donc à des problèmes méthodologiques majeurs dans la construction et l’interprétation des modèles de régression.
Au final, j’avais soutenu dans le précédent post qu’il était important de bien distinguer les différentes interprétations possibles d’une régression. Dans ce post, j’ai montré que l’interprétation la plus populaire, l’interprétation causale, gagnerait à être enseignée en mobilisant l’approche des graphes causaux. Celle-ci offre à la fois la raison d’être des régressions, un cadre théorique propice à la clarification conceptuelle, et un guide pratique pour les mettre en œuvre.
Je n’ai rien prouvé rigoureusement ici. Je me suis contenté de donner l’intuition derrière, mais on peut trouver les démonstrations mathématiques dans la littérature sur les graphes causaux. ↩
La vision courante de la régression en sociologie, avec ses deux principes précédents, se retrouve grosso modo dans d’autres disciplines, où elle a aussi été vigoureusement critiquée.
Richard McElreath, dans une série de trois posts de blog sur l’inférence causale, évoque une façon de faire qu’il appelle la salade causale : « You put everything into a regression equation, toss with some creative story-telling, and hope the reviewers eat it. In general, this is not a valid approach, for well-known reasons. […] Widespread in the sciences, causal salad tosses data together without any thought given to the causal relationships among them. The regression (or any other machine learning tool) learns the patterns in the data, and then a human interprets these patterns as measures of cause ».
Dans le même genre, Achen (2005) parle d’une « garbage-can approach » de la régression, qu’il décrit comme ceci : « Many social scientists believe that dumping long lists of explanatory variables into linear regression, probit, logit, and other statistical equations will successfully “control” for the effects of auxiliary factors. Encouraged by convenient software and ever more powerful computing, researchers also believe that this conventional approach gives the true explanatory variables the best chance to emerge. » (abstract) Achen se focalise dans cet article sur des hypothèses plus spécifiques de la régression (des hypothèses que je n’aborde pas dans mes posts) : la linéarité et la monotonie des effets des variables explicatives sur la variable expliquée, qui sont postulées par le modèle de régression mais loin d’aller de soi dans la réalité. Il s’agit d’hypothèses fonctionnelles, car elles portent sur la forme précise de la relation entre les variables. En contraste, dans cette série de posts, j’ai évoqué des hypothèses plus générales concernant la présence ou l’absence de relation.
On pourrait rétorquer que beaucoup de sociologues ont déjà dénoncé ce genre de pratiques douteuses. J’ai évoqué Bry, Robette et Roueff (2018), mais on peut aussi penser à [Desrosières (1995, 2001) ou Passeron dans Le raisonnement sociologique (2006). Toutefois, le contenu de leurs critiques n’a pas grand-chose à voir avec les critiques issues de l’approche des graphes causaux (et elles sont à mes yeux nettement moins convaincantes, je ferai peut-être un post là-dessus plus tard). ↩