(2) La régression et ses interprétations

15 minute read

Published:

Comment réussir à expliquer en sciences sociales, quand on ne peut pas faire de l’expérimentation ? C’est là qu’entre en scène la régression. Dans ce post, je vais expliquer rapidement en quoi ça consiste avant de m’attarder sur les différentes interprétations de la régression.

Qu’est-ce qu’une régression ?

Pour simplifier, un modèle de régression nous dit que la variable que l’on cherche à expliquer – la variable expliquée – est égale à la somme de plusieurs variables explicatives qu’on a préalablement pondérées. Par exemple, le salaire des gens pourrait être notre variable expliquée, et on pourrait mettre en variables explicatives le diplôme, l’âge, le secteur d’activité et le genre, comme suit : 

salaire = β0 + β1 diplôme + β2 âge + β3 secteur_d’activité + β4 genre + ε

Les βi sont les coefficients de pondération et ε une quantité aléatoire qui vient s’ajouter au reste (parce qu’on pense que l’équation, une fois enlevé ε, n’est qu’approximativement vraie : le modèle est probabiliste). Après avoir fait tourné notre logiciel de statistiques, on obtient une estimation des coefficients de pondération (les βi) pour chaque variable explicative. Cela permet, pour chaque valeur qu’on donne aux variables explicatives (par exemple, la valeur « homme » à la variable du genre), de prédire la valeur que prendrait la variable expliquée. Dans l’exemple précédent, notre modèle de régression pourrait nous dire ce que gagnerait un homme sans diplôme de 40 ans travaillant dans l’industrie, ou une femme de 25 ans au chômage ayant une licence.
La régression, sous ses différentes déclinaisons (notamment linéaire et logistique), est un des outils statistiques les plus populaires en sciences sociales. C’est souvent le seul modèle de statistique inférentielle qu’on présente aux étudiants. Pour en savoir plus sur le versant technique de ces techniques, vous pouvez facilement trouver en ligne des introductions plus techniques (comme celle-ci ou, encore plus technique, celle-là).

L’approche « toutes choses égales par ailleurs »

Alors, quelle genre de conclusions la régression nous permet-elle de tirer exactement ? La façon la plus courante d’interpréter une régression, celle mise en avant dans les ouvrages introductifs, consiste à dire que la régression permet de « contrôler » certaines variables explicatives pour découvrir les « effets propres » d’autres variables explicatives, leur « contribution respective » une fois qu’on l’a démêlé de l’effet des autres variables. Dans l’exemple précédent, la régression permettrait d’évaluer l’effet du genre en contrôlant le diplôme, l’âge et le secteur d’activité, c’est-à-dire d’évaluer ce que ça fait sur le salaire de changer la variable du genre tout en maintenant les autres variables explicatives fixes. On dit aussi que la régression permet de raisonner « toutes choses égales par ailleurs », même si les seules choses qu’on rend égales sont en fait les variables explicatives présentes dans la régression. L’effet du genre sur le salaire en raisonnant à diplôme, âge et secteur d’activité égaux par ailleurs, correspond simplement au coefficient qu’on a trouvé pour la variable du genre après avoir fait tourner notre logiciel de statistiques. Il est censé correspondre à ce fameux « effet propre ».

Dans cette perspective, la régression peut être vue comme une extension d’un principe de raisonnement plus général, celui qu’envisageait déjà Durkheim, un des pionniers de la sociologie, avec sa méthode des variations concomitantes1. En quoi consiste cette méthode ? Voilà ce que nous dit Durkheim :

Quand les phénomènes peuvent être artificiellement produits au gré de l’observateur, la méthode est l’expérimentation proprement dite. Quand, au contraire, la production des faits n’est pas à notre disposition et que nous ne pouvons que les rapprocher tels qu’ils se sont spontanément produits, la méthode que l’on emploie est celle de l’expérimentation indirecte ou méthode comparative. Quand il s’agit d’individus, comme ils sont très nombreux, on peut choisir ceux que l’on compare de manière à ce qu’ils n’aient en commun qu’une seule et même anomalie ; celle-ci se trouve ainsi isolée de tous les phénomènes concomitants et on peut, par la suite, étudier la nature de son influence sur l’organisme. (Les règles de la méthode sociologique, 1894)

Selz et Maillochon, dans Le raisonnement statistique en sociologie (2009), y voient la même démarche que celle des sociologues contemporains, et en particulier celle qui est en jeu dans la régression :

L’objectif des sociologues est bien de chercher à isoler un facteur, c’est-à-dire de mesurer l’effet (ou le lien) d’un caractère ou d’un événement sur les conditions de vie ou le comportement des individus. La méthode revient à construire, au sein de la population décrite dans la base de données, des sous-ensembles identiques deux à deux suivant un certain nombre de caractéristiques et d’y comparer l’effet du facteur étudié (la religion par exemple) sur un certain comportement (le suicide par exemple). Il s’agit de simuler l’expérimentation : les sous-populations identiques deux à deux jouent le rôle des deux groupes choisis a priori pour leur similarité dans les protocoles expérimentaux, médicaux par exemple.
Cette « expérimentation indirecte » suggérée par les sociologues n’est en fait rien d’autre que l’analyse « toutes choses égales par ailleurs » que l’on peut modéliser (au sens d’en faire un modèle mathématique), dans des formes plus complexes, par les méthodes de régression […]. En effet, ces méthodes utilisent les données dont on dispose pour calculer comment les variations d’une certaine variable (par exemple le diplôme) influencent en moyenne une autre variable (par exemple le salaire), alors que toutes les autres variables présentes dans les données et retenues dans la procédure (comme le sexe et l’âge) restent inchangées (et ceci pour l’ensemble des combinaisons de sexe et d’âge). (p. 62-63)

Les interprétations de la régression

Voilà comment on présente généralement l’ambition explicative de la régression. Mais essayons d’aller plus loin. Quelle genre d’explication cette approche « toutes choses égales par ailleurs » nous procure-t-elle réellement ? Il me semble qu’il y a trois interprétations possibles2, qui se mêlent souvent en pratique : 

  1. L’interprétation prédictive. La régression permet de prédire la variable expliquée quand on a des informations sur les variables explicatives. Si je veux deviner le salaire de quelqu’un et que je connais son genre, son secteur d’activité, son âge et son diplôme, le modèle de régression me permet de prédire son salaire de façon plus fiable que si je prédisais au hasard ou que j’ignorais ces informations. Le pouvoir prédictif qu’offre la régression remplit un rôle scientifique important, puisqu’on attend souvent d’un bon modèle scientifique qu’il améliore la qualité de nos prédictions sur le monde. Pour évaluer ce pouvoir prédictif, il suffit de regarder l’ampleur de l’écart entre les valeurs réelles de la variable expliquée (dans les données à notre disposition) et les valeurs prédites par la régression. C’est grosso modo ce qu’on cherche à faire quand on regarde le fameux coefficient de détermination (le R2) de la régression, qui correspond à la proportion de la variance de la variable expliquée qui est expliquée par la régression.
    Mais on ne va pas très loin avec cette interprétation prédictive. Certes, dans la mesure où la régression nous dit comment notre prédiction du salaire varie selon le genre, elle nous permet de découvrir un « effet propre » du genre, mais c’est en un sens très faible du terme. Et en aucun cas cette interprétation ne justifie l’analogie avec l’expérimentation que font les auteurs précédents.

  2. L’interprétation en termes d’effets de structure. Cette interprétation, particulièrement populaire en sociologie, nous dit que la régression permet de découvrir des effets de structure. Il y a effet de structure quand on montre qu’une variable qui semblait à première vue en expliquer une autre se révèle être une « variable écran », c’est-à-dire qu’elle cachait l’effet d’une autre variable. Prenons un exemple simple : j’étudie les attitudes d’hostilité qu’ont les salariés envers la direction d’une entreprise et je découvre que le degré d’hostilité varie d’un service à l’autre, ce qui me semble un résultat intéressant ; mais je me rends compte ensuite qu’il y a beaucoup plus de jeunes salariés dans un service que dans l’autre, et que les jeunes salariés des deux services ont le même niveau moyen d’hostilité, inférieur à celui des salariés plus âgés des deux services (également à un niveau similaire). Autrement dit, si on prend un individu au hasard dont on connait l’âge, le service dans lequel il travaille ne nous donnerait pas plus d’information sur son niveau d’hostilité envers la direction. La variable « service » est une variable écran, l’effet de l’appartenance à un certain service sur l’hostilité envers la direction étant complètement dû à une surreprésentation d’un groupe – les salariés plus âgés – en moyenne plus hostile dans un service par rapport à l’autre.
    Cette interprétation limite l’usage qu’on peut faire de la régression à la démarche suivante :
    1. prenez une variable X qui corrèle avec la variable qu’on cherche à expliquer ; X est la variable que l’on soupçonne de faire écran.
    2. faites une régression en mettant en variables explicatives à la fois X et une ou plusieurs autres variables que l’on soupçonne d’avoir un effet caché par X.
    3. si la régression aboutit à un coefficient nul (ou statistiquement non significatif) pour X, cela suggère que X était une variable écran, et donc que son « effet propre » est nul. Sinon, on peut encore essayer de rajouter des variables jusqu’à obtenir un coefficient nul pour X.
      Notez que cette interprétation s’intéresse uniquement à la présence ou l’absence d’effets nuls, l’ampleur de l’effet n’étant pas directement interprétable. Je reviendrai sur la nature exacte de cette interprétation dans le prochain post.
  3. L’interprétation causale. Ici l’idée est de prendre les effets propres de certaines variables explicatives comme de véritables effets causaux. En gros, si on intervenait pour modifier de façon exogène ces variables explicatives, l’effet qu’on observerait sur la variable expliquée serait donné par le coefficient correspondant dans notre régression. C’est l’interprétation la plus évidente de la régression : si ça vous semble raisonnable d’essayer d’expliquer le salaire par le genre, mais que l’inverse vous parait bizarre (« comment donc le salaire pourrait-il expliquer le genre d’une personne ? »), c’est probablement que vous avez en tête une interprétation causale. Seule cette interprétation rend compte de la tentation de faire une analogie entre régression – et plus généralement raisonnement « toutes choses égales par ailleurs » – et expérimentation. Bien que certains sociologues soient réticents à parler explicitement de causalité3, c’est pourtant explicitement ce que Durkheim avait en tête. D’autres sociologues parlent plus volontiers de causalité, par exemple Philippe Cibois, qui dans Les méthodes d’analyse d’enquêtes (2014, le livre est en accès libre !), consacre un chapitre à ce qu’il appelle les « techniques d’analyse “toutes choses égales par ailleurs” ». Celles-ci sont introduites comme suit :

    Parler de techniques « toutes choses égales par ailleurs » fait appel à l’idée que si un phénomène social est dû à plusieurs causes, il peut être intéressant de voir l’effet propre de chacune des causes, indépendamment des autres.

Conclusion

Le message principal de ce post, c’est que les différentes interprétations de la régression ne doivent pas rester dans l’ombre. Plutôt que de s’en tenir à un vocable opaque (en parlant juste d’explication, d’effets propres ou d’influence), il faut enseigner explicitement ces interprétations : elles correspondent à des objectifs scientifiques différents, n’ont pas les mêmes implications et ne requièrent pas le même type de preuves pour être convaincantes.
En particulier, les conditions précises qui garantissent la validité de l’interprétation causale, l’interprétation la plus ambitieuse de la régression, sont loin d’aller de soi ! C’est ce que je montrerai dans le post suivant.

  1.  La proximité entre la méthode des variations concomitantes et les modèles de régression est par exemple notée par Selz et Maillochon (2009) et des Nétumières (1997)

  2. La distinction entre interprétations prédictive et causale est régulièrement mentionnée dans la littérature sur l’inférence causale (que je présenterai dans le prochain post). Gelman & Hill (2007) consacrent ainsi plusieurs chapitres à la « causal inference using regression », qu’ils distinguent de « interpreting regressions predictively » : « given the values of several inputs, the fitted model allows us to predict y, considering the n data points as a simple random sample from a hypothetical infinite “superpopulation” or probability distribution. Then we can make comparisons across different combinations of values for these inputs. » (p. 167) En contraste, l’inférence causale a trait à « what would happen to an outcome y as a result of a hypothesized “treatment” or intervention. » (p. 167)
    En sociologie francophone, toutefois, je n’ai pas trouvé beaucoup d’autres tentatives pour distinguer différentes interprétations de la régression. Il y a bien Bry, Robette et Roueff (2018), qui distinguent trois « types d’usages des modèles de régression » :

    • un usage mesuré, qui « consiste à contrôler la structure de la population étudiée, i.e. à raisonner “à propriétés sociales égales par ailleurs” ».
    • un usage métrologique (le terme est apparemment de Desrosières, mais je ne le trouve pas très judicieux), qui « consiste à utiliser la régression pour tenter de hiérarchiser l’importance de différents facteurs causaux ».
    • un usage hyper-métrologique dans les « procédures d’évaluation de l’action publique », où il s’agit de « mesurer le plus précisément possible l’efficacité […] en calquant la démarche sur celle des sciences expérimentales ».

    Je ne suis pas très convaincu de l’intérêt de cette typologie, qui semble surtout avoir un but normatif : les auteurs semblent préconiser le premier usage seulement.
    Rouanet, Lebaron, Le Hay, Ackermann & Le Roux (2002) explorent aussi différentes interprétations de la régression. Ils rappellent que « [l]’essence de la régression est la prédiction », et que dans ce cadre « l’idée de regarder un effet conditionnel comme un “effet vrai, toutes choses égales par ailleurs”, ne trouve guère sa place » (p. 19), ce avec quoi je suis tout à fait d’accord. Ils opposent ce rôle prédictif à un rôle qui serait véritablement explicatif (là, je ne suis pas trop d’accord parce que je vois la prédiction comme déjà une sorte d’explication) : « La régression met en jeu un schéma explicatif dès lors qu’on donne à la variable à prédire le statut de “variable à expliquer”, et aux variables prédictrices celui de “variables explicatives” » (p. 20). C’est dans ce cadre, selon eux, qu’on peut mobiliser « la phraséologie de l’“effet vrai, toutes choses égales par ailleurs” – c’est-à-dire de fait, conditionnellement aux autres variables retenues » (p. 20), du moins à condition qu’on ait bien pris en compte « toutes les variables pertinentes » (p. 21). Mais les auteurs, qui évitent par ailleurs toute référence explicite à la causalité, ne donnent pas plus de détails sur comment on détermine les « variables pertinentes » en question. Cette mise en garde, qu’on trouve dans pas mal de sources sociologiques, n’aide donc pas vraiment. 

  3. Cette réticence me semble regrettable quand c’est l’interprétation causale qui est implicitement mobilisée (comme c’est souvent le cas). Une telle réticence est loin d’être spécifique aux sociologues : on trouve la même ambiguité dans la façon dont d’autres disciplines de sciences humaines et sociales discutent d’« effets », de « facteurs », d’« influences » ou de « déterminants » quand ceux-ci sont obtenus à partir de données observationnelles (voir Achen, 2005Hernán, 2018