Inférence causale et méthodes quantitatives

De Baripedia

Introduction

Il y a plusieurs avantages à utiliser des méthodes quantitatives. Elles permettent d’agréger beaucoup d’informations sur beaucoup d’observations ainsi que de résumer et de traiter ces informations. Lorsqu’on utilise ces méthodes statistiques pour faire des inférences causales ou descriptives, il faut accepter certains postulats. Lorsque ces postulats sont respectés, l’inférence causale va être correcte. En acceptant certains postulats, on obtient des informations précises sur notre incertitude. On peut déterminer quelle est la chance de se tromper lorsqu’on fait une inférence de type causale. Ces méthodes traitent de manière très explicitent des inférences sur la qualité de l’inférence et sur son incertitude.

Les statistiques sont des méthodes qui résument quantitativement des informations et qui permettent de tirer des constats généraux. L’information brute est appelé « données » qui peuvent provenir d’expérience, de sondage ou de toutes formes d’observations systématiques. Les données organisées de manière systématique forme une banque de données dit aussi une base de données ou un fichier de données.

Les données concernant l’ensemble de la population sur laquelle porte l’étude peuvent être introuvables, onéreuses ou impossibles à recueillir. C’est pourquoi on se base sur la sélection d’un échantillon, idéalement selon une procédure de sélection aléatoire qui permet de procéder à des inférences, c’est-à-dire généraliser ce qu’on observe dans l’échantillon à l’ensemble de la population. La population mère est la population sur laquelle porte l’étude et au sein de laquelle est prélevé l’échantillon.

Madi Population et échantillon 1.png

En général, on ne s’intéresse pas aux données pour elles-mêmes, mais à la population dont sont extraites les données. Ainsi, on cherche à inférer de la connaissance sur la population à partir de l’échantillon observé à savoir les données.

Il existe de nombreuses manières de choisir un échantillon. Plusieurs critères sont pris en considération. Les critères suivants sont en général considérés :

  • représentativité de la population étudiée ;
  • une fréquence suffisante des caractéristiques d’intérêts : si on étudie le poids des working poors au sein des travailleurs, il faut être sûr d’avoir suffisamment de ces individus dans l’échantillon ;
  • facilité de mise en œuvre : il est plus simple d’interroger tous les ménages d’un immeuble plutôt que d’interviewer des individus sélectionnes aléatoirement au sein d’un registre quelconque.

La taille de l’échantillon nécessite également un arbitrage. Plus un échantillon est grand et plus cela permet d’être plus précis et on obtient une erreur d'estimation acceptable, néanmoins, cela est coûteux en argent et en temps.

Idéalement, on aimerait travailler sur un échantillon aléatoire. Un échantillon sélectionné selon une procédure qui assure à chaque membre de la population une probabilité non nulle (et connue) d’être choisi. L’avantage est que l’échantillon aléatoire permet d’exploiter pleinement la théorie statistique. Les outils de la statistique inférentielle s’appuient sur le calcul des probabilités et donc sur l’existence de ces probabilités. Selon la théorie statistique, il n’est pas nécessaire d’observer tout le monde, un échantillon convenablement choisi peut fournir des résultats très proches de ceux d’une analyse de toute la population. C’est une analyse exhaustive.

Les échantillons non-aléatoire sont un choix raisonné comme par exemple on interroge les personnes qui paraissent a priori les plus intéressantes (experts d’un domaine, etc.) ou encore une liste choisie au hasard dans l’annuaire téléphonique avec un échantillon aléatoire des inscrits dans l’annuaire, mais cela exclut les personnes non inscrites. L’enquête par quotas se compose d’u échantillon sur la base des caractéristiques connues de la population-mère. Lorsqu’un quota est rempli, par exemple les jeunes âgés entre 18 et 30 ans, on ne peut plus interviewer de jeunes de cet âge. Donc ce n’est pas purement aléatoire. Ce sont des méthodes lorsqu’on utilise la statistique différentielle.

Le problème des échantillons non-aléatoires est qu’on ne sait pas mesurer la fiabilité des résultats. Si on applique quand même les outils de l’inférence statistique, on obtient des significativités non-rigoureuses. Elles ne donnent que des indications approximatives et doivent être considérées avec prudence.

L’unité d’analyse ou l’unité d’observation est l’objet, la personne ou l’évènement dont on étudie les caractéristiques. Cela peut être les individus, les pays, les cantons, les entreprises, les conflits violents, les familles, les universités, les éditoriaux ou encore les élections présidentielles. On peut par exemple fait une étude sur les journaux est analyser les éditoriaux. C’est la question de recherche et le phénomène étudié qui va définir l’unité d’analyse pertinente.

Données

Variables et niveaux de mesure

Dans Guide Pratique d'introduction à la régression en sciences sociales publié en 2009, Pétry et Gélineau définition une variable comme un regroupement logique de caractéristiques décrivant un phénomène observable empiriquement. Si la caractéristique mesurée peut prendre différentes valeurs, on dit que cette caractéristique est une variable. Cette caractéristique doit posséder au moins deux valeurs. Donc, les variables sont les attributs qui caractérisent les unités d’analyse (observations, individus, cas, etc.). Une variable est un critère par lequel on classe des observations dans des catégories comme par exemple le sexe, le niveau de formation, le pays d’origine, le type de régime politique, le PNB par habitant ou encore le revenu. Ce qui rend utile scientifiquement une variable est sa mesure.

Les variables peuvent posséder des propriétés différentes qui vont définir leur niveau de mesure. Les trois niveaux de mesure les plus courants en sciences sociales sont :

  • nominal : qualitative ou catégorielle ;
  • ordinal : qualitative ou catégorielle ;
  • intervalles : quantitative ou continue.

Variable nominale

Madi Variable nominale 1.png

Une variable nominale est classement des observations dans des catégories. Ces catégories sont mutuellement exclusives. Par exemple, on est soit un homme, soit une femme; un pays est soit une démocratie, soit une dictature. Les valeurs nominales sont des catégories sans ordre. Lorsqu’on assigne des nombres aux valeurs nominales, c’est- à-dire aux catégories d’une variable nominale, ces nombres sont arbitraires. On ne peut pas leur faire subir d’opération arithmétique.

Les variables de type catégoriel (qualitative) sont par exemple la religion, le sexe, la langue, la nationalité ou encore la région. La variable sexe est habituellement une variable dichotomique qui prend deux valeurs.

Variable ordinale

Madi Variable ordinale 1.png

Une variable ordinale est un classement des observations dans des catégories ordonnées ou hiérarchique voire même chronologique. Les valeurs peuvent être ordonnées. On peut assigner à ces valeurs des nombres qui indiqueraient leur ordre. On ne peut pas leur faire subir d’opération arithmétique.

Une variable de type catégoriel (qualitative) est par exemple le niveau de formation, les classes d’âge, les classes de revenu, l’intérêt pour la politique, le type de régime politique (démocratique, partiellement démocratique, non démocratique). Les variables ordinales fournissent plus d’informations que les variables nominales.

Variable d’intervalle

Madi Variable d’intervalle 1.png

Outre les propriétés des variables nominale et ordinale, une variable d’intervalle suppose que la distance (l’intervalle) entre les valeurs est quantifiable (les intervalles sont égaux). Un exemple est la variable « âge » qui est un x, l’intervalle entre 50 ans et 80 ans est de 30 ans. Les valeurs peuvent correspondre à une unité de mesure standard, à une métrique spécifique. Dans ce cas, le score attribué à chaque individu se réfère directement à la caractéristique mesurée par la variable. Par exemple, la variable « revenu en francs suisses » a pour unité de mesure le franc suisse; la variable « âge » a pour unité l’année; la variable « taux de participation » a pour unité le pourcentage.

Les variables d’intervalles permettent de faire des opérations arithmétiques. Ce sont des variables quantitatives, par exemple l’âge, le nombre d’années d’étude, le revenu, le PIB par habitant ou encore le taux de participation.

Variable ordinale métrique

Une variable ordinale métrique n’est pas un niveau de mesure à proprement parler. On fait l’hypothèse qu’il y a une distance équivalente entre les valeurs de la variable ordinale (les intervalles entres les valeurs sont identiques), c’est-à- dire que la variable possède les propriétés d’une variables d’intervalles.

Madi Variable ordinale métrique 1.png

Concernant la de variable d’auto-positionnement on peut être tenté d’utiliser une moyenne supposant que les intervalles sont égaux et que la variable sur laquelle on va calculer la moyenne est un variable d’intervalle. Il faut supposer qu’entre les intervalles, la distance entre 0 et 1 est la même qu’entre 1 et 2.

Pour déterminer si une variable est ordinale métrique, il y a plusieurs éléments dont la distribution des observations. Des mesures sont préalablement faites par les chercheurs mais parfois ce sont des mesures qui ne sont pas très bien faites.

Pour l’intérêt pour la politique,

Madi Variable ordinale métrique 2.png

Si la variable est ordinale :

Madi Variable ordinale métrique 3.png

Si la variable est ordinale métrique :

Madi Variable ordinale métrique 4.png
Madi Variable ordinale métrique 5.png

Ce schéma de classe social est bien détaillé. On pourrait essayer d’argument que la variable est ordinale mais pour cela on suppose que les grands employeurs se situent au sommet de la hiérarchie sociale jusqu’aux travailleurs non qualifiés qui sont en bas de la hiérarchie sociale.

Madi Variable ordinale métrique 6.png

Le niveau de mesures permet une anticipation des problèmes mais aussi opérationnalisation des concepts, le choix des techniques statistiques ainsi que le choix des coefficients d’association et des tests statistiques appropriés.

Matrices de données

Les données statistiques sont habituellement organisées comme des tableaux ou des matrices dans lesquelles :

  • les lignes représentent les unités d’observations (individus, pays, entreprises, conflits violents, etc.), ou unité d’analyse. L’unité d’analyse est l’objet ou la personne dont on étudie les caractéristiques ;
  • les colonnes représentent les variables ou les caractéristiques des unités d’observations comme par exemple le sexe, l’âge, le vote ou encore le PNB.

Les codes sont parfois directement interprétables comme par exemple l’âge, le revenu en dollars ou encore le PIB par habitant. D’autres fois, leur signification renvoient à un libellé par exemple : 1 pour les hommes et 2 pour les femmes; 1 pour les mariés, 2 pour les célibataires, 3 pour les divorcés/séparés et 4 pour les veufs. Certains codes sont spécifiques et peuvent signifier que la question ne s’applique pas, que l’interviewé a refusé de répondre, qu’il ne connaît pas la réponse, que l’information est manquante avec des codes tels que 98, 99, 999, -1, -2, -66. -77, -88, -99, - 999, - 9999. Si on ne dispose pas l’information, on ne peut pas analyser. On retrouve souvent des données manquantes par rapport à la variable/caractéristique mesurée. Ces données manquantes sont définies de manières variées.

Les informations sont la plupart du temps codés d’une manière numérique parce que les logiciels sont plus efficaces lorsqu’ils utilisent des valeurs numériques.

Madi Matrices de données 3.png

SPSS

SPSS est un logiciel pour le traitement et l’analyse statistique de données. Il permet de gérer de grandes bases de données (individus x variables). L’analyse statistique et le traitement informatique des données ne sont que des outils au service du chercheur

Le logiciel SPSS se compose de trois fenêtres principales :

  • l’éditeur des données (Data Editor) qui contient deux onglets avec la matrice des données (Data View) et le dictionnaire des variables (Variable View) ;
  • la fenêtre des résultats (Viewer ou Output) ;
  • la fenêtre de syntaxe (Syntax Editor)
Madi SPSS 1.png

Chaque fenêtre est à sauvegarder indépendamment des autres. En lignes on retrouve les observations (ici ce sont les individus interrogés) et en colonnes les variables (ici,« polintr », l’intérêt pour la politique).

Madi SPSS 2.png

En lignes sont les variables (ici la variable « polintr »), en colonnes les caractéristiques des variables (ici « values », valeurs des modalités). « Name » se réfère au nom des variables, « Type » au type de variable (numérique, caractère, date, etc.), «Label» au libellé des variables, « Values » aux valeurs et libellés, comme « Missing » aux valeurs données manquantes définies.

La fenêtre des résultats affiche les lignes de commandes qui ont produits les résultats, les résultats des analyses ainsi que les éventuels messages d’erreur.

Madi SPSS 3.png

La fenêtre « Syntax Editor » permet d’écrire directement les instructions en langage SPSS sans passer par les menus.

Madi SPSS 4.png

Outils statistiques de base

Les pourcentages

Madi pourcentages 1.png

Quand les fréquences sont élevées, la comparaison est difficile. Comparer deux fréquences qui proviennent de groupes comportant un nombre de cas sensiblement différents est difficile.

En terme de fréquence, le nombre total varie fortement. Pour comparer des fréquences qui proviennent de groupes, on calcule les pourcentages. Un pourcentage est une forme de standardisation. Quel serait le nombre de fréquence si le nombre total de cas était de 100.

Il faut toujours être prudent lorsqu’on calcule des pourcentages. Les pourcentages sont assez instables. Si il y a une erreur de codage des données, le pourcentage peut varier.

Diagrammes circulaires (camemberts)

Il existe de nombreux types de variables comme les analyses univariées ou encore les analyses bivariées. Le cercle représente le nombre total d’observations, ici les pays. Les tranches peuvent représenter soit des pourcentages, soit des fréquences. Le diagramme circulaire est adapté pour les variables nominales et ordinales si il n’y a pas trop de modalités. Plus grand est le pourcentage et plus grand est le camembert.

Madi diagrammes circulaires 1.png

Diagrammes à barres (ou en bâtons)

Les digrammes à barres sont adaptés pour des variables nominales et ordinales.

Les histogrammes

Madi histogrammes 1.png

Les histogrammes sont adaptés pour des variables d’intervalles. Ils permettent de visualiser la forme de la distribution qui est symétrique ou non et les concentrations et discontinuités sur l’échelle. Lorsqu’on parle de forme distribution, cela signifie la manière dont est distribuée notre observation sur une échelle.

Madi histogrammes 2.png

La distribution de gauche est une distribution asymétrique. Celle du milieu est parfaitement symétrique et la distribution de droite est asymétrique.

Boxplots

Les boxplots sont aussi appelés « boîtes à pattes » ou « boîtes à moustaches ». Ils sont adaptés pour des variables d’intervalles et permettent de visualiser la forme de la distribution (symétrique ou non), les concentrations et discontinuités sur l’échelle. Les boxplots sont particulièrement utilisés pour distinguer deux groupes différents.

Madi boxplot 1.png

Le premier boxplot est une distribution symétrique. Le principe du boxplot est de résumer la distribution des observations sur une variable. Il y a les pattes et les extrémités qui indiquent la valeur minimum et la valeur maximum. Le point indique la valeur de la médiane. Les bords des boites définissent le premier et le troisième quartile.

Pour déterminer si une distribution est symétrique, il faut :

  • regarde si le point est au centre de la boite ;
  • regarder si les pattes ont la même longueur ;
  • regarder s’il y a des valeurs atypiques : si une valeur dépasse plus de 1,5 fois la valeur de la

boite, c’est une valeur atypique. Si une valeur dépasse plus de 3 fois la valeur de la boite, c’est une valeur extraordinaire.

Madi boxplot 2.png

Lorsqu’on a un boxplot ou un histogramme, il faut regarder l’échelle. On voit la forte concentration des pays. Entre la médiane est la patte, on a la moitié des observations. Les pattes ne sont pas de la même longueur, la médiane est hors de la boite, on a beaucoup de valeurs extraordinaires.

Madi boxplot 3.png

Il faut se poser la question de savoir si la distribution est symétrique. Sur la variable âge, le boxplot permet de mettre en évidence l’individu qui a 120 ans. 

Les cas déviants

Les histogrammes et surtout les boxplots permettent de déceler les cas déviants qu’on appel aussi les « outliers ». Les cas déviants, ont des cas et des observations dont la valeur est isolée et paraît anormalement enlevée ou basse. Un cas est considéré comme déviants lorsqu’il se retrouve éloigné aux extrémités d’une distribution, détachés de la plupart des autres valeurs comme par exemple le revenu très élevé d’un PDG.

Les cas déviants peuvent affecter les analyses statistiques. Il faut chercher à comprendre pourquoi ils sont déviants. Cela peut être des erreurs dans la mesure ou encore dans la compilation des données. Il est possible d’exclure les cas déviants des analyses mais seulement après avoir compris leur signification.


Mesures de tendance centrale

Une mesure de tendance centrale est une valeur typique ou représentative d’un ensemble de score. Elles résument en quelque sorte le « milieu » d’une distribution ou sa valeur « moyenne » :

  • mode ;
  • médiane ;
  • moyenne arithmétique.

Mode

Le mode correspond à la modalité d’une variable donnée qui contient le plus d’observations pour les variables nominales, ordinales et d’intervalles mais de peu d’intérêt pour les variables d’intervalles. Les distribution s’opère entre unimodale (graphique à gauche) et bimodale (à droite).

Médiane

Lorsque les scores sont ordonnés, la médiane est la valeur qui divise en deux parties égales un ensemble ordonné de scores pour les variables ordinales et d’intervalles car les scores doivent être ordonnés. Une variable nominale n’a pas de médiane. C’est la valeur de l’observation qui partage la distribution en deux parties contenant chacune 50 % des observations. Il faut que les scores soient ordonnés, du plus petit au plus grand. La médiane est le score qui se situe au milieu. Le score médian se calcule selon la formule représente le nombre d’observations. La médiane n’est pas affectée par les scores ou valeurs extrêmes à savoir les cas déviants. La médiane est plus robuste que la moyenne.

Madi médiane 1.png

Dans cet exemple, il y a trois variables (une est ordinale, deux sont d’intervalles) et sept observations qui sont les individus) Le score médian se calcule comme suit : , soit le quatrième score.

Moyenne

La moyenne est la somme de tous les scores divisés par le nombre de scores. La formule de la moyenne pour un échantillon est Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle \hat {𝑋} = \frac {Σx_i}{N}\times \hat {𝑋}} («x-barre») indique la moyenne d’un échantillon. La formule de la moyenne pour une population est Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝜇 = \frac {Σx_i}{N}} , le symbole Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝜇} (« mu ») indique la moyenne d’une population. L’indice Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑖} de Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_i} désigne les scores individuels. Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_1} est le premier score, Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑋_2} le second, etc. Échec de l’analyse (erreur de syntaxe): {\displaystyle Σ} (sigma) est utiliser pour indiquer la somme de tout ce qui suit ce caractère. Ainsi, Échec de l’analyse (erreur de syntaxe): {\displaystyle Σ𝑋_i} signifie la somme de tous les scores individuels pour des variables d’intervalles (quantitatives).

Contrairement au mode et à la médiane, la moyenne est une mesure qui incorpore la totalité des scores. Elle comporte donc plus d’informations. La moyenne est sensible aux scores extrêmes, c’est-à-dire aux scores très bas ou très élevés. Par exemple, la présence de très hauts revenus ou leur absence aura des effets sur la moyenne. Dans certains cas, la moyenne ne représente pas vraiment un score typique.

Madi moyenne 1.png

Si on supprime ces cas déviants, par exemple les très hauts revenus, la moyenne peut changer ce qui n’est pas le cas de la médiane.

Mesures de variation/dispersion

Les mesures de variation indiquent le degré de concentration ou de dispersion de la distribution d’une variable. Elles indiquent dans quelle mesure les scores sont semblables ou différents les uns des autres :

  • étendue ;
  • écart-type ;
  • variance.

Étendue

L’étendue est une mesure de distance entre la valeur la plus élevée et la valeur la plus basse d’une distribution. Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝐸𝑡𝑒𝑛𝑑𝑢𝑒\ = 𝑣𝑎𝑙𝑒𝑢𝑟\ 𝑚𝑎𝑥𝑖𝑚𝑢𝑚\ – 𝑣𝑎𝑙𝑒𝑢𝑟\ 𝑚𝑖𝑛𝑖𝑚𝑢𝑚} . Plus l’étendue est grande, plus la dispersion est importante. Utile pour comparer des pays ou des groupes.

Madi étendue 1.png
Échec de l’analyse (erreur de syntaxe): {\displaystyle É𝑡𝑒𝑛𝑑𝑢𝑒\ 𝑑𝑢\ 𝑝𝑎𝑦𝑠\ 𝐴 = 78 – 3 = 75}
Échec de l’analyse (erreur de syntaxe): {\displaystyle É𝑡𝑒𝑛𝑑𝑢𝑒\ 𝑑𝑢\ 𝑝𝑎𝑦𝑠\ 𝐵 = 42 – 15 = 27}

Variance

La variance est égale à la moyenne des carrés des écarts entre chaque observation et la moyenne des observations. Pour une population, la formule est Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝜎^2 = \frac {(X_i - 𝜇)^2}{N}} et pour une échantillon . Plus il y a de variation plus la dispersion sera grande.

Écart-type (standard déviation)

L’écart-type est la racine carrée de la variance, c’est-à-dire de la moyenne des carrés des écarts entre chaque observation et la moyenne des observations. Pour une population la formule est Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝜎 = \sqrt {𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒}} et pour un échantillon, Échec de l’analyse (MathML avec SVG ou PNG en secours (recommandé pour les navigateurs modernes et les outils d’accessibilité) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « https://en.wikipedia.org/api/rest_v1/ » :): {\displaystyle 𝑠 = \sqrt {𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒}} .

Comme la moyenne et l’étendue, la variance et l’écart-type sont sensibles aux valeurs extrêmes alors ces indicateurs sont instables et peu robustes. Plus il y a de variation entre les scores, plus la somme des carrés sera grande, et plus la variance et l’écart-type seront grands.

L’inconvénient de la variance est qu’en mettant à la puissance 2 (au carré) les écarts par rapport à la moyenne sans les remettre ensuite en base 1, elle s’exprime dans une échelle différente de celle des scores. L’avantage de l’écart-type est qu’il remet en base 1 un nombre préalablement élevé à la puissance 2 et s’exprime ainsi dans la même échelle de celle des scores. Si la variable est l’âge (donc l’unité de mesure est l’année), l’écart-type est exprimé dans la même échelle d’années que l’âge des répondants. On peut ainsi considérer l’écart-type comme l’écart.

Récapitulatif

Madi outils statistiques de base récapitulatif 1.png
Madi outils statistiques de base récapitulatif 2.png

Corrélation et régression linéaire

Corrélation et régression linéaire simple

La corrélation et régression linéaire simple permettent d’examiner la relation (l’association) entre deux variables d’intervalles (quantitatives).

L’idée est de découvrir si la position des individus (pays, entreprises, etc.) sur une variable influence leur position sur la deuxième. Parfois, on cherche à déterminer si deux variables sont associées l’une à l’autre sans se soucier de la causalité. La plupart du temps, on s’intéresse aux relations causales dans lesquelles on fait l’hypothèse qu’une variable indépendante (VI) affecte une variable dépendante (VD). La variable indépendante est la variable explicative dit aussi la cause et la variable dépendante et la variable que l’on cherche à expliquer.

Madi Relation entre deux variables 1.png

On peut faire l’hypothèse que le niveau de revenu dépend du niveau de formation et que le niveau de bonheur dépend du revenu. Dans ce schéma le niveau de formation influence le niveau de revenu.

Toutes les méthodes statistiques qui vont permettre de tester une hypothèse sur un lien de causalité entre une variable indépendante et une variable dépendante ou entre plusieurs variables indépendantes et dépendantes reposent sur six questions clés concernant la relation entre deux variables :

  • existe-t-il une relation entre les deux variables pour les données que nous analysons ?
  • quelle est la force ou l’intensité de cette relation ?
  • quelles sont la direction et la forme de la relation ?
  • si une relation existe et si on travaille avec des données d’échantillon, peut-on généraliser la relation à la population de laquelle est tiré l’échantillon ?
  • la relation est-elle véritablement causale ? Ou n’est-elle pas plutôt une relation fallacieuse engendrée par une quelconque tierce variable ?
  • quelles sont les variables intermédiaires qui relient la VI et la VD ?
Madi Méthodes d’analyse de relations bivariées selon le niveau de mesure 1.png

On s’intéresse à la relation entre le taux de fertilité et le taux d’urbanisation. Est-ce que les pays les plus urbanisés ont véritablement un taux de fertilité plus faible ? On formule l’hypothèse suivante : plus le taux d’urbanisation augmente, plus le taux de fertilité diminue. On postule une relation négative.

Madi Relation entre le taux d’urbanisation et le taux de fertilité.png
Madi Relation entre le taux d’urbanisation et le taux de fertilité 2.png

Les données vont permettre de tester cette hypothèse.

Madi Relation entre le taux d’urbanisation et le taux de fertilité 7.png

Un diagramme de dispersion permet de mesurer des variables dans un intervalle. Dans ce diagramme, l’Albanie a un taux de fertilité de 2,5% et urbanisé à 37,9%. L’idée est de representer l’ensemble des pays.

Madi Relation entre le taux d’urbanisation et le taux de fertilité 7.png

Ces digrammes donnent un bon aperçu entre deux variables d’intervalles. Si la relation est positive, les valeurs les plus basse de la variable intendante donc le taux de fertilité sont associées aux valeurs les plus basses et inversement. L’hypothèse est que plus le taux d’urbanisation augmente, plus le taux de fertilité diminue. La forme du nuage de points nous indique une relation négative entre les deux variables. Les points se situent sur une diagonale allant du point supérieur gauche au point inférieur droit avec des pays qui s’en écartent mais pour des raisons particulières.

Le diagramme de dispersion représente chaque observation par un point dans un espace bidimensionnel. Les coordonnées de chaque point (Xi, Yi) correspondent aux valeurs obtenues par une observation (par exemple un pays) pour les variables X et Y. Ce graphique permet de visualiser la direction de la relation (positive ou négative), d’en évaluer visuellement la force (si la relation linéaire est parfaite, les points forment une droite) et d’établir un diagnostic concernant la présence de valeurs atypiques.

caption

L’hypothèse est que plus le taux d’urbanisation augmente, plus le taux de fertilité diminue :

  • Tendance ? relation négative ;
  • Dispersion ? relative forte dispersion ;
  • Cas extrêmes ? il est possible de distinguer des points qui s’écartent de cette droite.

caption

Un diagramme de dispersion est adapté lorsqu’on a peu d’informations. Il est possible de distinguer une relation entre deux variables mais dans certains cas on ne peu rien observer.

Un outil pour visualiser graphiquement la tendance est la droite de régression qui décrit beaucoup mieux la relation.

caption

La droite de régression (droite des moindres carrés) est la droite qui résume la distribution des observations dans le diagramme comme étant linéaire.

Elle est calculée par la méthode des moindres carrés. C’est la droite qui minimise la somme des carrés des distances entre la droite et la valeur de la VD de chacune des observations. Autrement dit, c’est la droite qui minimise la distance de l’ensemble des points par rapport à elle-même. Les deux variables sont d’intervalles (quantitatives).

caption

Les lignes verticales en vert indiquent la distance entre les pays et la droite de régression qui résume la relation urbanisation à fertilité.

Ces distances sont appelées « résidus ». Lorsqu’on trace une droite de régression, on construit un modèle. Un modèle simplifie la réalité mais on ne résume pas toute la relation. Si on met ces distances au carré, puis qu’on les additionne, la somme obtenue serait inférieure à celle de n’importe quelle autre droite qu’on pourrait tracer.

La relation entre deux variables d’intervalles peut s’écrire de la manière suivante : 𝑌! =𝑏!+𝑏!𝑋!+𝑒! 𝑌! = valeur observée de la VD d’une observation. 𝑏! = constante qui indique la valeur à l’ordonnée pour une abscisse nulle (valeur de Y quand X = 0), parfois noté 𝑎. 𝑏! = coefficient de la pente de la droite de régression. 𝑋! = valeur observée de la VI d’une observation 𝑖. 𝑒! = résidu (estimation de l’erreur) d’une observation 𝑖.

L’équation de la droite de régression prend la forme algébrique suivante 𝑌=𝑎+𝑏𝑋 !!! 𝑌=𝑏+𝑏𝑋 !!! 𝑌 = valeur estimée de la VD par la droite de régression. La pente est le changement de Y pour chaque changement d’une unité de X. Pour rappel, 𝑏 = !! !!

caption  La valeur de la pente qu’on appelle aussi coefficient de régression indique la mesure du changement sur la VD d’un changement d’une unité de la VI. Le signe (+ ou −) du coefficient indique la direction de ce changement, c’est-à-dire le sens de la relation. Il faut connaître les unités de mesure de la VD et de la VI : - 𝑢𝑛𝑖𝑡é 𝑑𝑒 𝑚𝑒𝑠𝑢𝑟𝑒 𝑑𝑒 𝑙𝑎 𝑓𝑒𝑟𝑡𝑖𝑙𝑖𝑡é = 𝑙𝑒 𝑛𝑜𝑚𝑏𝑟𝑒 𝑚𝑜𝑦𝑒𝑛 𝑑’𝑒𝑛𝑓𝑎𝑛𝑡𝑠 𝑝𝑎𝑟 𝑓𝑒𝑚𝑚𝑒 ; - 𝑢𝑛𝑖𝑡é 𝑑𝑒 𝑚𝑒𝑠𝑢𝑟𝑒 𝑑𝑒 𝑙’𝑢𝑟𝑏𝑎𝑛𝑖𝑠𝑎𝑡𝑖𝑜𝑛 = 𝑙𝑒 𝑝𝑜𝑢𝑟𝑐𝑒𝑛𝑡𝑎𝑔𝑒. SPSS calcule la valeur de la constante et celle du coefficient de régression Equation de régression : 𝑌 = 5.79 + (−0.04)𝑋 !!

𝑌=𝑏+𝑏𝑋 !!!! 𝑌 = 5.79 + (−0.04)𝑋 !! Interprétation de la constante ( 𝑏! = 5.79) : lorsque le taux d’urbanisation (𝑋) est égal à 0, le taux de fertilité est de 5.79 enfants par femme.

Interprétation du coefficient de régression (𝑏! = −0.04) : lorsque le taux d’urbanisation (𝑋) augmente d’une unité, c’est-à-dire d’un point de pourcentage, le taux de fertilité diminue de 0.04 enfant par femme. Si par exemple, le taux d’urbanisation (𝑋) d’un pays augmente de 25 points de pourcentage, on s’attendrait à ce que les femmes aient en moyenne un enfant de moins. Une augmentation de 25 unités de la VI produirait unediminutionde1surlaVD:25×−0.04= 1. Cela traduirait un déclin important du taux de fertilité.

Le coefficient de Pearson (𝑟) est un coefficient d’association qui permet d’apprécier l’intensité (la force) d’une relation. Il mesure le degré de concentration des points (observations) le long de la droite de régression. Si les points se regroupent de manière étroite le long de la droite de régression, le r sera élevé, ce qui indique une forte relation. Le 𝒓 varie de −𝟏.𝟎𝟎 à +𝟏.𝟎𝟎 : - quand𝒓 = −𝟏ou𝒓 = 𝟏,larelationestparfaite; - quand 𝒓 = 𝟎, il n’y a pas de relation entre les deux variables. Plus le 𝑟 s’approche de −1 ou de 1, plus la relation est forte. Le signe indique le sens de la relation (négative ou positive). La grandeur mesure la force de la relation. À partir de quelle valeur le 𝑟 indique une forte relation ? Et une relation modérée ? Il n’y a pas de règles en la matière. Cela dépend des attentes, de ce que suggère la théorie et des résultats obtenus par d’autres chercheurs. Avec des données agrégées (par exemple les pays), le 𝑟 tend à être beaucoup plus élevé qu’avec des données individuelles (dont l’unité d’analyse est l’individu).

Le 𝒓 est une mesure symétrique d’association peu importe quelle variable est indépendante et laquelle est dépendante.

caption

Lorsqu’on procède à une régression, cela est un modèle. Le 𝑹 correspond au coefficient de corrélation de Pearson. Le coefficient 𝑹𝟐 ( 𝑅 Square dans SPSS) indique le pouvoir explicatif du modèle, c’est-à-dire la proportion de la variation de la VD expliquée par la VI. Ce coefficient est une proportion qui varie de 0 à 1.

On le traduit souvent en pourcentage : - dans cet exemple, l’urbanisation explique 36.5% de la variance du taux de fertilité ; - il s’ensuit que 1 – 𝑅! est la proportion de la variation de la VD qui n’est pas expliquée par la VI. Dans notre exemple, 63.5% de la variation dans le taux de fertilité n’est pas expliquée par le taux d’urbanisation (1 – 0.365 = 0.635).

caption

Le 𝑹𝟐 ajusté (Adjusted R Square) prend en compte le nombre de VI et le nombre d'observations. Il permet de comparer le pouvoir explicatif des modèles construits sur des échantillons de taille différente et/ou avec un nombre de VI diffèrent.

L’erreur moyenne de prédiction (Std. Error of the Estimate) indique que les pays s’écartent en moyenne de 1.38 unités de la VD de la droite de régression si on utilise le pourcentage de population urbaine pour expliquer le taux de fertilité. C’est une sorte de moyenne des résidus.

caption

Lorsque l’on procède à une régression linéaire ou à une corrélation, on postule une relation linéaire. On doit s’assurer que ce postulat soit respecté. Bien que de nombreux phénomènes sociaux, économiques et politiques se résument par une relation linaire, toutes les relations ne sont pas linéaires.

Si on a une relation non-linéaire, il est possible de transformer des données de façon à ce qu’elles soient linéaires.

Ici, on voit la relation entre taux de fertilité et PIB par habitat. Cette relation n’est pas linéaire.

caption

Pour modéliser une relation qui n’est pas linéaire mais curvilinéaire, on prend la variable dépendante et on l’élève au carré. On voit que 𝑅! a augmenté passant de 26% à 36%.

Une autre manière est de transformer la variable indépendante en prenant le logarithme de la variable indépendance.

Sur un diagramme de dispersion, on peut parfois distinguer des valeurs extrêmes qui sont des observations qui s’écartent fortement des autres. Que doit-on faire lorsque l’on a des valeurs extrêmes ? Il faut relancer l’analyse de régression en excluant ces observations extrêmes (ou aberrantes) et voir si la pente, la constante et 𝑅! changent. Si c’est le cas, il existe deux solutions : - les exclure des analyses avec l’inconvénient de diminuer notre échantillon et de perdre de l’information ; - utiliser d’autres techniques statistiques que la régression par les moindres carrés comme la régression robuste qui est relativement insensible aux larges déviations dues à certaines observations aberrantes. Les résidus sont l’erreur du modèle. On aimerait que les résidus soient : - non-biaisés : c’est-à-dire avec une valeur moyenne de zéro pour chaque valeur ou intervalle de valeur de la VI ; - homoscédastique (qui signifie « même tronçon ») : la dispersion des résidus devrait être la même pour chaque valeur de la VI. Autrement dit, la variance autour de la droite de régression est constante. Les résidus sont hétéroscédastiques s’ils ne sont pas homoscédastiques.

caption

Sur le graphique A, les résultats sont non-biaisés et homoscédastique. Le graphique C est biaisé est homoscédastique, c’est-à-dire que l’écart des résidus est constant pour toute valeur de la variable indépendante.

caption

caption

L’hétéroscédasticité est l’augmentation (ou diminution) graduelle de la variance (visuellement présentée comme la distance de chaque observation par rapport à la droite de régression).

L’homoscédasticité est lorsqu’il n’y a pas de changements de la variance (les résidus ont la même variance, pas de structure de type « entonnoir »).

L’homoscédasticité des termes d’erreur (résidus), c’est-à- dire la variation constante des résidus par rapport à la droite de régression est un postulat de la régression linéaire à vérifier.

Les données agrégées sont des données obtenues en agrégeant (regroupant) des données individuelles pour une variable donnée et donc on change d’unité d’observation (pays, canton, entreprise, etc.). Il faut toujours être attentif à l’unité d’observation sur laquelle on travail.

On s’expose au risque d’erreur écologique lorsque, dans l'interprétation de données statistiques, on se fonde sur des données agrégées pour en inférer des conclusions sur des comportements individuels.

On d’intéresse à la relation entre le pourcentage d’ouvriers et le pourcentage de vote pour la gauche

D’après ces données fictives, pour Genève on a un pourcentage d’ouvrier de 33% et un taux de vote en pourcentage pour la gauche de 40%. Avec la variable indépendante qui est le pourcentage d’ouvrier qui tente d’expliquer le vote pour les partis de gauche, on conclut qu’il y a une relation très positive. Au niveau des cantons, plus le niveau de pourcentage d’ouvrier est élevé, plus le niveau de pourcentage de vote pour la gauche est élevé. Au niveau agrégé (les cantons suisses), l’analyse montre que les cantons qui ont le plus fort pourcentage d’ouvriers présente le plus fort pourcentage de vote pour la gauche. Plus le pourcentage d’ouvriers augmente, plus le pourcentage de vote pour la gauche augmente

Peut-on en conclure pour autant que les ouvriers votent davantage pour la gauche que les non ouvriers ? Non. Ce serait une conclusion erronée, une erreur écologique, car des analyses au niveau individuel montrent que les ouvriers votent moins pour la gauche que les non ouvriers et que les ouvriers votent davantage pour l’UDC que les non-ouvriers (réalignement du vote de classe). Il est possible, bien que peu probable, que tous les ouvriers aient voté pour la droite ou l’extrême droite. Et que ce sont les 67% de non ouvriers qui aient voté pour la gauche. Dans ce cas, au niveau individuel, les ouvriers votent davantage pour la droite que les non ouvriers (et même exclusivement). En d’autres termes, l’erreur a été ici de considérer que tous les individus du groupe (ici le canton) pour lequel la valeur agrégée est calculée possèdent les caractéristiques du groupe en général.

Des hypothèses formulées au niveau individuel doivent être vérifiées au niveau individuel (c’est-à-dire avec des données dont l’unité d’analyse est l’individu). Au niveau agrégé, on enregistre des moyennes qui masquent des variations « intra- ». Par exemple, les pourcentages cantonaux masquent les variations communales. Ces dernières masquent les variations dans les quartiers et celles-ci masquent les variations individuelles.

Inférence statistique

Introduction aux relations multivariées

Régression linéaire multiple

Corrélation et régression linéaire : les droits de l’homme

Tableaux bivariés et multivariés

Tableaux croisés

Tableaux de moyennes

Tableaux croisés multivariés

Tableaux de moyennes multivariés

Tableaux croisés : les droits de l’homme

Tableaux croisés : la paix libérale

La régression logistique

La régression logistique binomiale

La régression logistique binomiale : la paix libérale

La régression logistique binomiale : les droits de l’homme

Construction d’un modèle de régression

La construction d’échelles

Introduction à la construction et d’échelles additives

L’analyse factorielle

Notes

Références