« Inférence causale et méthodes quantitatives » : différence entre les versions
| Ligne 143 : | Ligne 143 : | ||
Il existe de nombreux types de variables comme les analyses univariées ou encore les analyses bivariées. Le cercle représente le nombre total d’observations, ici les pays. Les tranches peuvent représenter soit des pourcentages, soit des fréquences. Le diagramme circulaire est adapté pour les variables nominales et ordinales si il n’y a pas trop de modalités. Plus grand est le pourcentage et plus grand est le camembert. | Il existe de nombreux types de variables comme les analyses univariées ou encore les analyses bivariées. Le cercle représente le nombre total d’observations, ici les pays. Les tranches peuvent représenter soit des pourcentages, soit des fréquences. Le diagramme circulaire est adapté pour les variables nominales et ordinales si il n’y a pas trop de modalités. Plus grand est le pourcentage et plus grand est le camembert. | ||
[[File:madi diagrammes circulaires 1.png|center|thumb]] | |||
== Diagrammes à barres (ou en bâtons) == | == Diagrammes à barres (ou en bâtons) == | ||
Version du 3 juin 2015 à 22:51
Introduction
Il y a plusieurs avantages à utiliser des méthodes quantitatives. Elles permettent d’agréger beaucoup d’informations sur beaucoup d’observations ainsi que de résumer et de traiter ces informations. Lorsqu’on utilise ces méthodes statistiques pour faire des inférences causales ou descriptives, il faut accepter certains postulats. Lorsque ces postulats sont respectés, l’inférence causale va être correcte. En acceptant certains postulats, on obtient des informations précises sur notre incertitude. On peut déterminer quelle est la chance de se tromper lorsqu’on fait une inférence de type causale. Ces méthodes traitent de manière très explicitent des inférences sur la qualité de l’inférence et sur son incertitude.
Les statistiques sont des méthodes qui résument quantitativement des informations et qui permettent de tirer des constats généraux. L’information brute est appelé « données » qui peuvent provenir d’expérience, de sondage ou de toutes formes d’observations systématiques. Les données organisées de manière systématique forme une banque de données dit aussi une base de données ou un fichier de données.
Les données concernant l’ensemble de la population sur laquelle porte l’étude peuvent être introuvables, onéreuses ou impossibles à recueillir. C’est pourquoi on se base sur la sélection d’un échantillon, idéalement selon une procédure de sélection aléatoire qui permet de procéder à des inférences, c’est-à-dire généraliser ce qu’on observe dans l’échantillon à l’ensemble de la population. La population mère est la population sur laquelle porte l’étude et au sein de laquelle est prélevé l’échantillon.
En général, on ne s’intéresse pas aux données pour elles-mêmes, mais à la population dont sont extraites les données. Ainsi, on cherche à inférer de la connaissance sur la population à partir de l’échantillon observé à savoir les données.
Il existe de nombreuses manières de choisir un échantillon. Plusieurs critères sont pris en considération. Les critères suivants sont en général considérés :
- représentativité de la population étudiée ;
- une fréquence suffisante des caractéristiques d’intérêts : si on étudie le poids des working poors au sein des travailleurs, il faut être sûr d’avoir suffisamment de ces individus dans l’échantillon ;
- facilité de mise en œuvre : il est plus simple d’interroger tous les ménages d’un immeuble plutôt que d’interviewer des individus sélectionnes aléatoirement au sein d’un registre quelconque.
La taille de l’échantillon nécessite également un arbitrage. Plus un échantillon est grand et plus cela permet d’être plus précis et on obtient une erreur d'estimation acceptable, néanmoins, cela est coûteux en argent et en temps.
Idéalement, on aimerait travailler sur un échantillon aléatoire. Un échantillon sélectionné selon une procédure qui assure à chaque membre de la population une probabilité non nulle (et connue) d’être choisi. L’avantage est que l’échantillon aléatoire permet d’exploiter pleinement la théorie statistique. Les outils de la statistique inférentielle s’appuient sur le calcul des probabilités et donc sur l’existence de ces probabilités. Selon la théorie statistique, il n’est pas nécessaire d’observer tout le monde, un échantillon convenablement choisi peut fournir des résultats très proches de ceux d’une analyse de toute la population. C’est une analyse exhaustive.
Les échantillons non-aléatoire sont un choix raisonné comme par exemple on interroge les personnes qui paraissent a priori les plus intéressantes (experts d’un domaine, etc.) ou encore une liste choisie au hasard dans l’annuaire téléphonique avec un échantillon aléatoire des inscrits dans l’annuaire, mais cela exclut les personnes non inscrites. L’enquête par quotas se compose d’u échantillon sur la base des caractéristiques connues de la population-mère. Lorsqu’un quota est rempli, par exemple les jeunes âgés entre 18 et 30 ans, on ne peut plus interviewer de jeunes de cet âge. Donc ce n’est pas purement aléatoire. Ce sont des méthodes lorsqu’on utilise la statistique différentielle.
Le problème des échantillons non-aléatoires est qu’on ne sait pas mesurer la fiabilité des résultats. Si on applique quand même les outils de l’inférence statistique, on obtient des significativités non-rigoureuses. Elles ne donnent que des indications approximatives et doivent être considérées avec prudence.
L’unité d’analyse ou l’unité d’observation est l’objet, la personne ou l’évènement dont on étudie les caractéristiques. Cela peut être les individus, les pays, les cantons, les entreprises, les conflits violents, les familles, les universités, les éditoriaux ou encore les élections présidentielles. On peut par exemple fait une étude sur les journaux est analyser les éditoriaux. C’est la question de recherche et le phénomène étudié qui va définir l’unité d’analyse pertinente.
Données
Variables et niveaux de mesure
Dans Guide Pratique d'introduction à la régression en sciences sociales publié en 2009, Pétry et Gélineau définition une variable comme un regroupement logique de caractéristiques décrivant un phénomène observable empiriquement. Si la caractéristique mesurée peut prendre différentes valeurs, on dit que cette caractéristique est une variable. Cette caractéristique doit posséder au moins deux valeurs. Donc, les variables sont les attributs qui caractérisent les unités d’analyse (observations, individus, cas, etc.). Une variable est un critère par lequel on classe des observations dans des catégories comme par exemple le sexe, le niveau de formation, le pays d’origine, le type de régime politique, le PNB par habitant ou encore le revenu. Ce qui rend utile scientifiquement une variable est sa mesure.
Les variables peuvent posséder des propriétés différentes qui vont définir leur niveau de mesure. Les trois niveaux de mesure les plus courants en sciences sociales sont :
- nominal : qualitative ou catégorielle ;
- ordinal : qualitative ou catégorielle ;
- intervalles : quantitative ou continue.
Variable nominale
Une variable nominale est classement des observations dans des catégories. Ces catégories sont mutuellement exclusives. Par exemple, on est soit un homme, soit une femme; un pays est soit une démocratie, soit une dictature. Les valeurs nominales sont des catégories sans ordre. Lorsqu’on assigne des nombres aux valeurs nominales, c’est- à-dire aux catégories d’une variable nominale, ces nombres sont arbitraires. On ne peut pas leur faire subir d’opération arithmétique.
Les variables de type catégoriel (qualitative) sont par exemple la religion, le sexe, la langue, la nationalité ou encore la région. La variable sexe est habituellement une variable dichotomique qui prend deux valeurs.
Variable ordinale
Une variable ordinale est un classement des observations dans des catégories ordonnées ou hiérarchique voire même chronologique. Les valeurs peuvent être ordonnées. On peut assigner à ces valeurs des nombres qui indiqueraient leur ordre. On ne peut pas leur faire subir d’opération arithmétique.
Une variable de type catégoriel (qualitative) est par exemple le niveau de formation, les classes d’âge, les classes de revenu, l’intérêt pour la politique, le type de régime politique (démocratique, partiellement démocratique, non démocratique). Les variables ordinales fournissent plus d’informations que les variables nominales.
Variable d’intervalle
Outre les propriétés des variables nominale et ordinale, une variable d’intervalle suppose que la distance (l’intervalle) entre les valeurs est quantifiable (les intervalles sont égaux). Un exemple est la variable « âge » qui est un x, l’intervalle entre 50 ans et 80 ans est de 30 ans. Les valeurs peuvent correspondre à une unité de mesure standard, à une métrique spécifique. Dans ce cas, le score attribué à chaque individu se réfère directement à la caractéristique mesurée par la variable. Par exemple, la variable « revenu en francs suisses » a pour unité de mesure le franc suisse; la variable « âge » a pour unité l’année; la variable « taux de participation » a pour unité le pourcentage.
Les variables d’intervalles permettent de faire des opérations arithmétiques. Ce sont des variables quantitatives, par exemple l’âge, le nombre d’années d’étude, le revenu, le PIB par habitant ou encore le taux de participation.
Variable ordinale métrique
Une variable ordinale métrique n’est pas un niveau de mesure à proprement parler. On fait l’hypothèse qu’il y a une distance équivalente entre les valeurs de la variable ordinale (les intervalles entres les valeurs sont identiques), c’est-à- dire que la variable possède les propriétés d’une variables d’intervalles.
Concernant la de variable d’auto-positionnement on peut être tenté d’utiliser une moyenne supposant que les intervalles sont égaux et que la variable sur laquelle on va calculer la moyenne est un variable d’intervalle. Il faut supposer qu’entre les intervalles, la distance entre 0 et 1 est la même qu’entre 1 et 2.
Pour déterminer si une variable est ordinale métrique, il y a plusieurs éléments dont la distribution des observations. Des mesures sont préalablement faites par les chercheurs mais parfois ce sont des mesures qui ne sont pas très bien faites.
Pour l’intérêt pour la politique,
Si la variable est ordinale :
Si la variable est ordinale métrique :
Ce schéma de classe social est bien détaillé. On pourrait essayer d’argument que la variable est ordinale mais pour cela on suppose que les grands employeurs se situent au sommet de la hiérarchie sociale jusqu’aux travailleurs non qualifiés qui sont en bas de la hiérarchie sociale.
Le niveau de mesures permet une anticipation des problèmes mais aussi opérationnalisation des concepts, le choix des techniques statistiques ainsi que le choix des coefficients d’association et des tests statistiques appropriés.
Matrices de données
Les données statistiques sont habituellement organisées comme des tableaux ou des matrices dans lesquelles :
- les lignes représentent les unités d’observations (individus, pays, entreprises, conflits violents, etc.), ou unité d’analyse. L’unité d’analyse est l’objet ou la personne dont on étudie les caractéristiques ;
- les colonnes représentent les variables ou les caractéristiques des unités d’observations comme par exemple le sexe, l’âge, le vote ou encore le PNB.
Les codes sont parfois directement interprétables comme par exemple l’âge, le revenu en dollars ou encore le PIB par habitant. D’autres fois, leur signification renvoient à un libellé par exemple : 1 pour les hommes et 2 pour les femmes; 1 pour les mariés, 2 pour les célibataires, 3 pour les divorcés/séparés et 4 pour les veufs. Certains codes sont spécifiques et peuvent signifier que la question ne s’applique pas, que l’interviewé a refusé de répondre, qu’il ne connaît pas la réponse, que l’information est manquante avec des codes tels que 98, 99, 999, -1, -2, -66. -77, -88, -99, - 999, - 9999. Si on ne dispose pas l’information, on ne peut pas analyser. On retrouve souvent des données manquantes par rapport à la variable/caractéristique mesurée. Ces données manquantes sont définies de manières variées.
Les informations sont la plupart du temps codés d’une manière numérique parce que les logiciels sont plus efficaces lorsqu’ils utilisent des valeurs numériques.
SPSS
SPSS est un logiciel pour le traitement et l’analyse statistique de données. Il permet de gérer de grandes bases de données (individus x variables). L’analyse statistique et le traitement informatique des données ne sont que des outils au service du chercheur
Le logiciel SPSS se compose de trois fenêtres principales :
- l’éditeur des données (Data Editor) qui contient deux onglets avec la matrice des données (Data View) et le dictionnaire des variables (Variable View) ;
- la fenêtre des résultats (Viewer ou Output) ;
- la fenêtre de syntaxe (Syntax Editor)
Chaque fenêtre est à sauvegarder indépendamment des autres. En lignes on retrouve les observations (ici ce sont les individus interrogés) et en colonnes les variables (ici,« polintr », l’intérêt pour la politique).
En lignes sont les variables (ici la variable « polintr »), en colonnes les caractéristiques des variables (ici « values », valeurs des modalités). « Name » se réfère au nom des variables, « Type » au type de variable (numérique, caractère, date, etc.), «Label» au libellé des variables, « Values » aux valeurs et libellés, comme « Missing » aux valeurs données manquantes définies.
La fenêtre des résultats affiche les lignes de commandes qui ont produits les résultats, les résultats des analyses ainsi que les éventuels messages d’erreur.
La fenêtre « Syntax Editor » permet d’écrire directement les instructions en langage SPSS sans passer par les menus.
Outils statistiques de base
Les pourcentages
Quand les fréquences sont élevées, la comparaison est difficile. Comparer deux fréquences qui proviennent de groupes comportant un nombre de cas sensiblement différents est difficile.
En terme de fréquence, le nombre total varie fortement. Pour comparer des fréquences qui proviennent de groupes, on calcule les pourcentages. Un pourcentage est une forme de standardisation. Quel serait le nombre de fréquence si le nombre total de cas était de 100.
Il faut toujours être prudent lorsqu’on calcule des pourcentages. Les pourcentages sont assez instables. Si il y a une erreur de codage des données, le pourcentage peut varier.
Diagrammes circulaires (camemberts)
Il existe de nombreux types de variables comme les analyses univariées ou encore les analyses bivariées. Le cercle représente le nombre total d’observations, ici les pays. Les tranches peuvent représenter soit des pourcentages, soit des fréquences. Le diagramme circulaire est adapté pour les variables nominales et ordinales si il n’y a pas trop de modalités. Plus grand est le pourcentage et plus grand est le camembert.
Diagrammes à barres (ou en bâtons)
Les digrammes à barres sont adaptés pour des variables nominales et ordinales.
Les histogrammes
Les histogrammes sont adaptés pour des variables d’intervalles. Ils permettent de visualiser la forme de la distribution qui est symétrique ou non et les concentrations et discontinuités sur l’échelle. Lorsqu’on parle de forme distribution, cela signifie la manière dont est distribuée notre observation sur une échelle.
La distribution de gauche est une distribution asymétrique. Celle du milieu est parfaitement symétrique et la distribution de droite est asymétrique.
Boxplots
Les boxplots sont aussi appelés « boîtes à pattes » ou « boîtes à moustaches ». Ils sont adaptés pour des variables d’intervalles et permettent de visualiser la forme de la distribution (symétrique ou non), les concentrations et discontinuités sur l’échelle. Les boxplots sont particulièrement utilisés pour distinguer deux groupes différents.
Le premier boxplot est une distribution symétrique. Le principe du boxplot est de résumer la distribution des observations sur une variable. Il y a les pattes et les extrémités qui indiquent la valeur minimum et la valeur maximum. Le point indique la valeur de la médiane. Les bords des boites définissent le premier et le troisième quartile.
Pour déterminer si une distribution est symétrique, il faut :
- regarde si le point est au centre de la boite ;
- regarder si les pattes ont la même longueur ;
- regarder s’il y a des valeurs atypiques : si une valeur dépasse plus de 1,5 fois la valeur de la
boite, c’est une valeur atypique. Si une valeur dépasse plus de 3 fois la valeur de la boite, c’est une valeur extraordinaire.
Lorsqu’on a un boxplot ou un histogramme, il faut regarder l’échelle. On voit la forte concentration des pays. Entre la médiane est la patte, on a la moitié des observations. Les pattes ne sont pas de la même longueur, la médiane est hors de la boite, on a beaucoup de valeurs extraordinaires. Il faut se poser la question de savoir si la distribution est symétrique. Sur la variable âge, le boxplot permet de mettre en évidence l’individu qui a 120 ans. 
Les cas déviants
Les histogrammes et surtout les boxplots permettent de déceler les cas déviants qu’on appel aussi les « outliers ». Les cas déviants, ont des cas et des observations dont la valeur est isolée et paraît anormalement enlevée ou basse. Un cas est considéré comme déviants lorsqu’il se retrouve éloigné aux extrémités d’une distribution, détachés de la plupart des autres valeurs comme par exemple le revenu très élevé d’un PDG.
Les cas déviants peuvent affecter les analyses statistiques. Il faut chercher à comprendre pourquoi ils sont déviants. Cela peut être des erreurs dans la mesure ou encore dans la compilation des données. Il est possible d’exclure les cas déviants des analyses mais seulement après avoir compris leur signification.
Mesures de tendance centrale
Une mesure de tendance centrale est une valeur typique ou représentative d’un ensemble de score. Elles résument en quelque sorte le « milieu » d’une distribution ou sa valeur « moyenne » :
- mode ;
- médiane ;
- moyenne arithmétique.
Mode
Le mode correspond à la modalité d’une variable donnée qui contient le plus d’observations pour les variables nominales, ordinales et d’intervalles mais de peu d’intérêt pour les variables d’intervalles. Les distribution s’opère entre unimodale (graphique à gauche) et bimodale (à droite).
Médiane
Lorsque les scores sont ordonnés, la médiane est la valeur qui divise en deux parties égales un ensemble ordonné de scores pour les variables ordinales et d’intervalles car les scores doivent être ordonnés. Une variable nominale n’a pas de médiane. C’est la valeur de l’observation qui partage la distribution en deux parties contenant chacune 50 % des observations. Il faut que les scores soient ordonnés, du plus petit au plus grand. La médiane est le score qui se situe au milieu. Le score médian se calcule selon la formule !!! où N représente le nombre d’observations. La médiane n’est ! pas affectée par les scores ou valeurs extrêmes à savoir les cas déviants. La médiane est plus robuste que la moyenne.
Dans cet exemple, il y a trois variables (une est ordinale, deux sont d’intervalles) et sept observations qui sont les individus) Le score médian se calcule comme suit : !!! = !!! = 4, soit le quatrième score.
Moyenne
La moyenne est la somme de tous les scores divisés par le nombre de scores. La formule de la moyenne pour un échantillon est 𝑋 = !!!. 𝑋 («x-barre») indique la moyenne d’un échantillon. La formule de la moyenne pour une population est 𝜇 = ! , le symbole 𝜇 («mu») indique la moyenne d’une population. L’indice 𝑖 de 𝑋! désigne les scores individuels. 𝑋! est le premier score, 𝑋! le second, etc. Σ (sigma) est utiliser pour indiquer la somme de tout ce qui suit ce caractère. Ainsi, Σ𝑋! signifie la somme de tous les scores individuels pour des variables d’intervalles (quantitatives).
Contrairement au mode et à la médiane, la moyenne est une mesure qui incorpore la totalité des scores. Elle comporte donc plus d’informations. La moyenne est sensible aux scores extrêmes, c’est-à-dire aux scores très bas ou très élevés. Par exemple, la présence de très hauts revenus ou leur absence aura des effets sur la moyenne. Dans certains cas, la moyenne ne représente pas vraiment un score typique.
Si on supprime ces cas déviants, par exemple les très hauts revenus, la moyenne peut changer ce qui n’est pas le cas de la médiane.
Mesures de variation/dispersion
Les mesures de variation indiquent le degré de concentration ou de dispersion de la distribution d’une variable. Elles indiquent dans quelle mesure les scores sont semblables ou différents les uns des autres :
- étendue ;
- écart-type ;
- variance.
Étendue
L’étendue est une mesure de distance entre la valeur la plus élevée et la valeur la plus basse d’une distribution. 𝐸𝑡𝑒𝑛𝑑𝑢𝑒 = 𝑣𝑎𝑙𝑒𝑢𝑟 𝑚𝑎𝑥𝑖𝑚𝑢𝑚 – 𝑣𝑎𝑙𝑒𝑢𝑟 𝑚𝑖𝑛𝑖𝑚𝑢𝑚. Plus l’étendue est grande, plus la dispersion est importante. Utile pour comparer des pays ou des groupes.
Variance
La variance est égale à la moyenne des carrés des écarts entre chaque observation et la moyenne Si on supprime ces cas déviants, par exemple les très hauts revenus, la moyenne peut changer ce qui n’est pas le cas de la médiane. des observations. Pour une population, la formule est 𝜎 ! = (!!!!)! et pour une échantillon É𝑡𝑒𝑛𝑑𝑢𝑒𝑑𝑢𝑝𝑎𝑦𝑠𝐴 = 78– 3 = 75 É𝑡𝑒𝑛𝑑𝑢𝑒𝑑𝑢𝑝𝑎𝑦𝑠𝐵 = 42– 15 = 27 𝑠 ! = (!!!!)! ! !!! . Plus il y a de variation plus la dispersion sera grande. Écart-type (standard déviation) L’écart-type est la racine carrée de la variance, c’est-à-dire de la moyenne des carrés des écarts entre chaque observation et la moyenne des observations. Pour une population la forume est 𝜎 =   𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 et pour un échantillon, 𝑠 =   𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒. Comme la moyenne et l’étendue, la variance et l’écart-type sont sensibles aux valeurs extrêmes alors ces indicateurs sont instables et peu robustes. Plus il y a de variation entre les scores, plus la somme des carrés sera grande, et plus la variance et l’écart-type seront grands.
L’inconvénient de la variance est qu’en mettant à la puissance 2 (au carré) les écarts par rapport à la moyenne sans les remettre ensuite en base 1, elle s’exprime dans une échelle différente de celle des scores. L’avantage de l’écart-type est qu’il remet en base 1 un nombre préalablement élevé à la puissance 2 et s’exprime ainsi dans la même échelle de celle des scores. Si la variable est l’âge (donc l’unité de mesure est l’année), l’écart-type est exprimé dans la même échelle d’années que l’âge des répondants. On peut ainsi considérer l’écart-type comme l’écart.