« Inférence causale et méthodes quantitatives » : différence entre les versions
| Ligne 37 : | Ligne 37 : | ||
=== Variable nominale === | === Variable nominale === | ||
[[File:madi.png|right|thumb]] | [[File:madi Variable nominale 1.png|right|thumb]] | ||
Une variable nominale est classement des observations dans des catégories. Ces catégories sont mutuellement exclusives. Par exemple, on est soit un homme, soit une femme; un pays est soit une démocratie, soit une dictature. Les valeurs nominales sont des catégories sans ordre. Lorsqu’on assigne des nombres aux valeurs nominales, c’est- à-dire aux catégories d’une variable nominale, ces nombres sont arbitraires. On ne peut pas leur faire subir d’opération arithmétique. | Une variable nominale est classement des observations dans des catégories. Ces catégories sont mutuellement exclusives. Par exemple, on est soit un homme, soit une femme; un pays est soit une démocratie, soit une dictature. Les valeurs nominales sont des catégories sans ordre. Lorsqu’on assigne des nombres aux valeurs nominales, c’est- à-dire aux catégories d’une variable nominale, ces nombres sont arbitraires. On ne peut pas leur faire subir d’opération arithmétique. | ||
| Ligne 44 : | Ligne 44 : | ||
=== Variable ordinale === | === Variable ordinale === | ||
[[File:madi.png|right|thumb]] | [[File:madi Variable ordinale 1.png|right|thumb]] | ||
Une variable ordinale est un classement des observations dans des catégories ordonnées ou hiérarchique voire même chronologique. Les valeurs peuvent être ordonnées. On peut assigner à ces valeurs des nombres qui indiqueraient leur ordre. On ne peut pas leur faire subir d’opération arithmétique. | Une variable ordinale est un classement des observations dans des catégories ordonnées ou hiérarchique voire même chronologique. Les valeurs peuvent être ordonnées. On peut assigner à ces valeurs des nombres qui indiqueraient leur ordre. On ne peut pas leur faire subir d’opération arithmétique. | ||
| Ligne 51 : | Ligne 51 : | ||
=== Variable d’intervalle === | === Variable d’intervalle === | ||
[[File:madi.png|right|thumb]] | [[File:madi Variable d’intervalle 1.png|right|thumb]] | ||
Outre les propriétés des variables nominale et ordinale, une variable d’intervalle suppose que la distance (l’intervalle) entre les valeurs est quantifiable (les intervalles sont égaux). Un exemple est la variable « âge » qui est un x, l’intervalle entre 50 ans et 80 ans est de 30 ans. Les valeurs peuvent correspondre à une unité de mesure standard, à une métrique spécifique. Dans ce cas, le score attribué à chaque individu se réfère directement à la caractéristique mesurée par la variable. Par exemple, la variable « revenu en francs suisses » a pour unité de mesure le franc suisse; la variable « âge » a pour unité l’année; la variable « taux de participation » a pour unité le pourcentage. | Outre les propriétés des variables nominale et ordinale, une variable d’intervalle suppose que la distance (l’intervalle) entre les valeurs est quantifiable (les intervalles sont égaux). Un exemple est la variable « âge » qui est un x, l’intervalle entre 50 ans et 80 ans est de 30 ans. Les valeurs peuvent correspondre à une unité de mesure standard, à une métrique spécifique. Dans ce cas, le score attribué à chaque individu se réfère directement à la caractéristique mesurée par la variable. Par exemple, la variable « revenu en francs suisses » a pour unité de mesure le franc suisse; la variable « âge » a pour unité l’année; la variable « taux de participation » a pour unité le pourcentage. | ||
| Ligne 61 : | Ligne 61 : | ||
Une variable ordinale métrique n’est pas un niveau de mesure à proprement parler. On fait l’hypothèse qu’il y a une distance équivalente entre les valeurs de la variable ordinale (les intervalles entres les valeurs sont identiques), c’est-à- dire que la variable possède les propriétés d’une variables d’intervalles. | Une variable ordinale métrique n’est pas un niveau de mesure à proprement parler. On fait l’hypothèse qu’il y a une distance équivalente entre les valeurs de la variable ordinale (les intervalles entres les valeurs sont identiques), c’est-à- dire que la variable possède les propriétés d’une variables d’intervalles. | ||
[[File:madi.png|right|thumb]] | [[File:madi Variable ordinale métrique 1.png|right|thumb]] | ||
Concernant la de variable d’auto-positionnement on peut être tenté d’utiliser une moyenne supposant que les intervalles sont égaux et que la variable sur laquelle on va calculer la moyenne est un variable d’intervalle. Il faut supposer qu’entre les intervalles, la distance entre 0 et 1 est la même qu’entre 1 et 2. | Concernant la de variable d’auto-positionnement on peut être tenté d’utiliser une moyenne supposant que les intervalles sont égaux et que la variable sur laquelle on va calculer la moyenne est un variable d’intervalle. Il faut supposer qu’entre les intervalles, la distance entre 0 et 1 est la même qu’entre 1 et 2. | ||
| Ligne 69 : | Ligne 69 : | ||
Pour l’intérêt pour la politique, | Pour l’intérêt pour la politique, | ||
[[File:madi.png|center|thumb]] | [[File:madi Variable ordinale métrique 2.png|center|thumb]] | ||
Si la variable est ordinale : | Si la variable est ordinale : | ||
[[File:madi.png|center|thumb]] | [[File:madi Variable ordinale métrique 3.png|center|thumb]] | ||
Si la variable est ordinale métrique : | Si la variable est ordinale métrique : | ||
[[File:madi.png|center|thumb]] | [[File:madi Variable ordinale métrique 4.png|center|thumb]] | ||
[[File:madi.png|left|thumb]] | [[File:madi Variable ordinale métrique 5.png|left|thumb]] | ||
Ce schéma de classe social est bien détaillé. On pourrait essayer d’argument que la variable est ordinale mais pour cela on suppose que les grands employeurs se situent au sommet de la hiérarchie sociale jusqu’aux travailleurs non qualifiés qui sont en bas de la hiérarchie sociale. | Ce schéma de classe social est bien détaillé. On pourrait essayer d’argument que la variable est ordinale mais pour cela on suppose que les grands employeurs se situent au sommet de la hiérarchie sociale jusqu’aux travailleurs non qualifiés qui sont en bas de la hiérarchie sociale. | ||
[[File:madi.png|center|thumb]] | [[File:madi Variable ordinale métrique 6.png|center|thumb]] | ||
Le niveau de mesures permet une anticipation des problèmes mais aussi opérationnalisation des concepts, le choix des techniques statistiques ainsi que le choix des coefficients d’association et des tests statistiques appropriés. | Le niveau de mesures permet une anticipation des problèmes mais aussi opérationnalisation des concepts, le choix des techniques statistiques ainsi que le choix des coefficients d’association et des tests statistiques appropriés. | ||
== Matrices de données == | == Matrices de données == | ||
Les données statistiques sont habituellement organisées comme des tableaux ou des matrices dans lesquelles : | |||
*les lignes représentent les unités d’observations (individus, pays, entreprises, conflits violents, etc.), ou unité d’analyse. L’unité d’analyse est l’objet ou la personne dont on étudie les caractéristiques ; | |||
*les colonnes représentent les variables ou les caractéristiques des unités d’observations comme par exemple le sexe, l’âge, le vote ou encore le PNB. | |||
<gallery> | |||
fichier:madi Matrices de données 1.png | |||
fichier:madi Matrices de données 2.png | |||
</gallery> | |||
Les codes sont parfois directement interprétables comme par exemple l’âge, le revenu en dollars ou encore le PIB par habitant. D’autres fois, leur signification renvoient à un libellé par exemple : 1 pour les hommes et 2 pour les femmes; 1 pour les mariés, 2 pour les célibataires, 3 pour les divorcés/séparés et 4 pour les veufs. Certains codes sont spécifiques et peuvent signifier que la question ne s’applique pas, que l’interviewé a refusé de répondre, qu’il ne connaît pas la réponse, que l’information est manquante avec des codes tels que 98, 99, 999, -1, -2, -66. -77, -88, -99, - 999, - 9999. Si on ne dispose pas l’information, on ne peut pas analyser. On retrouve souvent des données manquantes par rapport à la variable/caractéristique mesurée. Ces données manquantes sont définies de manières variées. | |||
Les informations sont la plupart du temps codés d’une manière numérique parce que les logiciels sont plus efficaces lorsqu’ils utilisent des valeurs numériques. | |||
[[File:madi Matrices de données 3.png|center|thumb]] | |||
= SPSS = | = SPSS = | ||
Version du 3 juin 2015 à 22:09
Introduction
Il y a plusieurs avantages à utiliser des méthodes quantitatives. Elles permettent d’agréger beaucoup d’informations sur beaucoup d’observations ainsi que de résumer et de traiter ces informations. Lorsqu’on utilise ces méthodes statistiques pour faire des inférences causales ou descriptives, il faut accepter certains postulats. Lorsque ces postulats sont respectés, l’inférence causale va être correcte. En acceptant certains postulats, on obtient des informations précises sur notre incertitude. On peut déterminer quelle est la chance de se tromper lorsqu’on fait une inférence de type causale. Ces méthodes traitent de manière très explicitent des inférences sur la qualité de l’inférence et sur son incertitude.
Les statistiques sont des méthodes qui résument quantitativement des informations et qui permettent de tirer des constats généraux. L’information brute est appelé « données » qui peuvent provenir d’expérience, de sondage ou de toutes formes d’observations systématiques. Les données organisées de manière systématique forme une banque de données dit aussi une base de données ou un fichier de données.
Les données concernant l’ensemble de la population sur laquelle porte l’étude peuvent être introuvables, onéreuses ou impossibles à recueillir. C’est pourquoi on se base sur la sélection d’un échantillon, idéalement selon une procédure de sélection aléatoire qui permet de procéder à des inférences, c’est-à-dire généraliser ce qu’on observe dans l’échantillon à l’ensemble de la population. La population mère est la population sur laquelle porte l’étude et au sein de laquelle est prélevé l’échantillon.
En général, on ne s’intéresse pas aux données pour elles-mêmes, mais à la population dont sont extraites les données. Ainsi, on cherche à inférer de la connaissance sur la population à partir de l’échantillon observé à savoir les données.
Il existe de nombreuses manières de choisir un échantillon. Plusieurs critères sont pris en considération. Les critères suivants sont en général considérés :
- représentativité de la population étudiée ;
- une fréquence suffisante des caractéristiques d’intérêts : si on étudie le poids des working poors au sein des travailleurs, il faut être sûr d’avoir suffisamment de ces individus dans l’échantillon ;
- facilité de mise en œuvre : il est plus simple d’interroger tous les ménages d’un immeuble plutôt que d’interviewer des individus sélectionnes aléatoirement au sein d’un registre quelconque.
La taille de l’échantillon nécessite également un arbitrage. Plus un échantillon est grand et plus cela permet d’être plus précis et on obtient une erreur d'estimation acceptable, néanmoins, cela est coûteux en argent et en temps.
Idéalement, on aimerait travailler sur un échantillon aléatoire. Un échantillon sélectionné selon une procédure qui assure à chaque membre de la population une probabilité non nulle (et connue) d’être choisi. L’avantage est que l’échantillon aléatoire permet d’exploiter pleinement la théorie statistique. Les outils de la statistique inférentielle s’appuient sur le calcul des probabilités et donc sur l’existence de ces probabilités. Selon la théorie statistique, il n’est pas nécessaire d’observer tout le monde, un échantillon convenablement choisi peut fournir des résultats très proches de ceux d’une analyse de toute la population. C’est une analyse exhaustive.
Les échantillons non-aléatoire sont un choix raisonné comme par exemple on interroge les personnes qui paraissent a priori les plus intéressantes (experts d’un domaine, etc.) ou encore une liste choisie au hasard dans l’annuaire téléphonique avec un échantillon aléatoire des inscrits dans l’annuaire, mais cela exclut les personnes non inscrites. L’enquête par quotas se compose d’u échantillon sur la base des caractéristiques connues de la population-mère. Lorsqu’un quota est rempli, par exemple les jeunes âgés entre 18 et 30 ans, on ne peut plus interviewer de jeunes de cet âge. Donc ce n’est pas purement aléatoire. Ce sont des méthodes lorsqu’on utilise la statistique différentielle.
Le problème des échantillons non-aléatoires est qu’on ne sait pas mesurer la fiabilité des résultats. Si on applique quand même les outils de l’inférence statistique, on obtient des significativités non-rigoureuses. Elles ne donnent que des indications approximatives et doivent être considérées avec prudence.
L’unité d’analyse ou l’unité d’observation est l’objet, la personne ou l’évènement dont on étudie les caractéristiques. Cela peut être les individus, les pays, les cantons, les entreprises, les conflits violents, les familles, les universités, les éditoriaux ou encore les élections présidentielles. On peut par exemple fait une étude sur les journaux est analyser les éditoriaux. C’est la question de recherche et le phénomène étudié qui va définir l’unité d’analyse pertinente.
Données
Variables et niveaux de mesure
Dans Guide Pratique d'introduction à la régression en sciences sociales publié en 2009, Pétry et Gélineau définition une variable comme un regroupement logique de caractéristiques décrivant un phénomène observable empiriquement. Si la caractéristique mesurée peut prendre différentes valeurs, on dit que cette caractéristique est une variable. Cette caractéristique doit posséder au moins deux valeurs. Donc, les variables sont les attributs qui caractérisent les unités d’analyse (observations, individus, cas, etc.). Une variable est un critère par lequel on classe des observations dans des catégories comme par exemple le sexe, le niveau de formation, le pays d’origine, le type de régime politique, le PNB par habitant ou encore le revenu. Ce qui rend utile scientifiquement une variable est sa mesure.
Les variables peuvent posséder des propriétés différentes qui vont définir leur niveau de mesure. Les trois niveaux de mesure les plus courants en sciences sociales sont :
- nominal : qualitative ou catégorielle ;
- ordinal : qualitative ou catégorielle ;
- intervalles : quantitative ou continue.
Variable nominale
Une variable nominale est classement des observations dans des catégories. Ces catégories sont mutuellement exclusives. Par exemple, on est soit un homme, soit une femme; un pays est soit une démocratie, soit une dictature. Les valeurs nominales sont des catégories sans ordre. Lorsqu’on assigne des nombres aux valeurs nominales, c’est- à-dire aux catégories d’une variable nominale, ces nombres sont arbitraires. On ne peut pas leur faire subir d’opération arithmétique.
Les variables de type catégoriel (qualitative) sont par exemple la religion, le sexe, la langue, la nationalité ou encore la région. La variable sexe est habituellement une variable dichotomique qui prend deux valeurs.
Variable ordinale
Une variable ordinale est un classement des observations dans des catégories ordonnées ou hiérarchique voire même chronologique. Les valeurs peuvent être ordonnées. On peut assigner à ces valeurs des nombres qui indiqueraient leur ordre. On ne peut pas leur faire subir d’opération arithmétique.
Une variable de type catégoriel (qualitative) est par exemple le niveau de formation, les classes d’âge, les classes de revenu, l’intérêt pour la politique, le type de régime politique (démocratique, partiellement démocratique, non démocratique). Les variables ordinales fournissent plus d’informations que les variables nominales.
Variable d’intervalle
Outre les propriétés des variables nominale et ordinale, une variable d’intervalle suppose que la distance (l’intervalle) entre les valeurs est quantifiable (les intervalles sont égaux). Un exemple est la variable « âge » qui est un x, l’intervalle entre 50 ans et 80 ans est de 30 ans. Les valeurs peuvent correspondre à une unité de mesure standard, à une métrique spécifique. Dans ce cas, le score attribué à chaque individu se réfère directement à la caractéristique mesurée par la variable. Par exemple, la variable « revenu en francs suisses » a pour unité de mesure le franc suisse; la variable « âge » a pour unité l’année; la variable « taux de participation » a pour unité le pourcentage.
Les variables d’intervalles permettent de faire des opérations arithmétiques. Ce sont des variables quantitatives, par exemple l’âge, le nombre d’années d’étude, le revenu, le PIB par habitant ou encore le taux de participation.
Variable ordinale métrique
Une variable ordinale métrique n’est pas un niveau de mesure à proprement parler. On fait l’hypothèse qu’il y a une distance équivalente entre les valeurs de la variable ordinale (les intervalles entres les valeurs sont identiques), c’est-à- dire que la variable possède les propriétés d’une variables d’intervalles.
Concernant la de variable d’auto-positionnement on peut être tenté d’utiliser une moyenne supposant que les intervalles sont égaux et que la variable sur laquelle on va calculer la moyenne est un variable d’intervalle. Il faut supposer qu’entre les intervalles, la distance entre 0 et 1 est la même qu’entre 1 et 2.
Pour déterminer si une variable est ordinale métrique, il y a plusieurs éléments dont la distribution des observations. Des mesures sont préalablement faites par les chercheurs mais parfois ce sont des mesures qui ne sont pas très bien faites.
Pour l’intérêt pour la politique,
Si la variable est ordinale :
Si la variable est ordinale métrique :
Ce schéma de classe social est bien détaillé. On pourrait essayer d’argument que la variable est ordinale mais pour cela on suppose que les grands employeurs se situent au sommet de la hiérarchie sociale jusqu’aux travailleurs non qualifiés qui sont en bas de la hiérarchie sociale.
Le niveau de mesures permet une anticipation des problèmes mais aussi opérationnalisation des concepts, le choix des techniques statistiques ainsi que le choix des coefficients d’association et des tests statistiques appropriés.
Matrices de données
Les données statistiques sont habituellement organisées comme des tableaux ou des matrices dans lesquelles :
- les lignes représentent les unités d’observations (individus, pays, entreprises, conflits violents, etc.), ou unité d’analyse. L’unité d’analyse est l’objet ou la personne dont on étudie les caractéristiques ;
- les colonnes représentent les variables ou les caractéristiques des unités d’observations comme par exemple le sexe, l’âge, le vote ou encore le PNB.
Les codes sont parfois directement interprétables comme par exemple l’âge, le revenu en dollars ou encore le PIB par habitant. D’autres fois, leur signification renvoient à un libellé par exemple : 1 pour les hommes et 2 pour les femmes; 1 pour les mariés, 2 pour les célibataires, 3 pour les divorcés/séparés et 4 pour les veufs. Certains codes sont spécifiques et peuvent signifier que la question ne s’applique pas, que l’interviewé a refusé de répondre, qu’il ne connaît pas la réponse, que l’information est manquante avec des codes tels que 98, 99, 999, -1, -2, -66. -77, -88, -99, - 999, - 9999. Si on ne dispose pas l’information, on ne peut pas analyser. On retrouve souvent des données manquantes par rapport à la variable/caractéristique mesurée. Ces données manquantes sont définies de manières variées.
Les informations sont la plupart du temps codés d’une manière numérique parce que les logiciels sont plus efficaces lorsqu’ils utilisent des valeurs numériques.