« Inférence causale et méthodes quantitatives » : différence entre les versions
| Ligne 1 : | Ligne 1 : | ||
= Introduction = | = Introduction = | ||
Il y a plusieurs avantages à utiliser des méthodes quantitatives. Elles permettent d’agréger beaucoup d’informations sur beaucoup d’observations ainsi que de résumer et de traiter ces informations. Lorsqu’on utilise ces méthodes statistiques pour faire des inférences causales ou descriptives, il faut accepter certains postulats. Lorsque ces postulats sont respectés, l’inférence causale va être correcte. En acceptant certains postulats, on obtient des informations précises sur notre incertitude. On peut déterminer quelle est la chance de se tromper lorsqu’on fait une inférence de type causale. Ces méthodes traitent de manière très explicitent des inférences sur la qualité de l’inférence et sur son incertitude. | |||
Les statistiques sont des méthodes qui résument quantitativement des informations et qui permettent de tirer des constats généraux. L’information brute est appelé « données » qui peuvent provenir d’expérience, de sondage ou de toutes formes d’observations systématiques. Les données organisées de manière systématique forme une banque de données dit aussi une base de données ou un fichier de données. | |||
Les données concernant l’ensemble de la population sur laquelle porte l’étude peuvent être introuvables, onéreuses ou impossibles à recueillir. C’est pourquoi on se base sur la sélection d’un échantillon, idéalement selon une procédure de sélection aléatoire qui permet de procéder à des inférences, c’est-à-dire généraliser ce qu’on observe dans l’échantillon à l’ensemble de la population. La population mère est la population sur laquelle porte l’étude et au sein de laquelle est prélevé l’échantillon. | |||
En général, on ne s’intéresse pas aux données pour elles-mêmes, mais à la population dont sont extraites les données. Ainsi, on cherche à inférer de la connaissance sur la population à partir de l’échantillon observé à savoir les données. | |||
Il existe de nombreuses manières de choisir un échantillon. Plusieurs critères sont pris en considération. Les critères suivants sont en général considérés : | |||
*représentativité de la population étudiée ; | |||
*une fréquence suffisante des caractéristiques d’intérêts : si on étudie le poids des working poors au sein des travailleurs, il faut être sûr d’avoir suffisamment de ces individus dans l’échantillon ; | |||
*facilité de mise en œuvre : il est plus simple d’interroger tous les ménages d’un immeuble plutôt que d’interviewer des individus sélectionnes aléatoirement au sein d’un registre quelconque. | |||
La taille de l’échantillon nécessite également un arbitrage. Plus un échantillon est grand et plus cela permet d’être plus précis et on obtient une erreur d'estimation acceptable, néanmoins, cela est coûteux en argent et en temps. | |||
Idéalement, on aimerait travailler sur un échantillon aléatoire. Un échantillon sélectionné selon une procédure qui assure à chaque membre de la population une probabilité non nulle (et connue) d’être choisi. L’avantage est que l’échantillon aléatoire permet d’exploiter pleinement la théorie statistique. Les outils de la statistique inférentielle s’appuient sur le calcul des probabilités et donc sur l’existence de ces probabilités. Selon la théorie statistique, il n’est pas nécessaire d’observer tout le monde, un échantillon convenablement choisi peut fournir des résultats très proches de ceux d’une analyse de toute la population. C’est une analyse exhaustive. | |||
Les échantillons non-aléatoire sont un choix raisonné comme par exemple on interroge les personnes qui paraissent a priori les plus intéressantes (experts d’un domaine, etc.) ou encore une liste choisie au hasard dans l’annuaire téléphonique avec un échantillon aléatoire des inscrits dans l’annuaire, mais cela exclut les personnes non inscrites. L’enquête par quotas se compose d’u échantillon sur la base des caractéristiques connues de la population-mère. Lorsqu’un quota est rempli, par exemple les jeunes âgés entre 18 et 30 ans, on ne peut plus interviewer de jeunes de cet âge. Donc ce n’est pas purement aléatoire. Ce sont des méthodes lorsqu’on utilise la statistique différentielle. | |||
Le problème des échantillons non-aléatoires est qu’on ne sait pas mesurer la fiabilité des résultats. Si on applique quand même les outils de l’inférence statistique, on obtient des significativités non-rigoureuses. Elles ne donnent que des indications approximatives et doivent être considérées avec prudence. | |||
L’unité d’analyse ou l’unité d’observation est l’objet, la personne ou l’évènement dont on étudie les caractéristiques. Cela peut être les individus, les pays, les cantons, les entreprises, les conflits violents, les familles, les universités, les éditoriaux ou encore les élections présidentielles. On peut par exemple fait une étude sur les journaux est analyser les éditoriaux. C’est la question de recherche et le phénomène étudié qui va définir l’unité d’analyse pertinente. | |||
= Données = | = Données = | ||
Version du 3 juin 2015 à 22:00
Introduction
Il y a plusieurs avantages à utiliser des méthodes quantitatives. Elles permettent d’agréger beaucoup d’informations sur beaucoup d’observations ainsi que de résumer et de traiter ces informations. Lorsqu’on utilise ces méthodes statistiques pour faire des inférences causales ou descriptives, il faut accepter certains postulats. Lorsque ces postulats sont respectés, l’inférence causale va être correcte. En acceptant certains postulats, on obtient des informations précises sur notre incertitude. On peut déterminer quelle est la chance de se tromper lorsqu’on fait une inférence de type causale. Ces méthodes traitent de manière très explicitent des inférences sur la qualité de l’inférence et sur son incertitude.
Les statistiques sont des méthodes qui résument quantitativement des informations et qui permettent de tirer des constats généraux. L’information brute est appelé « données » qui peuvent provenir d’expérience, de sondage ou de toutes formes d’observations systématiques. Les données organisées de manière systématique forme une banque de données dit aussi une base de données ou un fichier de données.
Les données concernant l’ensemble de la population sur laquelle porte l’étude peuvent être introuvables, onéreuses ou impossibles à recueillir. C’est pourquoi on se base sur la sélection d’un échantillon, idéalement selon une procédure de sélection aléatoire qui permet de procéder à des inférences, c’est-à-dire généraliser ce qu’on observe dans l’échantillon à l’ensemble de la population. La population mère est la population sur laquelle porte l’étude et au sein de laquelle est prélevé l’échantillon.
En général, on ne s’intéresse pas aux données pour elles-mêmes, mais à la population dont sont extraites les données. Ainsi, on cherche à inférer de la connaissance sur la population à partir de l’échantillon observé à savoir les données.
Il existe de nombreuses manières de choisir un échantillon. Plusieurs critères sont pris en considération. Les critères suivants sont en général considérés :
- représentativité de la population étudiée ;
- une fréquence suffisante des caractéristiques d’intérêts : si on étudie le poids des working poors au sein des travailleurs, il faut être sûr d’avoir suffisamment de ces individus dans l’échantillon ;
- facilité de mise en œuvre : il est plus simple d’interroger tous les ménages d’un immeuble plutôt que d’interviewer des individus sélectionnes aléatoirement au sein d’un registre quelconque.
La taille de l’échantillon nécessite également un arbitrage. Plus un échantillon est grand et plus cela permet d’être plus précis et on obtient une erreur d'estimation acceptable, néanmoins, cela est coûteux en argent et en temps.
Idéalement, on aimerait travailler sur un échantillon aléatoire. Un échantillon sélectionné selon une procédure qui assure à chaque membre de la population une probabilité non nulle (et connue) d’être choisi. L’avantage est que l’échantillon aléatoire permet d’exploiter pleinement la théorie statistique. Les outils de la statistique inférentielle s’appuient sur le calcul des probabilités et donc sur l’existence de ces probabilités. Selon la théorie statistique, il n’est pas nécessaire d’observer tout le monde, un échantillon convenablement choisi peut fournir des résultats très proches de ceux d’une analyse de toute la population. C’est une analyse exhaustive.
Les échantillons non-aléatoire sont un choix raisonné comme par exemple on interroge les personnes qui paraissent a priori les plus intéressantes (experts d’un domaine, etc.) ou encore une liste choisie au hasard dans l’annuaire téléphonique avec un échantillon aléatoire des inscrits dans l’annuaire, mais cela exclut les personnes non inscrites. L’enquête par quotas se compose d’u échantillon sur la base des caractéristiques connues de la population-mère. Lorsqu’un quota est rempli, par exemple les jeunes âgés entre 18 et 30 ans, on ne peut plus interviewer de jeunes de cet âge. Donc ce n’est pas purement aléatoire. Ce sont des méthodes lorsqu’on utilise la statistique différentielle.
Le problème des échantillons non-aléatoires est qu’on ne sait pas mesurer la fiabilité des résultats. Si on applique quand même les outils de l’inférence statistique, on obtient des significativités non-rigoureuses. Elles ne donnent que des indications approximatives et doivent être considérées avec prudence.
L’unité d’analyse ou l’unité d’observation est l’objet, la personne ou l’évènement dont on étudie les caractéristiques. Cela peut être les individus, les pays, les cantons, les entreprises, les conflits violents, les familles, les universités, les éditoriaux ou encore les élections présidentielles. On peut par exemple fait une étude sur les journaux est analyser les éditoriaux. C’est la question de recherche et le phénomène étudié qui va définir l’unité d’analyse pertinente.