Modélisation statistique appliquée aux sciences sociales
Pascal Bressoux
De boeck
Avant-propos7
Chapitre 1
Ésquisse d'une épistémologie de la modélisation statistique en
sciences sociales11
1.1 Formalisme et modélisation
12
1.1.1 Consensus et dissensions dans les sciences sociales12
1.1.2 Faits virtuels et faits actuels13
1.1.3 Modélisation15
1.1.4 Syntaxe et sémantique16
1.1.5 Formalisme et irréalité18
1.1.6 Modèles purs et modèles à déictiques19
1.2 La modélisation statistique
20
1.2.1 Deux fonctions des statistiques20
1.2.2 La notion de modèle statistique : l'importance du terme d'erreur stochastique25
1.2.3 Le point de vue a-modélisateur de J.-P. Benzécri26
1.2.4 Modèle statistique et analyse factorielle : des méthodes antinomiques ?36
Chapitre 2
Modéliser des relations simples41
2.1 Différentes échelles de mesure
41
2.2 Déterminer la fonction qui lie Y à X
44
2.2.1 Comment déterminer cette fonction ?47
2.2.2 La fonction statistique48
2.2.3 Modèle théorique et modèle empirique49
2.3 La droite de régression par les moindres carrés ordinaires (MCO)
51
2.3.1 Propriétés des MCO et signification des coefficients52
2.3.2 Hypothèses liées ou modèle linéaire MCO54
2.3.3 Inférence statistique57
2.3.4 Pouvoir explicatif du modèle : le coefficient de détermination R282
2.3.5 Diagnostics sur la régression : analyser les résidus86
2.4 Un cas appliqué d'analyse de régression simple
87
2.5 Annexe au chapitre 2
95
Chapitre 3
Modéliser des relations multiples
97
3.1 Intérêts de la régression multiple
97
3.2 Expression formalisée du modèle de régression multiple
99
3.3 Hypothèses liées à la régression multiple
100
3.4 Signification des hypothèses et conséquences de leur violation
103
3.4.1 Signification et conséquences d'une violation de H1 (linéarité et additivité)103
3.4.2 Signification et conséquences d'une violation de H2 (en particulier, variables explicatives
supposées mesurées sans erreur)104
3.4.3 Signification et conséquences d'une violation de H3 (moyenne nulle et erreur
indépendante de X)105
3.4.4 Signification et conséquences d'une violation de H4 (homoscédasticité)106
3.4.5 Signification et conséquences d'une violation de H5 (indépendance des erreurs)108
3.4.6 Signification et conséquences d'une violation de H6 (normalité)109
3.4.7 Signification et conséquences d'une violation de H7 (pas de colinéarité parfaite)110
3.5 Pouvoir explicatif du modèle et gain de variance expliquée
110
3.6 Inférence statistique
113
3.6.1 Significativité globale du modèle113
3.6.2 Significativité du gain de variance expliquée114
3.6.3 Significativité des variables115
3.7 Une variable explicative est quantitative, les autres sont qualitatives :
analyse de la covariance
115
3.7.1 Cas de variables qualitatives dichotomiques116
3.7.2 Cas de variables qualitatives polytomiques127
3.8 Plusieurs variables explicatives sont quantitatives
133
3.9 Coefficients de régression standardisés
135
3.10 Mauvaise spécification de modèle, par un choix erroné dans les variables
explicatives
137
3.10.1 Une ou plusieurs variables non pertinentes sont incluses dans le modèle138
3.10.2 Une ou plusieurs variables pertinentes sont exclues du modèle139
3.11 Diagnostics et remédiation
141
3.11.1 Analyse des résidus141
3.11.2 Les problèmes de multicolinéarité142
3.12 Un cas appliqué d'analyse de régression multiple
146
3.13 Conclusion du chapitre : la démarche de spécification des modèles
153
3.13.1 Une autre démarche de spécification possible154
3.13.2 Eviter de procéder selon les recettes de manuels154
3.14 Annexe au chapitre 3
156
Chapitre 4
Modéliser des interactions et des non-linéarités
157
4.1 Modéliser des interactions
157
4.1.1 Cas d'une interaction où la variable modératrice est qualitative159
4.1.2 Cas d'une interaction où la variable modératrice est quantitative174
4.2 Modéliser des non-linéarités
191
4.2.1 Modéliser des non-linéarités simples192
4.2.2 Modéliser des interactions et des non-linéarités complexes210
4.3 Annexe au chapitre 4
218
4.3.1 Effet de la transformation des variables explicatives par l'ajout d'un terme constant dans un
modèle sans terme d'interaction218
4.3.2 Programme SAS permettant de spécifier un modèle avec interaction, avec édition de la matrice
de variance-covariance des coefficients de régression218
Chapitre 5
Modéliser des variables-réponses qualitatives : la régression
logistique
221
5.1 Le modèle linéaire de probabilité
222
5.2 Le modèle linéaire généralisé
227
5.3 Le modèle logistique pour variables-réponses dichotomiques ou modèle
logit binaire
228
5.3.1 La notion d'odds229
5.3.2 Présentation du modèle logistique (ou logit)231
5.3.3 Inférence statistique240
5.3.4 Pouvoir explicatif du modèle245
5.3.5 Coefficients standardisés248
5.3.6 Analyse des résidus250
5.3.7 Les problèmes de multicolinéarité251
5.3.8 Modéliser des interactions et des non-linéarités avec le modèle logit251
5.4 Le modèle logistique pour variables-réponses polytomiques
255
5.4.1 L'interprétation en termes d'odds259
5.4.2 L'interprétation en termes de probabilités estimées260
5.4.3 Modèle logit multinomial ou ensemble de modèle logit binaires ?262
5.5 Le modèle logistique pour variables-réponses ordinales
263
5.5.1 Mettre en pratique le modèle logit multinomial pour variables ordinales268
5.6 Annexe au chapitre 5
269
5.6.1 Programmes SAS pour l'estimation des modèles logit269
Chapitre 6
Modéliser des données hiérarchisées : les modèles multiniveaux
271
6.1 L'analyse de contexte
273
6.1.1 Quelques distinctions conceptuelles et leur opérationnalisation273
6.1.2 L'erreur écologique ou biais d'agrégation274
6.2 Les modèles utilisant les moindres carrés ordinaires : des a priori inadaptés
à l'analyse des effets de contexte
276
6.2.1 La non-indépendance des résidus276
6.2.2 L'hétéroscédasticité277
6.2.3 Agrégation versus désagrégation278
6.2.4 L'hétérogénéité des relations285
6.2.5 Effets fixes et effets aléatoires286
6.3 Les modèles multiniveaux : une solution adéquate à l'analyse des effets de
l'environnement sur les individus
290
6.3.1 Le modèle «vide» équivalant à une ANOVA avec effets aléatoires291
6.3.2 Le modèle à constantes aléatoires295
6.3.3 Estimer les effets de groupe aléatoires (posterior means)301
6.3.4 Le modèle multiniveau complet : constantes et pentes aléatoires302
6.3.5 Etude des composants de la variance et modélisation de l'hétéroscédasticité310
6.4 Le pouvoir explicatif du modèle
313
6.5 Inférence statistique
316
6.5.1 Significativité de chaque paramètre séparément316
6.5.2 Maximum de vraisemblance «complet» et maximum de vraisemblance restreint317
6.5.3 La significativité testée à l'aide de la déviance318
6.6 Analyser la validité des modèles multiniveaux
321
6.6.1 Les hypothèses des modèles multiniveaux321
6.6.2 Examiner les propriétés du modèle322
6.6.3 Conditions d'utilisation du modèle multiniveau325
6.7 Quelques problèmes dans l'estimation des modèles multiniveaux
326
6.7.1 Pourquoi certaines estimations sont parfois strictement égales à zéro326
6.7.2 Problèmes de non-convergence326
6.7.3 La question de la centration des variables327
6.8 Un cas appliqué d'analyse multiniveau
330
6.9 Dans quels cas les modèles multiniveaux sont-ils vraiment nécessaires ?
334
6.10 Annexe au chapitre 6
337
Chapitre 7
Modéliser des données complexes : les extensions des modèles
multiniveaux
339
7.1 Modéliser une variance complexe au niveau 1
339
7.2 Le modèle à trois niveaux (ou plus)
345
7.3 Les modèles aléatoires croisés
352
7.3.1 Modéliser des structures non strictement hiérarchisées352
7.3.2 Présentation du modèle aléatoire croisé353
7.4 Les modèles de croissance
359
7.4.1 Pertinence d'une structure hiérarchisée comme cadre d'analyse longitudinale359
7.4.2 Présentation du modèle multiniveau de croissance364
7.4.3 Modéliser des fonctions non linéaires de croissance376
7.4.4 L'intérêt des régresseurs qui varient dans le temps380
7.4.5 Tester des structures alternatives de la matrice de variance-covariance des erreurs395
7.5 Modéliser des variables-réponses qualitatives : les modèles logit multiniveaux
405
7.5.1 Principes des modèles logit multiniveaux405
7.5.2 Le modèle logit multiniveau avec constantes aléatoires407
7.5.3 Le modèle logit multiniveau complet (avec constantes et pentes aléatoires)417
7.5.4 Conclusion sur les modèles logit multiniveaux419
7.6 Annexe au chapitre 7
420
7.6.1 Programmes SAS pour estimer des modèles multiniveaux420
7.6.2 Sites de logiciels pour l'analyse multiniveau (utilisés dans les chapitres 6 et 7)422
Bibliographie425
Index des auteurs433
Index des termes437
Liste des tableaux445
Liste des Figures451
Table des matières459