Modèles biostatistiques pour l'épidémiologie
Daniel Commenges
Hélène Jacqmin-Gadda
de boeck supérieur
Préfacevii
Notationsix
Lexiquexi
Table des matièresxiii
1 Introduction1
1.1 Présentation générale du livre1
1.2 Plan du livre2
1.3 Notations3
1.4 Présentation des exemples3
1.4.1 Démence : l'étude PAQUID3
1.4.2 SIDA : l'essai ALBI ANRS 0705
1.4.3 Cancer colorectal5
2 Inférence7
2.1 Introduction7
2.2 Principes de l'inférence statistique7
2.2.1 Modèles statistiques7
2.2.2 Estimation ponctuelle9
2.2.3 Distribution d'échantillonnage12
2.2.4 Estimation par intervalle14
2.2.5 Tests d'hypothèses16
2.3 Vraisemblance et applications20
2.3.1 La vraisemblance21
2.3.2 Propriétés asymptotiques du MLE24
2.3.3 Tests asymptotiques28
2.4 Autres types de vraisemblances et méthodes d'estimation33
2.4.1 Autres types de vraisemblance33
2.4.2 Autres méthodes d'estimation34
2.5 Choix de modèles34
2.5.1 Le critère d'Akaike : AIC35
2.5.2 La validation croisée35
2.6 Algorithmes d'optimisation36
2.6.1 Généralités36
2.6.2 Algorithme de Newton-Raphson et Newton-like37
2.6.3 algorithme EM39
3 Modèles de régression standards43
3.1 Introduction43
3.2 Modèle de régression linéaire44
3.2.1 Spécification du modèle45
3.2.2 Estimation des paramètres du modèle48
3.2.3 Tests d'hypothèse sur les paramètres51
3.2.4 Variables indicatrices, modification d'effet, confusion55
3.2.5 Etude de l'adéquation du modèle linéaire61
3.3 Modèle de régression logistique67
3.3.1 Spécification du modèle68
3.3.2 Estimation des paramètres du modèle logistique70
3.3.3 Tests d'hypothèses sur les paramètres72
3.3.4 Codage des variables, modification d'effet, confusion73
3.3.5 Variable explicative quantitative : hypothèse de linéarité avec le Logit74
3.3.6 Adéquation du modèle logistique76
3.4 Modèle de régression de Poisson80
3.4.1 Spécification du modèle81
3.4.2 Estimation des paramètres et tests d'hypothèse82
3.4.3 Surdispersion et adéquation du modèle83
3.4.4 Application84
3.5 Modèles linéaires généralisés88
3.5.1 Famille exponentielle89
3.5.2 Fonctions de lien90
3.5.3 Inférence pour les modèles linéaires généralisés90
3.5.4 Déviance et tests d'adéquation91
3.6 Sélection de variables et stratégies d'analyse93
3.6.1 Principales méthodes de sélection de variables94
3.6.2 Objectifs de l'analyse95
3.6.3 Choix des variables initiales95
3.6.4 Analyse multivariable : procédure descendante98
4 Analyse des données de survie103
4.1 Evènement, origine et fonctions103
4.1.1 Délais et évènements104
4.1.2 Fonctions associées aux distributions de survie105
4.2 Schémas d'observation, censure et troncature107
4.2.1 La censure107
4.2.2 La troncature108
4.2.3 Exemples : survie de sujets après l'entrée en institution109
4.2.4 La vraisemblance pour données censurées et tronquées112
4.3 Estimation et comparaison de fonctions de survie115
4.3.1 Un estimateur non-paramétrique : l'estimateur de Kaplan-Meier115
4.3.2 Comparaison de courbes de survie : le test du logrank121
4.3.3 Estimateurs paramétriques125
4.3.4 Approche par vraisemblance pénalisée129
4.4 Modèle de régression : le modèle à risques proportionnels131
4.4.1 Le modèle à risques proportionnels : introduction131
4.4.2 La vraisemblance partielle : le modèle de Cox132
4.4.3 Interprétation des paramètres134
4.4.4 Intervalle de confiance d'un risque relatif135
4.4.5 Tests135
4.4.6 Exemple136
4.4.7 Une généralisation du modèle : la stratification138
4.4.8 Les variables explicatives dépendantes du temps138
4.4.9 Adéquation du modèle : l'hypothèse de proportionnalité des risques140
4.4.10 Quels problèmes si l'hypothèse de proportionnalité des risques n'est pas vérifiée ?144
4.4.11 Solutions si l'hypothèse de proportionnalité des risques n'est pas vérifiée147
4.4.12 Adéquation du modèle : l'hypothèse de log-linéarité149
4.4.13 Modèles paramétriques et vraisemblance pénalisée149
4.5 Modèles de vie accélérée150
4.6 Approche par processus de dénombrement151
4.6.1 Processus de dénombrement152
4.6.2 Filtration152
4.6.3 Martingales et décomposition de Doob-Meyer152
4.6.4 Estimateur de Nelson-Aalen et de Breslow153
4.7 Modèles à risques additifs154
4.7.1 Le modèle à risques additifs : formulation et inférence154
4.7.2 Application aux données de mortalité en institution157
4.8 Modèles de dégradation161
5 Modèles pour données longitudinales163
5.1 Modèles linéaires mixtes164
5.1.1 Génèse164
5.1.2 Formulation165
5.1.3 Estimation168
5.1.4 Inférence pour les effets fixes170
5.1.5 Choix de la structure de covariance171
5.1.6 Estimation des effets aléatoires172
5.1.7 Prédictions173
5.1.8 Résidus174
5.1.9 Evaluation de l'adéquation175
5.1.10 Application176
5.2 Modèles linéaires généralisés mixtes179
5.2.1 Formulation générale179
5.2.2 Le modèle logistique à effets mixtes180
5.2.3 Le modèle logistique mixte à odds proportionnels et le modèle probit cumulé mixte181
5.2.4 Le modèle de Poisson à effets mixtes182
5.2.5 Estimation182
5.2.6 Inférence184
5.2.7 Estimations des effets aléatoires184
5.2.8 Application184
5.3 Modèles non linéaires mixtes187
5.4 Modèles marginaux et équations d'estimation généralisées188
5.4.1 L'approche GEE188
5.4.2 Modèles mixtes et maximum de vraisemblance versus modèles marginaux et GEE190
5.4.3 Application192
5.5 Données longitudinales incomplètes194
5.5.1 Terminologie194
5.5.2 Données manquantes aléatoires (MAR)195
5.5.3 Données manquantes non aléatoires (MNAR)196
5.5.4 Données longitudinales censurées197
5.6 Stratégie de modélisation198
5.6.1 Description des données198
5.6.2 Choix des effets fixes199
5.6.3 Choix de la matrice de variance-covariance199
5.6.4 Adéquation200
6 Extension des modèles mixtes203
6.1 Modèles mixtes curvilinéaires203
6.1.1 Formulation du modèle204
6.1.2 Identifiabilité205
6.1.3 Estimation par maximum de vraisemblance205
6.1.4 Différence avec le modèle linéaire mixte généralisé206
6.1.5 Notion de processus latent sous-jacent206
6.1.6 Application207
6.2 Modèles pour données longitudinales multivariées210
6.2.1 Modèle linéaire mixte multivarié211
6.2.2 Modèle mixte multivarié à processus latent214
6.3 Modèles mixtes à classes latentes223
6.3.1 Formulation du modèle223
6.3.2 Estimation par maximum de vraisemblance224
6.3.3 Classification a posteriori225
6.3.4 Application226
7 Modèles de survie avancés233
7.1 Survie relative233
7.1.1 Principe233
7.1.2 Formulation234
7.1.3 Inférence235
7.1.4 Illustration236
7.2 Modèles à risques compétitifs237
7.2.1 Exemples238
7.2.2 Formulation239
7.2.3 Inférence240
7.2.4 Modèle de régression en présence de risques compétitifs241
7.2.5 Illustration avec le logiciel R243
7.3 Modèles à fragilité247
7.3.1 Type de données247
7.3.2 Principe248
7.3.3 Formulation250
7.3.4 Inférence251
7.3.5 Estimation des effets aléatoires254
7.3.6 Application avec les packages R survival et frailtypack255
7.3.7 Modèles avec une interaction entre fragilités et variables explicatives observées256
7.4 Extension des modèles à fragilités258
7.4.1 Modèles conjoints pour plusieurs temps de survie258
7.4.2 Modèles à fragilités emboitées261
7.5 Modèles de guérison263
8 Modèles multi-états269
8.1 Introduction369
8.2 Processus multi-états270
8.2.1 Définition270
8.2.2 Propriétés de Markov et de Chapman-Kolmogorov271
8.2.3 Les processus en temps discret272
8.2.4 Les processus en temps continu272
8.2.5 Représentation graphique274
8.2.6 Le modèle « sain-malade-mort » (illness-death)274
8.2.7 Les processus semi-Markoviens276
8.3 Modèles multi-états : généralités277
8.3.1 Hypothèses générales277
8.3.2 Modèles pour les intensités de transition278
8.3.3 Modèles de variabilité : régression et fragilités278
8.3.4 Le modèle « sain-malade-mort »279
8.4 Schémas d'observation279
8.4.1 Troncature279
8.4.2 Censure à droite280
8.4.3 Observations en temps discret : censure par intervalle280
8.4.4 Ignorabilité281
8.5 Inférence statistique pour les modèles multi-états observés en temps continu281
8.5.1 Vraisemblance281
8.5.2 Estimateur non-paramétrique de Aalen-Johansen282
8.5.3 Inférence pour les modèles semi-paramétrique283
8.5.4 Inférence paramétrique283
8.5.5 Inférence par vraisemblance pénalisée283
8.5.6 Modèle sain-malade-mort appliqué à la greffe de moelle osseuse284
8.6 Inférence pour les modèles multi-états en présence de censure par intervalle288
8.6.1 Vraisemblance288
8.6.2 Inférence non-paramétrique289
8.6.3 Inférence paramétrique289
8.6.4 Inférence par vraisemblance pénalisée290
8.6.5 Inférence pour le modèle « sain-malade-mort » dans le cas de censure par intervalle290
8.6.6 Application du modèle « sain-malade-mort » à la démence291
8.7 Fonctions complexes des paramètres : risques individuels et temps de séjour297
8.8 Approche par les processus de dénombrement301
8.9 Autres approches301
8.9.1 Prédiction par « landmarking »302
8.9.2 Approche par Pseudo-valeurs302
9 Modèles conjoints pour données longitudinales et temps d'évènements305
9.1 Généralités305
9.2 Modèles à effets aléatoires partagés308
9.2.1 Formulation308
9.2.2 Estimation311
9.2.3 Evaluation de l'adéquation314
9.2.4 Application315
9.3 Modèles conjoints à classes latentes319
9.3.1 Formulation319
9.3.2 Estimation321
9.3.3 Evaluation de l'adéquation322
9.3.4 Application325
9.4 Classes latentes versus effets aléatoires partagés329
9.5 Le modèle conjoint comme modèle pronostique330
9.6 Extension des modèles conjoint 332
9.6.1 Données longitudinales complexes332
9.6.2 Evénements multiples334
10 Annexes : Logiciels335
10.1 Annexes du chapitre 4 : analyse des données de survie335
10.1.1 Les logiciels SAS et R335
10.1.2 La procédure LIFETEST du logiciel SAS335
10.1.3 La procédure PHREG du logiciel SAS336
10.1.4 Le package survival de R339
10.1.5 Le package SmoothHazard de R340
10.2 Annexes du chapitre 5 : modèles pour données longitudinales341
10.2.1 Modèles linéaires mixtes341
10.2.2 Modèles linéaires mixtes généralisés345
10.2.3 Modèles non-linéaires mixtes347
10.2.4 Modèles marginaux348
10.3 Annexes du chapitre 6 : extensions des modèles mixtes349
10.3.1 Modèles mixtes pour données curvilinéaires349
10.3.2 Modèles linéaires mixtes multivariées350
10.3.3 Modèles mixtes multivariés à processus latent353
10.3.4 Modèles mixtes à classes latentes354
10.4 Annexes du chapitre 7 : modèles de survie avancés355
10.4.1 Modèles de survie relative : Application avec le package R relsurv355
10.4.2 Les modèles à risques compétitifs : application avec les packages R cmprsk et mstate 356
10.4.3 Modèles à fragilités partagées : application avec les packages R coxph et frailtypack360
10.4.4 Modèles conjoints à fragilités : application avec le package R frailtypack et la procédure SAS NLMIXED362
10.4.5 Modèles à fragilités emboitées : application avec le package R frailtypack364
10.5 Annexes du chapitre 8 : modèles multi-états366
10.5.1 Le package mstate366
10.5.2 Le package SmoothHazard369
10.6 Annexes du chapitre 9 : modèles conjoints pour données longitudinales et temps d'évènements370
10.6.1 Modèles conjoints à effets aléatoires partagés370
10.6.2 Modèles conjoints à classes latentes372
Index390