Statistique explicative appliquée
Jean-Pierre Nakache/Josiane Confais
Editions Technip
PréfaceIII
Avant-proposV
Introduction1
Partie 1 ù Analyse discriminante
5
Chapitre 1 Analyse discriminante sur variables quantitatives
7
1.1. Analyse linéaire discriminante7
1.1.1. Analyse factorielle discriminante8
1.1.2. Cas particulier de deux groupes13
1.1.3. Équivalence entre régression multiple et analyse linéaire discriminante14
1.2. Règle optimale bayésienne16
1.2.1. Règle bayésienne16
1.2.2. Cas particuliers de la règle optimale bayésienne17
1.2.3. Règle d'affectation d'un nouvel individu à l'un des k groupes20
1.3. Sélection des variables discriminantes22
1.3.1. Critère linéaire22
1.3.2. Apport d'une variable conditionnellement à p autres variables
en analyse linéaire discriminante22
1.3.3. Critère quadratique23
1.3.4. Algorithme de Furnival et Wilson23
1.4. Validation d'une règle d'affectation25
1.4.1. Méthode de resubstitution25
1.4.2. Méthode de l'échantillon-test25
1.4.3. Méthode de validation croisée26
1.4.4. Méthode du «jackknife»26
1.4.5. Méthode «Bootstrap»27
1.5. Applications : utilisation des logiciels SAS et SPAD28
1.5.1. CANDISC : analyse factorielle discriminante28
1.5.2. STEPDISC : analyse linéaire discriminante en pas à pas35
1.5.3. DISCRIM : analyse discriminante quadratique38
1.5.4. DIS2GD : analyse linéaire discriminante sur variables continues40
1.5.5. FUWILD : sélection des meilleures variables discriminantes45
Chapitre 2 Analyse discriminante sur variables qualitatives derivée
de l'analyse factorielle
49
2.1. Analyse linéaire discriminante sur composantes factorielles49
2.1.1. Cas général (k groupes)49
2.1.2. Cas particulier de deux groupes : fonction SCORE50
2.2. Application : utilisation du logiciel SPAD51
2.2.1. DISCO : discrimination sur variables qualitatives52
2.2.2. SCORE : construction d'un score58
Chapitre 3 Analyse discriminante barycentrique
61
3.1. Cas de deux groupes61
3.1.1. Représentation barycentrique des variables61
3.1.2. Représentation barycentrique des individus62
3.2. Extension au cas de k groupes : représentation Bêta-barycentrique64
Annexes de la partie 1
69
A1.1. Analyse de variance unidimensionnelle69
A1.1.1. Analyse de variance à 1 facteur à 2 modalités69
A1.1.2. Analyse de variance à 1 facteur à k > 2 modalités70
A1.2. Analyse de variance multidimensionnelle72
A1.3. Principe de l'analyse en composantes principales75
Partie 2 ù Modèle logistique
77
Chapitre 4 Modèle logistique binaire
79
4.1. Modèle79
4.2. Justification du modèle79
4.2.1. Estimation des paramètres du modèle81
4.2.2. Significativité des paramètres estimés82
4.2.3. Exemple83
4.3. Modèle unidimensionnel : 1 prédicteur86
4.3.1. Prédicteur binaire86
4.3.2. Prédicteur nominal90
4.3.3. Prédicteur quantitatif91
4.3.4. Prédicteur ordinal92
4.4. Modèle bidimensionnel : 2 prédicteurs96
4.4.1. Modèle Y = [X1 binaire, X2 continue]96
4.4.2. Modèle Y = [F binaire, X binaire]97
4.4.3. Modèle Y = [F binaire, X ordinale]101
4.4.4. Modèle Y = [X1 nominale, X2 binaire]102
4.5. Sélection des variables107
4.5.1. Sélection des variables en pas à pas107
4.5.2. Équivalence entre régression linéaire et régression logistique109
4.6. Qualité de l'ajustement d'un modèle logistique110
4.6.1. CHI-2 de Pearson et déviance résiduelle111
4.6.2. Statistique de Hosmer-Lemeshow113
4.7. Interprétation des sorties116
4.7.1. Exemple116
4.7.2. Sélection de variables116
4.7.3. Étude de modèles emboîtés118
4.7.4. Étude détaillée du modèle retenu119
4.8. Application du modèle logistique binaire123
4.8.1. Les données123
4.8.2. Résultats de la procédure logistique (pas à pas descendant)124
4.8.3. Calcul d'un score individuel en régression logistique127
4.9. Modèle logistique binaire dans les études cas-témoins128
4.9.1. Études cas-témoins non appariés129
4.9.2. Études cas-témoins appariés129
Chapitre 5 Modèle logistique polytomique
131
5.1. Modèle logistique : variable réponse nominale (k > 2 modalités)131
5.1.1. Modèle131
5.1.2. Vraisemblance du modèle132
5.1.3. Significativité des paramètres estimés et interprétation133
5.1.4. Application du modèle133
5.2. Modèle logistique : variable réponse ordinale145
5.2.1. Logits cumulatifs145
5.2.2. Modèles logistiques avec odds proportionnels146
5.2.3. Vraisemblance du modèle logistique ordinal146
5.2.4. Interprétation des odds-ratio cumulatifs147
Chapitre 6 Utilisation du modèle logistique dans l'analyse de données
de survie groupées avec covariables dépendant du temps
151
6.1. Analyse de données longitudinales de survie groupées, avec covariables dépendant
du temps et statut vital à deux modalités151
6.1.1. Données de survie avec covariables dépendant du temps151
6.1.2. Données de survie groupées avec covariables dependant du temps152
6.1.3. Taux de survie dans le cas de temps discrets152
6.1.4. Application153
6.2. Analyse de données longitudinales de survie groupées, avec covariables dépendant
du temps et statut vital à plus de deux modalités158
6.2.1. Application : les données158
6.2.2. Fichier soumis au modèle logistique159
6.2.3. Modèles logistiques ajustés et résultats159
Annexes de la partie 2
161
A2.1 Vraisemblance de l'échantillon : modèle logistique binaire161
A2.2 Estimation des paramètres du modèle logistique binaire162
A2.3 Vraisemblance de l'échantillon : données de survie groupées163
A2.3.1. Contribution d'un sujet à la vraisemblance de l'échantillon163
A2.3.2. Vraisemblance de l'échantillon (données de survie groupées)164
A2.4 Analyse de données de survie groupées : proc GENMOD165
A2.5 Programme SAS de calcul de la déviance et du chi2 de Pearson167
Partie 3 ù Segmentation par arbre
169
Chapitre 7 Lecture d'un arbre
171
7.1. Arbre de classement171
7.2. Arbre de régression172
Chapitre 8 Méthode de segmentation CART
175
8.1. Principe de la méthode175
8.2. Division d'un segment177
8.2.1. Ensemble des divisions binaires possibles d'un segment177
8.2.2. Critère de division d'un segment178
8.2.3. Critère de Gini178
8.2.4. Prise en compte des coûts dans le calcul du critère de Gini178
8.2.5. Réduction de l'impureté d'un segment t par une division s179
8.2.6. Sélection de la meilleure division d'un segment179
8.2.7. Autres critères de division180
8.2.8. Ajustement du critère de division pour pénaliser des divisions déséquilibrées180
8.3. Prise en compte de données incomplètes dans CART181
8.3.1. Divisions suppléantes181
8.3.2. Qualité de la prédiction de la meilleure division par une division suppléante182
8.4. Importance de chaque variable dans la construction de l'arbre184
8.5. Règle d'affectation d'un segment terminal à un groupe186
8.6. Coût (ou risque) de la règle de l'arbre186
8.7. Estimation du coût théorique de l'arbre par resubstitution187
8.8. Coût-complexité de l'arbre188
8.9. Estimation du coût théorique par échantillon-test188
8.10. Détermination de l'arbre le plus fiable : procédure CART189
8.10.1. Principe de la procédure189
8.10.2. Procédure d'élagage190
8.10.3. Séquence de sous-arbres emboîtés de coût-complexité minimum192
8.10.4. Choix du «meilleur» sous-arbre de la séquence192
8.10.5. Règle d'un écart-type192
8.11. Exemple données Digit : méthode de l'échantillon-test193
8.11.1. Constitution de l'échantillon de base193
8.11.2. Constitution de l'échantillon-test194
8.11.3. Détermination de l'arbre le plus fiable194
8.12. Estimation du coût théorique par validation croisée201
8.12.1. Procédure201
8.12.2. Exemple d'application : données Nodule203
8.13. Arbre de probabilité206
8.13.1. Estimation du coût théorique associé à un arbre de probabilité206
8.13.2. Différence entre arbre de probabilité et arbre binaire de classement207
8.13.3. Exemples d'arbre de probabilité208
8.13.4. Ajustement des estimations des probabilités des segments
terminaux de l'arbre209
8.13.5. Comparaison des estimations des probabilités obtenues
dans la régression logistique et dans la segmentation par arbre211
8.14. Bagging, Boosting212
8.14.1. Bagging212
8.14.2. Boosting212
8.15. Application : utilisation du logiciel SPAD215
8.15.1. Exemple : données Bact215
8.15.2. Filière «Segmentation par arbre de décision binaire»216
8.15.3. Lecture et interprétation des sorties218
Chapitre 9 Arbre binaire de régression
233
9.1. Division d'un segment233
9.1.1. Meilleure division d'un segment233
9.1.2. Réduction du nombre de divisions à examiner dans le cas
d'une variable nominale234
9.1.3. Autre critère de division : déviation moyenne absolue234
9.2. Estimation du coût théorique de l'arbre par resubstitution235
9.3. Estimation du coût théorique de l'arbre T : méthode de l'échantillon-test236
9.4. Procédure d'élagage de l'arbre Tmax237
9.5. Application : utilisation de SPAD237
9.5.1. Les données : Housing237
9.5.2. Filière «Régression par arbre binaire»238
9.5.3. Résultats de REGAR238
9.5.4. Résultats de REGEL239
9.6. Détermination de l'arbre le plus fiable par validation croisée246
9.7. Comparaison régression multiple et CART sur un exemple246
Chapitre 10 Extension de la segmentation CART à l'analyse
de données de survie
247
10.1. Utilisation du modèle exponentiel de survie247
10.1.1. Vralsemblance d'un échantillon de données censurées248
10.1.2. Risque instantané de décès et fonction «perte»248
10.1.3. Comparaison de la survie dans deux groupes248
10.1.4. Test du rapport de vraisemblance249
10.1.5. Critère de division d'un segment250
10.1.6. Sélection de la meilleure division d'un segment250
10.1.7. Règle d'arrêt de la procédure de division250
10.1.8. Arbre retenu par la méthode de l'échantillon-test251
10.1.9. Application : données Sein252
10.2. CART appliquée aux résidus d'un modèle de Cox sans covariables254
10.2.1. Présentation de la méthode254
10.2.2. Application254
Annexes de la partie 3
259
A3.1. Méthodes de segmentation antérieures à CART259
A3.1.1. Méthode BELSON259
A3.1.2. Méthode ÉLISÉE261
A3.1.3. Méthode AID261
A3.1.4. Méthode THAID261
A3.2. Méthode CHAID : CHI-2 Automatic Interaction Detection262
A3.2.1. Algorithme de CHAID262
A3.2.2. Illustration de la méthode CHAID263
A3.2.3. Significativité d'une variable explicative : coefficients de Bonferroni264
A3.2.4. Extension de la méthode CHAID266
A3.3. Réduction du nombre de divisions à examiner dans le cas d'une variable nominale
présentant un nombre de modalités important267
A3.4. Divisions d'un segment suivant une combinaison de variables270
A3.4.1. Combinaisons booléennes de variables270
A3.4.2. Combinaisons linéaires de variables271
A3.5. Logiciels de segmentation271
Références bibliographiques273
Index279