Statistique explicative appliquée : analyse discriminante, modèle logistique, segmentation par arbre

Auteur(s) :

Nakache, Jean-Pierre Découvrir l'auteur

Résumé

3 méthodes de classement utilisées et implantées dans plusieurs logiciels statistiques : l'analyse discriminante linéaire et quadratique, le modèle logistique binaire et multinomial, la segmentation par arbre de régression et de discrimination. Insiste particulièrement sur les illustrations de ces 3 méthodes, réalisées avec les logiciels SAS et SPAD, et sur l'interprétation des résultats.

Autre(s) auteur(s)
- Confais, Josiane
Éditeur(s)
- Éd. Technip
Date
- 2003
Notes
- Bibliogr. p. 273-278. Index
Langues
- Français
Description matérielle
- XII-282 p. : ill., couv. ill. en coul. ; 24 cm
Sujet(s)
- Analyse multivariée
- Statistique -- Informatique
ISBN
- 2-7108-0835-8
Indice
- 519.4 Statistique appliquée, sondages
Quatrième de couverture
- Ce guide pratique présente trois méthodes de classement couramment utilisées et implantées dans plusieurs logiciels statistiques :
  
  l'analyse discriminante linéaire et quadratique ;
  
  le modèle logistique binaire et multinomial ;
  
  la segmentation par arbre de régression et de discrimination.
  
  L'ouvrage insiste particulièrement sur les illustrations de ces trois méthodes, réalisées avec les logiciels SAS^® et SPAD^®, et sur l'interprétation des résultats.
  Ce livre s'adresse aux praticiens de l'analyse de données multidimensionnelles intéressés par les méthodes explicatives et exerçant dans de nombreux domaines : médecine, sociologie, économie, marketing, psychologie, météorologie, etc.
  Il intéressera également les enseignants, les chercheurs, les ingénieurs et les étudiants, et constituera un support de cours dans les grandes écoles et les universités.
Tables des matières
- - Statistique explicative appliquée
  - Jean-Pierre Nakache/Josiane Confais
  - Editions Technip
  - PréfaceIII
  - Avant-proposV
  - Introduction1
  - Partie 1 ù Analyse discriminante 5
  - Chapitre 1 Analyse discriminante sur variables quantitatives 7
  - 1.1. Analyse linéaire discriminante7
  - 1.1.1. Analyse factorielle discriminante8
  - 1.1.2. Cas particulier de deux groupes13
  - 1.1.3. Équivalence entre régression multiple et analyse linéaire discriminante14
  - 1.2. Règle optimale bayésienne16
  - 1.2.1. Règle bayésienne16
  - 1.2.2. Cas particuliers de la règle optimale bayésienne17
  - 1.2.3. Règle d'affectation d'un nouvel individu à l'un des k groupes20
  - 1.3. Sélection des variables discriminantes22
  - 1.3.1. Critère linéaire22
  - 1.3.2. Apport d'une variable conditionnellement à p autres variables en analyse linéaire discriminante22
  - 1.3.3. Critère quadratique23
  - 1.3.4. Algorithme de Furnival et Wilson23
  - 1.4. Validation d'une règle d'affectation25
  - 1.4.1. Méthode de resubstitution25
  - 1.4.2. Méthode de l'échantillon-test25
  - 1.4.3. Méthode de validation croisée26
  - 1.4.4. Méthode du «jackknife»26
  - 1.4.5. Méthode «Bootstrap»27
  - 1.5. Applications : utilisation des logiciels SAS et SPAD28
  - 1.5.1. CANDISC : analyse factorielle discriminante28
  - 1.5.2. STEPDISC : analyse linéaire discriminante en pas à pas35
  - 1.5.3. DISCRIM : analyse discriminante quadratique38
  - 1.5.4. DIS2GD : analyse linéaire discriminante sur variables continues40
  - 1.5.5. FUWILD : sélection des meilleures variables discriminantes45
  - Chapitre 2 Analyse discriminante sur variables qualitatives derivée de l'analyse factorielle 49
  - 2.1. Analyse linéaire discriminante sur composantes factorielles49
  - 2.1.1. Cas général (k groupes)49
  - 2.1.2. Cas particulier de deux groupes : fonction SCORE50
  - 2.2. Application : utilisation du logiciel SPAD51
  - 2.2.1. DISCO : discrimination sur variables qualitatives52
  - 2.2.2. SCORE : construction d'un score58
  - Chapitre 3 Analyse discriminante barycentrique 61
  - 3.1. Cas de deux groupes61
  - 3.1.1. Représentation barycentrique des variables61
  - 3.1.2. Représentation barycentrique des individus62
  - 3.2. Extension au cas de k groupes : représentation Bêta-barycentrique64
  - Annexes de la partie 1 69
  - A1.1. Analyse de variance unidimensionnelle69
  - A1.1.1. Analyse de variance à 1 facteur à 2 modalités69
  - A1.1.2. Analyse de variance à 1 facteur à k > 2 modalités70
  - A1.2. Analyse de variance multidimensionnelle72
  - A1.3. Principe de l'analyse en composantes principales75
  - Partie 2 ù Modèle logistique 77
  - Chapitre 4 Modèle logistique binaire 79
  - 4.1. Modèle79
  - 4.2. Justification du modèle79
  - 4.2.1. Estimation des paramètres du modèle81
  - 4.2.2. Significativité des paramètres estimés82
  - 4.2.3. Exemple83
  - 4.3. Modèle unidimensionnel : 1 prédicteur86
  - 4.3.1. Prédicteur binaire86
  - 4.3.2. Prédicteur nominal90
  - 4.3.3. Prédicteur quantitatif91
  - 4.3.4. Prédicteur ordinal92
  - 4.4. Modèle bidimensionnel : 2 prédicteurs96
  - 4.4.1. Modèle Y = [X₁ binaire, X₂ continue]96
  - 4.4.2. Modèle Y = [F binaire, X binaire]97
  - 4.4.3. Modèle Y = [F binaire, X ordinale]101
  - 4.4.4. Modèle Y = [X₁ nominale, X₂ binaire]102
  - 4.5. Sélection des variables107
  - 4.5.1. Sélection des variables en pas à pas107
  - 4.5.2. Équivalence entre régression linéaire et régression logistique109
  - 4.6. Qualité de l'ajustement d'un modèle logistique110
  - 4.6.1. CHI-2 de Pearson et déviance résiduelle111
  - 4.6.2. Statistique de Hosmer-Lemeshow113
  - 4.7. Interprétation des sorties116
  - 4.7.1. Exemple116
  - 4.7.2. Sélection de variables116
  - 4.7.3. Étude de modèles emboîtés118
  - 4.7.4. Étude détaillée du modèle retenu119
  - 4.8. Application du modèle logistique binaire123
  - 4.8.1. Les données123
  - 4.8.2. Résultats de la procédure logistique (pas à pas descendant)124
  - 4.8.3. Calcul d'un score individuel en régression logistique127
  - 4.9. Modèle logistique binaire dans les études cas-témoins128
  - 4.9.1. Études cas-témoins non appariés129
  - 4.9.2. Études cas-témoins appariés129
  - Chapitre 5 Modèle logistique polytomique 131
  - 5.1. Modèle logistique : variable réponse nominale (k > 2 modalités)131
  - 5.1.1. Modèle131
  - 5.1.2. Vraisemblance du modèle132
  - 5.1.3. Significativité des paramètres estimés et interprétation133
  - 5.1.4. Application du modèle133
  - 5.2. Modèle logistique : variable réponse ordinale145
  - 5.2.1. Logits cumulatifs145
  - 5.2.2. Modèles logistiques avec odds proportionnels146
  - 5.2.3. Vraisemblance du modèle logistique ordinal146
  - 5.2.4. Interprétation des odds-ratio cumulatifs147
  - Chapitre 6 Utilisation du modèle logistique dans l'analyse de données de survie groupées avec covariables dépendant du temps 151
  - 6.1. Analyse de données longitudinales de survie groupées, avec covariables dépendant du temps et statut vital à deux modalités151
  - 6.1.1. Données de survie avec covariables dépendant du temps151
  - 6.1.2. Données de survie groupées avec covariables dependant du temps152
  - 6.1.3. Taux de survie dans le cas de temps discrets152
  - 6.1.4. Application153
  - 6.2. Analyse de données longitudinales de survie groupées, avec covariables dépendant du temps et statut vital à plus de deux modalités158
  - 6.2.1. Application : les données158
  - 6.2.2. Fichier soumis au modèle logistique159
  - 6.2.3. Modèles logistiques ajustés et résultats159
  - Annexes de la partie 2 161
  - A2.1 Vraisemblance de l'échantillon : modèle logistique binaire161
  - A2.2 Estimation des paramètres du modèle logistique binaire162
  - A2.3 Vraisemblance de l'échantillon : données de survie groupées163
  - A2.3.1. Contribution d'un sujet à la vraisemblance de l'échantillon163
  - A2.3.2. Vraisemblance de l'échantillon (données de survie groupées)164
  - A2.4 Analyse de données de survie groupées : proc GENMOD165
  - A2.5 Programme SAS de calcul de la déviance et du chi² de Pearson167
  - Partie 3 ù Segmentation par arbre 169
  - Chapitre 7 Lecture d'un arbre 171
  - 7.1. Arbre de classement171
  - 7.2. Arbre de régression172
  - Chapitre 8 Méthode de segmentation CART 175
  - 8.1. Principe de la méthode175
  - 8.2. Division d'un segment177
  - 8.2.1. Ensemble des divisions binaires possibles d'un segment177
  - 8.2.2. Critère de division d'un segment178
  - 8.2.3. Critère de Gini178
  - 8.2.4. Prise en compte des coûts dans le calcul du critère de Gini178
  - 8.2.5. Réduction de l'impureté d'un segment t par une division s179
  - 8.2.6. Sélection de la meilleure division d'un segment179
  - 8.2.7. Autres critères de division180
  - 8.2.8. Ajustement du critère de division pour pénaliser des divisions déséquilibrées180
  - 8.3. Prise en compte de données incomplètes dans CART181
  - 8.3.1. Divisions suppléantes181
  - 8.3.2. Qualité de la prédiction de la meilleure division par une division suppléante182
  - 8.4. Importance de chaque variable dans la construction de l'arbre184
  - 8.5. Règle d'affectation d'un segment terminal à un groupe186
  - 8.6. Coût (ou risque) de la règle de l'arbre186
  - 8.7. Estimation du coût théorique de l'arbre par resubstitution187
  - 8.8. Coût-complexité de l'arbre188
  - 8.9. Estimation du coût théorique par échantillon-test188
  - 8.10. Détermination de l'arbre le plus fiable : procédure CART189
  - 8.10.1. Principe de la procédure189
  - 8.10.2. Procédure d'élagage190
  - 8.10.3. Séquence de sous-arbres emboîtés de coût-complexité minimum192
  - 8.10.4. Choix du «meilleur» sous-arbre de la séquence192
  - 8.10.5. Règle d'un écart-type192
  - 8.11. Exemple données Digit : méthode de l'échantillon-test193
  - 8.11.1. Constitution de l'échantillon de base193
  - 8.11.2. Constitution de l'échantillon-test194
  - 8.11.3. Détermination de l'arbre le plus fiable194
  - 8.12. Estimation du coût théorique par validation croisée201
  - 8.12.1. Procédure201
  - 8.12.2. Exemple d'application : données Nodule203
  - 8.13. Arbre de probabilité206
  - 8.13.1. Estimation du coût théorique associé à un arbre de probabilité206
  - 8.13.2. Différence entre arbre de probabilité et arbre binaire de classement207
  - 8.13.3. Exemples d'arbre de probabilité208
  - 8.13.4. Ajustement des estimations des probabilités des segments terminaux de l'arbre209
  - 8.13.5. Comparaison des estimations des probabilités obtenues dans la régression logistique et dans la segmentation par arbre211
  - 8.14. Bagging, Boosting212
  - 8.14.1. Bagging212
  - 8.14.2. Boosting212
  - 8.15. Application : utilisation du logiciel SPAD215
  - 8.15.1. Exemple : données Bact215
  - 8.15.2. Filière «Segmentation par arbre de décision binaire»216
  - 8.15.3. Lecture et interprétation des sorties218
  - Chapitre 9 Arbre binaire de régression 233
  - 9.1. Division d'un segment233
  - 9.1.1. Meilleure division d'un segment233
  - 9.1.2. Réduction du nombre de divisions à examiner dans le cas d'une variable nominale234
  - 9.1.3. Autre critère de division : déviation moyenne absolue234
  - 9.2. Estimation du coût théorique de l'arbre par resubstitution235
  - 9.3. Estimation du coût théorique de l'arbre T : méthode de l'échantillon-test236
  - 9.4. Procédure d'élagage de l'arbre Tmax237
  - 9.5. Application : utilisation de SPAD237
  - 9.5.1. Les données : Housing237
  - 9.5.2. Filière «Régression par arbre binaire»238
  - 9.5.3. Résultats de REGAR238
  - 9.5.4. Résultats de REGEL239
  - 9.6. Détermination de l'arbre le plus fiable par validation croisée246
  - 9.7. Comparaison régression multiple et CART sur un exemple246
  - Chapitre 10 Extension de la segmentation CART à l'analyse de données de survie 247
  - 10.1. Utilisation du modèle exponentiel de survie247
  - 10.1.1. Vralsemblance d'un échantillon de données censurées248
  - 10.1.2. Risque instantané de décès et fonction «perte»248
  - 10.1.3. Comparaison de la survie dans deux groupes248
  - 10.1.4. Test du rapport de vraisemblance249
  - 10.1.5. Critère de division d'un segment250
  - 10.1.6. Sélection de la meilleure division d'un segment250
  - 10.1.7. Règle d'arrêt de la procédure de division250
  - 10.1.8. Arbre retenu par la méthode de l'échantillon-test251
  - 10.1.9. Application : données Sein252
  - 10.2. CART appliquée aux résidus d'un modèle de Cox sans covariables254
  - 10.2.1. Présentation de la méthode254
  - 10.2.2. Application254
  - Annexes de la partie 3 259
  - A3.1. Méthodes de segmentation antérieures à CART259
  - A3.1.1. Méthode BELSON259
  - A3.1.2. Méthode ÉLISÉE261
  - A3.1.3. Méthode AID261
  - A3.1.4. Méthode THAID261
  - A3.2. Méthode CHAID : CHI-2 Automatic Interaction Detection262
  - A3.2.1. Algorithme de CHAID262
  - A3.2.2. Illustration de la méthode CHAID263
  - A3.2.3. Significativité d'une variable explicative : coefficients de Bonferroni264
  - A3.2.4. Extension de la méthode CHAID266
  - A3.3. Réduction du nombre de divisions à examiner dans le cas d'une variable nominale présentant un nombre de modalités important267
  - A3.4. Divisions d'un segment suivant une combinaison de variables270
  - A3.4.1. Combinaisons booléennes de variables270
  - A3.4.2. Combinaisons linéaires de variables271
  - A3.5. Logiciels de segmentation271
  - Références bibliographiques273
  - Index279
Origine de la notice:
- BNF