• Aide
  • Eurêkoi Eurêkoi

Livre

Statistique explicative appliquée : analyse discriminante, modèle logistique, segmentation par arbre

Résumé

3 méthodes de classement utilisées et implantées dans plusieurs logiciels statistiques : l'analyse discriminante linéaire et quadratique, le modèle logistique binaire et multinomial, la segmentation par arbre de régression et de discrimination. Insiste particulièrement sur les illustrations de ces 3 méthodes, réalisées avec les logiciels SAS et SPAD, et sur l'interprétation des résultats.


  • Autre(s) auteur(s)
  • Éditeur(s)
  • Date
    • 2003
  • Notes
    • Bibliogr. p. 273-278. Index
  • Langues
    • Français
  • Description matérielle
    • XII-282 p. : ill., couv. ill. en coul. ; 24 cm
  • Sujet(s)
  • ISBN
    • 2-7108-0835-8
  • Indice
    • 519.4 Statistique appliquée, sondages
  • Quatrième de couverture
    • Ce guide pratique présente trois méthodes de classement couramment utilisées et implantées dans plusieurs logiciels statistiques :

      • l'analyse discriminante linéaire et quadratique ;
      • le modèle logistique binaire et multinomial ;
      • la segmentation par arbre de régression et de discrimination.

      L'ouvrage insiste particulièrement sur les illustrations de ces trois méthodes, réalisées avec les logiciels SAS® et SPAD®, et sur l'interprétation des résultats.

      Ce livre s'adresse aux praticiens de l'analyse de données multidimensionnelles intéressés par les méthodes explicatives et exerçant dans de nombreux domaines : médecine, sociologie, économie, marketing, psychologie, météorologie, etc.

      Il intéressera également les enseignants, les chercheurs, les ingénieurs et les étudiants, et constituera un support de cours dans les grandes écoles et les universités.


  • Tables des matières
      • Statistique explicative appliquée

      • Jean-Pierre Nakache/Josiane Confais

      • Editions Technip

      • PréfaceIII
      • Avant-proposV
      • Introduction1
      • Partie 1 ù Analyse discriminante 5
      • Chapitre 1 Analyse discriminante sur variables quantitatives 7
      • 1.1. Analyse linéaire discriminante7
      • 1.1.1. Analyse factorielle discriminante8
      • 1.1.2. Cas particulier de deux groupes13
      • 1.1.3. Équivalence entre régression multiple et analyse linéaire discriminante14
      • 1.2. Règle optimale bayésienne16
      • 1.2.1. Règle bayésienne16
      • 1.2.2. Cas particuliers de la règle optimale bayésienne17
      • 1.2.3. Règle d'affectation d'un nouvel individu à l'un des k groupes20
      • 1.3. Sélection des variables discriminantes22
      • 1.3.1. Critère linéaire22
      • 1.3.2. Apport d'une variable conditionnellement à p autres variables en analyse linéaire discriminante22
      • 1.3.3. Critère quadratique23
      • 1.3.4. Algorithme de Furnival et Wilson23
      • 1.4. Validation d'une règle d'affectation25
      • 1.4.1. Méthode de resubstitution25
      • 1.4.2. Méthode de l'échantillon-test25
      • 1.4.3. Méthode de validation croisée26
      • 1.4.4. Méthode du «jackknife»26
      • 1.4.5. Méthode «Bootstrap»27
      • 1.5. Applications : utilisation des logiciels SAS et SPAD28
      • 1.5.1. CANDISC : analyse factorielle discriminante28
      • 1.5.2. STEPDISC : analyse linéaire discriminante en pas à pas35
      • 1.5.3. DISCRIM : analyse discriminante quadratique38
      • 1.5.4. DIS2GD : analyse linéaire discriminante sur variables continues40
      • 1.5.5. FUWILD : sélection des meilleures variables discriminantes45
      • Chapitre 2 Analyse discriminante sur variables qualitatives derivée de l'analyse factorielle 49
      • 2.1. Analyse linéaire discriminante sur composantes factorielles49
      • 2.1.1. Cas général (k groupes)49
      • 2.1.2. Cas particulier de deux groupes : fonction SCORE50
      • 2.2. Application : utilisation du logiciel SPAD51
      • 2.2.1. DISCO : discrimination sur variables qualitatives52
      • 2.2.2. SCORE : construction d'un score58
      • Chapitre 3 Analyse discriminante barycentrique 61
      • 3.1. Cas de deux groupes61
      • 3.1.1. Représentation barycentrique des variables61
      • 3.1.2. Représentation barycentrique des individus62
      • 3.2. Extension au cas de k groupes : représentation Bêta-barycentrique64
      • Annexes de la partie 1 69
      • A1.1. Analyse de variance unidimensionnelle69
      • A1.1.1. Analyse de variance à 1 facteur à 2 modalités69
      • A1.1.2. Analyse de variance à 1 facteur à k > 2 modalités70
      • A1.2. Analyse de variance multidimensionnelle72
      • A1.3. Principe de l'analyse en composantes principales75
      • Partie 2 ù Modèle logistique 77
      • Chapitre 4 Modèle logistique binaire 79
      • 4.1. Modèle79
      • 4.2. Justification du modèle79
      • 4.2.1. Estimation des paramètres du modèle81
      • 4.2.2. Significativité des paramètres estimés82
      • 4.2.3. Exemple83
      • 4.3. Modèle unidimensionnel : 1 prédicteur86
      • 4.3.1. Prédicteur binaire86
      • 4.3.2. Prédicteur nominal90
      • 4.3.3. Prédicteur quantitatif91
      • 4.3.4. Prédicteur ordinal92
      • 4.4. Modèle bidimensionnel : 2 prédicteurs96
      • 4.4.1. Modèle Y = [X1 binaire, X2 continue]96
      • 4.4.2. Modèle Y = [F binaire, X binaire]97
      • 4.4.3. Modèle Y = [F binaire, X ordinale]101
      • 4.4.4. Modèle Y = [X1 nominale, X2 binaire]102
      • 4.5. Sélection des variables107
      • 4.5.1. Sélection des variables en pas à pas107
      • 4.5.2. Équivalence entre régression linéaire et régression logistique109
      • 4.6. Qualité de l'ajustement d'un modèle logistique110
      • 4.6.1. CHI-2 de Pearson et déviance résiduelle111
      • 4.6.2. Statistique de Hosmer-Lemeshow113
      • 4.7. Interprétation des sorties116
      • 4.7.1. Exemple116
      • 4.7.2. Sélection de variables116
      • 4.7.3. Étude de modèles emboîtés118
      • 4.7.4. Étude détaillée du modèle retenu119
      • 4.8. Application du modèle logistique binaire123
      • 4.8.1. Les données123
      • 4.8.2. Résultats de la procédure logistique (pas à pas descendant)124
      • 4.8.3. Calcul d'un score individuel en régression logistique127
      • 4.9. Modèle logistique binaire dans les études cas-témoins128
      • 4.9.1. Études cas-témoins non appariés129
      • 4.9.2. Études cas-témoins appariés129
      • Chapitre 5 Modèle logistique polytomique 131
      • 5.1. Modèle logistique : variable réponse nominale (k > 2 modalités)131
      • 5.1.1. Modèle131
      • 5.1.2. Vraisemblance du modèle132
      • 5.1.3. Significativité des paramètres estimés et interprétation133
      • 5.1.4. Application du modèle133
      • 5.2. Modèle logistique : variable réponse ordinale145
      • 5.2.1. Logits cumulatifs145
      • 5.2.2. Modèles logistiques avec odds proportionnels146
      • 5.2.3. Vraisemblance du modèle logistique ordinal146
      • 5.2.4. Interprétation des odds-ratio cumulatifs147
      • Chapitre 6 Utilisation du modèle logistique dans l'analyse de données de survie groupées avec covariables dépendant du temps 151
      • 6.1. Analyse de données longitudinales de survie groupées, avec covariables dépendant du temps et statut vital à deux modalités151
      • 6.1.1. Données de survie avec covariables dépendant du temps151
      • 6.1.2. Données de survie groupées avec covariables dependant du temps152
      • 6.1.3. Taux de survie dans le cas de temps discrets152
      • 6.1.4. Application153
      • 6.2. Analyse de données longitudinales de survie groupées, avec covariables dépendant du temps et statut vital à plus de deux modalités158
      • 6.2.1. Application : les données158
      • 6.2.2. Fichier soumis au modèle logistique159
      • 6.2.3. Modèles logistiques ajustés et résultats159
      • Annexes de la partie 2 161
      • A2.1 Vraisemblance de l'échantillon : modèle logistique binaire161
      • A2.2 Estimation des paramètres du modèle logistique binaire162
      • A2.3 Vraisemblance de l'échantillon : données de survie groupées163
      • A2.3.1. Contribution d'un sujet à la vraisemblance de l'échantillon163
      • A2.3.2. Vraisemblance de l'échantillon (données de survie groupées)164
      • A2.4 Analyse de données de survie groupées : proc GENMOD165
      • A2.5 Programme SAS de calcul de la déviance et du chi2 de Pearson167
      • Partie 3 ù Segmentation par arbre 169
      • Chapitre 7 Lecture d'un arbre 171
      • 7.1. Arbre de classement171
      • 7.2. Arbre de régression172
      • Chapitre 8 Méthode de segmentation CART 175
      • 8.1. Principe de la méthode175
      • 8.2. Division d'un segment177
      • 8.2.1. Ensemble des divisions binaires possibles d'un segment177
      • 8.2.2. Critère de division d'un segment178
      • 8.2.3. Critère de Gini178
      • 8.2.4. Prise en compte des coûts dans le calcul du critère de Gini178
      • 8.2.5. Réduction de l'impureté d'un segment t par une division s179
      • 8.2.6. Sélection de la meilleure division d'un segment179
      • 8.2.7. Autres critères de division180
      • 8.2.8. Ajustement du critère de division pour pénaliser des divisions déséquilibrées180
      • 8.3. Prise en compte de données incomplètes dans CART181
      • 8.3.1. Divisions suppléantes181
      • 8.3.2. Qualité de la prédiction de la meilleure division par une division suppléante182
      • 8.4. Importance de chaque variable dans la construction de l'arbre184
      • 8.5. Règle d'affectation d'un segment terminal à un groupe186
      • 8.6. Coût (ou risque) de la règle de l'arbre186
      • 8.7. Estimation du coût théorique de l'arbre par resubstitution187
      • 8.8. Coût-complexité de l'arbre188
      • 8.9. Estimation du coût théorique par échantillon-test188
      • 8.10. Détermination de l'arbre le plus fiable : procédure CART189
      • 8.10.1. Principe de la procédure189
      • 8.10.2. Procédure d'élagage190
      • 8.10.3. Séquence de sous-arbres emboîtés de coût-complexité minimum192
      • 8.10.4. Choix du «meilleur» sous-arbre de la séquence192
      • 8.10.5. Règle d'un écart-type192
      • 8.11. Exemple données Digit : méthode de l'échantillon-test193
      • 8.11.1. Constitution de l'échantillon de base193
      • 8.11.2. Constitution de l'échantillon-test194
      • 8.11.3. Détermination de l'arbre le plus fiable194
      • 8.12. Estimation du coût théorique par validation croisée201
      • 8.12.1. Procédure201
      • 8.12.2. Exemple d'application : données Nodule203
      • 8.13. Arbre de probabilité206
      • 8.13.1. Estimation du coût théorique associé à un arbre de probabilité206
      • 8.13.2. Différence entre arbre de probabilité et arbre binaire de classement207
      • 8.13.3. Exemples d'arbre de probabilité208
      • 8.13.4. Ajustement des estimations des probabilités des segments terminaux de l'arbre209
      • 8.13.5. Comparaison des estimations des probabilités obtenues dans la régression logistique et dans la segmentation par arbre211
      • 8.14. Bagging, Boosting212
      • 8.14.1. Bagging212
      • 8.14.2. Boosting212
      • 8.15. Application : utilisation du logiciel SPAD215
      • 8.15.1. Exemple : données Bact215
      • 8.15.2. Filière «Segmentation par arbre de décision binaire»216
      • 8.15.3. Lecture et interprétation des sorties218
      • Chapitre 9 Arbre binaire de régression 233
      • 9.1. Division d'un segment233
      • 9.1.1. Meilleure division d'un segment233
      • 9.1.2. Réduction du nombre de divisions à examiner dans le cas d'une variable nominale234
      • 9.1.3. Autre critère de division : déviation moyenne absolue234
      • 9.2. Estimation du coût théorique de l'arbre par resubstitution235
      • 9.3. Estimation du coût théorique de l'arbre T : méthode de l'échantillon-test236
      • 9.4. Procédure d'élagage de l'arbre Tmax237
      • 9.5. Application : utilisation de SPAD237
      • 9.5.1. Les données : Housing237
      • 9.5.2. Filière «Régression par arbre binaire»238
      • 9.5.3. Résultats de REGAR238
      • 9.5.4. Résultats de REGEL239
      • 9.6. Détermination de l'arbre le plus fiable par validation croisée246
      • 9.7. Comparaison régression multiple et CART sur un exemple246
      • Chapitre 10 Extension de la segmentation CART à l'analyse de données de survie 247
      • 10.1. Utilisation du modèle exponentiel de survie247
      • 10.1.1. Vralsemblance d'un échantillon de données censurées248
      • 10.1.2. Risque instantané de décès et fonction «perte»248
      • 10.1.3. Comparaison de la survie dans deux groupes248
      • 10.1.4. Test du rapport de vraisemblance249
      • 10.1.5. Critère de division d'un segment250
      • 10.1.6. Sélection de la meilleure division d'un segment250
      • 10.1.7. Règle d'arrêt de la procédure de division250
      • 10.1.8. Arbre retenu par la méthode de l'échantillon-test251
      • 10.1.9. Application : données Sein252
      • 10.2. CART appliquée aux résidus d'un modèle de Cox sans covariables254
      • 10.2.1. Présentation de la méthode254
      • 10.2.2. Application254
      • Annexes de la partie 3 259
      • A3.1. Méthodes de segmentation antérieures à CART259
      • A3.1.1. Méthode BELSON259
      • A3.1.2. Méthode ÉLISÉE261
      • A3.1.3. Méthode AID261
      • A3.1.4. Méthode THAID261
      • A3.2. Méthode CHAID : CHI-2 Automatic Interaction Detection262
      • A3.2.1. Algorithme de CHAID262
      • A3.2.2. Illustration de la méthode CHAID263
      • A3.2.3. Significativité d'une variable explicative : coefficients de Bonferroni264
      • A3.2.4. Extension de la méthode CHAID266
      • A3.3. Réduction du nombre de divisions à examiner dans le cas d'une variable nominale présentant un nombre de modalités important267
      • A3.4. Divisions d'un segment suivant une combinaison de variables270
      • A3.4.1. Combinaisons booléennes de variables270
      • A3.4.2. Combinaisons linéaires de variables271
      • A3.5. Logiciels de segmentation271
      • Références bibliographiques273
      • Index279

  • Origine de la notice:
    • BNF
  • Disponible - 519.4 NAK

    Niveau 2 - Sciences