Data mining
Découverte de connaissances dans les données
Daniel T. Larose, Chantal D. Larose
Vuibert
Préface de la version françaiseXVI
Préface de la version américaineXVII
Chapitre 1
Introduction au data mining1
1.1 Qu'est-ce que le data mining ?1
1.2 Data miners souhaités3
1.4 Le besoin d'un contrôle humain dans le data mining4
1.3 Le processus standardisé interprofessionnel CRISP-PM4
1.5 Les idées fausses du data mining8
1.6 Quelles tâches le data mining peut-il accomplir ?10
Bibliographie19
Exercices20
Chapitre 2
La préparation des données23
2.1 Pourquoi avons-nous besoin de préparer les données ?23
2.2 Le nettoyage des données24
2.3 La prise en compte des données manquantes26
2.4 Identifier les mauvaises classifications29
2.5 Les méthodes graphiques pour identifier les valeurs aberrantes30
2.6 La mesure de centralité et la propagation32
2.7 La transformation des données34
2.8 La normalisation min-max34
2.9 La normalisation par le score Z36
2.10 La normalisation décimale37
2.11 Les transformations pour atteindre la normalité37
2.12 Les méthodes numériques pour identifier les valeurs aberrantes44
2.13 Les variables booléennes46
2.14 Transformer les variables catégorielles en variables numériques46
2.15 Discrétiser les variables numériques47
2.16 Reclasser les variables catégorielles49
2.17 Ajouter une variable index49
2.18 Retirer les variables qui ne sont pas utiles50
2.19 Les variables qui ne devraient probablement pas être retirées50
2.20 Éliminer les enregistrements en doublon51
2.21 Un mot sur les champs ID52
La zone R52
Bibliographie57
Exercices57
Exercices de prise en main58
Chapitre 3
L'analyse exploratoire des données61
3.1 Test d'hypothèses contre analyse exploratoire des données61
3.2 Connaître les données62
3.3 Explorer les variables catégorielles65
3.4 Explorer les variables numériques73
3.5 Explorer les relations multivariées80
3.6 Sélectionner des sous-ensembles pertinents de données pour des analyses plus poussées81
3.7 Utiliser l'analyse exploratoire pour découvrir des champs anormaux83
3.8 Discrétiser en se basant sur une valeur prédictive84
3.9 Dériver des nouvelles variables : variables drapeau87
3.10 Dériver de nouvelles variables : variables numériques90
3.11 Utiliser l'AED pour explorer des variables prédictives corrélées91
3.12 Résumé94
La zone R95
Bibliographie100
Exercices100
Exercices de prise en main101
Chapitre 4
L'analyse statistique univariée103
4.1 Les tâches du data mining pour découvrir des connaissances dans les données103
4.2 Les approches statistiques pour l'estimation et la prévision104
4.3 L'inférence statistique104
4.4 Quelle confiance pouvons-nous avoir dans nos estimateurs ?106
4.5 L'estimation de l'intervalle de confiance107
4.6 Comment réduire la marge d'erreur109
4.7 L'estimation de l'intervalle de confiance d'une proportion110
4.8 Le test d'hypothèse pour la moyenne111
4.9 Valider la force de la preuve à l'encontre de l'hypothèse nulle114
4.10 Utiliser les intervalles de confiance pour réaliser des tests d'hypothèse115
4.11 Tests d'hypothèse pour la proportion117
La zone R117
Bibliographie119
Exercices120
Chapitre 5
Les statistiques multivariées123
5.1 Le test t pour la différence des moyennes entre deux échantillons124
5.2 Le test Z pour la différence de proportions entre deux échantillons125
5.3 Le test pour l'homogénéité de proportions125
5.4 Le test du (...) pour tester la qualité de l'ajustement de données multinomiales128
5.5 L'analyse de la variance129
5.6 L'analyse de régression132
5.7 Le test d'hypothèse dans la régression137
5.8 Mesurer la qualité d'un modèle de régression138
5.9 Les dangers de l'extrapolation139
5.10 Les intervalles de seuil de confiance pour la valeur moyenne de (...) étant donné (...)140
5.11 Les intervalles de prévision pour une valeur de (...) choisie aléatoirement étant donné (...)141
5.12 La régression multiple142
5.13 Vérifier les présupposés du modèle144
La zone R146
Bibliographie150
Exercices151
Exercices de prise en main153
Chapitre 6
Préparer les données pour la modélisation155
6.1 Les méthodes supervisées et les méthodes non supervisées155
6.2 La méthodologie du data mining et la méthodologie statistique156
6.3 La validation croisée156
6.4 Le sur-ajustement159
6.5 Le compromis entre biais et variance160
6.6 Équilibrer l'ensemble d'apprentissage161
6.7 Établir une base de performance163
La zone R164
Bibliographie166
Exercices166
Chapitre 7
L'algorithme des k plus proches voisins167
7.1 Les tâches de segmentation167
7.2 L'algorithme des k plus proches voisins168
7.3 La fonction de distance171
7.4 Fonction de combinaison174
7.5 Quantifier l'aspect déterminant d'une variable : étirer les axes176
7.6 Des considérations de base de données177
7.7 L'algorithme des k plus proches voisins pour l'estimation et la prévision178
7.8 Choisir k179
7.9 Une application de l'algorithme des k plus proches voisins en utilisant Modeler d'IBM/SPSS180
La zone R180
Bibliographie182
Exercices182
Exercices de prise en main183
Chapitre 8
Les arbres de décision185
8.1 Les exigences à l'utilisation des arbres de décision187
8.2 Les arbres de segmentation et de régression188
8.3 L'algorithme C4.5194
8.4 Les règles de décision201
8.5 Comparaison des algorithmes C5.0 et CART sur des données réelles202
La zone R205
Bibliographie207
Exercices208
Exercices de prise en main209
Chapitre 9
Les réseaux de neurones211
9.1 L'encodage des données en entrée et sortie212
9.2 les réseaux de neurones pour l'estimation et la prévision214
9.3 Un exemple simple de réseau de neurones215
9.4 La fonction d'activation sigmoïde217
9.5 La rétropropagation218
9.6 Les critères d'arrêt223
9.7 Le taux d'apprentissage224
9.8 Le terme de moment224
9.9 L'analyse de la sensibilité227
9.10 Une application de modélisation d'un réseau de neurones227
La zone R230
Bibliographie234
Exercices234
Exercices de prise en main235
Chapitre 10
La classification hiérarchique et la classification des k moyennes237
10.1 L'action de classification237
10.2 Les méthodes de classification hiérarchique239
10.3 La classification par association simple240
10.4 La classification par association complète242
10.5 La classification des k moyennes243
10.6 Un exemple de mise en oeuvre d'une classification des k moyennes244
10.7 Le comportement de MSB, MSE et du pseudo test statistique F au fil de l'algorithme des k moyennes248
10.8 L'application de la classification des k moyennes avec Modeler249
10.9 Utiliser la classification pour prédire l'attrition252
La zone R253
Bibliographie255
Exercices255
Exercices de prise en main256
Chapitre 11
Les réseaux de Kohonen257
11.1 Les cartes auto-organisatrices257
11.2 Les réseaux de Kohonen259
11.3 Exemple d'une étude d'un réseau de Kohonen260
11.4 Validité des classes264
11.5 Une application de classification en utilisant un réseau de Kohonen265
11.6 Interpréter les classes266
11.7 Utiliser l'appartenance aux classes comme une donnée d'entrée dans des modèles272
La zone R273
Bibliographie274
Exercices275
Exercices de prise en main275
Chapitre 12
Les règles d'association277
12.1 L'analyse d'affinité et l'analyse du panier de la ménagère277
12.2 Le support, le seuil de confiance, l'ensemble d'articles fréquents, et la propriété à priori280
12.3 Comment fonctionne l'algorithme à priori ?281
12.4 Des données binaires aux données génériques catégorielles286
12.5 L'approche théorie de l'information : la méthode d'induction de règles généralisées287
12.6 Quand ne pas utiliser de règles d'association ?289
12.7 Comment pouvons-nous mesurer l'utilité des règles d'association ?291
12.8 Est-ce que les règles d'association représentent un apprentissage supervisé ou un apprentissage non supervisé ?292
12.9 Caractéristiques locales et modèles globaux293
La zone R294
Bibliographie295
Exercices296
Exercices de prise en main297
Chapitre 13
L'imputation des données manquantes299
13.1 Imputation des données manquantes dans le cas des variables continues300
13.2 L'erreur-type de l'imputation304
13.3 Imputation des valeurs manquantes pour le cas des variables catégorielles304
13.4 Prendre en compte le manque305
La zone R306
Bibliographie310
Exercices310
Exercices de prise en main311
Chapitre 14
Les techniques d'évaluation des modèles313
14.1 Les techniques d'évaluation des modèles pour les travaux de description314
14.2 Les techniques d'évaluation des modèles pour les tâches d'estimation et de prévision314
14.3 Les techniques d'évaluation des modèles pour les tâches de segmentation316
14.4 Le taux d'erreur, l'erreur faussement positive et l'erreur faussement négative316
14.5 Sensibilité et spécificité319
14.6 Les coûts d'ajustement d'une mauvaise affectation dans des conditions réelles320
14.7 Les coûts de décision/l'analyse des bénéfices321
14.8 Les diagrammes d'ajustement et les diagrammes de gain322
14.9 Mêler l'évaluation du modèle avec la création du modèle326
14.10 Convergence des résultats : appliquer une suite de modèles326
La zone R329
Bibliographie329
Exercices de prise en main330
Annexe333
Résumé des données et visualisation de données333
A.1 Créer des blocs d'analyses de données333
A.2 Visualisation : les graphiques et les tableaux pour résumer et organiser les données336
A.3. Mesures de centralité, variabilité et position340
A.4 Résumer et visualiser des relations bivariées344
Index349