Data mining : Découverte de connaissances dans les données

Auteur(s) :

Larose, Daniel T. ; Larose, Chantal D. ; Vallaud, Thierry

Éditeur(s)
- Vuibert
Date
- 2018
Notes
- Tout sur le data mining dans un ouvrage entièrement mis à jour.Révolution de l'ingénierie de la connaissance, permettant de découvrir de nouvelles corrélations, tendances et modèles au sein de grandes masses de données, le data mining (ou fouille de données) est devenu l'outil de veille technologique, stratégique et concurrentielle par excellence, grâce à des logiciels d'analyse toujours plus puissants. Seule une bonne compréhension des mécanismes complexes, au carrefour de l'algorithmique et de la statistique, qui sous-tendent ces logiciels permet de les utiliser efficacement et de transformer des données brutes en connaissance, c'est-à-dire en information mobilisable pour prendre des décisions pertinentes.Mêlant la théorie et la pratique au travers d'exemples et d’exercices concrets, abondamment illustré, ce livre propose une méthodologie claire du data mining en expliquant ses concepts et techniques : classification et clusterisation, exploration et prédiction, arbres de décision, réseaux de neurones et de Kohonen, règles d’association, évaluation des modèles, etc.Cette deuxième édition, largement remaniée, propose de nouveaux chapitres sur l’analyse statistique multivariée, la préparation des données, l’imputation des données manquantes et introduit une douzaine de nouveaux concepts. Le code R de chaque modèle présenté est fourni (et proposé en ligne), ainsi qu’une annexe sur la visualisation et l’analyse descriptive des données pour les lecteurs qui désireraient revoir quelques notions de base en statistiques.
Langues
- Français
ISBN
- 9782311405606
Droits
- copyrighted
Résultat de :
- Cairn Sciences - Nueva ventana
Quatrième de couverture
- Data mining
  Découverte de connaissances dans les données
  Révolution de l'ingénierie de la connaissance, permettant de découvrir de nouvelles corrélations, tendances et modèles au sein de grandes masses de données, le data mining (domaine majeur de la data science) est devenu l'outil de veille technologique, stratégique et concurrentielle par excellence, grâce à des logiciels d'analyse toujours plus puissants. Seule une bonne compréhension des mécanismes complexes, au carrefour de l'algorithmique et de la statistique, qui sous-tendent ces logiciels permet de les utiliser efficacement et de transformer des données brutes en connaissance, c'est-à-dire en information mobilisable pour prendre des décisions pertinentes.
  Mêlant la théorie et la pratique au travers d'exemples et d'exercices concrets, abondamment illustré, ce livre propose une méthodologie claire du data mining en expliquant ses concepts et techniques : classification et clusterisation, exploration et prédiction, arbres de décision, réseaux de neurones et de Kohonen, règles d'association, évaluation des modèles, etc.
  Cette deuxième édition, largement remaniée, propose de nouveaux chapitres sur l'analyse statistique multivariée, la préparation des données, l'imputation des données manquantes et introduit une douzaine de nouveaux concepts. Le code R de chaque modèle présenté est fourni (et proposé en ligne), ainsi qu'une annexe sur la visualisation et l'analyse descriptive des données pour les lecteurs qui désireraient revoir quelques notions de base en statistiques.
Tables des matières
- - Data mining
  - Découverte de connaissances dans les données
  - Daniel T. Larose, Chantal D. Larose
  - Vuibert
  - Préface de la version françaiseXVI
  - Préface de la version américaineXVII
  - Chapitre 1
    Introduction au data mining1
  - 1.1 Qu'est-ce que le data mining ?1
  - 1.2 Data miners souhaités3
  - 1.4 Le besoin d'un contrôle humain dans le data mining4
  - 1.3 Le processus standardisé interprofessionnel CRISP-PM4
  - 1.5 Les idées fausses du data mining8
  - 1.6 Quelles tâches le data mining peut-il accomplir ?10
  - Bibliographie19
  - Exercices20
  - Chapitre 2
    La préparation des données23
  - 2.1 Pourquoi avons-nous besoin de préparer les données ?23
  - 2.2 Le nettoyage des données24
  - 2.3 La prise en compte des données manquantes26
  - 2.4 Identifier les mauvaises classifications29
  - 2.5 Les méthodes graphiques pour identifier les valeurs aberrantes30
  - 2.6 La mesure de centralité et la propagation32
  - 2.7 La transformation des données34
  - 2.8 La normalisation min-max34
  - 2.9 La normalisation par le score Z36
  - 2.10 La normalisation décimale37
  - 2.11 Les transformations pour atteindre la normalité37
  - 2.12 Les méthodes numériques pour identifier les valeurs aberrantes44
  - 2.13 Les variables booléennes46
  - 2.14 Transformer les variables catégorielles en variables numériques46
  - 2.15 Discrétiser les variables numériques47
  - 2.16 Reclasser les variables catégorielles49
  - 2.17 Ajouter une variable index49
  - 2.18 Retirer les variables qui ne sont pas utiles50
  - 2.19 Les variables qui ne devraient probablement pas être retirées50
  - 2.20 Éliminer les enregistrements en doublon51
  - 2.21 Un mot sur les champs ID52
  - La zone R52
  - Bibliographie57
  - Exercices57
  - Exercices de prise en main58
  - Chapitre 3
    L'analyse exploratoire des données61
  - 3.1 Test d'hypothèses contre analyse exploratoire des données61
  - 3.2 Connaître les données62
  - 3.3 Explorer les variables catégorielles65
  - 3.4 Explorer les variables numériques73
  - 3.5 Explorer les relations multivariées80
  - 3.6 Sélectionner des sous-ensembles pertinents de données pour des analyses plus poussées81
  - 3.7 Utiliser l'analyse exploratoire pour découvrir des champs anormaux83
  - 3.8 Discrétiser en se basant sur une valeur prédictive84
  - 3.9 Dériver des nouvelles variables : variables drapeau87
  - 3.10 Dériver de nouvelles variables : variables numériques90
  - 3.11 Utiliser l'AED pour explorer des variables prédictives corrélées91
  - 3.12 Résumé94
  - La zone R95
  - Bibliographie100
  - Exercices100
  - Exercices de prise en main101
  - Chapitre 4
    L'analyse statistique univariée103
  - 4.1 Les tâches du data mining pour découvrir des connaissances dans les données103
  - 4.2 Les approches statistiques pour l'estimation et la prévision104
  - 4.3 L'inférence statistique104
  - 4.4 Quelle confiance pouvons-nous avoir dans nos estimateurs ?106
  - 4.5 L'estimation de l'intervalle de confiance107
  - 4.6 Comment réduire la marge d'erreur109
  - 4.7 L'estimation de l'intervalle de confiance d'une proportion110
  - 4.8 Le test d'hypothèse pour la moyenne111
  - 4.9 Valider la force de la preuve à l'encontre de l'hypothèse nulle114
  - 4.10 Utiliser les intervalles de confiance pour réaliser des tests d'hypothèse115
  - 4.11 Tests d'hypothèse pour la proportion117
  - La zone R117
  - Bibliographie119
  - Exercices120
  - Chapitre 5
    Les statistiques multivariées123
  - 5.1 Le test t pour la différence des moyennes entre deux échantillons124
  - 5.2 Le test Z pour la différence de proportions entre deux échantillons125
  - 5.3 Le test pour l'homogénéité de proportions125
  - 5.4 Le test du (...) pour tester la qualité de l'ajustement de données multinomiales128
  - 5.5 L'analyse de la variance129
  - 5.6 L'analyse de régression132
  - 5.7 Le test d'hypothèse dans la régression137
  - 5.8 Mesurer la qualité d'un modèle de régression138
  - 5.9 Les dangers de l'extrapolation139
  - 5.10 Les intervalles de seuil de confiance pour la valeur moyenne de (...) étant donné (...)140
  - 5.11 Les intervalles de prévision pour une valeur de (...) choisie aléatoirement étant donné (...)141
  - 5.12 La régression multiple142
  - 5.13 Vérifier les présupposés du modèle144
  - La zone R146
  - Bibliographie150
  - Exercices151
  - Exercices de prise en main153
  - Chapitre 6
    Préparer les données pour la modélisation155
  - 6.1 Les méthodes supervisées et les méthodes non supervisées155
  - 6.2 La méthodologie du data mining et la méthodologie statistique156
  - 6.3 La validation croisée156
  - 6.4 Le sur-ajustement159
  - 6.5 Le compromis entre biais et variance160
  - 6.6 Équilibrer l'ensemble d'apprentissage161
  - 6.7 Établir une base de performance163
  - La zone R164
  - Bibliographie166
  - Exercices166
  - Chapitre 7
    L'algorithme des k plus proches voisins167
  - 7.1 Les tâches de segmentation167
  - 7.2 L'algorithme des k plus proches voisins168
  - 7.3 La fonction de distance171
  - 7.4 Fonction de combinaison174
  - 7.5 Quantifier l'aspect déterminant d'une variable : étirer les axes176
  - 7.6 Des considérations de base de données177
  - 7.7 L'algorithme des k plus proches voisins pour l'estimation et la prévision178
  - 7.8 Choisir k179
  - 7.9 Une application de l'algorithme des k plus proches voisins en utilisant Modeler d'IBM/SPSS180
  - La zone R180
  - Bibliographie182
  - Exercices182
  - Exercices de prise en main183
  - Chapitre 8
    Les arbres de décision185
  - 8.1 Les exigences à l'utilisation des arbres de décision187
  - 8.2 Les arbres de segmentation et de régression188
  - 8.3 L'algorithme C_4.5194
  - 8.4 Les règles de décision201
  - 8.5 Comparaison des algorithmes C_5.0 et CART sur des données réelles202
  - La zone R205
  - Bibliographie207
  - Exercices208
  - Exercices de prise en main209
  - Chapitre 9
    Les réseaux de neurones211
  - 9.1 L'encodage des données en entrée et sortie212
  - 9.2 les réseaux de neurones pour l'estimation et la prévision214
  - 9.3 Un exemple simple de réseau de neurones215
  - 9.4 La fonction d'activation sigmoïde217
  - 9.5 La rétropropagation218
  - 9.6 Les critères d'arrêt223
  - 9.7 Le taux d'apprentissage224
  - 9.8 Le terme de moment224
  - 9.9 L'analyse de la sensibilité227
  - 9.10 Une application de modélisation d'un réseau de neurones227
  - La zone R230
  - Bibliographie234
  - Exercices234
  - Exercices de prise en main235
  - Chapitre 10
    La classification hiérarchique et la classification des k moyennes237
  - 10.1 L'action de classification237
  - 10.2 Les méthodes de classification hiérarchique239
  - 10.3 La classification par association simple240
  - 10.4 La classification par association complète242
  - 10.5 La classification des k moyennes243
  - 10.6 Un exemple de mise en oeuvre d'une classification des k moyennes244
  - 10.7 Le comportement de MSB, MSE et du pseudo test statistique F au fil de l'algorithme des k moyennes248
  - 10.8 L'application de la classification des k moyennes avec Modeler249
  - 10.9 Utiliser la classification pour prédire l'attrition252
  - La zone R253
  - Bibliographie255
  - Exercices255
  - Exercices de prise en main256
  - Chapitre 11
    Les réseaux de Kohonen257
  - 11.1 Les cartes auto-organisatrices257
  - 11.2 Les réseaux de Kohonen259
  - 11.3 Exemple d'une étude d'un réseau de Kohonen260
  - 11.4 Validité des classes264
  - 11.5 Une application de classification en utilisant un réseau de Kohonen265
  - 11.6 Interpréter les classes266
  - 11.7 Utiliser l'appartenance aux classes comme une donnée d'entrée dans des modèles272
  - La zone R273
  - Bibliographie274
  - Exercices275
  - Exercices de prise en main275
  - Chapitre 12
    Les règles d'association277
  - 12.1 L'analyse d'affinité et l'analyse du panier de la ménagère277
  - 12.2 Le support, le seuil de confiance, l'ensemble d'articles fréquents, et la propriété à priori280
  - 12.3 Comment fonctionne l'algorithme à priori ?281
  - 12.4 Des données binaires aux données génériques catégorielles286
  - 12.5 L'approche théorie de l'information : la méthode d'induction de règles généralisées287
  - 12.6 Quand ne pas utiliser de règles d'association ?289
  - 12.7 Comment pouvons-nous mesurer l'utilité des règles d'association ?291
  - 12.8 Est-ce que les règles d'association représentent un apprentissage supervisé ou un apprentissage non supervisé ?292
  - 12.9 Caractéristiques locales et modèles globaux293
  - La zone R294
  - Bibliographie295
  - Exercices296
  - Exercices de prise en main297
  - Chapitre 13
    L'imputation des données manquantes299
  - 13.1 Imputation des données manquantes dans le cas des variables continues300
  - 13.2 L'erreur-type de l'imputation304
  - 13.3 Imputation des valeurs manquantes pour le cas des variables catégorielles304
  - 13.4 Prendre en compte le manque305
  - La zone R306
  - Bibliographie310
  - Exercices310
  - Exercices de prise en main311
  - Chapitre 14
    Les techniques d'évaluation des modèles313
  - 14.1 Les techniques d'évaluation des modèles pour les travaux de description314
  - 14.2 Les techniques d'évaluation des modèles pour les tâches d'estimation et de prévision314
  - 14.3 Les techniques d'évaluation des modèles pour les tâches de segmentation316
  - 14.4 Le taux d'erreur, l'erreur faussement positive et l'erreur faussement négative316
  - 14.5 Sensibilité et spécificité319
  - 14.6 Les coûts d'ajustement d'une mauvaise affectation dans des conditions réelles320
  - 14.7 Les coûts de décision/l'analyse des bénéfices321
  - 14.8 Les diagrammes d'ajustement et les diagrammes de gain322
  - 14.9 Mêler l'évaluation du modèle avec la création du modèle326
  - 14.10 Convergence des résultats : appliquer une suite de modèles326
  - La zone R329
  - Bibliographie329
  - Exercices de prise en main330
  - Annexe333
  - Résumé des données et visualisation de données333
  - A.1 Créer des blocs d'analyses de données333
  - A.2 Visualisation : les graphiques et les tableaux pour résumer et organiser les données336
  - A.3. Mesures de centralité, variabilité et position340
  - A.4 Résumer et visualiser des relations bivariées344
  - Index349

Consultable à la Bpi

Data mining : Découverte de connaissances dans les données

Data mining

Découverte de connaissances dans les données

Daniel T. Larose, Chantal D. Larose

Vuibert