Machine learning : les fondamentaux

Auteur(s) :

Harrison, Matt Découvrir l'auteur

Résumé

Un ouvrage présentant les techniques actuelles de traitement et de visualisation de données structurées fondées sur l'approche de classification ou sur celle de régression. ©Electre 2020

Contributeur(s)
- Engler, Olivier. Traducteur
Éditeur(s)
- First interactive
- O'Reilly
Date
- DL 2020
Notes
- Traduit de l'américain
- La couv. porte en plus : "Exploiter des données structurées en Python"
Langues
- Français
Description matérielle
- 1 vol. (XIII-249 p.) : ill., fig. ; 24 cm
Sujet(s)
- Python (langage de programmation)
- Apprentissage automatique
ISBN
- 978-2-412-05602-8
Indice
- 681.1 Analyse informatique
Quatrième de couverture
- Machine learning : les fondamentaux
  Avec plus de 200 extraits de code et des dizaines de notes techniques, ce guide de référence pratique se propose de vous aider à tracer votre route dans le domaine de l'apprentissage machine avec des données structurées. Son auteur, Matt Harrison, a produit un guide précieux qui va constituer une ressource utile dans vos prochains projets de datalogie.
  Destiné aux programmeurs, aux datalogues et aux ingénieurs en science des données, le livre aborde toutes les techniques actuelles de traitement et de visualisation de données structurées fondées sur l'approche de classification ou sur celle de régression. Il met à contribution des dizaines de librairies spécifiques.
  
  Techniques de classification avec le jeu de données Titanic
  
  Nettoyage des données et traitement des manquants
  
  Analyse exploratoire de données
  
  Prétraitements, confinement et variables factices
  
  Sélection de caractéristiques, colinéarité et PCA
  
  Modèles de classification (bayésien, SVM, KNN, forêts, etc.)
  
  Métriques et évaluation d'une classification
  
  Modèles de régression (XGBoost, arbre de décision, SVM, KNN, etc.)
  
  Métriques et évaluation d'une régression (hétéroscédasticité, résidus)
  
  Regroupement clustering (k-moyennes, analyse de grappes)
  
  Réduction de dimensionnalité (PCA, UMAP, T-SNE, PHATE)
  
  Pipelines de Scikit-learn
Tables des matières
- - Machine learning : les fondamentaux
  - Matt Harrison
  - First Interactive, O'Reilly®
  - Préfacevii
  - Contenu du livrevii
  - À qui s'adresse ce livreviii
  - Conventions typographiquesviii
  - Fichiers source des exemplesix
  - À propos de l'auteurx
  - Terminologie françaisex
  - Colophonxi
  - 1. Introduction1
  - Les librairies utilisées1
  - Installation avec pip4
  - Installation avec conda5
  - 2. Le processus de mécapprentissage7
  - 3. Classification avec les données Titanic9
  - Suggestion de structure du projet9
  - Collecte des données12
  - Création de caractéristiques19
  - Sélection d'un échantillon de données21
  - Reformulation (refactor)22
  - Familles d'algorithmes24
  - Évaluation du modèle27
  - 4. Données manquantes33
  - Étude des manquants33
  - Abandon des données manquantes37
  - Imputation de données37
  - Ajout de colonnes indicatrices38
  - 5. Nettoyage des données
  - Renommage des colonnes39
  - Remplacement des manquants40
  - 6. Exploration
  - Volumétrie des données43
  - Statistiques globales43
  - Histogrammes44
  - Nuages de points46
  - Nuages à ligne de régression (joint plot)46
  - Grille de paires48
  - Boîtes à moustaches et boîtes violon49
  - Comparaison de deux valeurs ordinales51
  - Corrélations52
  - RadViz56
  - Coordonnées parallèles57
  - 7. Prétraitement des données
  - Standardisation61
  - Confinement (scale to range)63
  - Variables factices (dummy)63
  - Encodage de labels64
  - Encodage fréquentiel65
  - Des catégories à partir des chaînes65
  - Autres encodages catégoriels67
  - Caractéristiques temporelles68
  - Ajout d'une caractéristique col_na69
  - Création manuelle de caractéristiques70
  - 8. Sélection de caractéristiques
  - Colonnes colinéaires71
  - Régression lasso74
  - Élimination récursive de caractéristiques75
  - Informations mutuelles77
  - Analyse par composantes principales PCA78
  - Importance des caractéristiques78
  - 9. Classes non équilibrées79
  - Changement de métrique79
  - Algorithmes arborescents et ensembles79
  - Pénalisation du modèle79
  - Suréchantillonnage des minoritaires80
  - Génération de données minoritaires81
  - Sous-échantillonnage des majoritaires81
  - Sur échantillonnage puis sous-échantillonnage82
  - 10. Classification83
  - Régression logistique84
  - Bayésien naïf88
  - Machine à vecteurs de support (SVM)90
  - K-plus proches voisins (KNN)93
  - Arbre de décision95
  - Forêt aléatoire102
  - XGBoost106
  - Gradient Boosted avec LightGBM115
  - TPOT119
  - 11. Sélection de modèle123
  - Courbe de validation123
  - Courbe d'apprentissage125
  - 12. Métriques et évaluation des classifications127
  - Matrices de confusion127
  - Métriques130
  - Exactitude (accuracy)131
  - Rappel (recall)131
  - Précision131
  - fl132
  - Rapports de classification132
  - Courbe ROC133
  - Courbe précision-rappel134
  - Diagramme de gains cumulés135
  - Courbe de surperformance (lift)136
  - Équilibre des classes (balance)137
  - Erreur de prédiction de classe138
  - Seuil de discrimination139
  - 13. Explication des modèles141
  - Coefficient de régression141
  - Importance des caractéristiques141
  - LIME142
  - Interprétation d'un arbre143
  - Diagrammes de dépendance partielle144
  - Modèles substituts147
  - Shapley148
  - 14. Régressions153
  - Modèle de référence (baseline)155
  - Régression linéaire155
  - SVM158
  - K-plus proches voisins (KNN)161
  - Arbre de décision162
  - Forêt aléatoire168
  - Régression XGBoost171
  - Régression LightGBM177
  - 15. Métriques et évaluation des régressions181
  - Métriques181
  - Diagrammes des résidus183
  - Hétéroscédasticité184
  - Résidus normaux185
  - Diagramme d'erreur de prédiction186
  - 16. Explication des modèles de régression189
  - Shapley189
  - 17. Réduction de la dimensionnalité195
  - PCA195
  - UMAP211
  - t-SNE217
  - PHATE220
  - 18. Regroupement (clustering)225
  - K-moyennes225
  - Regroupement agglomérant (hiérarchique)231
  - Analyse des grappes233
  - 19. Pipelines239
  - Pipeline de classification239
  - Pipeline de régression241
  - Pipeline PCA242
  - Index243
Origine de la notice:
- Electre