Big data et machine learning : les concepts et les outils de la data science

Résumé

Guide décrivant les enjeux d'un projet big data. Il combine la présentation des concepts théoriques tels que le traitement statistique des données, le calcul distribué, la description des outils comme Hadoop, Storm, Elastic search, etc., et des retours d'expérience. Avec des mises à jour sur la vision d'architecture d'entreprise et sur le deep learning pour le NLP (natural language processing). ©Electre 2019

Éditeur(s)
- Dunod
Date
- DL 2019
Notes
- Index
Langues
- Français
Description matérielle
- 1 vol. (X-256 p.) : ill. ; 25 cm
Collections
- InfoPro. Management des systèmes d'information
Sujet(s)
ISBN
- 978-2-10-079037-1
Indice
- 652.4 Informatique de gestion
Quatrième de couverture
- Big Data et Machine Learning
  Les concepts et les outils de la data science
  Cet ouvrage s'adresse à tous ceux qui cherchent à tirer parti de l'énorme potentiel des technologies Big Data, qu'ils soient data scientists, DSI, chefs de projets ou spécialistes métier.
  Le Big Data s'est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel de l'exploitation de leurs données clients, fournisseurs, produits, processus, etc.
  Il a en outre permis l'émergence des techniques d'apprentissage automatique (Machine Learning, Deep Learning...) qui ont relancé le domaine de l'intelligence artificielle.
  Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?
  Ce livre est un guide pour comprendre les enjeux d'un projet Big Data, en appréhender les concepts sous-jacents et acquérir les compétences nécessaires à la mise en place d'une architecture d'entreprise adaptée.
  Il combine la présentation :
  
  de notions théoriques (traitement statistique des données, calcul distribué...) ;
  
  des outils les plus répandus ;
  
  d'exemples d'applications, notamment en NLP (Natural Language Processing) ;
  
  d'une organisation typique d'un projet de data science.
Tables des matières
- - Big mata et machine learning
  - Les concepts et les outils de la data science
  - Pirmin Lemberger
  - Marc Batty
  - Médéric Morel
  - Jean-Luc Raffaëlli
  - Dunod
  - Avant-proposIX
  - Première partie
    Les fondements du Big Data
  - 1 Les origines du Big Data3
  - 1.1 La perception de la donnée dans le grand public3
  - 1.2 Des causes économiques et technologiques5
  - 1.3 La donnée et l'information8
  - 1.4 La valeur9
  - 1.5 Les ressources nécessaires10
  - 1.6 De grandes opportunités11
  - 2 Le Big Data dans les organisations13
  - 2.1 La recherche de l'Eldorado13
  - 2.2 L'avancée par le cloud14
  - 2.3 La création de la valeur15
  - 2.4 Les « 3V » du Big Data15
  - 2.5 Un champ immense d'applications17
  - 2.6 Exemples de compétentes à acquérir18
  - 2.7 Des impacts à tous les niveaux21
  - 2.8 Une nécessaire vision d'architecture d'entreprise25
  - 2.9 « B » Comme Big Data ou Big Brother ?31
  - 3 Le mouvement NoSQL35
  - 3.1 Bases relationnelles, les raisons d'une domination35
  - 3.2 Le dogme remis en question39
  - 3.3 Les différentes catégories de solutions45
  - 3.4 Le NoSQL est-il l'avenir des bases de données ?55
  - 4 L'algorithme MapReduce et le framework Hadoop57
  - 4.1 Automatiser le calcul parallèle57
  - 4.2 Le pattern MapReduce58
  - 4.3 Des exemples d'usage des MapReduce62
  - 4.4 Le framework Hadoop67
  - 4.5 Au-delà de MapReduce72
  - Deuxième partie
    Le métier de data scientist
  - 5 Le quotidien du data scientist77
  - 5.1 Data scientist : licorne ou réalité ?77
  - 5.2 Le data scientist dans l'organisation84
  - 5.3 Le workflow du data scientist85
  - 6 Exploration et préparation de données95
  - 6.1 Le déluge des données95
  - 6.2 L'exploration de données100
  - 6.3 La préparation de données105
  - 6.4 Les outils de préparation de données110
  - 7 Le Machine Learning113
  - 7.1 Qu'est-ce que le Machine Learning ?113
  - 7.2 Les différents types de Machine Learning122
  - 7.3 Les principaux algorithmes125
  - 7.4 Réseaux de neurones et Deep Learning139
  - 7.5 Illustrations numériques163
  - 7.6 Systèmes de recommandation174
  - 8 La visualisation des données183
  - 8.1 Pourquoi visualiser l'information ?183
  - 8.2 Quels graphes pour quels usages ?187
  - 8.3 Représentation de données complexes194
  - Troisième partie
    Les outils du Big Data
  - 9 L'écosystème Hadoop201
  - 9.1 La jungle de l'éléphant201
  - 9.2 Les composants d'Apache Hadoop204
  - 9.3 Les principales distributions Hadoop210
  - 9.4 Spark ou la promesse du traitement Big Data in-memory213
  - 9.5 Les briques analytiques à venir218
  - 9.6 Les librairies de calcul220
  - 10 Analyse de logs avec Pig et Hive225
  - 10.1 Pourquoi analyser des logs ?225
  - 10.2 Pourquoi choisir Pig et Hive ?226
  - 10.3 La préparation des données227
  - 10.4 L'analyse des parcours clients232
  - 11 Les architectures alpha235
  - 11.1 Les enjeux du temps réel235
  - 11.2 Rappels sur MapReduce et Hadoop237
  - 11.3 Les architectures alpha237
  - 12 Apache Storm243
  - 12.1 Qu'est-ce que Storm ?243
  - 12.2 Positionnement et intérêt dans les architectures alpha244
  - 12.3 Principes de fonctionnement244
  - 12.4 Un exemple très simple248
  - Conclusion249
  - Index253
Origine de la notice:
- FR-751131015 ;
- Electre