• Aide

Big data et machine learning : les concepts et les outils de la data science

Livre

Résumé

Guide décrivant les enjeux d'un projet big data. Il combine la présentation des concepts théoriques tels que le traitement statistique des données, le calcul distribué, la description des outils comme Hadoop, Storm, Elastic search, etc., et des retours d'expérience. Avec des mises à jour sur la vision d'architecture d'entreprise et sur le deep learning pour le NLP (natural language processing). ©Electre 2019


  • Éditeur(s)
  • Date
    • DL 2019
  • Notes
    • Index
  • Langues
    • Français
  • Description matérielle
    • 1 vol. (X-256 p.) : ill. ; 25 cm
  • Collections
  • Sujet(s)
  • ISBN
    • 978-2-10-079037-1
  • Indice
  • Quatrième de couverture
    • Big Data et Machine Learning

      Les concepts et les outils de la data science

      Cet ouvrage s'adresse à tous ceux qui cherchent à tirer parti de l'énorme potentiel des technologies Big Data, qu'ils soient data scientists, DSI, chefs de projets ou spécialistes métier.

      Le Big Data s'est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel de l'exploitation de leurs données clients, fournisseurs, produits, processus, etc.

      Il a en outre permis l'émergence des techniques d'apprentissage automatique (Machine Learning, Deep Learning...) qui ont relancé le domaine de l'intelligence artificielle.

      Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ?

      Ce livre est un guide pour comprendre les enjeux d'un projet Big Data, en appréhender les concepts sous-jacents et acquérir les compétences nécessaires à la mise en place d'une architecture d'entreprise adaptée.

      Il combine la présentation :

      • de notions théoriques (traitement statistique des données, calcul distribué...) ;
      • des outils les plus répandus ;
      • d'exemples d'applications, notamment en NLP (Natural Language Processing) ;
      • d'une organisation typique d'un projet de data science.

      Pirmin Lemberger
      est directeur scientifique chez onepoint x weave. Spécialiste du Machine Learning, il est responsable de la veille technologique en IA au sens large et s'intéresse plus particulièrement aux sujets émergents du Deep Learning (NLR théorie du transport optimal, apprentissage par renforcement).

      Marc Batty
      est cofondateur de Dataiku, éditeur de la solution « Dataiku DSS », une plateforme de développement et d'exécution d'applications prédictives.

      Médéric Morel
      est cofondateur et CEO de Mapwize, une plateforme de cartographie indoor.

      Jean-Luc Raffaëlli
      est architecte d'entreprise au sein du groupe La Poste. Il contribue aux différentes déclinaisons stratégiques des SI et à l'animation de la communauté des architectes du groupe.

  • Tables des matières
    • Big mata et machine learning
      Les concepts et les outils de la data science
      Pirmin Lemberger
      Marc Batty
      Médéric Morel
      Jean-Luc Raffaëlli
      Dunod
      • Avant-proposIX
      • Première partie Les fondements du Big Data
      • 1 Les origines du Big Data3
      • 1.1 La perception de la donnée dans le grand public3
      • 1.2 Des causes économiques et technologiques5
      • 1.3 La donnée et l'information8
      • 1.4 La valeur9
      • 1.5 Les ressources nécessaires10
      • 1.6 De grandes opportunités11
      • 2 Le Big Data dans les organisations13
      • 2.1 La recherche de l'Eldorado13
      • 2.2 L'avancée par le cloud14
      • 2.3 La création de la valeur15
      • 2.4 Les « 3V » du Big Data15
      • 2.5 Un champ immense d'applications17
      • 2.6 Exemples de compétentes à acquérir18
      • 2.7 Des impacts à tous les niveaux21
      • 2.8 Une nécessaire vision d'architecture d'entreprise25
      • 2.9 « B » Comme Big Data ou Big Brother ?31
      • 3 Le mouvement NoSQL35
      • 3.1 Bases relationnelles, les raisons d'une domination35
      • 3.2 Le dogme remis en question39
      • 3.3 Les différentes catégories de solutions45
      • 3.4 Le NoSQL est-il l'avenir des bases de données ?55
      • 4 L'algorithme MapReduce et le framework Hadoop57
      • 4.1 Automatiser le calcul parallèle57
      • 4.2 Le pattern MapReduce58
      • 4.3 Des exemples d'usage des MapReduce62
      • 4.4 Le framework Hadoop67
      • 4.5 Au-delà de MapReduce72
      • Deuxième partie Le métier de data scientist
      • 5 Le quotidien du data scientist77
      • 5.1 Data scientist : licorne ou réalité ?77
      • 5.2 Le data scientist dans l'organisation84
      • 5.3 Le workflow du data scientist85
      • 6 Exploration et préparation de données95
      • 6.1 Le déluge des données95
      • 6.2 L'exploration de données100
      • 6.3 La préparation de données105
      • 6.4 Les outils de préparation de données110
      • 7 Le Machine Learning113
      • 7.1 Qu'est-ce que le Machine Learning ?113
      • 7.2 Les différents types de Machine Learning122
      • 7.3 Les principaux algorithmes125
      • 7.4 Réseaux de neurones et Deep Learning139
      • 7.5 Illustrations numériques163
      • 7.6 Systèmes de recommandation174
      • 8 La visualisation des données183
      • 8.1 Pourquoi visualiser l'information ?183
      • 8.2 Quels graphes pour quels usages ?187
      • 8.3 Représentation de données complexes194
      • Troisième partie Les outils du Big Data
      • 9 L'écosystème Hadoop201
      • 9.1 La jungle de l'éléphant201
      • 9.2 Les composants d'Apache Hadoop204
      • 9.3 Les principales distributions Hadoop210
      • 9.4 Spark ou la promesse du traitement Big Data in-memory213
      • 9.5 Les briques analytiques à venir218
      • 9.6 Les librairies de calcul220
      • 10 Analyse de logs avec Pig et Hive225
      • 10.1 Pourquoi analyser des logs ?225
      • 10.2 Pourquoi choisir Pig et Hive ?226
      • 10.3 La préparation des données227
      • 10.4 L'analyse des parcours clients232
      • 11 Les architectures alpha235
      • 11.1 Les enjeux du temps réel235
      • 11.2 Rappels sur MapReduce et Hadoop237
      • 11.3 Les architectures alpha237
      • 12 Apache Storm243
      • 12.1 Qu'est-ce que Storm ?243
      • 12.2 Positionnement et intérêt dans les architectures alpha244
      • 12.3 Principes de fonctionnement244
      • 12.4 Un exemple très simple248
      • Conclusion249
      • Index253

  • Origine de la notice:
    • FR-751131015 ;
    • Electre
  • Disponible - 652.4 BIG

    Niveau 3 - Gestion