Hadoop : devenez opérationnel dans le monde du big data

Auteur(s) :

Chokogoue, Juvénal (1990-....) Découvrir l'auteur

Résumé

Présentation des principes à la base d'Hadoop et de ses composants. L'auteur donne des conseils pour aider le lecteur à exploiter le cluster Hadoop. ©Electre 2017

Éditeur(s)
- Editions ENI
Date
- cop.2017
Notes
- La couv. porte en plus : "Informatique technique"
Langues
- Français
Description matérielle
- 1 vol. (373 p.) : ill., fig.; ; 21 cm
Collections
- Expert IT
Sujet(s)
ISBN
- 978-2-409-00761-3
Indice
- 681.2 Programmation (généralités)
Quatrième de couverture
- Hadoop
  Devenez opérationnel dans le monde du Big Data
  Souvent qualifiée de Big Data, l'explosion des données qui a accompagné la révolution d'Internet ces dernières années a provoqué un changement profond dans la société, marquant l'entrée dans un nouveau monde « Numérique » dont l'un des piliers technologiques est Hadoop.
  Ce livre a pour objectif d'aider le lecteur à saisir les principes qui sont à la base d'Hadoop et de ses composants, de l'aider à monter en compétences sur Hadoop et également d'attirer son attention sur toutes les opportunités offertes par le Numérique. Il s'adresse à toute personne (consultants, data scientists, chargés d'études, étudiants, responsables techniques...) impliquée dans l'utilisation des données. Des compétences de base dans le domaine des bases de données, de la programmation et du SQL sont un prérequis nécessaire pour la bonne lecture du livre.
  Les premiers chapitres présentent l'architecture de l'infrastructure d'Hadoop, son fonctionnement et le MapReduce. Ensuite, l'auteur présente les principes du stockage des données et montre la relation entre ces principes, le HDFS et Hadoop. Les chapitres qui suivent traitent des évolutions d'Hadoop avec un accent particulier sur le YARN. Dans un chapitre dédié, l'auteur traite également l'intégration du SQL dans Hadoop. Par la suite, il expose les problématiques du streaming, présente les principes du traitement en streaming et en temps réel, et montre comment Storm implémente ces principes. Enfin, le livre se termine par un chapitre sur les différentes distributions Hadoop et un chapitre sur la transition Numérique.
  Pour faciliter la compréhension des principes exposés, chaque chapitre s'achève par un rappel des points clés. Un questionnaire permet également au lecteur de vérifier et consolider ses acquis.
Tables des matières
- - Hadoop
  - Devenez opérationnel dans le monde du Big Data
  - Introduction
  - 1. Introduction11
  - 2. Buts et objectifs de l'ouvrage12
  - 3. À qui s'adresse cet ouvrage ?15
  - 4. Comment lire cet ouvrage ?15
  - 5. Ce que ce livre n'est pas16
  - 6. Précisions de l'auteur17
  - 7. Remerciements17
  - 8. Dédicace18
  - Chapitre 1
    Contexte de création d'Hadoop
  - 1. Introduction19
  - 2. Contexte d'Hadoop20
  - 3. Approche conceptuelle d'Hadoop21
  - 4. Qui utilise Hadoop ?24
  - 4.1 Effervescence des projets impliquant l'utilisation d'Hadoop en Europe24
  - 4.2 Cas d'utilisation d'Hadoop25
  - 5. Conclusion26
  - Chapitre 2
    Architecture infrastructurelle d'Hadoop
  - 1. Introduction27
  - 2. Types d'architectures distribuées28
  - 2.1 Architectures délocalisées ou client/serveur28
  - 2.1.1 Architecture client/serveur à deux niveaux (two-tiers)28
  - 2.1.2 Architecture client/serveur à trois niveaux (three-tiers)30
  - 2.2 Architectures distribuées31
  - 2.2.1 Cluster computing ou grappe de calcul33
  - 2.2.2 Grid computing ou grille de calcul36
  - 2.3 Caractéristiques du cluster computing37
  - 2.3.1 Scalabilité horizontale : le facteur clé d'adoption du cluster37
  - 2.3.2 Tolérance aux pannes40
  - 2.3.3 Haute disponibilité41
  - 2.3.4 Mesure de la disponibilité d'un système43
  - 3. Modes de partage des ressources dans le cluster45
  - 3.1 Shared-nothing45
  - 3.2 Shared-memory47
  - 3.3 Shared-disk48
  - 4. Modes de communication des noeuds dans le cluster49
  - 4.1 Modèle maître/esclave50
  - 4.2 Modèle peer-to-peer51
  - 5. Modes de traitement de données dans le cluster52
  - 5.1 Traitement sur disque ou batch processing53
  - 5.2 Traitement en mémoire ou in-memory processing55
  - 6. Types de parallélismes des calculs dans un cluster57
  - 6.1 Parallélisme asynchrone simultané58
  - 6.2 Parallélisme pipeline60
  - 6.3 Parallélisme indépendant61
  - 7. Choix architecturaux d'un cluster Hadoop63
  - 8. Conclusion65
  - 9. Guide d'étude du chapitre66
  - 9.1 Présentation des guides d'étude66
  - 9.2 Comment utiliser le guide d'étude ?66
  - 10. À retenir71
  - Chapitre 3
    MapReduce
  - 1. Introduction73
  - 2. Mapreduce : un nouveau paradigme74
  - 3. Détails conceptuels des phrases du MapReduce75
  - 3.1 Phase Map75
  - 3.2 Phase Shuffle77
  - 3.3 Phase Reduce79
  - 4. Détails techniques de l'exécution du MapReduce dans un cluster80
  - 5. Exemples d'application du MapReduce82
  - 5.1 Calcul d'un index inversé85
  - 5.2 Jointure de deux tables relationnelles85
  - 5.3 Exemple de patron de conception du Map/Reduce en Python87
  - 6. Modèles alternatifs au MapReduce88
  - 6.1 Tez : le moteur d'optimisation du MapReduce90
  - 6.2 Spark : le moteur in-memory distribué92
  - 6.3 Architecture lambda : la souche Streaming du MapReduce93
  - 7. Conclusion97
  - 8. Guide d'étude du chapitre97
  - 9. À retenir101
  - Chapitre 4
    hadoop
  - 1. Introduction103
  - 2. Spécificités d'un cluster Hadoop104
  - 2.1 « Conscience des casiers » des noeuds du cluster (rack awareness)106
  - 2.2 Localisation des données dans le cluster (data locality)107
  - 3. Détails d'exécution du MapReduce dans un cluster Hadoop108
  - 4. Gestion des défaillances dans un cluster Hadoop114
  - 4.1 Gestion de la défaillance du noeud de référence114
  - 4.2 Gestion de la défaillance des noeuds de données115
  - 4.3 Gestion des « retardataires » (stragglers)115
  - 5. Hadoop Streaming116
  - 6. Conclusion118
  - 7. Guide d'étude du chapitre119
  - 8. À retenir122
  - Chapitre 5
    HDFS
  - 1. Introduction123
  - 2. Pourquoi a-t-on besoin d'un système de fichiers ?124
  - 2.1 Principes de stockage des données sur le disque dur125
  - 2.2 Principes de stockage des données dans un cluster129
  - 2.2.1 Principes de stockage des données dans un cluster shared-disk129
  - 2.2.2 Principes de stockage des données dans un cluster shared-nothing133
  - 3. Définition du HDFS dans le cluster Hadoop136
  - 3.1 Définition et rôle du HDFS dans le cluster136
  - 3.1 Définition et rôle du HDFS dans le cluster136
  - 3.2 Processus de maintien de la haute disponibilité du cluster139
  - 3.3 Interactivité avec le HDFS141
  - 4. Conclusion142
  - 5. Guide d'étude du chapitre143
  - 6. À retenir146
  - Chapitre 6
    Futur d'Hadoop : limites d'Hadoop et Yarn
  - 1. Introduction147
  - 2. Limites d'Hadoop148
  - 2.1 Modèle de calcul d'Hadoop148
  - 2.2 HDFS148
  - 2.3 Haute disponibilité du cluster149
  - 2.4 Sécurité du cluster150
  - 3. Yarn et développements en cours sur Hadoop151
  - 3.1 Définition du Yarn151
  - 3.2 Fonctionnement du Yarn154
  - 3.3 Fédération HDFS156
  - 4. Conclusion157
  - 5. Guide d'étude du chapitre158
  - 6. À retenir162
  - Chapitre 7
    SQL dans Hadoop
  - 1. Introduction163
  - 2. Étude de l'écosystème Hadoop164
  - 3. Langages d'abstraction167
  - 3.1 Hive169
  - 3.1.1 Infrastructure technique de Hive169
  - 3.1.2 Écriture des requêtes HiveQL171
  - 3.2 Pig174
  - 4. Moteurs natifs SQL sur Hadoop178
  - 4.1 Fonctionnement des bases de données parallèles (MPP DB)179
  - 4.1.1 Architecture des bases de données parallèles180
  - 4.1.2 Exécution des requêtes SQL dans les bases de données parallèles185
  - 4.2 Fonctionnement des moteurs natifs SQL sur Hadoop189
  - 4.3 Impala : le moteur SQL sur Hadoop de Cloudera191
  - 5. Conclusion194
  - 6. Guide d'étude du chapitre194
  - 7. À retenir202
  - Chapitre 8
    Streaming 101
  - 1. Introduction205
  - 2. Domaine temporel206
  - 3. Approches de traitement streaming209
  - 3.1 Approche batch du traitement streaming210
  - 3.1.1 Batch par fenêtrage210
  - 3.1.2 Batch par sessions211
  - 3.2 Approche continue du traitement streaming211
  - 3.2.1 Fenêtres212
  - 3.2.2 Techniques de traitement événement par événement214
  - 3.2.3 Techniques de traitement agnostiques au temps (time-agnostic)214
  - 3.2.4 Techniques d'approximation215
  - 3.2.5 Techniques de fenêtrage par temps de traitement216
  - 3.2.6 Techniques de fenêtrage par temps d'événement217
  - 4. Idempotence219
  - 4.1 Nature du traitement220
  - 4.1.1 Traitements de nature déterministe220
  - 4.1.2 Traitements de nature aléatoire221
  - 4.2 État222
  - 4.2.1 Définition de la notion d'état222
  - 4.2.2 Utilisation ou non de l'état223
  - 4.2.3 Mécanisme de sauvegarde de l'état225
  - 5. Disponibilité d'un système streaming226
  - 6. Conclusion227
  - 7. Guide d'étude du chapitre228
  - 8. À retenir235
  - Chapitre 9
    Apache Storm
  - 1. Introduction237
  - 2. Définition de Storm238
  - 3. Fonctionnement de Storm240
  - 4. Topologies242
  - 4.1 Philosophie et fonctionnement des topologies242
  - 4.2 Topologies DRPC245
  - 5. Utilisation de Storm246
  - 6. Storm et Hadoop249
  - 6.1 Storm-YARN249
  - 6.2 Storm et architecture alpha251
  - 7. Conclusion255
  - 8. Guide d'étude du chapitre255
  - 9. À retenir258
  - Chapitre 10
    Adoption d'Hadoop
  - 1. Introduction261
  - 2. Distributions Hadoop263
  - 3. Distribution Cloudera d'Hadoop264
  - 4. Distribution Hortonworks d'Hadoop265
  - 5. Distribution MapR d'Hadoop266
  - 6. Tableau récapitulatif des outils proposés268
  - 7. Guide de sélection d'une distribution Hadoop270
  - 8. Conclusion276
  - 9. Guide d'étude du chapitre277
  - 10. À retenir278
  - Chapitre 11
    Transition numérique
  - 1. Introduction281
  - 2. Changement282
  - 2.1 Principes qui régissent le changement283
  - 2.1.1 Principe 1 : le changement est un processus, pas un événement284
  - 2.1.2 Principe 2 : le changement annonce son arrivée par des signes284
  - 2.1.3 Principe 3 : le changement contient une opportunité qui lui est inhérente285
  - 2.1.4 Principe 4 : le changement est un processus inéluctable286
  - 2.2 Clés qui donnent accès aux opportunités du changement287
  - 2.2.1 Clé 1 : évitez le comportement de la grenouille - le changement est processus287
  - 2.2.2 Clé 2 : évitez le comportement du crabe - le changement est inéluctable290
  - 2.2.3 Clé 3 : évitez la présomption - tout change291
  - 2.2.4 Clé 4 : changez votre perception - le changement est normal292
  - 2.2.5 Clé 5 : soyez intentionnel - le changement contient une opportunité294
  - 3. Transition vers le Numérique et Hadoop298
  - 3.1 Caractéristiques de l'ère numérique299
  - 3.1.1 Âge de l'information299
  - 3.1.2 Âge de la communication300
  - 3.1.3 Âge de la globalisation302
  - 3.2 Pourquoi apprendre Hadoop ?304
  - 3.2.1 Raison 1 : apprendre Hadoop vous positionne en pionnier305
  - 3.2.2 Raison 2 : apprendre Hadoop hausse votre valeur professionnelle306
  - 3.2.3 Raison 3 : apprendre Hadoop vous permet de couvrir la majorité des problématiques de traitement de données306
  - 3.3 Quelques conseils307
  - 3.3.1 Profils métier Hadoop307
  - 3.3.2 Certifications éditeurs311
  - 3.3.3 Masters spécialisés313
  - 3.3.4 Kaggle et meetup Hadoop315
  - 4. Conclusion316
  - 5. Guide d'étude du chapitre316
  - 6. À retenir319
  - Conclusion321
  - Liens et références utiles
  - 1. Liens utiles323
  - 2. Bibliographie327
  - Réponses des guides d'étude
  - 1. Guide d'étude du chapitre Architecture infrastructurelle d'Hadoop329
  - 2. Guide d'étude du chapitre MapReduce332
  - 3. Guide d'étude du chapitre Hadoop336
  - 4. Guide d'étude du chapitre HDFS338
  - 5. Guide d'étude du chapitre Futur d'Hadoop : limites d'Hadoop et Yarn340
  - 6. Guide d'étude du chapitre SQL dans Hadoop344
  - 7. Guide d'étude du chapitre Streaming101351
  - 8. Guide d'étude du chapitre Apache Storm357
  - 9. Guide d'étude du chapitre Adoption d'Hadoop359
  - 10. Guide d'étude du chapitre Transition numérique361
  - Index365
Origine de la notice:
- Electre