La data : guide de survie dans le monde de la donnée

Auteur(s) :

Cayla, Benoît Découvrir l'auteur

Résumé

Présentation des différents concepts qui gravitent autour des données, abordant leur stockage et leur intégration. Les moyens à mettre en place pour une gouvernance de données efficace ainsi que les méthodes d'analyse et de visualisation sont ensuite exposés. Le fonctionnement des grandes architectures de données est enfin expliquée en détaillant leurs principes et leurs différences.

Éditeur(s)
- Éditions ENI
Date
- C 2022
Langues
- Français
Description matérielle
- 1 vol. (419 p.) : ill. ; 22 cm
Sujet(s)
ISBN
- 978-2-409-03716-0
Indice
- 681.51(076) Internet. Ouvrages de vulgarisation. Guides pratiques
Quatrième de couverture
- La Data
  Guide de survie dans le monde de la donnée
  Véritable manuel pratique, ce livre s'adresse à toute personne amenée à travailler avec les données (chefs de projets, CDO, Architectes, Ingénieurs Data ou même Data Scientists) qui souhaite étendre ses connaissances autour de la gestion de données ou qui rencontre des besoins ponctuels sur des opérations à réaliser. L'objectif est de présenter tous les concepts et notions utiles dès lors que l'on est impliqué dans un projet intégrant des données. Chaque chapitre peut être lu indépendamment des autres et des exemples viennent étayer les propos de l'auteur.
  Le lecteur commence avec une clarification indispensable des différents concepts qui gravitent autour de la donnée. Cette entrée en matière permet de démontrer que la donnée est une notion plus complexe qu'on ne le pense. Le livre aborde ensuite le stockage des données ce qui amène naturellement à la notion d'intégration de ces données et à ses impacts sur le Système d'information.
  La donnée étant mouvante, l'auteur expose ensuite les moyens à mettre en place pour une gouvernance de données efficace. Cela permet au lecteur de mieux comprendre comment définir un cadre qui sera contrôlé et maîtrisé et d'expliquer en quoi les entreprises qui mettent en oeuvre le Data Fabric ou le Data Mesh sont à même de proposer des services de données pertinents. Le livre détaille ensuite les méthodes d'analyse et de visualisation de données qui permettent de déceler des problèmes de qualité de données nécessitant ensuite de les nettoyer, les transformer et les valoriser en Information de confiance.
  Le lecteur sera finalement invité à mettre un pied dans le monde de l'IA. Les principes et grandes notions autour du Machine Learning et du Deep Learning sont expliqués avec simplicité afin que le lecteur puisse mieux comprendre comment les algorithmes fonctionnent grâce aux données. Pour terminer, l'auteur explique comment les grandes architectures de données (Data warehouse, Data Lake, MDM, Data Hub et EDI) fonctionnent en détaillant leurs principes et leur différence.
Tables des matières
- - La data
  - Guide de survie dans le monde de la donnée
  - Introduction
  - 1. Il était une fois la donnée11
  - 2. Pourquoi ce livre ?14
  - 3. À qui s'adresse ce livre ?15
  - Chapitre 1
  - La donnée sous toutes ses facettes
  - 1. Introduction17
  - 2. Qu'est-ce qu'une donnée ?18
  - 3. Propriétés physiques21
  - 3.1 Le type21
  - 3.1.1 Bits et octets21
  - 3.1.2 Les nombres entiers22
  - 3.1.3 Les nombres décimaux23
  - 3.1.4 Les textes23
  - 3.1.5 Les dates26
  - 3.1.6 Les images27
  - 3.1.7 La vidéo33
  - 3.1.8 Le son34
  - 3.2 Le domaine36
  - 3.3 La variabilité37
  - 3.3.1 Variable quantitative38
  - 3.3.2 Variable catégorielle39
  - 4. Propriétés d'exposition41
  - 4.1 Le format41
  - 4.1.1 Date41
  - 4.1.2 Les nombres42
  - 4.1.3 Les formats monétaires42
  - 4.1.4 Les expressions régulières43
  - 4.2 La localisation et l'internationalisation45
  - 5. Propriétés structurelles47
  - 5.1 La granularité47
  - 5.2 La structure49
  - 5.2.1 Les données structurées50
  - 5.2.2 Les données semi-structurées51
  - 5.2.3 Les données non structurées52
  - 5.3 Les mesures et la dispersion54
  - 5.3.1 Éléments de mesure54
  - 5.3.2 Les distributions64
  - 6. Propriétés fonctionnelles74
  - 6.1 Le contexte74
  - 6.2 La sensibilité75
  - 6.2.1 Les données personnelles75
  - 6.2.2 Les autres données sensibles77
  - 6.2.3 Mesure de la sensibilité77
  - 7. Vocabulaire des données78
  - Chapitre 2
  - La persistance
  - 1. Introduction81
  - 2. Fichiers82
  - 2.1 Le fichier CSV83
  - 2.2 Le fichier XML85
  - 2.3 Le fichier JSON87
  - 3. Les bases de données89
  - 3.1 Familles de bases de données89
  - 3.2 Modélisation92
  - 3.2.1 Démarche de modélisation92
  - 3.2.2 Les types de modélisation93
  - 3.3 L'intégrité référentielle (CIT)94
  - 3.4 L'indexation des données95
  - 3.4.1 Principe de fonctionnement95
  - 3.4.2 Création d'index98
  - 3.4.3 Les types d'index98
  - 4. Les bases de données relationnelles (SGBD-R)99
  - 4.1 Le langage SQL99
  - 4.2 Le LMD/SQL100
  - 4.2.1 La commande SELECT100
  - 4.2.2 La clause UPDATE102
  - 4.2.3 La clause INSERT102
  - 4.2.4 La clause DELETE102
  - 4.2.5 Opérations ensemblistes : les jointures102
  - 4.2.6 Opérations ensemblistes : l'union104
  - 4.3 Les transactions104
  - 4.3.1 Caractéristiques d'une transaction105
  - 4.3.2 Critères A.C.I.D. d'une transaction106
  - 5. Les systèmes OLTP et OLAP107
  - 6. Système distribué et théorème CAP108
  - 7. Les bases NoSQL109
  - 8. Le Big Data112
  - 8.1 Les 3V113
  - 8.2 Hadoop114
  - 8.2.1 HDFS115
  - 8.2.2 MapReduce117
  - 8.2.3 YARN118
  - 8.3 La gestion des données avec Hadoop119
  - 8.3.1 Hive119
  - 8.3.2 HBase119
  - 8.3.3 Sqoop120
  - 8.3.4 Cassandra120
  - 8.3.5 MongoDB121
  - 8.4 Les outils de programmation121
  - 8.4.1 Pig121
  - 8.4.2 Spark123
  - 9. Les tendances actuelles124
  - 9.1 - Bases de données dans le Cloud (Database as a Service : DBaaS)124
  - 9.2 Le MDS (Modem Data Stack)125
  - Chapitre 3
  - L'intégration de données
  - 1. Introduction127
  - 2. Caractéristiques128
  - 2.1 Architecture pour l'intégration de données129
  - 2.2 Les grands modèles d'intégration de données133
  - 2.2.1 La diffusion de données133
  - 2.2.2 La migration de données133
  - 2.2.3 La synchronisation134
  - 2.3 Modes de transmission134
  - 2.4 Type de connexion135
  - 2.4.1 Accès synchrone136
  - 2.4.2 Accès asynchrone137
  - 2.5 Modalité de traitement des données138
  - 2.5.1 Traitement des données en Lot ou Batch Processing139
  - 2.5.2 Traitement des données en temps réel139
  - 2.5.3 Traitement des données en flux ou Stream Processing.140
  - 2.5.4 Récapitulatif142
  - 3. Principes de fonctionnement143
  - 3.1 Les étapes d'une bonne intégration de données144
  - 3.2 La montée en charge et la tolérance de panne145
  - 3.3 Connecteurs145
  - 4. Les solutions d'intégration de données147
  - 4.1 Les ETL147
  - 4.1.1 Les connecteurs149
  - 4.1.2 Les flux ETL (mappings)151
  - 4.1.3 Les caractéristiques152
  - 4.2 Les ELT153
  - 4.3 La virtualisation de données155
  - 5. Les solutions orientées bus158
  - 5.1 Le bus de message158
  - 5.2 Le mode point à point159
  - 5.3 Le mode publication-souscription159
  - 5.4 À retenir161
  - Chapitre 4
  - Analyser et fiabiliser les données
  - 1. Introduction163
  - 2. La préparation de données165
  - 3. Analyse descriptive167
  - 3.1 Analyses basiques168
  - 3.2 Corrélation entre colonnes170
  - 3.3 Détection de liens entre tables (entre jeux de données)173
  - 4. Analyse exploratoire et visualisation de données175
  - 4.1 Visualiser pour mieux analyser !175
  - 4.2 Les principes de la Gestalt177
  - 4.3 Les primitives graphiques178
  - 4.4 Les représentations graphiques179
  - 4.4.1 Le texte simple180
  - 4.4.2 Les tableaux180
  - 4.4.3 Le nuage de points181
  - 4.4.4 Les courbes184
  - 4.4.5 Les graphes de surface186
  - 4.4.6 Les diagrammes à barres187
  - 4.4.7 Les histogrammes188
  - 4.4.8 Les cartes de chaleurs190
  - 4.4.9 Les boîtes à moustaches191
  - 4.4.10 Les cartes194
  - 4.4.11 Les autres visualisations194
  - 4.5 Utiliser la DataViz pour analyser les données194
  - 4.5.1 La proximité améliore l'association visuelle197
  - 4.5.2 Réduisez le jeu de données si nécessaire197
  - 4.5.3 Triez les, données197
  - 4.5.4 Regroupez les données198
  - 4.5.5 Bannissez les surcharges198
  - 4.5.6 Jouez sur les couleurs198
  - 4.5.7 Astuces visuelles199
  - 4.6 Premier bilan199
  - 5. Quelques exemples d'analyses200
  - 5.1 L'analyse de données par cohorte200
  - 5.2 L'analyse inférentielle202
  - 5.3 L'analyse prédictive203
  - 5.4 L'analyse causale203
  - 6. Qualité de la donnée203
  - 6.1 Pourquoi faire de la qualité de données ?204
  - 6.2 Les critères de qualité de données206
  - 6.3 Comment faire de la qualité de données ?207
  - 6.4 Analyse, indicateurs et règles209
  - 6.5 Les règles210
  - 6.5.1 Les formules212
  - 6.5.2 Les règles de contrôles et calculs ensemblistes214
  - 6.5.3 Les règles de standardisation216
  - 6.5.4 Le parsing217
  - 6.6 Le dédoublonnage220
  - 6.6.1 Principes220
  - 6.6.2 Détection de lignes en double221
  - 6.6.3 Principe de dédoublonnage par Rapprochement-Consolidation222
  - 6.6.4 Première étape : le partitionnement (découpage en groupes.)223
  - 6.6.5 Deuxième étape : le rapprochement224
  - 6.6.6 Troisième étape : re-partitionnement et association229
  - 6.6.7 Quatrième étape : consolidation des données (Golden Record)231
  - Chapitre 5
  - La gouvernance des données
  - 1. Introduction235
  - 2. L'équipe de gouvernance de données238
  - 3. Les métadonnées239
  - 3.1 Les enjeux autour de la gestion des métadonnées240
  - 3.2 Les métadonnées techniques241
  - 3.3 Les métadonnées métier - Le glossaire métier242
  - 3.3.1 La taxonomie242
  - 3.3.2 Les hiérarchies246
  - 3.3.3 Fonctionnement247
  - 4. Le lignage des données248
  - 4.1 Introduction248
  - 4.2 Les couches de lignage249
  - 4.3 Mode de fonctionnement250
  - 4.4 Analyse d'impact251
  - 4.5 La navigation252
  - 5. Le catalogue de métadonnées254
  - 6. La sécurité des données256
  - 6.1 Anonymisation vs Pseudonymisation256
  - 6.2 Chiffrement de l'information258
  - 6.2.1 Le chiffrement symétrique259
  - 6.2.2 Le chiffrement asymétrique260
  - 6.2.3 Caractéristiques de chiffrement261
  - 6.3 Masquage permanent des données262
  - 6.4 Masquage dynamique des données264
  - 6.5 Techniques et méthodes266
  - 7. La fabrique de données (Data Fabric)267
  - 8. Le maillage de données (Data Mesh)270
  - Chapitre 6
  - Valoriser ses données avec l'IA
  - 1. Introduction273
  - 2. L'utilisation de l'IA275
  - 2.1 Prendre des décisions276
  - 2.2 Vision par ordinateur277
  - 2.3 Le traitement d'informations textuelles (NLP)279
  - 3. Le Machine Learning281
  - 3.1 Principe de l'apprentissage281
  - 3.2 Approche déterministe vs probabiliste284
  - 3.3 Les types d'apprentissages285
  - 3.4 Le projet de Machine Learning287
  - 3.4.1 Première étape : définition des objectifs288
  - 3.4.2 Etape intermédiaire ; accès et analyse des données290
  - 3.4.3 Deuxième étape : préparation des données291
  - 3.4.4 Troisième étape : découpage du jeu de données298
  - 3.4.5 Quatrième étape : entraînement302
  - 3.4.6 Cinquième étape : évaluation et scoring319
  - 3.4.7 Sixième étape : déploiement et industrialisation326
  - 3.5 Biais et variance327
  - 3.5.1 Le biais328
  - 3.5.2 La variance330
  - 3.5.3 Biais et/ou variance ?332
  - 4. Les réseaux de neurones333
  - 4.1 Qu'est-ce qu'un réseau de neurones ?333
  - 4.2 Fonctionnement d'un neurone334
  - 4.3 Les architectures de réseaux de neurones336
  - 4.3.1 L'entraînement des réseaux de neurones336
  - 4.3.2 Les réseaux de neurones artificiels (ANN)337
  - 4.3.3 Les réseaux de neurones convolutifs (CNN)339
  - 4.3.4 Les réseaux de neurones récurrents (RNN)346
  - 4.3.5 Les réseaux de type AutoEncoder348
  - 4.3.6 Les réseaux GAN349
  - 4.4 Le Transfer Learning351
  - 5. L'eXplainable AI352
  - 5.1 Pourquoi et comment expliquer un modèle353
  - 5.2 Les algorithmes interprétables356
  - 5.3 LIME359
  - 5.4 SHAP360
  - 5.5 PDP361
  - Chapitre 7
  - Les grandes solutions de gestion de données
  - 1. Introduction363
  - 2. Le Data Warehouse364
  - 2.1 Principes généraux de chargement d'un Data Warehouse365
  - 2.2 La modélisation367
  - 2.3 Les Data Marts368
  - 2.4 Les cubes/OLAP369
  - 3. Le Data Lake370
  - 3.1 Le lac de données371
  - 3.2 Le socle technologique372
  - 3.3 Lac ou entrepôt de données ?372
  - 4. Le référentiel (MDM)373
  - 4.1 Introduction373
  - 4.2 Les architectures de MDM377
  - 4.2.1 Les solutions analytiques ou de consolidation377
  - 4.2.2 Les architectures de type Registre378
  - 4.2.3 Les solutions de type coexistence379
  - 4.2.4 Les solutions de type centralisé379
  - 4.3 Les grandes fonctions des MDM multidomaine380
  - 4.3.1 La modélisation 381
  - 4.3.2 L'alimentation383
  - 4.3.3 La communication avec les systèmes externes385
  - 4.3.4 La gouvernance385
  - 4.3.5 La traçabilité des données d'origine386
  - 4.3.6 L'historisation des données387
  - 5. Le Data Hub387
  - 5.1 Les natures de Data Hub388
  - 5.2 Les types de stockage388
  - 5.3 Centralisation et modélisation des données389
  - 6. L'EDI390
  - 6.1 Principes de fonctionnement de l'EDI391
  - 6.2 EDI et organisations393
  - 6.3 Avantages et inconvénients395
  - 6.4 Services EDI395
  - 7. Bilan396
  - Glossaire399
  - Index411
Origine de la notice:
- Electre