• Aide
  • Eurêkoi Eurêkoi

Livre

Data scientist et langage R : autoformation aux bases de l'intelligence artificielle dans l'univers de la data

Résumé

Un parcours didactique et professionnalisant permettant de s'intégrer à une équipe de data scientists, d'aborder des articles de recherche en langage R, ou de manager une équipe projet comprenant des data scientists. Les auteurs abordent notamment des sujets comme le traitement du langage naturel, les séries temporelles, la logique floue ou encore la manipulation des images.


  • Autre(s) auteur(s)
  • Éditeur(s)
  • Date
    • C 2021
  • Notes
    • La couv. porte en plus : "En téléchargement : Code R et fichiers de données" ; "Version en ligne offerte pendant un an !" ; "+ quiz" ; "Informatique tehniques"
    • Contient un "flashcode" permettant d'accéder à un ontenu via Internet
  • Langues
    • Français
  • Description matérielle
    • 1 vol. (870 p.) : ill. ; 22 cm
  • Collections
  • Sujet(s)
  • ISBN
    • 978-2-409-03099-4
  • Indice
    • 681.7 Intelligence artificielle, systèmes experts
  • Quatrième de couverture
    • Data Scientist et langage R

      Autoformation aux bases de l'intelligence artificielle dans l'univers de la data

      Ce livre, pour lequel deux axes de lecture sont possibles, a pour objectif de proposer une formation complète et opérationnelle sur les data sciences. Le premier axe permet au lecteur d'apprendre à délivrer des solutions complètes via l'usage du langage R et de son écosystème, et le second lui permet d'acquérir une culture approfondie des data sciences tout en faisant abstraction du détail du code R grâce à l'utilisation d'un outillage interactif qui ne nécessite pas d'apprendre à coder en R.

      Ainsi, les auteurs proposent un parcours didactique et professionnalisant qui, sans autre prérequis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :

      • de s'intégrer à une équipe de data scientists ;
      • d'aborder la lecture d'articles de recherche en IA ou data sciences ;
      • de développer en langage R ;
      • et de dialoguer avec une équipe projet comprenant des data scientists.

      Le livre ne se cantonne pas aux algorithmes classiques du Machine Leaming (arbres de décision, réseaux neuronaux...), il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue ou la manipulation des images.

      Les sujets pratiques ou difficiles ne sont pas éludés. Le livre appréhende l'accès aux bases de données, les processus parallèles, la programmation fonctionnelle et la programmation objet, la création d'APl, le partage de résultats d'analyse avec R Markdown et les dashboard Shiny, l'étude des représentations cartographiques ou encore l'implémentation du Deep Leaming avec TensorFlow-2 et Keras.

      À la demande des lecteurs, cette troisième édition présente également une ouverture vers le langage Python et son interface avec R ainsi que l'installation d'une application R/shiny accessible sur internet via un serveur Linux abrité sur un cloud professionnel. Une extension vers l'utilisation de R pour les calculs numériques et les calculs mathématiques pour l'ingénierie dans le même esprit que MatLab ainsi que l'usage basique d'un outil de prototypage rapide de modèles de Machine Learning (BigML) en « point and click » permettront au lecteur ne voulant pas utiliser R de produire des modèles de prédiction sans coder !

      La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.

      Les programmes R décrits dans le livre sont accessibles en téléchargement sur le site www.editions-eni.fr et peuvent être exécutés pas à pas.


  • Tables des matières
      • Data Scientist et Langage R

      • Autoformation aux bases de l'intelligence artificielle dans l'univers de la data

      • 3e édition

      • Editions Eni

      • Chapitre 1
      • Introduction
      • 1. Data scientist, un métier à la mode19
      • 2. Un nouveau métier : citizen data scientist20
      • 2.1 Un objectif réaliste, devenir citizen data scientist20
      • 2.2 Analyse et valorisation20
      • 2.3 Animation et spécification21
      • 2.4 Modélisation et inférence21
      • 2.5 Déploiement et maintien en conditions opérationnelles22
      • 3. Les data sciences23
      • 4. Le Big Data24
      • 5. La dynamique de cet ouvrage25
      • 5.1 Nos objectifs25
      • 5.2 La structure de l'ouvrage26
      • 5.2.1 Les deux parcours complémentaires27
      • 5.2.2 Ressources complémentaires à utiliser29
      • 6. Petit bestiaire des data sciences30
      • 6.1 Les fondamentaux30
      • 6.1.1 Apprentissage et classification30
      • 6.1.2 Petit vocabulaire graphique du machine learning31
      • 6.1.3 Régression43
      • 6.1.4 Régression linéaire généralisée45
      • 6.1.5 Arbres de décision, prune, élagage45
      • 6.1.6 Clustering, k-means47
      • 6.1.7 k-NN47
      • 6.1.8 Modèles paramétriques48
      • 6.1.9 Lazy algorithm (algorithme paresseux)48
      • 6.1.10 Overfitting : sur-détermination, sur-apprentissage49
      • 6.1.11 Validation croisée, régularisation, bagging49
      • 6.1.12 Optimisation, méthode du gradient50
      • 6.1.13 Algorithme glouton (greedy algorithm)52
      • 6.1.14 Programmation linéaire, simplexe, point intérieur53
      • 6.1.15 Estimation via la méthode de Monte-Carlo54
      • 6.1.16 Entropie, indépendance et information mutuelle55
      • 6.1.17 Discrétisation57
      • 6.2 Méthodes « ensemble »58
      • 6.2.1 Random forest58
      • 6.2.2 AdaBoost (adaptative boosting)59
      • 6.3 Lois de probabilité et distribution60
      • 6.3.1 Généralités60
      • 6.3.2 Petit bestiaire des lois de probabilité62
      • 6.4 Les graphes64
      • 6.4.1 Vocabulaire de base65
      • 6.4.2 Conversion d'un tableau d'observations en graphe, similarité67
      • 7. Informatique professionnelle et data sciences67
      • 7.1 La technologie67
      • 7.2 Business Intelligence versus Big Data70
      • 7.2.1 Différences en termes d'architecture70
      • 7.2.2 Différences en termes d'usage71
      • 7.2.3 Synthèse72
      • 8. Notations73
      • 8.1 Notations des paramètres73
      • 8.2 Autres notations74
      • 8.2.1 Fonctions et applications ... f(x), d(x,y)74
      • 8.2.2 Quelques confusions possibles75
      • 9. À vous de jouer !76
      • Chapitre 2
      • Premiers pas avec R
      • 1. Installation des composants77
      • 1.1 Installation et lancement de R77
      • 1.2 Installation et lancement de RStudio78
      • 1.3 Installation de nouveaux packages79
      • 1.4 Installation de packages : compléments81
      • 2. Prise en main de R83
      • 2.1 R, une calculatrice efficace83
      • 2.2 R, un langage vectorisé85
      • 2.3 Fonctions agissant sur des vectors87
      • 2.3.1 Une première analyse rapide des données88
      • 2.3.2 Quelques statistiques simples sur les vectors89
      • 2.3.3 Trier un vector90
      • 2.3.4 Diverses fonctions avec somme, produit, min et max91
      • 2.4 Types de données simples92
      • 2.4.1 Les booléens92
      • 2.4.2 Les ensembles95
      • 2.4.3 Les listes96
      • 2.4.4 Les facteurs98
      • 2.4.5 Les tableaux105
      • 2.5 Les fonctions114
      • 2.5.1 Création et utilisation d'une fonction simple114
      • 2.5.2 Création d'un opérateur à partir d'une fonction de deux variables115
      • 2.5.3 Usage des fonctions et portée des variables116
      • 2.5.4 Application des fonctions sur les matrices : apply119
      • 2.5.5 Compléments utiles120
      • 2.6 Structures de contrôle125
      • 2.6.1 Des instructions communes avec d'autres langages125
      • 2.6.2 Parcourir une matrice via des boucles for127
      • 2.7 Les chaînes de caractères130
      • 2.8 Le formatage des nombres133
      • 2.9 Les dates et les temps134
      • 2.10 Mesure de la durée d'un algorithme134
      • 2.11 Les nombres complexes140
      • 2.11.1 Manipulations de base des nombres complexes140
      • 2.11.2 Visualisation de nombres complexes140
      • 2.12 Programmation orientée objet142
      • 2.12.1 Classes et objets, en bref143
      • 2.12.2 Constructeurs148
      • 2.12.3 Héritage150
      • 2.12.4 Objets mutables153
      • 2.12.5 Gestion de pile : implémentation orientée objet avec RC154
      • 3. Manipulation des données159
      • 3.1 Lecture des données : les bases159
      • 3.2 Manipulation des colonnes d'un data.frame162
      • 3.3 Calculs simples sur un data.frame163
      • 3.3.1 Calculs sur les colonnes et les lignes163
      • 3.3.2 Manipulation des lignes164
      • 3.3.3 Application : comparaison effectifs de classes et Khi-2167
      • 3.3.4 Création de colonnes calculées169
      • 3.3.5 Tri d'un data.frame via order()173
      • 3.4 Analyse visuelle des données175
      • 3.4.1 Visualisation simple des données175
      • 3.4.2 Visualisation des variables numériques 2 à 2 avec mention des classes177
      • 3.4.3 Corrélations entre variables numériques180
      • 3.4.4 Séparation par classe, ggplot2, qplot181
      • 3.4.5 Visualisation 3D, relation entre trois variables numériques182
      • 3.4.6 Graphiques par paires183
      • 3.4.7 Boîtes à moustaches et tentative d'élimination des outliers184
      • 3.4.8 Création d'un modèle par arbre de décision187
      • Chapitre 3
      • Maîtriser les bases
      • 1. Se mettre en harmonie avec les données191
      • 1.1 Quelques notions fondatrices192
      • 1.1.1 Phénomène aléatoire192
      • 1.1.2 Probabilité, variable aléatoire et distribution193
      • 1.1.3 Un peu de mathématiques : notations et définitions utiles196
      • 1.1.4 Moments d'une variable aléatoire discrète X202
      • 1.1.5 Premières considérations sur les erreurs et estimations209
      • 1.2 Se familiariser avec ses données210
      • 1.2.1 R Commander211
      • 1.2.2 Rattle213
      • 2. Matrices et vecteurs218
      • 2.1 Conventions, notations, utilisations basiques218
      • 2.2 Matrices, vecteurs : vers une introduction à la notion d'apprentissage supervisé228
      • 2.3 Plus loin dans la manipulation des matrices avec R230
      • 2.3.1 Opérations basiques230
      • 2.3.2 Quelques savoir-faire utiles sur les matrices de R231
      • 2.3.3 Normes de vecteurs et normes de matrices235
      • 2.3.4 Matrices et vecteurs : diverses syntaxes utiles238
      • 3. Estimations243
      • 3.1 Positionnement du problème d'estimation243
      • 3.1.1 Formulation générale du problème243
      • 3.1.2 Application et reformulation du problème d'estimation245
      • 3.2 Les indicateurs d'écart utilisés en machine learning253
      • 3.2.1 MSE, RMSE, SSE, SST253
      • 3.2.2 MAE, ME255
      • 3.2.3 NRMSE/NRMSD, CV_RMSE256
      • 3.2.4 SDR257
      • 3.2.5 Accuracy, R2257
      • 4. Mise en pratique : apprentissage supervisé260
      • 4.1 Préparation260
      • 4.2 Tester des hypothèses, p_value262
      • 4.2.1 Analyse graphique interactive avec iplots262
      • 4.2.2 Test de Breusch-Pagan et zoom sur p_value263
      • 4.3 Création d'un modèle (régression linéaire multiple)264
      • 4.4 Établissement d'une prédiction265
      • 4.5 Étude des résultats et représentations graphiques266
      • 4.6 Indicateurs courants - calculs269
      • 4.7 Étude du modèle linéaire généré270
      • 4.8 Conclusion sur le modèle linéaire276
      • 4.9 Utilisation d'un modèle « Random Forest »277
      • Chapitre 4
      • Techniques et algorithmes incontournables
      • 1. Constituer sa boîte à outils281
      • 2. Représentation graphique des données282
      • 2.1 Un graphique « simple »282
      • 2.2 Histogrammes évolués285
      • 2.2.1 Distribution multiclasse285
      • 2.2.2 Mixture de plusieurs distributions par classe286
      • 2.2.3 Visualisation de la densité d'une distribution287
      • 2.2.4 Une autre mixture par classe288
      • 2.2.5 Une variable, mais un histogramme pour chaque classe289
      • 2.2.6 Graphique avec une densité par classe291
      • 2.3 Diagramme par paires et à facettes293
      • 2.3.1 Diagramme par paires, version simple293
      • 2.3.2 Classes en configuration XOR294
      • 2.3.3 Diagramme par paires avec « factors »296
      • 2.3.4 Facettes et échelle logarithmique298
      • 3. Machine learning : pratiques courantes300
      • 3.1 Parcours théorique accéléré300
      • 3.1.1 Linéarité300
      • 3.1.2 Erreurs in et out, notion de VC dimension302
      • 3.1.3 Hyperplans, séparabilité avec marges305
      • 3.1.4 Kernel Trick, noyaux, transformations, feature space307
      • 3.1.5 Problèmes de la régression : introduction à la régularisation310
      • 3.2 Pratique par pratique315
      • 3.2.1 Cross validation : k-fold CV315
      • 3.2.2 Naive Bayes316
      • 3.2.3 C4.5 et C5.0322
      • 3.2.4 Support Vector Machines (SVM)324
      • 3.2.5 Clusterisation, k-means328
      • 4. Où en sommes-nous dans notre apprentissage ?337
      • 4.1 Vos acquis opérationnels337
      • 4.2 Les lacunes éventuelles à combler maintenant338
      • Chapitre 5
      • Cadre méthodologique du data scientist
      • 1. Le problème méthodologique au niveau du projet339
      • 1.1 L'expression du besoin339
      • 1.2 La gestion du projet340
      • 2. Le cycle interne des data sciences343
      • 2.1 Revue de détail du problème posé343
      • 2.2 Travaux préliminaires sur les données344
      • 2.2.1 Exigences sur les données344
      • 2.2.2 Collecte, nettoyage et compréhension des données344
      • 2.3 Le cycle de modélisation346
      • 2.3.1 Feature engineering346
      • 2.3.2 Modélisation et évaluation347
      • 2.3.3 Choix du meilleur modèle348
      • 2.3.4 Test, interprétation et confrontation avec le métier348
      • 2.4 Préparation de l'industrialisation et déploiement350
      • 2.5 Préparation des itérations suivantes350
      • 2.5.1 Éléments à prendre en compte350
      • 2.5.2 Documentation gérée par les data scientists351
      • 3. Compléments méthodologiques352
      • 3.1 Classifier vos objectifs352
      • 3.2 Trucs et astuces353
      • Chapitre 6
      • Traitement du langage naturel
      • 1. Positionnement du problème355
      • 2. Analyse sémantique latente et SVD356
      • 2.1 Aspects théoriques356
      • 2.1.1 SVD : généralités357
      • 2.1.2 Une justification de la décomposition SVD357
      • 2.1.3 SVD dans le contexte LSA358
      • 2.1.4 Interprétation358
      • 2.1.5 Alternative non linéaire, Isomap (MDS, géodésique, variété, manifold)359
      • 2.2 Mise en pratique360
      • 2.2.1 Initialisation360
      • 2.2.2 Au coeur de LSA362
      • 2.2.3 Résultats363
      • 2.2.4 Manipulations, interprétations récréatives et non fondées366
      • Chapitre 7
      • Graphes et réseaux
      • 1. Introduction369
      • 2. Premiers pas369
      • 2.1 Quelques notions et notations complémentaires basiques370
      • 2.2 Manipulations simples de graphes avec R371
      • 2.3 Structure des graphes382
      • 3. Graphes et réseaux (sociaux)384
      • 3.1 Analyse des réseaux sociaux : concepts de base385
      • 3.2 Mise en pratique388
      • 3.3 Détection de communautés390
      • Chapitre 8
      • Autres problèmes, autres solutions
      • 1. Séries temporelles399
      • 1.1 Introduction399
      • 1.2 Modèle stationnaire400
      • 1.2.1 Processus stationnaire : les bases400
      • 1.2.2 Processus autorégressif AR : aller plus loin402
      • 1.2.3 Considérations (très) utiles404
      • 1.3 Processus non stationnaires405
      • 1.3.1 Le modèle ARIMA405
      • 1.3.2 Processus saisonniers : SARIMA406
      • 1.3.3 Modèles ARCH et GARCH407
      • 1.3.4 Convolution et filtres linéaires409
      • 1.4 Mise en pratique411
      • 1.4.1 Les bases de la manipulation des séries temporelles en R412
      • 1.4.2 Étude de séries temporelles416
      • 1.4.3 Prédictions sur ARIMA (AR MA SARIMA)421
      • 1.5 Mini-bestiaire ARIMA424
      • 2. Systèmes flous427
      • 2.1 Introduction427
      • 2.2 La logique floue en pratique (systèmes experts)435
      • 3. Essaim (swarm)441
      • 3.1 Swarm et optimisation : l'algorithme PSO441
      • 3.1.1 Présentation de PSO442
      • 3.1.2 Description de PSO442
      • 3.2 Mise en pratique de PSO444
      • Chapitre 9
      • Feature Engineering
      • 1. Feature Engineering, les bases447
      • 1.1 Positionnement du problème447
      • 1.2 Ce sur quoi il faut être très attentif448
      • 1.2.1 La qualité de la distribution448
      • 1.2.2 La nature des features449
      • 1.3 Maîtriser la dimensionnalité451
      • 1.4 Une solution éprouvée : la PCA453
      • 1.5 Un exemple simple d'utilisation de la PCA454
      • 1.6 Les valeurs inconnues et les features mal conditionnées461
      • 1.7 Création de nouvelles features464
      • 1.8 En guise de conclusion466
      • 2. PCA classique, éléments mathématiques467
      • 3. Réduction des données (data reduction)469
      • 4. Réduction de la dimensionnalité et entropie470
      • 4.1 Description théorique du problème471
      • 4.2 Implémentation en R et discussion472
      • Chapitre 10
      • Compléments utiles
      • 1. GAM : généralisation de LM/GLM481
      • 2. Manipulation d'images483
      • 2.1 Création, visualisation, lecture et écriture d'images484
      • 2.2 Transformation des images489
      • 2.2.1 Exemples de manipulation de la couleur et des intensités489
      • 2.2.2 Exemples de manipulation de la géométrie de l'image492
      • 2.2.3 Application de filtres sur les images495
      • 3. Comment créer un échantillon : LHS (hypercube latin)496
      • 4. Travailler sur des données spatiales499
      • 4.1 Variogramme499
      • 4.1.1 Champ et variable régionalisée499
      • 4.1.2 Détermination du variogramme504
      • 4.2 Krigeage (kriging)506
      • 4.2.1 La théorie, en bref506
      • 4.2.2 Implémentation en R507
      • 5. Savoir-faire utiles509
      • 5.1 Tracer une courbe ROC509
      • 5.2 Un réseau neuronal (premiers pas vers le deep learning)511
      • 6. Gradient Boosting et Generalized Boosted Régression516
      • 6.1 Les grands principes516
      • 6.2 Les paramètres et les usages (package GBM)517
      • 6.2.1 Covariance517
      • 6.2.2 Loss517
      • 6.2.3 Optimisation de l'algorithme518
      • 6.3 Mise en pratique518
      • Chapitre 11
      • Full Stack R
      • 1. Pourquoi ce chapitre ?521
      • 2. Programmation fonctionnelle et/ou défensive521
      • 3. Persistance, bases de données et R538
      • 4. Parallélisme548
      • 5. Collecter des données externes549
      • 6. Créer une API avec R551
      • Chapitre 12
      • Partager ses analyses
      • 1. Rédiger en Markdown553
      • 1.1 Introduction553
      • 1.2 Syntaxe Markdown555
      • 2. Création d'un fichier R Markdown564
      • 2.1 En-tête R Markdown566
      • 2.2 Mise en forme du code570
      • 2.3 Insertion et exécution de code R571
      • 2.4 Exécuter du code R576
      • 2.5 Générer le rapport577
      • 2.6 Publier son rapport avec RPubs578
      • 3. Créer sa première application Shiny579
      • 3.1 Introduction579
      • 3.2 Installation dans RStudio et préambule580
      • 3.3 Organisation des fichiers de l'application581
      • 3.4 Syntaxe des inputs et outputs584
      • 3.5 Mise en page et organisation visuelle du contenu591
      • 3.6 Modifier le thème de l'application602
      • 3.7 Générer l'application604
      • 3.8 Déployer l'application sur le Web604
      • 3.9 Shiny Dashboard606
      • Chapitre 13
      • Cartographie
      • 1. Pourquoi étudier les représentations cartographiques ?615
      • 2. Accéder à l'information géographique616
      • 3. Création de cartes statiques avec R620
      • 4. Création de cartes dynamiques avec R627
      • Chapitre 14
      • Autour des données
      • 1. Présentation du Chapitre629
      • 2. Appréhension directe et rapide d'un dataset630
      • 3. Analyse de la conformation des distributions par rapport à la loi normale635
      • 4. Dépendance linéaire entre variables636
      • 5. Mise en évidence de différences sur les distributions639
      • 6. Points étrangers642
      • 7. Tris et agrégats643
      • 7.1 Tris automatisés643
      • 7.2 Calculs sur les agrégats648
      • 7.3 Extraction, pivot et tri rapide de données d'un dataframe649
      • 7.4 Utilisation des jointures650
      • 7.4.1 Enrichissement d'un dataframe par une jointure650
      • 7.4.2 Jointures pour décodage ou transformation - ex. : factor to integer652
      • 7.5 Applications de fonctions variables sur les données653
      • 7.6 Compléments en matière de métaprogrammation655
      • 7.6.1 Quoting appliqué aux graphiques655
      • 7.6.2 Définition d'une macro658
      • Chapitre 15
      • Analyse numérique et maths opérationnelles
      • 1. Calculs numériques dans l'esprit Matlab661
      • 1.1 Considérations pratiques661
      • 1.2 Un aperçu de la précision de notre machine662
      • 1.3 Un package possédant les mêmes instructions que Matlab664
      • 1.4 Quelques compléments sur les complexes665
      • 1.5 Quelques compléments sur les matrices666
      • 1.5.1 Création de matrices basiques666
      • 1.5.2 Création de matrices de nombres aléatoires668
      • 1.5.3 Calculs sur les matrices d'entiers669
      • 2. Un peu d'algèbre linéaire670
      • 2.1 Exemple de création d'une base orthonormale670
      • 2.2 Projection sur un sous-espace vectoriel671
      • 3. Fonctions et systèmes d'équations, 1 à n variables673
      • 3.1 Fonctions d'une variable673
      • 3.1.1 Exploration de divers tracés673
      • 3.1.2 Autour des racines d'une fonction676
      • 3.2 Fonctions de plusieurs variables678
      • 3.2.1 Représentation d'une fonction réelle de deux variables réelles678
      • 3.2.2 Recherche de minima d'une fonction en deux dimensions679
      • 3.3 Systèmes d'équations non différentielles, linéaires ou non681
      • 3.3.1 Système d'équations linéaires681
      • 3.3.2 Système d'équations non linéaires non différentielles, n = m684
      • 4. Dérivation de fonctions685
      • 4.1 Dérivée symbolique et numérique avec R-base685
      • 4.2 Dérivées en utilisant des packages spécifiques687
      • 4.3 Dérivée de fonctions spéciales687
      • 5. Autour de l'intégration689
      • 5.1 Calcul d'une intégrale multiple689
      • 5.2 Autres intégrales, dont intégrale impropre690
      • 6. Fonctions spéciales et équations différentielles691
      • 6.1 Autres fonctions spéciales691
      • 6.1.1 Fonctions d'Airy et de Bessel691
      • 6.1.2 La fonction d'erreur erf693
      • 6.2 Équation différentielle ordinaire normalisée d'ordre 1693
      • 6.3 Équation différentielle du second degré (problème aux limites)694
      • 6.3.1 EQD linéaire (2nd degré)694
      • 6.3.2 EQD non linéaire (2nd degré)696
      • 7. Éléments pratiques de calcul différentiel699
      • 7.1 Fonctions réelles d'un réel699
      • 7.2 Fonctions réelles d'un vecteur701
      • 7.2.1 Calcul des dérivées partielles701
      • 7.2.2 Calculs d'opérateurs utilisant les dérivées partielles703
      • 7.3 Fonctions vectorielles d'un vecteur704
      • 8. Calcul symbolique avec SymPy706
      • 8.1 Documentation à consulter707
      • 8.2 Accéder aux résultats dans Rmarkdown707
      • Chapitre 16
      • R et Python
      • 1. Une polémique stérile, mais une vraie question : R ou Python ?709
      • 2. Exemples de codes R et Python comparables712
      • 2.1 Codes triviaux713
      • 2.2 Packages713
      • 2.3 Fonctions simples714
      • 2.4 Structures de données715
      • 2.5 Booléens717
      • 2.6 Programmation de base718
      • 2.7 Création de fonctions718
      • 2.8 Blocs et indentation719
      • 2.9 Datasets720
      • 3. Accéder à Python à partir de R722
      • 3.1 Installation et initialisation du contexte technique722
      • 3.2 Interactions R et Python, du point de vue R723
      • 3.2.1 Partage de variables et exécution de code Python dans le biotope R723
      • 3.2.2 Librairies Python dans du code R, exemples NLP724
      • 4. Considérations sur les cas difficiles730
      • Chapitre 17
      • Deep learning avec TensorFlow et Keras
      • 1. Deep learning selon Google733
      • 2. Installation et initialisation de votre contexte technique735
      • 3. Tenseurs TensorFlow/Keras738
      • 3.1 Forme des tenseurs738
      • 3.2 Manipulation des tenseurs740
      • 3.3 Autre usage du framework751
      • 4. Mise au point d'un modèle de référence en utilisant caret752
      • 5. Création d'un modèle avec TensorFlow 2 et Keras757
      • 5.1 Initialisation et préparation des données758
      • 5.2 Étape 1 : décrire la structure du réseau760
      • 5.3 Étape 2 : compiler le modèle763
      • 5.4 Étape 3 : training763
      • Chapitre 18
      • BigML, le machine learning pour tous
      • 1. Introduction769
      • 2. Pour qui ?770
      • 3. Présentation de la démarche772
      • 4. Manipulation des sources de données773
      • 5. Création de projets777
      • 6. Manipulation de datasets778
      • 7. Division du jeu de données779
      • 8. Création d'un modèle de machine learning781
      • 8.1 Paramétrages des modèles781
      • 8.2 Visualisation du modèle782
      • 8.3 Filtrage et élagage783
      • 8.4 Autres visualisations784
      • 9. Évaluation du modèle785
      • 10. Partage de ses modèles787
      • 11. Réalisation d'une première prédiction787
      • 12. Utilisation du modèle dans R790
      • Chapitre 19
      • Déploiement Shiny sur votre propre Cloud
      • 1. Introduction793
      • 2. Location d'un serveur793
      • 3. Création d'une machine virtuelle794
      • 4. Se connecter à distance à votre machine795
      • 4.1 Installation du client SSH795
      • 4.1.1 OpenSSH795
      • 4.1.2 GitBash796
      • 4.2 Génération des clés publique et privée797
      • 4.3 Gestion des paquets798
      • 5. Ajout des composants logiciels de base799
      • 6. Installation de R et de Shiny800
      • 7. Paramétrage réseau et Linux802
      • 7.1 Paramétrer le VCN (Virtual Cloud Network)802
      • 7.2 Gestion du firewall803
      • 7.3 Se doter d'une application de monitoring : htop806
      • 7.4 Se doter d'un serveur HTTP (Apache)806
      • 7.5 Installation de Webmin807
      • Annexes
      • 1. De l'utilité de ces annexes811
      • 2. Formulas811
      • 3. Stratégies suivant la nature des données813
      • 3.1 Comptages813
      • 3.2 Proportions813
      • 3.3 Variable de réponse binaire813
      • 3.4 Données induisant un modèle mixte (mixed effect)814
      • 3.5 Graphes815
      • 3.6 Analyse de survie (survival analysis)815
      • 4. Filtres (sur images)816
      • 5. Distances818
      • 6. Astuces et petits conseils821
      • 6.1 Sur les tests821
      • 6.2 Gestion des variables821
      • 6.3 Analyse et manipulation de résultats822
      • 6.3.1 Résidus822
      • 6.3.2 Manipulation des modèles822
      • 7. Packages et thèmes à étudier823
      • 7.1 Créer son propre package823
      • 7.2 Règles d'association824
      • 7.3 Exporter un modèle824
      • 7.4 Tenseurs824
      • 7.5 SVM pour la détection de nouveautés (novelty detection)824
      • 8. Vocabulaire et « tricks of the trade »825
      • 8.1 Compléments sur les bases du machine learning825
      • 8.2 Compléments sur les aspects bayésiens826
      • 8.3 Vocabulaire (dont anglais) des modèles gaussiens828
      • 9. Algorithmes à étudier828
      • 10. Quelques formulations d'algèbre linéaire829
      • 11. Bibliographie830
      • Conclusion833
      • Index835

  • Origine de la notice:
    • BPI
  • Disponible - 681.7 LAU

    Niveau 3 - Informatique