• Aide
  • Eurêkoi Eurêkoi

Livre

Pratique de la data science avec R : arranger, visualiser, analyser et présenter des données

Résumé

Un manuel pour approfondir ses connaissances et mettre en oeuvre ses compétences à l'aide du langage de programmation R. Les différentes étapes du cycle de vie d'un projet basé sur l'analyse statistique de données sont présentées : préparation, transformation, visualisation, analyse et diffusion des résultats.


  • Éditeur(s)
  • Date
    • DL 2021
  • Langues
    • Français
  • Description matérielle
    • 1 vol. (275 p.) : ill., graph., cartes ; 24 cm
  • Collections
  • Sujet(s)
  • ISBN
    • 978-2-340-04758-7
  • Indice
  • Quatrième de couverture
    • Pratique de la data science avec R

      Arranger, visualiser, analyser et présenter des données

      Il y a moins de dix ans est apparue la data science (ou science des données), résultat d'une disponibilité croissante de données dans les entreprises et d'un nouveau regard sur ce que peuvent apporter les données aux entreprises. L'afflux parfois massif de données et les attentes ont conduit à la nécessité de recruter des personnes compétentes à la fois en statistique et en informatique, mais également disposant de connaissances métiers. Le développement de nouvelles méthodologies statistique et informatique permet de répondre à ses enjeux.

      Le scientifique des données devra maîtriser plusieurs outils informatiques permettant de mettre en oeuvre une méthodologie statistique. Dans sa catégorie, le langage R est un langage de programmation qui peut tout à fait être un outil pertinent pour l'analyse statistique de données, à côté d'autres langages de programmation ou d'autres logiciels.

      Cet ouvrage présent différent possibilités offertes par R aux scientifiques des données. Il est découpé en cinq parties reprenant les différentes étapes du cycle de vie d'un projet basé sur l'analyse statistique de données : la préparation des données, la transformation des données, la visualisation des données, l'analyse des données et enfin, l'étape ultime, la diffusion des résultats de l'analyse.

      Il s'adresse autant à des étudiants de master en statistique et/ou master big data qui font leurs premiers pas en data science, qu'à des ingénieurs qui souhaitent approfondir leurs connaissances et mettre en oeuvre leurs compétences à l'aide de R.


  • Tables des matières
      • Pratique de la data science avec R

      • Arranger, visualiser, analyser et présenter des données

      • Christian Paroissin

      • ellipses

      • Avant-propos 3
      • Science des données ou statistique ?3
      • R, un outil pour la science des données5
      • Plan de l'ouvrage6
      • Avant de commencer9
      • I Préparer les données13
      • 1 Structures de données dans R 15
      • 1.1 Vecteurs16
      • 1.2 Matrices et tableaux20
      • 1.3 Listes22
      • 1.4 Data frames23
      • 1.5 Tibbles28
      • 1.6 Gestion des données manquantes39
      • 2 Importer les données 43
      • 2.1 Données tabulaires (texte, csv)43
      • 2.2 Fichiers Excel45
      • 2.3 Extraction à partir d'une page HTML45
      • 2.4 Fichier JSON46
      • II Transformer les données47
      • 3 Notions de base de programmation 49
      • 3.1 Opérateurs logiques49
      • 3.2 Instructions conditionnelles50
      • 3.3 Boucle for51
      • 3.4 Boucle while51
      • 3.5 Boucle repeat52
      • 3.6 Actions dans une boucle53
      • 4 Les fonctions avec R 55
      • 4.1 Construire des fonctions55
      • 4.2 Somme, minimum, etc56
      • 4.3 Tri, rang et permutation58
      • 4.4 Comment appliquer une fonction à tout objet ?60
      • 4.5 Arrondis et troncatures62
      • 4.6 Opérations et transformations mathématiques63
      • 5 Programmation avancée 65
      • 5.1 Calcul parallèle65
      • 5.2 Intégrer des fonctions C dans un programme R69
      • 5.3 Utiliser des fonctions Fortran dans un programme R72
      • III Visualiser les données77
      • 6 Visualiser un tableau de données 79
      • 6.1 Représenter un nuage de points79
      • 6.2 Visualiser les corrélations79
      • 6.3 Représenter la variabilité82
      • 7 Représenter une courbe 85
      • 7.1 Tracer une ligne polygonale85
      • 7.2 Représenter une séries temporelles87
      • 8 Réaliser des cartes 91
      • 8.1 Les packages maps et maptools91
      • 8.2 Le package rCarto97
      • 9 Visualiser un graphe et des réseaux 101
      • 9.1 Introduction aux graphes et réseaux101
      • 9.2 Quelques packages dédiés à la représentation de réseaux103
      • 10 Exporter des graphiques 113
      • IV Analyser les données115
      • 11 Analyse de données multivariées 117
      • 11.1 Analyse en composantes principales118
      • 11.2 Analyse factorielle des correspondances121
      • 11.3 Package Factolnvastigate125
      • 12 Lissage des séries temporelles 129
      • 12.1 Deux classes spécifiques pour les séries temporelles129
      • 12.2 Moyennes mobiles ou filtres linéaires131
      • 12-3 Méthodes de lissage exponentielle133
      • 13 Modèle linéaire 139
      • 13.1 Régression linéaire140
      • 13.2 Analyse de la variance171
      • 13.3 Analyse de la covariance185
      • 13.4 Transformation de Box-Cox186
      • 13.5 Modèle linéaire généralisée189
      • 14 Modèles linéaires avec pénalisation 193
      • 14.1 Régression ridge193
      • 14.2 Régression LASSO198
      • 14.3 Régression elastic net202
      • 15 Méthodes supervisées de classification 207
      • 15.1 Régression logistique207
      • 15.2 Arbre de décision210
      • 15.3 Forêt aléatoire216
      • 15.4 Réseaux de neurones219
      • 15.5 Séparateur à vaste marge225
      • 16 Méthodes non-supervisées de classification 229
      • 16.1 Méthode des k centres mobiles229
      • 16.2 Classification ascendante hiérarchique236
      • 16.3 Cartes de Kohonen239
      • V Diffuser les résultats245
      • 17 Rédiger et présenter une étude 247
      • 17.1 Rédiger un rapport248
      • 17.2 Présenter une étude256
      • 18 Interface web avec Shiny 263
      • 18.1 L'exemple de base264
      • 18.2 Un cas plus complet265
      • Index 270

  • Origine de la notice:
    • BPI
  • Disponible - 681.1 PAR

    Niveau 3 - Informatique