• Aide
  • Eurêkoi Eurêkoi

Livre

Langage R : prise en main des statistiques

Résumé

Présentation des connaissances essentielles sur le langage R telles que les variables et la syntaxe des opérations de base, ses outils, les fonctions ou encore la conception de packages. Les problématiques métiers sont abordées, illustrées d'exemples pratiques. ©Electre 2018


  • Autre(s) auteur(s)
  • Éditeur(s)
  • Date
    • 2018
  • Langues
    • Français
  • Description matérielle
    • 1 vol. (775 p.) ; 22 x 18 cm
  • Collections
  • Sujet(s)
  • ISBN
    • 978-2-409-01420-8
  • Indice
    • 518.5 Logiciels de calcul numérique
  • Quatrième de couverture
    • Langage R

      Prise en main des statistiques

      R est un langage statistique très riche en fonctionnalités de traitement des données. Il permet l'extraction de données de sources variées, leur traitement et leur organisation. Plus encore, la multiplicité des systèmes de visualisation graphique et les nombreuses fonctions de modélisation statistique font de ce langage un outil statistique redoutable.

      Avec ce livre, les auteurs proposent une présentation de R ayant pour objectif de lever la complexité apparente de ce puissant langage et de permettre une prise en main aisée des statistiques de premier cycle.

      Dans la première partie du livre, le lecteur découvre de manière détaillée les fondamentaux du langage R : les variables et la syntaxe des opérations de base, les structures de données, les outils du langage pour programmer notamment les structures de contrôles, les fonctions et même la conception de packages.

      Dans la seconde partie, les auteurs traitent des problématiques métiers liées aux outils d'importation et d'exportation de données, d'analyse basique et de visualisation des données, aux outils de simulation et d'inférences statistiques et aux modèles statistiques classiques (ANOVA, régression linéaire, etc.).

      Chaque concept abordé est accompagné d'exemples pratiques commentés pour guider le lecteur dans son apprentissage du langage pour le traitement des statistiques de base.


  • Tables des matières
      • Langage R

      • Prise en main des statistiques

      • Ressourcesinformatiques

      • Avant-propos
      • Chapitre 1
        Introduction à R
      • 1. Introduction15
      • 2. R, un langage statistique15
      • 2.1 Histoire de R16
      • 2.2 Les caractéristiques de R16
      • 2.3 Installer une distribution R17
      • 2.3.1 R-Project de CRAN18
      • 2.3.2 Autres distributions R21
      • 3. Quelques IDE pratiques22
      • 3.1 RStudio23
      • 3.1.1 Téléchargement et installation24
      • 3.1.2 Exploration de RStudio Desktop24
      • 3.1.3 Créer un projet avec RStudio33
      • 3.2 Outils R pour Visual Studio (RTVS)37
      • 3.2.1 Installation de RTVS avec VS 201738
      • 3.2.2 Découverte de RTVS41
      • Chapitre 2
        Types de variables et opérations R
      • 1. Introduction51
      • 2. Session interactive R51
      • 2.1 La console R52
      • 2.1.1 Exécution d'une instruction52
      • 2.1.2 Commentaire R54
      • 2.1.3 Configuration des sorties ou affichage des résultats54
      • 2.1.4 Quitter la console56
      • 2.2 L'aide interactive R56
      • 2.2.1 L'aide de base56
      • 2.2.2 Les vignettes et démonstrations61
      • 3. Les variables R63
      • 3.1 Création de variables63
      • 3.2 Variables et espace de travail66
      • 3.2.1 Le cycle de vie des variables66
      • 3.2.2 Gestion de l'espace de travail68
      • 3.3 Les noms de variables et mots réservés73
      • 3.3.1 Les noms de variables73
      • 3.3.2 Les mots réservés74
      • 3.4 Les constantes natives R75
      • 4. Types de vecteur atomique76
      • 4.1 Les nombres76
      • 4.1.1 Créer des objets numériques76
      • 4.1.2 Créer des nombres complexes78
      • 4.2.3 Opérateurs et opérations arithmétiques80
      • 4.2 Les chaînes de caractères82
      • 4.3 Les booléens84
      • 5. Les dates et heures87
      • 5.1 La classe Date88
      • 5.1.1 Création des dates88
      • 5.1.2 Les opérations sur les dates89
      • 5.2 La classe POSIXt90
      • 5.2.1 Création d'objet POSIXct et POSIXcl91
      • 5.2.2 Opération sur les objets POSIXt93
      • 6. Les valeurs ou données spéciales94
      • 6.1 Les valeurs manquantes ou Missing data94
      • 6.2 Inf ou infini95
      • 6.3 NaN ou « Not Number »96
      • 6.4 NULL96
      • 7. Les packages97
      • 7.1 Gestion des packages97
      • 7.1.1 Télécharger et installer un package97
      • 7.1.2 La mise à jour et la suppression des packages99
      • 7.2 Charger et décharger un package100
      • 7.2.1 Charger le package dans l'environnement100
      • 7.2.2 Solliciter le package sans le charger102
      • 7.2.3 Décharger un package103
      • 7.3 Création de package103
      • Chapitre 3
        Structure des données avec R
      • 1. Introduction105
      • 2. Les vecteurs105
      • 2.1 Création de vecteur106
      • 2.2 Manipulations d'un vecteur107
      • 2.2.1 Indexation numérique d'un vecteur108
      • 2.2.2 Indexation booléenne d'un vecteur111
      • 2.2.3 Indexation nommée d'un vecteur112
      • 2.2.4 Quelques fonctions d'extraction ou d'indexation114
      • 2.3 Travailler avec les vecteurs numériques115
      • 2.3.1 Générer des vecteurs séquentielles115
      • 2.3.2 Les opérations sur les serveurs numériques117
      • 2.4 Créer des séries de dates127
      • 2.5 Les fonctions de vecteur de chaînes de caractères128
      • 2.5.1 La fonction paste ()128
      • 2.5.2 La fonction cat ()130
      • 2.5.3 La fonction sprintf()131
      • 2.5.4 La fonction nchar ()131
      • 2.5.5 Les fonctions substr() et substring()132
      • 2.5.6 Les fonctions toupper() et tolower()132
      • 2.5.7 Les fonctions chartr() et replace()133
      • 2.5.8 La fonctions strsplit()133
      • 2.5.9 Les fonctions grep() et grepl()134
      • 2.5.10 Les fonctions regexpr() et gregexpr()135
      • 2.5.11 La fonction bsub()137
      • 2.6 Cas des vecteurs booléens139
      • 2.7 Autres opérations génériques sur les vecteurs140
      • 2.7.1 Suppression de doublons140
      • 2.7.2 Les opérations ensemblistes141
      • 2.7.3 La gestion de valeurs manquantes142
      • 3. Les matrices143
      • 3.1 Construction d'une matrice143
      • 3.1.1 Le constructeur matrix()143
      • 3.1.2 Combiner des vecteurs en matrice145
      • 3.1.3 Convertir un objet en matrice146
      • 3.2 Dimension d'une matrice147
      • 3.3 Nommer les lignes et colonnes d'une matrice148
      • 3.4 Manipuler une matrice150
      • 3.4.1 Indexation numérique des matrices150
      • 3.4.2 Indexation booléenne des matrices155
      • 3.4.3 Indexation par les noms des colonnes et des lignes156
      • 3.5 Calculs matriciels158
      • 3.5.1 Opérations arithmétiques159
      • 3.5.2 Les multiplications matricielles160
      • 3.5.3 Les matrices spéciales162
      • 3.5.4 La transposée, le déterminant et l'inverse d'une matrice164
      • 3.5.5 Valeurs et vecteurs propres d'une matrice166
      • 3.5.6 Décomposition d'une matrice166
      • 4. Les tableaux multidimensionnels avec array()170
      • 4.1 Création d'un tableau multidimensionnel171
      • 4.2 Nommer un tabLeau multidimensionnel172
      • 4.3 Extraction d'éléments d'un tableau multidimensionnel173
      • 5. Les facteurs ou variables catégoriels174
      • 5.1 Création d'un facteur174
      • 5.2 Modification des modalités d'un facteur178
      • 5.3 Cas des variables ordinales179
      • 5.4 Cas des variables continues180
      • 5.5 Les variables catégorielles et la fonction table()181
      • 5.6 Les dates et la fonction factor()184
      • 6. Les data frame185
      • 6.1 Description d'un data frame185
      • 6.2 Construction d'un data frame192
      • 6.3 Dimension d'un data frame195
      • 6.4 Nommer les colonnes et lignes d'un data frame195
      • 6.5 Manipulation d'un data frame197
      • 6.5.1 Extraction de colonnes ou variables197
      • 6.5.2 Extraction des lignes ou des individus203
      • 6.5.3 Extraire un élément ou une valeur quelconque207
      • 6.5.4 Ajout de colonnes ou de lignes dans un data frame207
      • 6.5.5 Suppression des colonnes ou de lignes211
      • 6.5.6 Empiler et désempiler un data frame212
      • 6.5.7 La transposition de data frame avec reshape()214
      • 6.5.8 Le tri d'un data frame218
      • 6.5.9 La fonction aggregate()220
      • 6.5.10 La fonction summary()222
      • 6.5.11 La fonction by()224
      • 6.5.12 La famille des fonctions apply()224
      • 7. Les listes225
      • 7.1 Construction d'une liste225
      • 7.2 Indexation des objets d'une liste227
      • 7.2.1 Extraction à l'intérieur des crochets ou doubles crochets227
      • 7.2.2 Extraction avec l'opérateur dollar $230
      • 7.2.3 Extraction avec la structure attach()... detach()230
      • Chapitre 4
        La programmation avec R
      • 1. Introduction231
      • 2. Les structures de contrôle231
      • 2.1 Les structures de groupage d'instructions232
      • 2.1.1 Le point-virgule232
      • 2.1.2 Les accolades232
      • 2.2 Les structures conditionnelles233
      • 2.2.1 La structure if...else233
      • 2.2.2 La structure switch()236
      • 2.3 Les structures de répétition ou boucles237
      • 2.3.1 La boucle for et les commandes break, next237
      • 2.3.2 La boucle while240
      • 2.3.3 La boucle repeat... break241
      • 3. Les fonctions241
      • 3.1 Création d'une fonction242
      • 3.2 Les arguments par défaut245
      • 3.3 La commande return()246
      • 3.4 Les fonctions avec des arguments... (indéfinis)249
      • 3.5 Les fonctions avec do.call()250
      • 3.6 Les fonctions anonymes250
      • 3.7 Les fonctions replacement251
      • 3.8 Les fonctions infixes252
      • 3.9 Les fonctions récursives253
      • 4. L'environnement R et la portée des objets254
      • 5. Optimisation du code257
      • 5.1 La vectorisation257
      • 5.1.1 La fonction apply()257
      • 5.1.2 La fonction sapply() ou lapply() et mapply()258
      • 5.1.3 La fonction rapply()261
      • 5.1.4 La fonction tapply()263
      • 5.1.5 La fonction eapply()264
      • 5.1.6 La fonction replicate()265
      • 5.2 R et le langage C/C++266
      • 5.3 Gestion des exceptions et des erreurs268
      • 5.3.1 Alerter sur une erreur269
      • 5.3.2 Gérer les exceptions avec try()271
      • 5.3.3 Gérer les exceptions avec tryCatch()272
      • 6. La programmation orientée objets (POO) avec R274
      • 6.1 Classe S3274
      • 6.1.1 Définition d'une classe275
      • 6.1.2 Définir un constructeur277
      • 6.1.3 Définir des méthodes membres d'une classe279
      • 6.1.4 Modèle UML de la classe stock()283
      • 6.2 Classe S4289
      • 6.2.1 Définition de la classe et ses attributs290
      • 6.2.2 Constructeur new()291
      • 6.2.3 Définir les méthodes membres de classes293
      • 6.3 Classe R5 ou RC298
      • 6.3.1 Créer une classe R5 ou RC299
      • 6.3.2 Les méthodes membres de la classe301
      • 7. Conception de package ou R305
      • 7.1 Structure d'un package305
      • 7.1.1 Installer les outils305
      • 7.1.2 Générer l'architecture du package306
      • 7.2 Le fichier description307
      • 7.3 Doter le package de jeux de données310
      • 7.3.1 Créer le dossier data310
      • 7.3.2 Documenter les jeux de données312
      • 7.4 Ajouter les fonctions314
      • 7.5 Créer une vignette316
      • 7.6 Documenter le package316
      • 7.7 Installer et utiliser le package317
      • 7.8 Partager le package321
      • Chapitre 5
        Importer et exporter des données avec R
      • 1. Introduction323
      • 2. Saisir/éditer les données depuis le clavier323
      • 2.1 Les fonctions readline(), scan() et readClipboard()324
      • 2.1.1 La fonction readline()324
      • 2.1.2 La fonction scan()325
      • 2.1.3 La fonction readClipboard()327
      • 2.2 La fonction textConnection()328
      • 2.3 Les fonctions edit() / fix() et la fonction data.entry()329
      • 2.3.1 La fonction edit()329
      • 2.3.2 La fonction fix()333
      • 2.3.3 La fonction data.entry()334
      • 3. Accéder aux données depuis un fichier de données334
      • 3.1 Fichier texte délimité334
      • 3.1.1 La fonction read.table()334
      • 3.2 Fichier CSV340
      • 3.3 Fichier Excel344
      • 3.3.1 Package xlsx344
      • 3.3.2 Package XLConnect346
      • 3.3.3 Package readxl348
      • 3.4 Fichier XML350
      • 3.4.1 Analyse de la structure d'un fichier XML351
      • 3.4.2 La conversion en data frame353
      • 3.5 Fichier JSON356
      • 4. Importer des donnnées d'autres logiciels d'analyse de données357
      • 4.1 Logiciel IBM SPSS : *.sav357
      • 4.1.1 Le package foreign357
      • 4.1.2 Le package haven358
      • 4.2 Logiciel SAS : *.cas7bdat359
      • 4.2.1 Le package sas7bdat359
      • 4.2.2 Le package haven359
      • 4.3 Logiciel Stata : *.dta360
      • 4.4 Le logiciel MATLAB : *.mat360
      • 5. Télécharger des données depuis le Web362
      • 5.1 Télécharger un fichier de données grâce à l'URL363
      • 5.2 Extraire les donnnées d'un tableau HTML364
      • 5.3 Importer spécialement des données financières369
      • 6. Accéder aux données depuis une base de données372
      • 6.1 Base de données MySQL372
      • 6.1.1 Le package RMySQL373
      • 6.1.2 Le package RODBC375
      • 6.2 Base de données Microsoft Access379
      • 6.3 Importer de gros volumes de données381
      • 6.3.1 Le package data.table382
      • 6.3.2 Le package readr385
      • 6.3.3 Le package sqldf386
      • 7. Exporter des données387
      • 7.1 Fichier texte délimité387
      • 7.2 Fichier CSV388
      • 7.3 Fichier Microsoft Excel389
      • 7.4 Exporter les données sous les formats de données R392
      • 7.4.1 Les fonctions save() et save.image()393
      • 7.4.2 Les fonctions dput() et dump()394
      • 7.5 Exporter des données sous des formats lisibles par d'autres logiciels statistiques395
      • 7.5.1 Le package haven395
      • 7.5.2 Le package foreign395
      • Chapitre 6
        Introduction à l'analyse de données
      • 1. Introduction397
      • 2. Préparation des jeux de données398
      • 2.1 Charger et comprendre les données398
      • 2.2 La gestion des données manquantes399
      • 2.2.1 Inspecter l'existence des données manquantes399
      • 2.2.2 Le traitement des données manquantes403
      • 3. Analyse descriptive des variables quantitatives410
      • 3.1 Cas univarié411
      • 3.1.1 Mesures de tendance centrale411
      • 3.1.2 Mesures de dispersion418
      • 3.1.3 Mesures de forme424
      • 3.1.4 Indice de Gini et Courbe de Lorenz425
      • 3.1.5 Les fonctions sommaires des indicateurs427
      • 3.2 Cas bivarié430
      • 3.2.1 La covariance430
      • 3.2.2 Le coefficient de corrélation433
      • 4. Analyse descriptive des variables catégorielles436
      • 4.1 Tableaux statistiques pour les variables catégorielles346
      • 4.1.1 Les tableaux de fréquences437
      • 4.1.2 Les tableaux de contingence441
      • 4.2 Statistique des tableaux de contingence445
      • 4.2.1 Les tableaux de fréquences et les statistiques marginales445
      • 4.2.2 Le package prettyR447
      • 4.2.3 Sommaire statistique avec les variables catégorielles452
      • 5. Visualisation graphique des données453
      • 5.1 Explorer le package ggplot2457
      • 5.1.1 Aperçu graphique rapide avec qplot()457
      • 5.1.2 Graphique avancé avec ggplot()460
      • 5.2 Visualisation graphique avec ggplot2472
      • 5.2.1 Diagramme en barres473
      • 5.2.2 Diagramme en secteurs477
      • 5.2.3 Histogramme478
      • 5.2.4 Boxplot ou diagramme en boîte à moustache479
      • 5.2.5 Graphique à lignes481
      • 5.2.6 Graphique à nuage de points482
      • 5.2.7 Matrice de corrélation avec GGally484
      • 5.2.8 Autres fonctions statistiques486
      • Chapitre 7
        Probabilité et inférence paramétrique
      • 1. Introduction489
      • 2. Simulation490
      • 2.1 Probabilité et dénombrement490
      • 2.1.1 Arrangement490
      • 2.1.2 Permutation494
      • 2.1.3 Combinaison496
      • 2.2 Tirage aléatoire d'échantillon500
      • 2.2.1 La fonction sample()500
      • 2.2.2 La reproductibilité des valeurs aléatoires503
      • 2.2.3 Répétition d'une expérience avec replicate()504
      • 2.3 Notion de variable aléatoire505
      • 2.3.1 Cas d'une variable aléatoire discrète505
      • 2.3.2 Cas d'une variable aléatoire continue511
      • 2.4 Les fonctions R des distributions de probabilité521
      • 2.4.1 Vocabulaire des fonctions de distribution R521
      • 2.4.2 Tables des lois et leur équivalent R522
      • 2.5 Quelques lois de densité univariées523
      • 2.5.1 La loi Normale523
      • 2.5.2 La loi de Student ou T-distribution525
      • 2.5.3 La loi de Khi-deux527
      • 2.5.4 La loi de Fisher528
      • 2.6 Le théorème central limite529
      • 3. Estimation par intervalle de confiance532
      • 3.1 Intervalle de confiance d'une moyenne532
      • 3.1.1 Formulation532
      • 3.1.2 Application avec R533
      • 3.2 Intervalle de confiance d'une médiane536
      • 3.2.1 Formulation536
      • 3.2.2 Application avec R537
      • 3.3 Intervalle de confiance d'une proportion538
      • 3.3.1 Formulation538
      • 3.3.2 Application avec R539
      • 3.4 Intervalle de confiance d'une variance541
      • 3.4.1 Formulation541
      • 3.4.2 Application avec R541
      • 4. Tests d'hypothèses542
      • 4.1 Terminologie542
      • 4.1.1 Formulation d'un test542
      • 4.1.2 Les types d'erreurs et puissance d'un test543
      • 4.1.3 La statistique du test et la p-value544
      • 4.2 Tests d'indépendance544
      • 4.2.1 Test de Khi-deux544
      • 4.2.2 Test de Khi-deux avec correction de Yates547
      • 4.2.3 Simulation de Monte-Carlo548
      • 4.2.4 Test de Fisher exact549
      • 4.3 Tests d'hypothèses de la moyenne550
      • 4.3.1 Test de conformité550
      • 4.3.2 Test de comparaison de deux échantillons indépendants552
      • 4.3.3 Test de comparaison de deux échantillons appariés555
      • 4.3.4 ANOVA558
      • 4.4 Tests d'hypothèses de la proportion559
      • 4.4.1 Test de conformité559
      • 4.4.2 Test de comparaison à échantillons indépendants561
      • 4.5 Tests d'hypothèses de la variance563
      • 4.5.1 Test de conformité563
      • 4.5.2 Test de comparaison pour deux échantillons564
      • 4.6 Tests d'hypothèse de la corrélation565
      • 4.6.1 Test de conformité565
      • 4.6.2 Test de comparaison568
      • 4.7 Analyse de puissance570
      • 4.7.1 Les fonctions R571
      • 4.7.2 Les fonctions du package pwr571
      • 4.8 Tests non paramétriques574
      • 4.8.1 Test de normalité Shapiro-Wilk574
      • 4.8.2 Test de distribution de Kolmogorov-Siminorov576
      • 4.8.3 Test d'ajustement de X2578
      • 4.8.4 Test de corrélation de Kendall et de Spearman579
      • 4.8.5 Test d'égalité de variance de Bartlett580
      • 4.8.6 Le test U de Mann-Whitney ou test de somme de rangs de Wilcoxon580
      • 4.8.7 Test de Kruskall-Wallis581
      • 5. Méthodes de rééchantillonnage583
      • 5.1 Boostrap583
      • 5.1.1 Démarche583
      • 5.1.2 Illustration avec le package boot584
      • 5.2 Jackknife587
      • 5.2.1 Démarche587
      • 5.2.2 Illustration avec le package boostrap588
      • Chapitre 8
        Modèles statistiques classiques
      • 1. Introduction589
      • 2. Analyse de la variance (ANOVA)590
      • 2.1 Expression de modèles avec les objets formula591
      • 2.1.1 Formulation d'un modèle591
      • 2.1.2 Les opérateurs R pour l'expression de relations593
      • 2.1.3 Quelques opérations et fonctions utiles aux objets formula594
      • 2.2 ANOVA à un facteur ou simple entrée595
      • 2.2.1 Modèle et hypothèses595
      • 2.2.2 ANOVA à un facteur avec R597
      • 2.2.3 Tests « post-hoc »605
      • 2.3 ANOVA à double facteur ou entrée606
      • 2.3.1 ANOVA à deux facteurs avec R608
      • 2.3.2 Tests « post-hoc »619
      • 3. Modèles de régression linéaire620
      • 3.1 Régression linéaire simple621
      • 3.1.1 Formalisation et estimation621
      • 3.1.2 Modèle de régression linéaire simple avec R622
      • 3.1.3 Sommaire du résultat de lm()631
      • 3.1.4 Diagnostic de la régression637
      • 3.1.5 Détection des points ou observations atypiques644
      • 3.1.6 Prédiction652
      • 3.2 Régression linéaire multiple655
      • 3.2.1 Formalisation et estimation655
      • 3.2.2 Régression linéaire multiple avec R656
      • 3.3 Sélection de variables et choix du modèle671
      • 3.3.1 Les indicateurs ou critères de sélection672
      • 3.3.2 Algorithmes de sélection675
      • 3.3.3 Application avec R676
      • 3.4 Problème de colinéarité et régressions robustes690
      • 3.4.1 Définition et détection de la colinéarité690
      • 3.4.2 Les régressions régularisées694
      • 3.4.3 Les régressions régularisées en pratique695
      • 3.4.4 La régression sur composantes principales706
      • Conclusion715
      • Index717

  • Origine de la notice:
    • Electre
  • Disponible - 518.5 ISO

    Niveau 2 - Sciences