Langage R et statistiques
Initiation à l'analyse de données
Éditions Eni
Avant-propos
1. Introduction9
2. À qui s'adresse cet ouvrage ?10
3. Comment utiliser cet ouvrage ?11
Chapitre 1
Le langage R
1. Histoire du langage R15
2. Installation de R et de RStudio17
2.1 Comprehensive R Archive Network (CRAN)17
2.2 Installation de R via le CRAN17
2.3 Installation de RStudio27
2.4 Paramétrage de RStudio32
2.5 Trucs et astuces avec RStudio34
3. Packages36
3.1 Qu'est-ce qu'un package ?36
3.2 Installation d'un package37
3.3 Utilisation d'un package, d'une fonction39
3.4 Trouver de l'aide à propos d'un package ou d'une fonction40
4. Travail sous forme de projet42
5. Réalisation de rapports avec R Markdown46
6. Initiation au codage en R50
6.1 Nomenclature du langage R50
6.2 Importer des données55
6.3 Manipuler les données58
6.4 Concaténation de tables61
Chapitre 2
Les statistiques
1. Notions clés sur les statistiques67
1.1 Histoire rapide de la discipline des statistiques67
1.2 Définitions des mots-clés importants68
2. Initiation à la réalisation de graphiques avec {ggplot2} dans R72
3. Lois de probabilités statistiques78
3.1 Introduction aux lois de probabilités78
3.2 Loi uniforme82
3.3 Loi binomiale85
3.4 Loi de Poisson87
3.5 Loi normale89
3.6 Loi exponentielle91
3.7 Résumé des paramètres liés aux lois de probabilités94
4. Réalisation de statistiques descriptives dans R95
4.1 Principe des statistiques descriptives95
4.2 Statistiques descriptives univariées dans R95
4.2.1 Type de données95
4.2.2 Variable qualitative97
4.2.3 Variable quantitative104
4.3 Statistiques descriptives bivariées dans R116
4.3.1 Deux variables qualitatives117
4.3.2 Une variable qualitative et une variable quantitative118
4.3.3 Deux variables qualitatives121
5. Détection et visualisation des données manquantes dans R123
Chapitre 3
La régression
1. Définitions et limites de la régression127
2. Régression linéaire simple128
2.1 Objectif de la régression linéaire simple128
2.2 Réalisation d'une régression linéaire simple dans R130
2.3 Limites d'application de la régression linéaire simple132
2.3.1 Visualisation de la corrélation entre les données132
2.3.2 Indépendances des données133
2.3.3 Analyse des résidus133
2.4 Intervalle de confiance de la régression dans R136
3. Généralisation de la régression paramétrique dans R137
3.1 Régression polynomiale137
3.2 Régressions exponentielle et logarithmique143
3.3 Introduction à la régression logistique binomiale148
3.4 Régression multiple153
4. Régression non paramétrique dans R163
4.1 Définitions et limites de la régression non paramétrique163
4.2 Régression non paramétrique univariée166
4.3 Modèles additifs généralisés168
Chapitre 4
Les tests d'hypothèses
1. Vocabulaire lié aux tests d'hypothèses173
2. Démarche du test d'hypothèses177
3. Test de Shapiro-Wilk182
4. Test du Khi-2186
4.1 Paramétrique ou non paramétrique, le test du Khi-2 ?186
4.2 Loi du Khi-2 à k degrés de liberté187
4.3 Test du Khi-2 d'adéquation189
4.4 Test du Khi-2 d'indépendance193
4.5 Test du Khi-2 d'homogénéité199
Chapitre 5
La comparaison à une valeur théorique
1. Quand comparer à une valeur théorique ?205
2. Théorème central limite206
2.1 Histoire et utilisation du théorème central limite206
2.2 Énoncé du théorème central limite206
3. Comparaison d'une proportion à une valeur théorique209
3.1 Exemples de comparaison d'une proportion à une valeur théorique209
3.2 Test de comparaison d'une proportion à une valeur théorique avec R212
4. Comparaison d'une moyenne à une valeur théorique218
4.1 Test de Student218
4.2 Exemple d'utilisation du test de Student dans R222
4.3 Test de Student apparié224
4.4 Test de Wilcoxon apparié228
5. Comparaison d'une variance à une valeur théorique231
5.1 Variance d'une variable231
5.2 Test de comparaison de la variance à une valeur théorique232
5.3 Exemple de comparaison d'une variance à une valeur dans R233
6. Test de Kolmogorov-Smirnov235
Chapitre 6
La comparaison de deux groupes
1. Généralités sur la comparaison de deux groupes245
2. Comparaison de proportions de groupes dans R246
2.1 Utilisation de la comparaison de proportions246
2.2 Test z à deux proportions et test du Khi-2247
2.3 Test exact de Fisher251
2.4 Test de McNemar254
3. Comparaison de variances de deux groupes dans R257
3.1 Mise en situation de la comparaison de variances257
3.2 Test F de Fisher259
3.3 Test de Bartlett261
3.4 Test de Levene264
3.5 Test de Fligner-Killeen267
4. Comparaison de moyennes de deux groupes dans R270
4.1 Choix du test de comparaison de moyennes à utiliser270
4.2 Test t de Student271
4.3 Test t de Welch275
4.4 Test de Wilcoxon-Mann-Whitney277
5. Comparaison de moyennes/médianes de plus de deux groupes279
5.1 Pourquoi ne pas comparer deux à deux ?279
5.2 ANOVA : analyse de variance dans R281
5.3 Test de Kruskal-Wallis dans R287
Chapitre 7
Les modèles linéaires généralisés
1. Modèles linéaires classiques291
1.1 Rappel291
1.2 Les tests post-hoc294
2. Généralisation des modèles linéaires en R299
2.1 Utilisation des modèles linéaires généralisés299
2.2 Régression logistique binomiale302
2.3 Régression de Poisson308
3. Modèles linéaires mixtes315
3.1 Généralités et utilisation des modèles linéaires mixtes315
3.2 Réalisation de modèles linéaires mixtes dans R317
4. Traitement des données manquantes dans les GLM329
5. Modèles non linéaires à effets fixes ou mixtes330
Chapitre 8
L'analyse en composantes principales
1. Utilisation de l'ACP331
2. Bases mathématiques de l'ACP336
2.1 Approche par les individus336
2.2 Approche par les variables343
3. Mise en place de l'ACP346
3.1 Déroulement de l'ACP346
3.2 Sélection des variables actives347
3.3 Réduction des variables348
3.4 Réalisation de l'ACP dans R349
3.4.1 Lignes de code et sorties automatiques349
3.4.2 Représentativité des axes352
3.4.3 Graphique des individus355
3.4.4 Graphique des variables356
3.5 Sélection du nombre de dimensions à interpréter dans R358
3.5.1 Significativité des dimensions obtenues par l'ACP dans R358
3.5.2 Nombre de dimensions à interpréter359
3.6 Interprétation des sorties de l'ACP et indicateurs supplémentaires dans R361
3.7 Ajout de variables supplémentaires dans R364
4. Limites et ouverture des analyses factorielles374
4.1 Données manquantes en ACP374
4.2 Analyse factorielle des correspondances383
4.3 Pour conclure sur les analyses factorielles388
Index389