Biostatistique
Une approche intuitive
Michèle Dramaix-Wilmet
de boeck
Avant-propos à l'édition américaineviii
Abréviationsxiv
Partie A Introduction à la statistique1
1. Statistique et probabilité ne sont pas intuitives
3
Nous avons tendance à passer directement aux conclusions3
Nous avons tendance à être trop confiants3
Nous voyons des structures dans des données aléatoires4
Nous ne nous rendons pas compte que les coïncidences sont fréquentes6
Nous avons des intuitions fausses à propos des probabilités6
Nous évitons de réfléchir à des situations ambiguës6
Il nous est difficile de combiner des probabilités7
Nous ne faisons pas de calculs bayésiens intuitivement8
Ne soyons pas dupés par les comparaisons multiples9
Nous avons tendance à ignorer les explications alternatives10
Nous sommes dupés par la régression vers la moyenne11
2. Pourquoi la statistique peut être difficile à étudier
14
Raison 1 : crainte des maths14
Raison 2 : terminologie prêtant à confusion14
Raison 3 : pensée abstraite15
Raison 4 : probabilité, pas certitude16
3. De l'échantillon à la population
17
Les calculs statistiques permettent de généraliser de l'échantillon à la population17
Ce que les calculs statistiques ne peuvent pas faire18
Les conclusions statistiques sont toujours vagues19
Jargon : modèles et paramètres20
Jargon : probabilité versus statistique20
Essais n-de-120
Partie B Intervalles de confiance23
4. Intervalle de confiance d'une proportion
25
Exemple : décès d'enfants prématurés25
Exemple : sondage électoral26
Hypothèses : intervalle de confiance d'une proportion27
Que signifie réellement une confiance de 95 % ?28
Qu'est-ce que 95 % a de spécial ?30
Que faire si les hypothèses sont violées ?30
Quantifie-t-on réellement l'événement auquel on s'intéresse ?31
Jargon31
Comment ça marche : IC d'une proportion32
Comment : calculer approximativement des IC's34
Perspectives : paramètres et modèles35
5. Intervalle de confiance des données de survie
38
Données de survie38
Données de survie censurées38
Représentation graphique du pourcentage de survivants en fonction du temps40
Comment calculer : l'intervalle de confiance d'une courbe de survie42
Médiane du temps de survie42
Survie à cinq ans43
Hypothèses : analyse de survie43
6. Intervalle de confiance des données de dénombrement
47
La distribution de poisson47
Hypothèses : distribution de poisson48
IC's basés sur la distribution de poisson49
Comment : calculer l'IC pour une variable suivant une loi de poisson51
L'avantage d'utiliser des intervalles de temps plus longs (ou des volumes plus importants)51
Partie C Variables continues55
7. Représentations graphiques des données continues
57
Données continues57
La moyenne et la médiane57
Jargon : erreur et biais59
Représentation graphique des données pour en montrer la dispersion ou représenter la distribution61
Attention à la manipulation des données63
8. Types de Variables
67
Variables d'intervalle67
Variables de rapport68
Autres types de variables69
Pas aussi différentes qu'il n'y paraît69
9. Quantification de la dispersion
71
L'interprétation d'un écart-type71
Comment ça marche : calculer un ET71
Pourquoi N - 1 ?73
Situations ou n peut sembler être ambigu74
ET et taille d'échantillon75
Le coefficient de variation75
Variance75
Autres manières de quantifier la variabilité76
10. La distribution Gaussienne
78
Origine de la distribution gaussienne78
ET et la distribution gaussienne79
La distribution normale standard80
La distribution « normale » ne définit pas des limites normales80
Pourquoi la distribution gaussienne occupe-t-elle une place aussi centrale en statistique ?81
11. La distribution log-normale et la moyenne géométrique
83
Exemple : relaxation de la vessie83
L'origine de la distribution log-normale83
Comment analyser des données log-normales84
Moyenne géométrique85
12. Intervalle de confiance d'une moyenne
87
L'interprÉtation de l'IC d'une moyenne87
Quelles valeurs faut-il avoir pour calculer l'IC d'une moyenne88
Hypothèses : IC d'une moyenne89
Comment calculer : l'IC d'une moyenne90
IC's unilatéraux (méthode avancée)93
IC d'un et (méthode avancée)94
IC d'une moyenne géométrique (méthode avancée)94
13. La théorie des intervalles de confiance
96
IC d'une moyenne via la distribution t96
IC d'une moyenne via ré-échantillonnage98
IC d'une proportion via ré-échantillonnage99
L'IC d'une proportion via la distribution binomiale100
En apprendre plus102
14. Barres d'erreur
103
ESM103
Comment calculer : l'ET à partir de l'ESM104
Quel type de barre d'erreur faut-il mettre dans un graphique ?106
L'aspect des barres d'erreur107
Partie D P-valeurs et signification109
15. Introduction aux P-valeurs
111
Exemple 1 : lancer d'une pièce de monnaie111
Exemple 2 : température corporelle113
Exemple 3 : antibiotiques sur des plaies chirurgicales115
Exemple 4 : angioplastie et infractus du myocarde115
P-valeurs unis ou bilatérales ?116
Pourquoi les P-valeurs sont-elles si difficiles à comprendre ?118
P-valeurs ou IC'S ?121
16. Signification statistique et test d'hypothèse
122
Tests d'hypothèse statistique122
Analogie : innocent jusqu'à preuve du contraire122
Procès devant jury versus procès devant journalistes123
Quand un test d'hypothèse est-il utile ?123
Significatif, très significatif ou hautement significatif ?124
Signification statistique limite124
Jargon : erreurs de type I et de type II125
Choisir un seuil de signification126
17. Relation entre intervalles de confiance et signification statistique
130
IC's et test d'hypothèse sont étroitement liés130
Lorsqu'un IC inclut l'hypothèse nulle130
Lorsqu'un IC n'inclut pas l'hypothèse nulle131
Une règle qui lie intervalle de confiance et signification statistique132
18. L'interprétation d'un résultat statistiquement significatif
134
Distinguer la signification statistique de l'importance scientifique134
Une idée fausse fréquente135
La probabilité a priori influence le TFD136
Logique bayésienne139
Application informelle de l'approche bayésienne139
19. L'interprétation d'un résultat statistiquement non significatif
141
« Non significativement différent » ne signifie pas « pas de différence »141
Exemple : récepteurs adrénergique alpha2 sur les plaquettes142
Exemple : échographie foetale143
Comment avoir des IC's plus étroits144
Que se passe-t-il si la P-valeur est vraiment élevée ?145
20. Puissance statistique
146
Qu'est-ce que la puissance ?146
Une analogie pour comprendre la puissance147
La puissance pour les deux exemples d'étude148
L'analyse de la puissance a posteriori n'est pas utile149
21. Test d'équivalence ou de non infériorité
150
L'équivalence doit être définie scientifiquement, pas statistiquement150
Moyenne dans la zone d'équivalence151
Moyenne en dehors de la zone d'équivalence152
L'approche usuelle par un test d'hypothèse n'est pas utile153
Faire des pieds et des mains pour adapter les tests d'hypothèse au problème d'équivalence153
Essais de non-infériorité154
Il faut être certain que le traitement standard est efficace155
Partie E Défis en statistique157
22. Concepts de comparaisons multiples
159
Le problème des comparaisons multiples159
Corriger pour les comparaisons multiples n'est pas toujours nécessaire160
Si on ne prend pas les comparaisons multiples en considération161
Correction pour les comparaisons multiples par l'approche traditionnelle163
Correction pour comparaisons multiples avec le taux de fausse découverte165
Qu'est-ce qu'une famille ?166
Vue d'ensemble167
23. Les pièges des comparaisons multiples
168
Analyser des données sans plan168
Biais de publication169
Plusieurs points au cours du temps - analyses séquentielles169
Plusieurs sous-groupes170
Coïncidences171
Grappes de maladie171
Prédictions multiples172
Combinaison de groupes172
Comparaisons multiples en régression multiple173
Aperçu des pièges des comparaisons multiples174
24. Gaussien ou pas ?
175
La distribution gaussienne est un idéal inaccessible175
Ce à quoi ressemble réellement une distribution gaussienne176
Test de normalité176
Interprétation des résultats d'un test de normalité178
Que faire lorsque les données échouent au test de normalité179
25. Valeurs atypiques (outliers)
181
Comment les valeurs atypiques se produisent-elles ?181
La nécessite d'avoir des tests de détection des valeurs atypiques182
Questions à se poser avant d'utiliser un test pour détecter les valeurs atypiques182
Les tests de détection des valeurs atypiques183
Attention aux distributions log-normales184
Statistiques robustes186
Comment ça marche : le test de détection des valeurs atypiques de Grubbs187
Partie F Tests statistiques189
26. Comparaison de distributions observées et attendues
191
Les données suivent-elles une distribution attendue ?191
Le test d'ajustement du Khi-carré192
Khi-carré et génétique mendélienne193
Comment ça marche : test d'ajustement du Khi-carré193
Il ne faut pas confondre deux tests de Khi-carré distincts194
Test binomial194
27. Comparaison des proportions : études prospectives et expérimentales
196
Jargon : études transversales, prospectives, expérimentales et rétrospectives196
Tables de contingence197
Un exemple d'étude expérimentale : un essai clinique197
Le risque attribuable199
Nombre nécessaire à traiter (NNT)199
Le risque relatif199
Risque relatif ou différence entre proportions ?200
Calcul d'une P-valeur200
Hypothèses201
28. Comparaison des proportions : études cas-témoins
203
Exemple : le vaccin contre le choléra est-il efficace ?203
Le calcul du risque relatif à partir des données d'une étude cas-témoins n'a pas de sens204
Le rapport de cotes204
L'interprétation d'une P-valeur205
Le défi des études cas témoins206
Hypothèses dans les études de cas témoins207
Pourquoi le rapport de cotes est une approximation du risque relatif208
29. Comparaison de courbes de survie
210
Exemple de données de survie210
Hypothèses lorsqu'on compare des courbes de survie210
Comparaison de deux courbes de survie en utilisant les IC's214
Comparaison des courbes de survie en utilisant une P-valeur215
30. Comparaison de deux moyennes : test t pour échantillons indépendants
219
Exemple : relaxation maximale des muscles de la vessie219
Interprétation des résultats d'un test t pour échantillons indépendants219
Hypothèses : test t pour échantillons indépendants222
L'hypothèse d'égalité des variances223
Chevauchement des barres d'erreur et test t224
Erreurs fréquentes : test t pour échantillons indépendants227
Comment ça marche : le test t pour échantillons indépendants228
Perspectives230
31. Comparaison de deux groupes appariés
231
Quand utiliser des tests spéciaux pour données appariées231
Exemple de test t par paires232
L'interprétation des résultats d'un test t par paires234
Le test t d'un rapport pour échantillons appariés237
Test de McNemar pour une étude cas-témoins appariés241
Tests apparentés242
32. Corrélation
243
Introduction au coefficient de corrélation243
IC du coefficient de corrélation245
Interprétation d'une P-valeur245
Corrélation et relation causale245
Hypothèse : corrélation246
R2247
Il faut prendre garde aux grands échantillons248
Comment ça marche : calcul du coefficient de corrélation249
Jargon : corrélation251
Partie G Ajustement de modèles aux données253
33. Régression linéaire simple
255
Les objectifs de la régression linéaire255
Les résultats de la régression linéaire256
Hypothèses : régression linéaire260
Comparaison de la régression linéaire et de la corrélation261
Jargon : régression linéaire262
Erreurs fréquentes : régression linéaire262
34. Introduction aux modèles
270
Jargon : modèles, paramètres et variables270
Le modèle le plus simple272
Le modèle de régression linéaire273
Pourquoi moindres carrés ?274
Autres modèles et autres types de régression274
35. Comparaison de modèles
276
La comparaison de modèles est une partie essentielle de la statistique276
La régression linéaire vue comme comparaison de modèles277
Le test t pour échantillons indépendants reconverti en comparaison de l'ajustement de deux modèles280
Erreur fréquente : comparaison de modèles283
36. Régression non linéaire
285
Ajustement d'un modèle285
Pondération287
Comment fonctionne la régression non linéaire288
Les résultats de la régression non linéaire288
Hypothèses : régression non linéaire290
Comparaison de deux modèles290
Erreurs fréquentes293
Trucs pour comprendre les modèles295
En apprendre plus sur la régression non linéaire295
37. Régression multiple, logistique et modèle des risques instantanés proportionnels
296
Objectifs de la régression multivariable296
Jargon297
Régression linéaire multiple299
Régression logistique305
Modèle des risques instantanés proportionnels308
Hypothèses310
Interactions entre variables indépendantes310
Observations corrélées311
Comment ça marche314
En apprendre plus à propos de la régression multiple314
38. Pièges de la régression multiple
315
Attention au sur-ajustement315
Attention à la multi-colinéarité317
Attention à la sur-interprétation de R2319
Attention à corrélation versus relation causale319
Les modèles de régression devraient être validés319
Partie H Le reste des statistiques321
39. Analyse de variance
323
La comparaison des moyennes de trois groupes ou plus323
Hypothèses : ANOVA à un facteur325
Comment ça marche : anova à un facteur325
ANOVA pour mesures répétées328
ANOVA à deux facteurs et au-delà330
40. Tests de comparaisons multiples post-ANOVA
331
Les tests de comparaisons multiples pour les données de l'exemple331
La logique des tests de comparaisons multiples334
Autres tests de comparaisons multiples337
Comment ça marche : tests de comparaisons mutliples339
Comparaisons multiples individuelles341
41. Méthodes non paramétriques
344
Tests non paramétriques basés sur les rangs344
Les avantages et désavantages des tests non paramétriques347
Ne pas automatiser la décision relative au choix d'un test non paramétrique348
Choisir entre tests paramétriques et non paramétriques : cela a-t-il de l'importance ?349
Tests non paramétriques qui analysent les valeurs (pas les rangs)352
42. Sensibilité, spécificité et courbes ROC (receiver-operatercharacteristic)
354
Définition de sensibilité et spécificité354
La valeur prédictive d'un test355
Courbes receiver-operator characteristic (ROC)358
Bayes revisité358
Bayes, liaison génétique et scores du log des « chances » (LOD)360
43. Taille d'échantillon
363
Trois approches pour choisir la taille d'échantillon363
Taille d'échantillon et IC'S364
Taille d'échantillon et test d'hypothèse statistique366
Règles empiriques pour la taille d'échantillon369
Partie I Assemblage375
44. Conseils statistiques
377
Ne pas oublier l'essentiel377
Interpréter de façon judicieuse les P-valeurs379
Attention aux comparaisons multiples380
Réfléchir aux données380
Attention aux variables manquantes382
Se focaliser sur les IC's384
Être sceptique384
45. Choix du test statistique
387
Issue : variable continue provenant d'une distribution gaussienne387
Issue : donnée continue provenant d'une distribution non-gaussienne388
Issue : temps de survie (ou temps jusqu'à l'apparition d'un événement)388
Issue : variable binomiale389
46. Exemple de synthèse
390
Le cas des huit CI50's toutes nues390
Regarder au-delà des données392
Signification statistique par tricherie393
L'utilisation d'un test t qui ne suppose pas l'égalité des ET's394
Test t pour échantillons indépendants sous forme de régression linéaire ou non linéaire395
Test non paramétrique de Mann-Whitney396
Rapporter seulement la dernière expérience de confirmation ?397
Augmenter la taille de l'échantillon ?397
Comparaison des logarithmes des valeurs de CI50398
Calculs de taille d'échantillon revisités400
Est-ce ok de changer de méthode d'analyse ?401
L'utilité des simulations401
Résumé global du problème404
47. Exercices de révision
406
A. Problèmes sur les IC des proportions, les courbes de survie et les dénombrements406
B. Problèmes relatifs aux ET's, ESM, IC's et distributions log-normales408
C. Problèmes relatifs aux P-valeurs et à la signification statistique409
D. Problèmes relatifs à la taille d'échantillon et à la puissance413
E. Problèmes relatifs à la corrélation et à la régression414
48. Réponses aux exercices de révision
418
A. Problèmes sur les IC des proportions, les courbes de survie et les dénombrements418
B. Problèmes relatifs aux ET's, ESM, IC's et distributions log-normales424
C. Problèmes relatifs aux P-Valeurs et à la signification statistique430
D. Problèmes relatifs à la taille d'échantillon et à la puissance438
E. Problèmes relatifs à la corrélation et à la régression441
Appendices449
A. Statistiques avec GraphPad
451
GraphPad prism, qu'est-ce que c'est ?451
Ce que vous devez savoir avant d'utiliser GraphPad Prism452
À propos du logiciel GraphPad453
B. Statistiques avec Excel
456
Utiliser excel pour les calculs statistiques : le pour et le contre456
Ce que vous devez savoir avant d'utiliser excel pour l'analyse statistique457
C. Statistiques avec R
458
Qu'est-ce que R ?458
Ce que vous devez savoir avant d'utiliser R458
D. Valeurs de la distribution t nécessaires pour calculer les IC's
460
E. Une révision des logarithmes
462
Logarithmes communs (base 10)462
Notation463
Les logarithmes convertissent la multiplication en addition463
Antilogarithmes463
Bibliographie465
Index473