Bio-informatique moléculaire
Une approche algorithmique
Delphine Hachez
Pavel A. Pevzner
Springer
Préfacev
1 Recherche en génétique1
1.1 Introduction1
1.2 Cartographie génétique1
1.3 Cartographie physique5
1.4 Séquençage8
1.5 Recherche de similitudes10
1.6 Prédiction génétique12
1.7 Analyse de mutations14
1.8 Comparaison génomique14
1.9 Protéomique17
2 Cartographie de restriction21
2.1 Introduction21
2.2 Problème de la double digestion24
2.3 Solutions multiples au problème de la double digestion24
2.4 Cycles alternés dans les graphes coloriés27
2.5 Transformations de cycles eulériens alternés29
2.6 Cartes physiques et cycles eulériens alternés32
2.7 Problème de la digestion partielle35
2.8 Ensembles homométriques37
2.9 Quelques autres problèmes et approches39
2.9.1 Cartographie optique39
2.9.2 Cartographie de la digestion partielle sondée40
3 Assemblage de cartes41
3.1 Introduction41
3.2 Cartographie avec sondes non uniques46
3.3 Cartographie avec sondes uniques50
3.4 Graphes d'intervalles51
3.5 Cartographie avec empreintes de fragments de restriction54
3.6 Quelques autres problèmes et approches56
3.6.1 Statistique de Lander-Waterman56
3.6.2 Criblage de banques de clones57
3.6.3 Cartographie par hybrides d'irradiation57
4 Séquençage59
4.1 Introduction59
4.2 Chevauchement, agencement et consensus61
4.3 Shotgun avec séquençage des deux extrémités d'un même insert63
4.4 Quelques autres problèmes et approches64
4.4.1 Problème de la plus courte super-chaîne64
4.4.2 Phase d'achèvement du séquençage d'ADN64
5 Puces à ADN67
5.1 Introduction67
5.2 Séquençage par hybridation69
5.3 SBH et problème de la plus courte super-chaîne70
5.4 SBH et problème du chemin eulérien73
5.5 Probabilité d'une reconstruction de séquence unique76
5.6 Réarrangements de chaînes78
5.7 Cycles eulériens 2-optimaux82
5.8 Séquençage positionnel par hybridation84
5.9 Construction de puces à ADN85
5.10 Puissance de résolution des puces à ADN87
5.11 Puces multisondes contre puces uniformes88
5.12 Fabrication de puces à ADN90
5.13 Quelques autres problèmes et approches93
5.13.1 SBH avec des bases universelles93
5.13.2 SBH adaptatif93
5.13.3 Séquençage shotgun de style SBH94
5.13.4 Sondes de fidélité pour les puces à ADN94
6 Comparaison de séquences95
6.1 Introduction95
6.2 Problème du plus long sous-mot commun97
6.3 Alignement de séquences100
6.4 Alignement de séquences local100
6.5 Alignement avec pénalité de brèche102
6.6 Alignement de séquences efficace en espace103
6.7 Tableaux de Young104
6.8 Longueur moyenne des plus longues sous-séquences communes108
6.9 Alignement de séquences généralisé et dualité111
6.10 Approche primale-duale de la comparaison de séquences114
6.11 Alignement de séquences et programmation en nombres entiers116
6.12 Appariement de chaînes approximatif116
6.13 Recherche d'une séquence dans une base de données118
6.14 Filtrage multiple119
6.15 Quelques autres problèmes et approches121
6.15.1 Alignement de séquences paramétrique121
6.15.2 Statistiques d'alignement et transition de phase122
6.15.3 Alignement de séquences sous-optimal122
6.15.4 Alignement avec duplications en tandem123
6.15.5 Résultats de la recherche dans des bases de données passées au crible123
6.15.6 Distance statistique entre des textes123
6.15.7 Repliement de l'ARN124
7 Alignement multiple125
7.1 Introduction125
7.2 Score d'un alignement multiple127
7.3 Assemblage d'alignements par paires128
7.4 Algorithme d'approximation pour des alignements multiples129
7.5 Assemblage de l-alignements130
7.6 Matrices de points et reconstruction d'images132
7.7 Alignement multiple via la multiplication de matrices de points133
7.8 Quelques autres problèmes et approches134
7.8.1 Alignement multiple par arbres évolutifs134
7.8.2 Coupure des coins dans les graphes d'édition135
8 Trouver des signaux dans l'ADN137
8.1 Introduction137
8.2 Edgar Allan Poe et la linguistique de l'ADN139
8.3 Meilleur pari pour les naïfs141
8.4 Équation de Conway142
8.5 Mots fréquents dans l'ADN145
8.6 Analyse des mots consensus147
8.7 Îlots CG et le « casino équitable »148
8.8 Modèles de Markov cachés149
8.9 Le casino d'Elkhorn et l'estimation des paramètres HMM151
8.10 Alignement de profils HMM152
8.11 Échantillonnage de Gibbs154
8.12 Quelques autres problèmes et approches155
8.12.1 Trouver des signaux avec trous155
8.12.2 Trouver des signaux dans des échantillons avec des fréquences truquées155
8.12.3 Choix de l'alphabet dans la découverte de signaux156
9 Prédiction génétique157
9.1 Introduction157
9.2 Approche statistique pour la prédiction génétique159
9.3 Approche fondée sur la similitude pour la prédiction génétique161
9.4 Alignement épissé162
9.5 Découverte de gènes inversée et localisation d'exons dans l'ADNc171
9.6 Le jeu des vingt questions avec les gènes173
9.7 Épissage alternatif et cancer174
9.8 Quelques autres problèmes et approches177
9.8.1 Modèles de Markov cachés pour la prédiction génétique177
9.8.2 Prédiction génétique bactérienne177
10 Réarrangements génomiques179
10.1 Introduction179
10.2 Le graphe des points de rupture191
10.3 Permutations « difficiles à trier »192
10.4 Espérance de la distance d'inversion194
10.5 Permutations signées196
10.6 Graphes de chevauchements et obstacles197
10.7 Transformations équivalentes de permutations200
10.8 Recherche d'inversions solides205
10.9 Franchissement des obstacles209
10.10 Théorème de dualité pour la distance d'inversion214
10.11 Algorithme de tri par inversions218
10.12 Transformation d'hommes en souris219
10.13 Coiffage de chromosomes224
10.14 Coiffes et queues226
10.15 Théorème de dualité pour la distance génomique229
10.16 Duplications génomiques230
10.17 Quelques autres problèmes et approches234
10.17.1 Réarrangements génomiques et études phylogénétiques234
10.17.2 Algorithme rapide pour le tri par inversions234
11 Protéomique informatique235
11.1 Introduction235
11.2 Le problème du séquençage peptidique237
11.3 Graphes spectraux238
11.4 Apprentissage d'ion-types242
11.5 Score des chemins dans les graphes spectraux244
11.6 Chemins anti-symétriques et séquençage peptidique246
11.7 Le problème de l'identification peptidique247
11.8 Circonvolution spectrale247
11.9 Alignement spectral249
11.10 Alignement de peptides contre des spectres252
11.11 Quelques autres problèmes et approches254
11.11.1 De la protéomique à la génomique254
11.11.2 Analyse protéique à grande échelle254
12 Problèmes255
12.1 Introduction255
12.2 Cartographie de restriction255
12.3 Assemblage de cartes258
12.4 Séquençage260
12.5 Puces à ADN261
12.6 Comparaison de séquences263
12.7 Alignement multiple268
12.8 Trouver des signaux dans l'ADN269
12.9 Prédiction génétique270
12.10 Réarrangements génomiques271
12.11 Protéomique informatique274
Annexe : introduction à la biologie moléculaire277
Bibliographie281
Index309