Apprentissage connexionniste
Lavoisier
Avant-propos
17
Younès Bennani
Chapitre 1. Séparateurs connexionnistes linéaires : Perceptron et Adaline
21
Younès Bennani
1.1. Source historique et principe21
1.2. Structure générale des réseaux connexionnistes22
1.2.1. Composant de base : le neurone formel22
1.2.2. Réseau connexionniste24
1.2.3. Architectures et connexions25
1.3. Le Perceptron26
1.3.1. Présentation26
1.3.2. L'algorithme d'apprentissage du Perceptron27
1.3.2.1. Fonction de coût28
1.3.2.2. Algorithme d'apprentissage biclasses29
1.3.2.3. Exemple biclasses31
1.3.2.4. Algorithme d'apprentissage multiclasses32
1.3.3. Convergence33
1.3.4. Analyse du Perceptron35
1.4. ADAptive LINear Element : Adaline36
1.4.1. Présentation36
1.4.2. Fonction de coût37
1.4.3. Algorithme d'apprentissage38
1.4.4. Madaline40
1.4.5. Analyse du modèle42
1.5. Avantages et limites de la séparation linéaire42
1.6. Bibliographie44
Chapitre 2. Perceptron multicouche
47
Fouad Badran, Mustapha Lebbah et Sylvie Thiria
2.1. Introduction47
2.2. Les Perceptrons multicouches48
2.2.1. Définitions48
2.2.2. Apprentissage51
2.3. La fonction erreur quadratique moyenne des moindres carrés55
2.3.1. Présentation générale55
2.4. Perceptron multicouche et discrimination58
2.5. Perceptron et régression non linéaire60
2.5.1. Formulation probabiliste60
2.5.2. Cas où Y = x suite une loi normale63
2.5.2.1. Détermination des paramètres de la loi normale Y = x65
2.5.2.2. L'algorithme67
2.6. Perceptron et modèle Inverse67
2.6.1. Position du problème67
2.6.2. Détermination de la loi conditionnelle de X = y69
2.6.2.1. Modèle de mélanges69
2.6.2.2. Approximation par histogramme72
2.6.3. Une formulation probabiliste de l'inversion73
2.6.3.1. Inversion par modèle direct local (inversion variationnelle)74
2.6.3.2. Inversion par modèle inverse local76
2.6.3.3. Choix de p(X) et de la solution initiale77
2.6.3.4. Prise en compte du voisinage dans le cadre
du problème inverse local78
2.7. Conclusion80
2.8. Bibliographie80
Chapitre 3. Les réseaux récurrents
83
Alexandre Aussem
3.1. Introduction83
3.2. L'apprentissage des trajectoires85
3.3. Une représentation d'état86
3.4. L'apprentissage des points fixes87
3.5. Un modèle pour l'apprentissage des points fixes et des trajectoires87
3.6. Quels sont les modèles inclus dans le formalisme DRNN ?88
3.7. La relaxation : comment faire ?89
3.8. Quel choix pour la fonction d'activation ?89
3.9. Quel choix pour la fonction coût ?90
3.10. Existence, unicité et stabilité du point fixe90
3.11. Notations et rappels92
3.12. Calcul du gradient93
3.13. La propagation en avant (FP)95
3.14. La rétroprogation dans le temps (BPTT)96
3.15. Le gradient est-il toujours défini ?99
3.16. Quelques alternatives à la descente du gradient100
3.17. Conclusion101
3.18. Bibliographie101
Chapitre 4. Réseaux à fonctions de base radiales
105
Emmanuel Viennet
4.1. Présentation105
4.2. Le problème d'approximation107
4.3. Apprentissage des modèles RBF108
4.3.1. Approche séquentielle109
4.3.1.1. Calcul des poids109
4.3.1.2. Estimation non supervisée des centres et des largeurs110
4.3.2. Apprentissage par descente de gradient112
4.3.3. Modèles hybrides MLP-RBF114
4.3.4. Autres approches114
4.3.4.1. Méthode EM115
4.3.4.2. Machines à vecteurs support (SVM)116
4.4. Conclusion120
4.5. Bibliographie121
Chapitre 5. Réseaux à dictionnaires : learning vector quantization
123
Younès Bennani
5.1. Source historique et principe123
5.2. Description124
5.2.1. LVQ dans un formalisme connexionniste124
5.2.2. LVQ 1126
5.2.3. LVQ 2127
5.2.4. L'algorithme général d'apprentissage127
5.3. LVQ 2 : une extension de LVQ132
5.3.1. Principe132
5.3.2. Algorithme d'apprentissage133
5.4. Analyse et évaluation134
5.4.1. Analyse134
5.4.2. Evaluation expérimentale136
5.5. Bibliographie138
Chapitre 6. Cartes auto-organisatrices de Kohonen
141
Marie Cottrell, Smaïi Ibbou, Patrick Letrémy, Patrick Rousset
6.1. Introduction141
6.2. Quantification vectorielle et classification143
6.2.1. Qualité d'une quantification vectorielle144
6.2.2. Qualité d'une classification145
6.2.3. Algorithme de Forgy145
6.2.4. Algorithme d'apprentissage compétitif simple145
6.3. Algorithme de Kohonen146
6.3.1. Principe de l'algorithme de Kohonen147
6.3.2. Notations et définitions148
6.4. Classes et superclasses, étude des classes. KACP150
6.4.1. Représentations graphiques151
6.4.1.1. Relation entre l'analyse en composantes principales
et les cartes de Kohonen151
6.4.1.2. Exemples et applications151
6.4.2. Distances entre les classes : superclasses153
6.4.3. Typologie154
6.5. Données manquantes154
6.6. Algorithme Batch associé155
6.7. Diverses initialisations157
6.8. Croisement avec des variables qualitatives160
6.9. Analyse des relations entre variables qualitatives162
6.9.1. Les données et les notations164
6.9.1.1. Tableau disjonctif complet164
6.9.1.2. Tableau de contingence164
6.9.1.3. Table de Burt164
6.9.2. Traitement des données165
6.10. L'algorithme Korresp165
6.11. L'algorithme Kacm168
6.11.1. Algorithme Kacm 2171
6.11.2. Algorithme Kacm 1171
6.12. L'algorithme Kdisj172
6.13. Comparaison des cartes ainsi obtenues175
6.14. Conclusion178
6.15. Bibliographie179
Chapitre 7. Cartes auto-organisatrices temporelles
185
Farida Zehraoui et Françoise Fessant
7.1. Introduction185
7.2. Les cartes topologiques à mémoire externe187
7.2.1. Modèles sans modification de l'algorithme d'apprentissage de SOM187
7.2.1.1. Version temporelle de SOM avec délai exponentiel pondéré188
7.2.1.2. Version temporelle de SOM188
7.2.1.3. Modélisation par vecteurs propres (VectSOM)189
7.2.2. Modèles avec modification de l'algorithme
d'apprentissage de SOM190
7.2.2.1. Architecture Hypermap191
7.2.2.2. Carte auto-organisatrice d'unités autorégressives191
7.2.2.3. SOM avec une distorsion temporelle dynamique192
7.2.2.4. Cartes temporelles utilisant les matrices de covariance193
7.2.3. Comparaison des modèles de SOM à traitement externe du temps197
7.3. Les cartes topologiques à mémoire interne198
7.3.1. Structure générale de la dynamique des cartes auto-organisatrices
pour le traitement de séquences (GSOMSD General SOM
for Structured Data)198
7.3.2. Modèles à contexte implicite199
7.3.2.1. Carte temporelle de Kohonen200
7.3.2.2. Carte auto-organisatrice récurrente (RSOM)202
7.3.2.3. Comparaison de RSOM et TKM204
7.3.3. Cartes à contexte explicite205
7.3.3.1. La carte RecSOM : Recursive SOM205
7.3.3.2. La carte SOMSD : SOM for Structured Data207
7.3.3.3. La carte MSOM : Merge SOM208
7.3.3.4. Comparaison des modèles : RecSOM, SOMSD et MSOM209
7.3.4. Modèles utilisant un contexte avec propagation
de l'information temporelle210
7.3.4.1. Carte temporelle pour la reconnaissance des formes210
7.3.4.2. La carte TOM212
7.3.4.3. Comparaison de SOTPAR et TOM215
7.4. Conclusion215
7.5. Bibliographie216
Chapitre 8. Théorie de la résonance adaptative
(Adaptive Resonance Theory)
219
Farida Zehraoui
8.1. Introduction219
8.2. Les réseaux ART non supervisés221
8.2.1. Le modèle ART1221
8.2.1.1. Les composants du système et son fonctionnement général222
8.2.1.2. Module d'attention (MA)222
8.2.1.3. Module d'orientation (MO)224
8.2.1.4. Le seuil de vigilance Rhô225
8.2.1.5. Le contexte225
8.2.1.6. Apprentissage de ART1225
8.2.2. Le modèle Fuzzy ART226
8.2.2.1. Condition de résonance227
8.2.3. Le modèle SART228
8.2.4. Le modèle Fuzzy SART229
8.2.4.1. Initialisation229
8.2.4.2. Fonction d'activation229
8.2.4.3. Sélection du neurone gagnant230
8.2.4.4. Détection du domaine de résonance230
8.2.4.5. Condition de résonance : mise à jour des poids231
8.2.4.6. Contrôle de terminaison d'époque231
8.3. Les réseaux ART supervisés232
8.3.1. Le modèle ARTMAP232
8.3.1.1. Architecture du système ARTMAP233
8.3.2. Le modèle Fuzzy ARTMAP233
8.3.3. Le modèle Supervised ART2235
8.3.3.1 Phase d'apprentissage236
8.4. ART et traitement de séquences238
8.4.1. Le modèle Time-Delay ART238
8.4.2. Le modèle Fuzzy ARTTSP241
8.4.3. Le modèle M-SOM-ART243
8.4.3.1. Apprentissage de M-SOM-ART244
8.5. Réseaux ART et apprentissage en ligne245
8.6. Bibliographie247
Chapitre 9. Techniques d'élagage et sélection de variables
249
Meziane Yacoub
9.1. Introduction249
9.2. Processus de sélection de variables250
9.2.1. Critères d'évaluation250
9.2.2. Techniques de recherche251
9.2.3. Critère d'arrêt251
9.3. Approche neuronale pour la sélection de variables252
9.3.1. Algorithme général de sélection de variables252
9.3.2. Techniques d'élagage des connexions253
9.3.3. Les principales méthodes de sélection de variables255
9.3.3.1. Remarques générales256
9.3.3.2. Les méthodes du second ordre257
9.3.3.3. Les méthodes du premier ordre258
9.3.3.4. Les méthodes d'ordre zéro261
9.4. Description détaillée de la méthode HVS261
9.4.1. La mesure HVS261
9.4.1.1. Interprétation de la mesure HVS262
9.4.2. Capacités à estimer l'importance des variables263
9.4.2.1. Détection de Pertinence263
9.4.2.2. Quantification de Pertinence265
9.4.3. HVS pour la sélection de variables267
9.5. Exemple : la série des taches solaires267
9.5.1. Le problème sunspot268
9.5.2. Mesure de qualité269
9.5.3. Dimension intrinsèque de la série chronologique269
9.5.4. Phase d'apprentissage270
9.5.5. Phase de sélection de variable : détermination des délais270
9.5.6. Ajustement d'architecture272
9.6. Conclusion275
9.7. Bibliographie275
Chapitre 10. Estimation et contrôle des performances en généralisation
des réseaux de neurones
279
Yann Guermeur et Olivier Teytaud
10.1. Introduction279
10.2. Position du problème280
10.2.1. Discrimination281
10.2.2. Régression283
10.2.3. Estimation de densité284
10.3. Les théories statistiques285
10.3.1. Les outils statistiques de base285
10.3.1.1. Convergences statistiques285
10.3.1.2. Ecart entre une moyenne et une espérance287
10.3.1.3. Processus gaussiens292
10.3.1.4. Divers292
10.3.2. Mesures de capacité295
10.3.3. Bornes sur les mesures de capacité301
10.3.4. Résultats asymptotiques312
10.3.4.1. Classes de Glivenko-Cantelli312
10.3.4.2. Classes de Donsker314
10.3.4.3. Le Bootstrap316
10.4. Les paradigmes318
10.4.1. Minimisation empirique du risque318
10.4.2. Minimisation empirique du risque corrigée327
10.4.2.1. Consistance universelle par minimisation incrémentale
du risque empirique327
10.4.2.2. Mauvaise approximation en dimension VC finie328
10.4.2.3. Améliorer les résultats en ajoutant
des hypothèses sur la distribution329
10.4.3. Minimisation structurelle du risque331
10.5. Extensions332
10.5.1. Les variables de Rademacher et leurs applications333
10.5.2. Les conditions de Massart et Tsybakov333
10.6. Conclusions et perspectives334
10.7. Bibliographie335
Chapitre 11. Outils de simulation des réseaux connexionnistes
343
Younès Bennani
Index
359