Traitement automatique des langues et linguistique informatique 1
Parole, morphologie et syntaxe
Mohamed Zakaria Kurdi
iSTE
Introduction9
Chapitre 1. La sphère des ressources linguistiques15
1.1. La notion de corpus15
1.2. Taxonomie des corpus18
1.2.1. Ecrits versus parlés18
1.2.2. Le point de vue historique19
1.2.3. La langue des corpus19
1.2.4. La représentativité thématique21
1.2.5. Tranches d'âge des locuteurs22
1.3. Qui collecte et distribue des corpus ?22
1.3.1. Le projet Gutenberg22
1.3.2. Le Linguistic Data Consortium (LDG)22
1.3.3. European Language Resource Agency (ELRA)23
1.3.4. Open Language Archives Community (OLAC)23
1.3.5. Divers23
1.4. Cycle de vie d'un corpus24
1.4.1. Analyse des besoins25
1.4.2. Conception de scénarii pour collecter le corpus25
1.4.3. Collecte du corpus26
1.4.4. Transcription29
1.4.5. Annotation du corpus31
1.4.6. Documentation du corpus35
1.4.7. Analyse statistique des données35
1.4.8. Usage des corpus dans le domaine de TAL36
1.5. Exemples de corpus existants36
1.5.1. American National Corpus (ANC)36
1.5.2. Oxford English Corpus (OEC)36
1.5.3. Le corpus de l'office de tourisme de Grenoble37
Chapitre 2. La sphère de la parole39
2.1. Etudes linguistiques de la parole39
2.1.1. La phonétique39
2.1.1.1. Phonétique articulatoire41
2.1.1.2. Phonétique acoustique45
2.1.1.3. Phonétique auditive50
2.1.1.4. Le système phonétique du français52
2.1.2. La phonologie59
2.1.2.1. Les notions de phonème et d'allophone59
2.1.2.2. Les traits distinctifs60
2.1.2.3. Les règles phonologiques61
2.1.2.4. La syllabe64
2.1.2.5. La phonologie autosegmentale66
2.1.2.6. La théorie de l'optimalité (TO)68
2.1.2.7. Prosodie et phonosyntaxe70
2.2. Traitement automatique de la parole72
2.2.1. Reconnaissance automatique de la parole73
2.2.1.1. Modèles acoustiques à base de HMM75
2.2.1.2. L'algorithme de Viterbi82
2.2.1.3. Modèles de langage à base de n-grammes86
2.2.2. Synthèse de la parole89
2.2.2.1. Le traitement avant90
2.2.2.2. La synthèse concatenative93
2.2.2.3. La synthèse par formants95
2.2.2.4. La synthèse articulatoire97
Chapitre 3. La sphère des mots99
3.1. Eléments de morphologie99
3.1.1. Typologie morphologique100
3.1.2. Morphologie du français101
3.1.2.1. Types de morphème en français101
3.1.2.2. Les allomorphes104
3.1.2.3. Opérations de combinaison des morphèmes104
3.1.2.4. L'abrègement106
3.1.3. Les parties du discours106
3.1.4. Les termes, collocations et colligations110
3.2. Analyse morphologique automatique et étiquetage en parties du discours111
3.2.1. La lemmatisation111
3.2.1.1. La variation du successeur112
3.2.1.2. L'algorithme de Porter113
3.2.1.3. Le groupement à base de n-grammes114
3.2.2. Les expressions régulières pour l'analyse morphologique115
3.2.3. Introduction informelle aux automates à états finis118
3.2.4. La morphologie à deux niveaux et TFE122
3.2.5. L'étiquetage en parties du discours (POS tagging)129
3.2.5.1. Approches statistiques132
3.2.5.2. Approche à base de transformations134
Chapitre 4. La sphère de la syntaxe137
4.1. Notions syntaxiques de base137
4.1.1. Délimitation du champ de la syntaxe137
4.1.2. La notion de grammaticalité138
4.1.3. Les constituants syntaxiques139
4.1.3.1. Les mots140
4.1.3.2. Les propositions142
4.1.3.3. Le syntagme142
4.1.3.4. Les chunks146
4.1.3.5. La construction148
4.1.3.6. La phrase148
4.1.4. Typologie syntaxique de la topologie et de l'accord149
4.1.5. L'ambiguïté syntaxique150
4.1.6. Spécificités syntaxique du langage oral spontané151
4.1.6.1. La topologie en français parlé152
4.1.6.2. L'accord en genre et en nombre152
4.1.6.3. Exemples de constructions syntaxiques et leurs spécificités à l'oral153
4.1.6.4. Les extragrammaticalités du langage oral155
4.2. Eléments de syntaxe formelle156
4.2.1. Arbres d'analyse et règles de réécriture156
4.2.2. Les langages et les grammaires formelles164
4.2.3. La hiérarchie des langages (Chomsky-Schützenberger)165
4.2.4. Structure de traits et unification174
4.2.5. La grammaire DCG181
4.3. Formalismes syntaxiques183
4.3.1. X-Barre183
4.3.2. La grammaire syntagmatique guidée par les têtes (HPSG)191
4.3.2.1. Principes fondamentaux191
4.3.2.2. Les ST192
4.3.2.3. Les règles morphologiques197
4.3.2.4. Les règles syntaxiques198
4.3.2.5. Les principes sémantiques200
4.3.2.6. Exemple d'analyse d'une phrase simple200
4.3.3. La grammaire d'arbres adjoints lexicalisés (LTAG)205
4.3.3.1. Principes fondamentaux205
4.3.3.2. Les unités de base206
4.3.3.3. Les opérations de composition des arbres208
4.3.3.4. La composition sémantique et l'opération d'unification210
4.4. L'analyse syntaxique automatique212
4.4.1. Les automates à états finis (AEF)214
4.4.2. Les réseaux de transition récursifs (RTR)214
4.4.3. Approche descendante (top-down)218
4.4.4. Approche ascendante (bottom-up)222
4.4.5. L'approche mixte : le coin gauche225
4.4.6. L'analyse tabulaire (chart)230
4.4.7. Analyse syntaxique probabiliste235
4.4.8. Les réseaux neuronaux243
4.4.9. Algorithmes d'analyse pour les grammaires à base d'unification247
4.4.10. Les approches pour l'analyse syntaxique robuste248
4.4.10.1. L'analyse partielle par segments (chunking)248
4.4.10.2. Les approches sélectives250
4.4.10.3. L'analyse syntaxique des extragrammaticalités du langage oral251
4.4.11. Les algorithmes de génération252
Bibliographie253
Index277