• Aide
  • Eurêkoi Eurêkoi

Livre

Traitement automatique du contenu textuel

Résumé

Une présentation des travaux récents en matière de traitement automatique des langues. Les applications mettent en oeuvre des techniques d'analyse originales décrites ou évaluées sur des données réelles. L'étude permet une réflexion sur la plasticité de la langue et la variété des productions linguistiques.


  • Contributeur(s)
  • Éditeur(s)
  • Date
    • impr. 2011
  • Notes
    • Glossaire. Bibliogr. Index
  • Langues
    • Français
  • Description matérielle
    • 1 vol. (222 p.) ; 24 cm
  • Collections
  • Sujet(s)
  • ISBN
    • 978-2-7462-3191-7
  • Indice
    • 803.5 Linguistique et informatique
  • Quatrième de couverture
    • L'abondance de textes sur support électronique crée de nouveaux besoins en matière d'analyse de l'information. Les enjeux concernent désormais la capacité des systèmes à aborder le contenu même des textes, c'est-à-dire le niveau sémantique au-delà des simples mots-clés.

      Cet ouvrage présente des travaux récents en matière de traitement automatique des langues. Des applications variées exigeant une compréhension minimale du texte sont étudiées (annotation sémantique, extraction d'information, modélisation de textes techniques, résumé automatique multi-documents). Elles mettent en oeuvre des techniques d'analyse originales qui sont décrites et évaluées sur des données réelles. Cet examen permet une réflexion sur la plasticité de la langue, l'infinie variété des productions linguistiques et les difficultés qui en résultent.


  • Tables des matières
      • Traitement automatique du contenu textuel

      • Thierry Poibeau

      • hermes Science

      • Lavoisier

      • Introduction13
      • I.1. La compréhension automatique de texte14
      • I.2. La quête du sens16
      • I.3. Du corpus au modèle18
      • I.4. Vers une sémantique applicative et automatique19
      • I.5. Contenu de l'ouvrage21
      • Chapitre 1. Une linguistique fondée sur l'usage23
      • 1.1. Une linguistique sans théorie ?23
      • 1.2. Le sens, c'est l'usage ! La grammaire du sens selon Wittgenstein26
      • 1.3. Héritage philosophique et tradition linguistique anglo-saxonne31
      • 1.3.1. Firth et la notion de collocation32
      • 1.3.2. Le CLRU et la notion de primitive sémantique34
      • 1.3.3. Harris et les sous-langages36
      • 1.3.4. Remarque sur les méthodes probabilistes en linguistique38
      • 1.4. Retour à l'analyse linguistique40
      • 1.4.1. La question de la référence41
      • 1.4.2. Eléments pour l'analyse43
      • 1.4.2.1. Le texte comme point de départ et point d'arrivée43
      • 1.4.2.2. L'interprétation pour donner du sens44
      • 1.4.2.3. Le corpus, représentatif d'une pratique45
      • 1.4.2.4. Les connaissances sur le monde, pour dépasser les limites du corpus45
      • 1.4.2.5. Les différents paliers d'analyse47
      • 1.5. Limites des réalisations applicatives48
      • 1.5.1. Questionner les modèles48
      • 1.5.2. Reconsidérer les catégories traditionnelles49
      • Chapitre 2. L'annotation sémantique53
      • 2.1. Des atomes de sens ?53
      • 2.1.1. Une normalisation nécessaire pour la compréhension automatique54
      • 2.1.2. L'annotation sémantique et le web55
      • 2.2. Les entités nommées comme éléments atomiques de sens57
      • 2.2.1. La notion d'entité nommée58
      • 2.2.2. Systèmes de repérage et de catégorisation des entités nommées61
      • 2.2.2.1. Hiérarchies de types d'entités61
      • 2.2.2.2. Repérage et classification des entités nommées63
      • 2.3. TagEN, un système de repérage des entités nommées64
      • 2.3.1. Principes généraux64
      • 2.3.1.1. Aspects logiciels64
      • 2.3.1.2. Ressources65
      • 2.3.1.3. Augmentation de la couverture par acquisition à partir de corpus68
      • 2.3.2. Evaluation et participation à des campagnes d'évaluation68
      • 2.3.3. Modules multilingues70
      • 2.3.4. Désambiguïsation des entités71
      • 2.4. Difficultés et limites de la catégorisation72
      • 2.4.1. Instabilité référentielle des entités nommées en contexte72
      • 2.4.2. Entités et contenu sémantique74
      • 2.4.3. Analyse automatique de la métonymie75
      • 2.4.3.1. Description de la tâche75
      • 2.4.3.2. Corpus disponibles76
      • 2.4.3.3. Système développé et performances77
      • 2.4.4. Commentaires sur les expériences80
      • 2.5. Perspectives81
      • Chapitre 3. Rôles sémantiques et relations entre entités83
      • 3.1. Sur la notion de prédicat84
      • 3.1.1. Considérations générales84
      • 3.1.2. Stratégie d'acquisition automatique à partir de corpus86
      • 3.2. Acquisition de schémas de sous-catégorisation87
      • 3.2.1. Etat de l'art87
      • 3.2.2. La sous-catégorisation, une notion floue90
      • 3.2.3. Acquisition automatique de schémas de sous-catégorisation : le système ASSCi93
      • 3.2.3.1. Architecture générale d'ASSCi93
      • 3.2.3.2. Prétraitements94
      • 3.2.3.3. Extracteur de pré-schémas de sous-catégorisation locaux98
      • 3.2.3.4. Constructeur de schémas de sous-catégorisation candidats99
      • 3.2.3.5. Filtre des schémas non pertinents100
      • 3.2.4. Expérience : acquisition de LEXSCHEM102
      • 3.2.4.1. Le corpus LM10102
      • 3.2.4.2. LEXSCHEM103
      • 3.2.5. Evaluation105
      • 3.2.5.1. Evaluation quantitative : comparaison avec d'autres ressources105
      • 3.2.5.2. Application à un nouveau corpus : analyse du corpus EUROPARL110
      • 3.2.5.3. Typologie des erreurs du système ASSCi111
      • 3.3. Acquisition semi-automatique de familles sémantiques113
      • 3.3.1. Acquisition automatique de classes sémantiques par apprentissage symbolique interactif113
      • 3.3.2. Utilisation d'une ressource linguistique générale : le réseau sémantique de MEMODATA115
      • 3.3.3. Evaluation et comparaison des deux approches116
      • 3.3.4. Définition d'une méthode hybride117
      • 3.4. Discussion et perspectives118
      • Chapitre 4. Modélisation des connaissances pour l'analyse textuelle121
      • 4.1. Analyse et typologies de documents procéduraux122
      • 4.1.1. Modélisation d'un genre de textes particulier : les Guides de bonnes pratiques123
      • 4.1.1.1. La notion d'architecture textuelle124
      • 4.1.1.2. Présentation du corpus125
      • 4.1.1.3. La segmentation des guides, un problème de portée126
      • 4.1.1.4. Stratégie d'analyse129
      • 4.1.1.5. Architecture et implémentation131
      • 4.1.1.6. Evaluation131
      • 4.1.2. Extension de l'analyse à d'autres types de textes134
      • 4.1.2.1. Qu'est-ce qu'un texte ?134
      • 4.1.2.2. Traitements automatiques et genres textuels136
      • 4.1.2.3. Elargir l'étude à d'autres types de textes procéduraux138
      • 4.1.3. Repérage de séquences procédurales au-delà des GBP140
      • 4.1.3.1. Genre, type et fonction discursive142
      • 4.1.3.2. Etude manuelle du corpus : variations sur la procéduralité143
      • 4.1.3.3. Discussion et perspectives : vers un repérage automatique ?144
      • 4.2. Analyse textuelle pour le résumé automatique145
      • 4.2.1. Travaux antérieurs146
      • 4.2.2. Concevoir un système de résumé générique149
      • 4.2.2.1. Préparation des documents150
      • 4.2.2.2. Représentation des phrases151
      • 4.2.2.3. Calculs des similarités entre phrases151
      • 4.2.2.4. Classification des phrases en classes sémantiques152
      • 4.2.2.5. Sélection des phrases153
      • 4.2.2.6. Ordonnancement des phrases dans résumé154
      • 4.2.3. Mises en oeuvre applicatives154
      • 4.2.3.1. Visualisation de fonds documentaires154
      • 4.2.3.2. Résumé de « mise à jour »156
      • 4.2.3.3. Résumé d'opinion162
      • 4.3. Discussion et perspectives170
      • Chapitre 5. Conclusion173
      • 5.1. Bilan des réalisations173
      • 5.2. Les « sortilèges du langage »175
      • 5.3. Perspectives : le linguiste, l'ingénieur et l'alchimiste176
      • 5.3.1. Des améliorations possibles à court terme176
      • 5.3.1.1. Améliorer les techniques d'acquisition de ressources177
      • 5.3.1.2. Adapter dynamiquement les stratégies d'analyse177
      • 5.3.1.3. Redonner la main à l'utilisateur178
      • 5.3.2. Une réflexion à mener sur le long terme179
      • 5.3.2.1. Mieux prendre en compte la dimension interprétative179
      • 5.3.2.2. Mieux connaître les processus cognitifs impliqués180
      • Remerciements183
      • Annexe185
      • Glossaire189
      • Bibliographie193
      • Index217
      • Index des noms propres219

  • Origine de la notice:
    • FR-751131015 ;
    • Electre
  • Disponible - 803.5 POI

    Niveau 3 - Langues et littératures