• Aide
  • Eurêkoi Eurêkoi

Livre

Extraction automatique d'information : du texte brut au Web sémantique

Résumé

Une synthèse des différentes approches de recherche dans le domaine de l'annotation sémantique de documents, de l'extraction d'information pertinente et de la création de bases de connaissances, qui se complète par la présentation du système SEMTEX : des perspectives sur le Web sémantique et l'ingénierie des connaissances.


  • Éditeur(s)
  • Date
    • 2003
  • Notes
    • Bibliogr. Glossaire. Index
  • Langues
    • Français
  • Description matérielle
    • 239 p. : ill. ; 24 cm
  • Sujet(s)
  • ISBN
    • 2-7462-0610-2
  • Indice
    • 803.5 Linguistique et informatique
  • Quatrième de couverture
    • Les entreprises et les particuliers sont confrontés à une masse d'information sans cesse croissante. Partant de ce constat, de nombreux systèmes ont été conçus pour filtrer, trier et catégoriser l'information. L'offre est en revanche beaucoup plus faible en ce qui concerne l'analyse du contenu. Extraction automatique d'information - du texte brut au web sémantique présente les progrès récents en extraction d'information et en compréhension de textes. Les recherches effectuées ces dernières années dans le domaine du traitement automatique des langues rendent en effet possible l'annotation sémantique de documents, l'extraction d'information pertinente et la création de bases de connaissances structurées à partir de textes en langage naturel.

      L'ouvrage rappelle les grands courants de recherche qui ont marqué le domaine de la compréhension automatique de textes par ordinateur. Il se poursuit par la présentation détaillée d'un système appelé SEMTEX, qui est appliqué à une grande variété de textes et de situations différentes. Les applications détaillées donnent des perspectives sur le web sémantique et l'ingénierie des connaissances.


  • Tables des matières
      • Extraction automatique d'information

      • Thierry Poibeau

      • hermes Science

      • Préface11
      • Introduction13
      • Chapitre 1. Des systèmes de compréhension de textes aux systèmes d'extraction d'information17
      • 1.1. Les systèmes génériques de compréhension de textes: une approche trop ambitieuse17
      • 1.1.1. Une approche ambitieuse de la compréhension18
      • 1.1.2. Les limites de cette approche20
      • 1.1.3. Des expériences instructives21
      • 1.2. L'extraction d'information pour une compréhension locale22
      • 1.2.1. Le renouveau des travaux en matière de compréhension de textes23
      • 1.2.2. De la compréhension à l'extraction d'information23
      • 1.2.3. Une approche guidée par le but25
      • 1.2.4. Une approche locale27
      • 1.3. Quelle généricité et quelle adaptabilité pour les systèmes d'extraction?30
      • 1.3.1. Des bases de patrons d'extraction très spécialisées30
      • 1.3.2. Une technologie mature mais trop coûteuse31
      • 1.3.3. L'émergence de modules réutilisables32
      • 1.3.4. Le renouveau du web sémantique34
      • Chapitre 2. Stratégies pour l'acquisition semi-automatique de ressources pour l'extraction35
      • 2.1. Un essai de classement des techniques d'apprentissage pour l'acquisition de ressources35
      • 2.2. Apprendre à partir de données annotées37
      • 2.2.1. L'approche de Riloff37
      • 2.2.2. D'autres expériences à base de corpus annotés38
      • 2.2.3. Se fonder sur une base d'exemples39
      • 2.2.4. Grandeur et décadence de l'annotation40
      • 2.3. Limiter le volume de données à annoter41
      • 2.3.1. Amorçage et coapprentissage41
      • 2.3.2. Apprentissage par l'exemple42
      • 2.3.3. Sélection automatique d'exemples à présenter au développeur (active learning)43
      • 2.3.4. Filtrage et repérage de portions de textes pertinentes44
      • 2.3.5. Expansion sémantique d'une base de patrons existants45
      • 2.4. Par-delà la diversité des expériences, des éléments communs47
      • 2.4.1. Un appauvrissement de la tâche partiellement compensé par de nouveaux cadres d'application48
      • 2.4.2. Vers un schéma opérationnel49
      • Chapitre 3. Vers une mise en oeuvre opérationnelle de l'extraction d'information51
      • 3.1. Différentes applications, différents besoins51
      • 3.1.1. Analyse d'un fonds documentaire de veille technologique52
      • 3.1.2. Analyse de bases de données textuelles en génomique53
      • 3.1.3. Analyse de courrier pour le support en ligne55
      • 3.1.4. Analyse d'un fil d'agence de presse56
      • 3.1.5. Synthèse sur les applications56
      • 3.2. Cadre des expériences menées57
      • 3.2.1. Corpus ayant servi de support aux expériences58
      • 3.2.2. Ressources et outils utilisés61
      • 3.2.2.1. Le système INTEX et la technologie à nombre fini d'états61
      • 3.2.2.2. Les dictionnaires électroniques63
      • 3.3. Techniques d'évaluation64
      • 3.3.1. Techniques d'évaluation objectives: des métriques pour l'évaluation64
      • 3.3.2. Techniques d'évaluation subjectives: mesurer l'ergonomie et l'utilisabilité des systèmes65
      • Chapitre 4. Semtex: architecture du système et cadre applicatif67
      • 4.1. Etude des besoins et de l'existant: diversité des contextes d'utilisation67
      • 4.1.1. Préanalyse des textes68
      • 4.1.2. La définition de la tâche: une étape difficile mais primordiale70
      • 4.1.2.1. La mise au point du formulaire d'extraction70
      • 4.1.2.2. Des modes de représentation plus complexes72
      • 4.1.3. Les contraintes d'utilisabilité: cerner les attentes et le rôle de l'utilisateur73
      • 4.1.3.1. Qui utilise le système?74
      • 4.1.3.2. Quelles sont les interactions entre l'utilisateur et le système?75
      • 4.1.3.3. Quels services le système doit-il fournir?77
      • 4.1.4. Disponibilité, élaboration et utilisation de corpus annotés78
      • 4.2. Cadre applicatif81
      • 4.2.1. Domaines et classes d'applications envisagés81
      • 4.2.2. Généricité et adaptabilité du système visé82
      • 4.3. Architecture du système82
      • Chapitre 5. Le repérage d'entités nommées: une approche à base de connaissances hybrides87
      • 5.1. Travaux antérieurs pour le repérage des entités nommées88
      • 5.1.1. Travaux menés dans le cadre des conférences MUC88
      • 5.1.2. Trois types de systèmes89
      • 5.1.3. Quelle technique pour quel niveau de performance?90
      • 5.1.4. Corpus abordés dans ce chapitre91
      • 5.2. L'apport des techniques d'apprentissage pour la reconnaissance des entités nommées92
      • 5.2.1. Limites des approches fondées sur des corpus annotés92
      • 5.2.2. Apport des techniques d'apprentissage sans corpus annoté en phase d'acquisition93
      • 5.3. Un module de repérage des entités nommées à base de grammaires locales96
      • 5.3.1. Description du module de reconnaissance des entités nommées96
      • 5.3.1.1. Principes de fonctionnement96
      • 5.3.1.2. Un exemple97
      • 5.3.1.3. Evaluation98
      • 5.3.2. Limites des bases de règles face à la diversité des corpus99
      • 5.3.2.1. Expériences sur des corpus non journalistiques99
      • 5.3.2.2. Constat initial: une chute de performances importante100
      • 5.3.2.3. Une grammaire faite de variantes102
      • 5.4. Vers des systèmes adaptables102
      • 5.4.1. Composants du système de reconnaissance des entités nommées103
      • 5.4.1.1. Les dictionnaires103
      • 5.4.1.2. La grammaire105
      • 5.4.1.3. Les processus d'apprentissage106
      • 5.4.1.4. Les mécanismes de révision107
      • 5.4.2. "Déconstruire" un système de reconnaissance des entités nommées109
      • 5.4.2.1. Les dictionnaires de noms propres109
      • 5.4.2.2. La grammaire111
      • 5.4.2.3. Inférence et généralisation112
      • 5.4.2.4. Capacités de révision113
      • 5.4.3. Analyse des erreurs restantes113
      • 5.4.4. Prédire l'apport de l'apprentissage114
      • Chapitre 6. La mise en relation des entités117
      • 6.1. Cadre de l'expérience117
      • 6.1.1. Annotation des entités117
      • 6.1.2. Définition du formulaire d'extraction119
      • 6.2. Elaboration manuelle de classes sémantiques et de grammaires d'extraction121
      • 6.3. Bilan et performances du système élaboré manuellement126
      • Chapitre 7. Acquisition semi-automatique de classes sémantiques127
      • 7.1. Acquisition de classes sémantiques: ressources générales versus ressources spécifiques128
      • 7.2. Acquisition automatique de familles sémantiques par apprentissage symbolique interactif131
      • 7.2.1. Le système d'apprentissage ASIUM132
      • 7.2.2. Apprentissage supervisé ou non supervisé?135
      • 7.2.3. Critères pour l'élaboration des classes136
      • 7.2.4. Mesurer l'apport de l'apprentissage pour l'acquisition de ressources137
      • 7.3. Utilisation d'une ressource linguistique générale: le réseau sémantique de Memodata139
      • 7.3.1. Le réseau sémantique: le Dictionnaire Intégral et les outils associés139
      • 7.3.2. Critères pour l'élaboration des classes142
      • 7.3.3. Mesurer l'apport de ressources générales pour l'acquisition de classes sémantiques143
      • 7.4. Bilan145
      • 7.4.1. Evaluation des deux approches proposées145
      • 7.4.2. Combinaison de méthodes pour l'acquisition de ressources147
      • 7.4.3. Les outils d'acquisition de ressources: une évaluation difficile148
      • Chapitre 8. Acquisition semi-automatique de patrons d'extraction151
      • 8.1. Description de la tâche et de l'approche adoptée151
      • 8.2. Eléments pour le repérage de prédicats en situation de paraphrase153
      • 8.2.1. Calcul de la distance entre mots153
      • 8.2.2. Pondération de la mesure de proximité sémantique158
      • 8.2.3. Remarques sur les mesures proposées par le Sémiographe159
      • 8.3. Stratégie de recherche de prédicats en situation de paraphrase160
      • 8.3.1. Normalisation du corpus161
      • 8.3.2. Filtrage de séquences potentiellement pertinentes162
      • 8.3.2.1. Principes de fonctionnement162
      • 8.3.2.2. Evaluation de l'outil de filtrage164
      • 8.3.3. Sélection manuelle de structures prédicatives caractéristiques166
      • 8.3.4. Expansion sémantique de patrons166
      • 8.3.4.1. Repérage de structures prédicatives en situation de paraphrase166
      • 8.3.4.2. Génération de grammaires d'extraction sous la forme de transducteurs à nombre fini d'états170
      • 8.3.4.3. Evaluation de l'outil d'acquisition de structures prédicatives en situation de paraphrase174
      • 8.3.5. Mesure de l'utilisabilité178
      • 8.4. Positionnement par rapport à d'autres travaux179
      • Conclusion181
      • Annexe187
      • A.1. Les Message Understanding Conferences, tableaux récapitulatifs187
      • A.2. Expressions régulières, automates et transducteurs dans INTEX189
      • A.3. Ressources pour la reconnaissance des entités nommées197
      • A.4. Acquisition de classes sémantiques: le cas de la classe "opération d'achat"205
      • Bibliographie211
      • Glossaire227
      • Index235

  • Origine de la notice:
    • Electre
  • Disponible - 803.5 POI

    Niveau 3 - Langues et littératures