• Aide
  • Eurêkoi Eurêkoi

Livre

Les documents écrits : de la numérisation à l'indexation par le contenu

Résumé

Etat de la recherche sur le concept Tiff to XML, c'est-à-dire de l'image du document à son contenu interprété et structuré dans un format informatique. Les auteurs abordent les documents manuscrits, structurés (magazines, ouvrages, fiches...) et graphiques (cartes, plans, schémas...). Point sur les logiciels de numérisation et d'indexation. Evaluation des méthodes employées.


  • Contributeur(s)
  • Éditeur(s)
  • Date
    • impr. 2006
  • Notes
    • Notes bibliogr. Index
  • Langues
    • Français
  • Description matérielle
    • 1 vol. (365-VII p.) : ill. ; 24 cm
  • Collections
  • Sujet(s)
  • ISBN
    • 2-7462-1143-2
  • Indice
  • Quatrième de couverture
    • Traité IC2 Information - Commande - Communication

      Le traité Information, Commande, Communication répond au besoin de disposer d'un ensemble complet des connaissances et méthodes nécessaires à la maîtrise des systèmes technologiques.

      Conçu volontairement dans un esprit d'échange disciplinaire, le traité IC2 est l'état de l'art dans les domaines suivants retenus par le comité scientifique :

      • Réseaux et télécoms
      • Traitement du signal et de l'image
      • Informatique et systèmes d'information
      • Systèmes automatisés et productique
      • Management et gestion des STICS
      • Cognition et traitement de l'information.

      Chaque ouvrage présente aussi bien les aspects fondamentaux qu'expérimentaux. Une classification des différents articles contenus dans chacun, une bibliographie et un index détaillé orientent le lecteur vers ses points d'intérêt immédiats : celui-ci dispose ainsi d'un guide pour ses réflexions ou pour ses choix.

      Les savoirs, théories et méthodes rassemblés dans chaque ouvrage ont été choisis pour leur pertinence dans chaque ouvrage ont été choisis pour leur pertinence dans l'avancée des connaissances ou pour la qualité des résultats obtenus dans le cas d'expérimentations réelles.


  • Tables des matières
      • Les documents écrits de la numérisation à l'indexation par le contenu

      • Rémy Mullot

      • Hermes Science, Lavoisier

      • Introduction17
      • Rémy Mullot
      • Chapitre 1. Du traitement d'images à l'analyse de documents : principes et méthodes21
      • Nicole Vincent
      • 1.1. L'évolution des ressources22
      • 1.2. Les rêves initiaux27
      • 1.3. L'objet du travail29
      • 1.3.1. Les documents imprimés29
      • 1.3.2. Les documents manuscrits30
      • 1.4. L'évolution des méthodes31
      • 1.5. Conclusion34
      • 1.6. Bibliographie35
      • Chapitre 2. Reconnaissance de l'écriture manuscrite37
      • Guy Lorette et Thierry Paquet
      • 2.1. Introduction37
      • 2.2. Généralités39
      • 2.2.1. Variabilité et styles d'écriture39
      • 2.2.1.1. Les styles des modèles d'écriture39
      • 2.2.1.2. Les types de variabilité géométrique39
      • 2.2.1.3. La qualité du tracé40
      • 2.2.1.4. La caractérisation de la lisibilité des écritures40
      • 2.2.2. Individualité de l'écriture et identification du scripteur40
      • 2.2.2.1. L'identification de l'auteur de l'écriture40
      • 2.2.2.2. La reconnaissance de l'écriture41
      • 2.2.2.3. La caractérisation des styles personnels d'écriture42
      • 2.2.3. Types de reconnaissance42
      • 2.2.3.1. Reconnaissance en ligne et hors ligne42
      • 2.2.3.2. Typologie des approches43
      • 2.2.3.3. Typologie selon la nature des entités reconnues44
      • 2.2.3.4. Typologie selon le nombre d'utilisateurs44
      • 2.3. Modélisation de l'écriture manuscrite45
      • 2.3.1. Modélisation de la génération d'écriture45
      • 2.3.2. Modélisation d'écritures bruitées45
      • 2.3.3. Modélisation de l'encre électronique45
      • 2.3.4. Modélisation physique du tracé45
      • 2.3.5. Modélisation logique de la structure du tracé46
      • 2.4. Prétraitements des informations manuscrites47
      • 2.4.1. Echantillonnage et quantification du signal48
      • 2.4.1.1. Mode d'acquisition hors ligne48
      • 2.4.1.2. Mode d'acquisition en ligne48
      • 2.4.2. Localisation des informations manuscrites49
      • 2.4.2.1. Localisation des lignes d'écriture50
      • 2.4.2.2. Localisation des mots50
      • 2.4.2.3. Localisation des lignes de référence de l'écriture51
      • 2.4.3. Redressement de l'écriture52
      • 2.4.4. Segmentation de l'écriture53
      • 2.5. Reconnaissance de l'écriture55
      • 2.5.1. Reconnaissance de caractères55
      • 2.5.2. Reconnaissance de mots manuscrits57
      • 2.5.2.1. Approches globales dirigées par le lexique58
      • 2.5.2.2. Approches analytiques dirigées par le lexique59
      • 2.5.2.3. Les approches sans lexique67
      • 2.5.2.4. Les approches cognitives67
      • 2.5.3. Stratégies d'accès au lexique69
      • 2.5.4. Reconnaissance de phrases70
      • 2.6. Les applications71
      • 2.7. Les bases de données73
      • 2.8. Conclusion74
      • 2.9. Bibliographie75
      • Chapitre 3. Reconnaissance des structures87
      • Frank Le Bourgeois
      • 3.1. Présentation87
      • 3.1.1. Les différentes structures88
      • 3.1.1.1. La structure physique88
      • 3.1.1.2. La structure fonctionnelle intermédiaire89
      • 3.1.1.3. La structure logique89
      • 3.1.1.4. Fonction des trois structures89
      • 3.1.2. Structure et fonction d'un document92
      • 3.1.3. Différentes représentations d'un document électronique94
      • 3.1.4. La finesse de la structure logique96
      • 3.1.5. Le problème de généricité des systèmes de reconnaissance de structures97
      • 3.1.6. Les différentes stratégies de reconnaissance de structures100
      • 3.1.6.1. Stratégies ascendantes de reconnaissance ou approches guidées par les données (data-driven)100
      • 3.1.6.2. Stratégies descendantes de reconnaissance ou approches guidées par le modèle (model-driven)101
      • 3.1.6.3. Approches mixtes ou interactives101
      • 3.2. Segmentation de la structure physique102
      • 3.2.1. Les méthodes de segmentation par fusion103
      • 3.2.1.1. La capture et le regroupement progressif des connexités103
      • 3.2.1.2. Le Run Length Smoothing ou Smearing Algorithm (RLSA)110
      • 3.2.1.3. Segmentation par changement d'échelle112
      • 3.2.1.4. La méthode des gradients cumulés115
      • 3.2.2. Les méthodes de segmentation par découpage118
      • 3.2.2.1. Le découpage récursif X-Y118
      • 3.2.2.2. La segmentation par l'analyse des espaces120
      • 3.2.3. Approches mixtes et méthodes guidées par un modèle ou par le style123
      • 3.2.4. Conclusion sur la segmentation de la structure physique124
      • 3.3. Structure fonctionnelle intermédiaire (physico-logique)125
      • 3.3.1. Caractérisation globale des textes et de leurs textures126
      • 3.3.1.1. Caractérisation par des mesures géométriques et de densité126
      • 3.3.1.2. Caractérisation par la texture127
      • 3.3.1.3. Utilisation de la redondance des formes des caractères129
      • 3.3.2. Reconnaissance de la typographie des caractères130
      • 3.3.3. Approches psycho-visuelles134
      • 3.3.3.1. Segmentation physique perceptible et parcours visuels d'un document134
      • 3.3.3.2. Classement des zones en fonction de leur pouvoir d'attraction136
      • 3.3.4. Conclusion sur la structure intermédiaire138
      • 3.4. Reconnaissance de la structure logique138
      • 3.4.1. Méthodes syntaxiques141
      • 3.4.2. Méthodes à bases de connaissances148
      • 3.4.2.1. Modélisation par une base de règles149
      • 3.4.2.2. Modélisation par arbres155
      • 3.4.3. Les approches probabilistes162
      • 3.4.4. Les méthodes à base d'interactions165
      • 3.4.5. Conclusion sur la reconnaissance des structures logiques170
      • 3.5. Conclusion170
      • 3.6. Abréviations172
      • 3.7. Bibliographie172
      • Chapitre 4. Les applications industrielles de traitement des documents écrits179
      • Michel Gilloux
      • 4.1. Introduction : le traitement automatique des documents écrits, une technologie industrielle179
      • 4.2. Historique du traitement industriel des documents181
      • 4.3. Les enjeux des applications industrielles182
      • 4.4. Les différentes familles d'applications183
      • 4.4.1. La lecture optique des questionnaires183
      • 4.4.2. La lecture des documents normalisés183
      • 4.4.3. La lecture automatique des formulaires184
      • 4.4.4. Le traitement des documents semi-structurés184
      • 4.4.5. La lecture automatique des adresses postales184
      • 4.4.6. Les applications bancaires et le traitement des chèques185
      • 4.4.7. Le traitement des documents non structurés186
      • 4.4.8. Les autres applications du traitement des documents écrits187
      • 4.5. Les difficultés à résoudre dans le cadre des applications industrielles187
      • 4.6. Les briques de base des applications industrielles190
      • 4.6.1. Outils de numérisation : numériseurs, télécopieurs, lecteurs optiques, caméras, etc...190
      • 4.6.2. Compression des images : les différents standards191
      • 4.6.3. Traitement et amélioration des images : imprimées, redressement, recalage191
      • 4.6.4. Identification des modèles de documents192
      • 4.6.5. Localisation des informations193
      • 4.6.6. Reconnaissance des caractères imprimés (Optical Character Recognition)193
      • 4.6.7. Reconnaissance intelligente des caractères (Intelligent Character Recognition)194
      • 4.6.8. Reconnaissance de l'écriture non contrainte196
      • 4.7. Mise en oeuvre dans les principales classes d'applications198
      • 4.7.1. Les applications postales198
      • 4.7.2. Les applications bancaires : lecture des chèques202
      • 4.7.3. Lecture automatique des formulaires206
      • 4.7.4. Lecture des documents semi-structurés208
      • 4.8. Le futur des applications industrielles210
      • 4.9. Bibliographie212
      • Chapitre 5. Le geste graphique217
      • Claudie Faure
      • 5.1. Introduction217
      • 5.2. L'encre électronique218
      • 5.2.1. La métaphore papier/stylo219
      • 5.2.2. La métaphore du réel221
      • 5.3. Le pouvoir expressif du geste graphique224
      • 5.4. L'interaction par le geste graphique227
      • 5.5. Analyse des tracés à main levée231
      • 5.6. Assistance à la conception236
      • 5.7. Les documents électroniques239
      • 5.8. Conclusion243
      • 5.9. Bibliographie244
      • Chapitre 6. Documents graphiques : de la rétroconversion à la recherche d'information249
      • Jean-Marc Ogier et Sébastien Adam
      • 6.1. Introduction249
      • 6.1.1. La documentation technique au coeur des organisations249
      • 6.1.2. Systèmes d'information et documents techniques251
      • 6.1.3. L'évolution des besoins liée à l'avènement des TIC253
      • 6.1.3.1. Du « tout interprété » aux outils d'assistance à la conversion253
      • 6.1.3.2. La valorisation du patrimoine : une nouvelle problématique253
      • 6.1.3.3. Lorsque l'entrée est déjà numérique254
      • 6.2. Taxonomie des documents et systèmes de références associés255
      • 6.2.1. Les plans mécaniques255
      • 6.2.2. Les cartes géographiques257
      • 6.2.3. Le cadastre258
      • 6.2.4. Les plans de réseaux259
      • 6.2.5. Les plans architecturaux260
      • 6.3. Architecture des systèmes classiques de rétroconversion261
      • 6.4. Panorama des outils d'analyse264
      • 6.4.1. La séparation texte/graphique264
      • 6.4.2. Le traitement des données textuelles267
      • 6.4.2.1. La reconnaissance de caractères multi-orientés et multi-échelles268
      • 6.4.2.2. La (re)construction des chaînes de caractères271
      • 6.4.2.3. Le traitement des caractères connectés272
      • 6.4.3. Le traitement des lignes273
      • 6.4.3.1. Les approches à base de squelettisation274
      • 6.4.3.2. Les approches sans squelettisation279
      • 6.4.3.3. Le cas particulier des lignes pointillées et tiretées282
      • 6.4.4. L'analyse des zones texturées283
      • 6.4.5. La reconnaissance des données graphiques symboliques284
      • 6.4.5.1. Les approches statistiques286
      • 6.4.5.2. Les approches structurelles286
      • 6.4.5.3. Les approches syntaxiques288
      • 6.4.5.4. Un symbole particulier : les flèches de cotation288
      • 6.5. Les approches systèmes pour l'interprétation289
      • 6.5.1. Les approches conventionnelles289
      • 6.5.2. Les approches contextuelles291
      • 6.5.2.1. Externalisation des connaissances292
      • 6.5.2.2. Quelques approches « contextuelles » pertinentes293
      • 6.6. Documents graphiques : bilan et enjeux scientifiques pour l'avenir298
      • 6.6.1. Problèmes classiques de traitement bas niveau et de reconnaissance des formes298
      • 6.6.2. Questions émergentes liées aux masses de documents299
      • 6.6.3. Définition d'ontologies300
      • 6.6.4. Question de l'évaluation de performances300
      • 6.7. Bibliographie301
      • Chapitre 7. Reconnaissance de caractères : évaluation des performances311
      • Abdel Bélaid et Hubert Cecotti
      • 7.1. Introduction311
      • 7.1.1. Position du problème311
      • 7.1.2. Problème de l'évaluation du résultat313
      • 7.2. Chaîne de numérisation313
      • 7.2.1. Acquisition314
      • 7.2.1.1. Principe314
      • 7.2.1.2. Matériel314
      • 7.2.1.3. Formats314
      • 7.2.1.4. Qualité des données315
      • 7.2.2. Reconnaissance du texte316
      • 7.2.2.1. Principe316
      • 7.2.2.2. Fonctionnement317
      • 7.3. Evaluation des performances des OCR318
      • 7.3.1. Principe318
      • 7.3.2. Types des erreurs319
      • 7.3.2.1. Erreurs de segmentation319
      • 7.3.2.2. Erreurs de reconnaissance de caractères320
      • 7.3.2.3. Erreurs de reconnaissance de mots322
      • 7.3.3. Mesures de performances sur la reconnaissance de texte322
      • 7.3.3.1. Contrôle de l'OCR323
      • 7.3.3.2. Prise en compte d'une correction humaine324
      • 7.3.3.3. Types d'évaluation des performances325
      • 7.3.4. Mesures de performances sur la segmentation326
      • 7.3.4.1. L'approche image326
      • 7.3.4.2. L'approche textuelle326
      • 7.4. Réalisation de l'évaluation327
      • 7.4.1. Principe327
      • 7.4.2. Synchronisation et alignement328
      • 7.4.3. Document de référence328
      • 7.4.3.1. Représentativité du DR328
      • 7.4.3.2. Obtention329
      • 7.4.3.3. Evaluation de l'OCR bien segmenté329
      • 7.4.3.4. Structure identique330
      • 7.4.3.5. Structure différente331
      • 7.4.4. Exemples de comparaison de documents331
      • 7.4.4.1. Comparaison ligne par ligne avec Gnu Diff332
      • 7.4.4.2. Comparaison mot par mot avec Wdiff332
      • 7.4.4.3. Comparaison caractère par caractère avec Cdiff333
      • 7.4.4.4. Conclusion333
      • 7.5. Combinaison d'OCR333
      • 7.5.1. Fondements334
      • 7.5.1.1. Le degré d'intégrité334
      • 7.5.1.2. Le détail des réponses334
      • 7.5.1.3. L'indépendance des moteurs335
      • 7.5.2. Stratégies de combinaison335
      • 7.5.2.1. Combinaison sans connaissance a priori du comportement336
      • 7.5.2.2. Combinaison avec connaissance du comportement des OCR337
      • 7.5.3. Recalage du texte338
      • 7.6. Expérimentations et résultats339
      • 7.6.1. Documents contemporains classiques339
      • 7.6.1.1. Principe339
      • 7.6.1.2. Données de test340
      • 7.6.1.3. Résultats343
      • 7.6.2. Documents juridiques récents350
      • 7.6.2.1. Principe350
      • 7.6.2.2. Données de test350
      • 7.6.2.3. Résultats350
      • 7.6.3. Reconnaissance de caractères spéciaux ou endommagés351
      • 7.6.3.1. Principe351
      • 7.6.3.2. Données de test354
      • 7.6.3.3. Résultats355
      • 7.7. Architecture d'intégration des OCR355
      • 7.7.1. Le format d'image en entrée355
      • 7.7.2. Le format d'image en sortie356
      • 7.7.3. L'activation du logiciel356
      • 7.8. Conclusion358
      • 7.9. Bibliographie359
      • Index363

  • Origine de la notice:
    • BNF
  • Disponible - 681.72 MUL

    Niveau 3 - Informatique