• Aide
  • Eurêkoi Eurêkoi

Article

A new strategy for Arabic OCR based on script analysis and synthesis

dans CEDEJ - Centre d’études et de documentation économiques juridiques et sociales


  • Éditeur(s)
  • Date
    • 2020-12-16T01:00:00Z
  • Notes
    • La reconnaissance automatique de caractères (OCR) a connu d’importantes améliorations ces dernières années, même si les stratégies OCR conventionnelles n'exploitent pas encore les concepts linguistiques sur l'analyse de l'écriture arabe. Nous présentons une stratégie supplémentaire, nouvelle, qui vise à améliorer l'OCR en arabe. Dans cette approche, les points de désambiguïsation sont temporairement éliminés, ce qui réduit les classes de graphèmes partageant le même élément de base à des archigraphèmes uniques. En outre, le comportement contextuel des archigraphèmes arabes est redéfini comme une fusion : les archigraphèmes fusionnent de manière méconnaissable en blocs de lettres selon un système basé sur des règles appelées grammaire de script. Le bloc de lettres est défini comme l'unité minimale de formation de l'écriture arabe. Par exemple, le mot بحوث se compose de deux blocs de lettres, des groupes d'allographes fusionnés entourés d'un espace graphique, ٮحو et ٮ (BGW B). D'un corpus arabe d'environ 85 millions de mots, nous avons extrait une liste d'environ 47 000 blocs de lettres archigraphèmiques uniques, ce qui implique que nous avons réduit le système d'écriture arabe dynamique et génératif aux proportions d'une écriture statique comme le chinois. Nous montrons ensuite comment synthétiser toutes les formes théoriques pour chaque bloc de lettres à partir de modèles informatiques de styles d'écriture islamiques spécifiques (ruqʿä, naskh, nastaʿlīq). Ce n'est que dans la dernière étape que nous devrons désambiguïser les archigraphèmes en graphèmes réels en utilisant des informations linguistiques, dont une partie a déjà été recueillie dans le corpus de 85 millions de mots. Cette approche rend également possible une formation initiale à l'OCR sur des textes rendus avec les mêmes modèles d'écriture islamiques.
  • Langues
    • Anglais
  • Sujet(s)
  • Droits
    • info:eu-repo/semantics/openAccess .
    • https://creativecommons.org/licenses/by-nc-sa/4.0/
  • Résultat de :