Lecture automatique de document

Lecture automatique de document

La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d'extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents numérisés de type formulaires structurés ou semi-structurés. Les informations ainsi extraites peuvent alors être utilisées comme métadonnées dans un système de GED.

La LAD intègre également la reconnaissance de cases à cocher. Par exemple, un formulaire qui comporte plusieurs cases à cocher[1] ou un questionnaires à choix multiple (QCM))[2] pourra être traité par un mécanisme de LAD. Le document papier est numérisé et le moteur de LAD est capable de détecter les cases qui ont été cochées de celles qui ne l'ont pas été. Le Sigle anglais pour la reconnaissance de case à cocher est "OMR" qui signifie: Optical Mark Recognition.

De façon plus générale, le document numérisé peut provenir de différents supports, tels l'image d'une plaque minéralogique capturée par un radar routier.

Sommaire

Procédés de la LAD

Ne pas confondre Reconnaissance automatique de documents (RAD) ou de type de documents et Lecture Automatique de Documents (LAD). En effet, si la reconnaissance de caractères ou de formes et autres cases à cocher permet de distinguer un document dun autre ainsi que certains mots contenus de manière à alimenter une bases dindex destinée à une Gestion Électronique de Documents, lappellation LAD, pour lecture automatique de documents, concerne les processus évolués de capture de données sur des documents structurés et désormais aussi non structurés.

Lobjectif nest pas darchiver des documents mais dalimenter un système dinformations (souvent un système de GED - gestion électronique de document - avec les données contenues dans les documents numérisés dans le cadre de processus de type industriel. La richesse dune solution avancée de LAD réside dans sa capacité à fournir, en bout de chaîne de traitement, la totalité des informations attendues par le système d'informations lui-même.

Au niveau de la reconnaissance initiale OCR, on parle de taux caractère et de taux page pour indiquer la proportion de caractères capturés et la proportion de pages saisies en totalité. Aucune solution ne sait fournir des taux de 100 % ! Une phase de vidéo-codage est donc forcément requise pour compléter via un opérateur et son clavier les informations mal reconnues et aussi saisies avec des erreurs par la personne qui aura renseigné le document initial.

Les données à saisir sont dactylographiées et manuscrites. Il y a aussi une phase d'ICR (Intelligent Character Recognition) qui est un OCR intelligent permettant de s'attaquer à l'écriture manuscrite et à des traitements intelligents comme cités ci-dessous*.

La richesse des solutions de LAD réside beaucoup dans la capacité de compenser les erreurs de lecture ou de saisie par des contextes. En effet une base de prénoms va être interrogée lorsquon sait que l'on est dans une zone prénom, et ainsi lorsque la barre du bas du E de JEAN va se confondre avec la case à remplir, le système va confirmer que JFAN n'est pas une bonne réponse et proposer plutôt JEAN. La solution de LAD doit être paramétrable pour permettre une correction automatique d'un champ prénom dans des cas ou celui-ci n'est pas essentiel, et de présenter l'image à un opérateur pour validation ou correction, dans le cas par exemple ou il s'agit détat-civil.

  • Si un code alphanumérique possède un algorithme de validation, la solution de LAD va savoir le recalculer et ainsi certifier la bonne saisie.
  • Si un document comporte des calculs comme le total d'une facture, la LAD va savoir recalculer le montant total.

En bout de chaîne de traitement, les informations vont être acheminées au système d'informations destinataire. Ces informations sont constituées de données extraites, dindex attendus et extraits eux aussi au moment de la LAD, et bien entendu dimages de chaque document.

LAD et GED

La LAD devient de ce fait source d'alimentation de la GED (Gestion Électronique de Documents). Il y a donc aujourdhui un certain chevauchement des fonctions LAD et GED. Sur le plan technologique la LAD est plus avancée ou pointue, alors que la GED qui se nourrit dimages indexées, va voir sa richesse sexprimer dans des fonctionnalités transversales au niveau de toutes les fonctions dune organisation chaque fois que le mot document est utilisé

La LAD est donc le chaînon manquant dans le traitement du document et la gestion des processus, résolvant le problème de la saisie manuelle et trop différée des informations, alors que la GED sappuyant sur les données arrivées ou transformées en format électronique et indexées va fournir celles-ci de manière structurée, indexée et donc efficace à lensemble des utilisateurs et applications requérantes.

Les applications de la LAD

La LAD prend une importance croissante dans les processus de dématérialisation elle apparaît comme un axe de productivité.

1. La LAD permet, par exemple, daccélérer le traitements des factures fournisseurs :

  • archivage et indexation automatique de l'image du document ;
  • (pré)saisie automatisée des écritures comptables (montants HT, TTC ...).

La saisie des factures et, de façon plus générale, des documents transactionnels tels que bons de livraison ou bons de commande permet de réaliser des progrès dans lorganisation en fiabilisant les procédures de traitement avec une alimentation plus rapide du système dinformation.

Les documents traités sont pour la plupart des documents entrants ; cest-à-dire des documents reçus par courrier ou par télécopie. Les serveurs de fax modernes permettent en effet de déposer limage des documents dans des répertoires à partir desquels le logiciel de LAD pourra opérer des traitements en mode batch (sans intervention de lutilisateur). Certains éditeurs proposent des technologies faisant intervenir une Reconnaissance Automatique du document en préalable à sa lecture automatique. Lavantage étant de pouvoir réaliser la lecture appropriée de divers documents tous déposés dans un même répertoire. La reconnaissance du document pourra sappuyer sur des éléments de mise en page (logo caractéristique dun fournisseur, fonds de page, code-barres …) Les documents non reconnus sont déplacés dans un répertoire destiné à un traitement humain (paramétrage de la reconnaissance et de la lecture dun nouveau type de document ou saisie manuelle sil sagit dun document peu récurrent).

Léquipement des entreprises en logiciels RAD/LAD est également lié au besoin de maîtrise de lensemble des informations véhiculées sur les documents entrants : il sagit de corréler les données qui peuvent être capturées sur les courriers et les fax avec les données déjà structurées du Système dInformation (progiciel de gestion intégré/PGI, logiciel de comptabilité ...). La LAD permet de renseigner une GED avec une indexation multicritère des documents entrants. Dès lors, les applications requérantes peuvent appeler les documents de la GED au travers d'un lien (URL ou nom UNC) qui transmet les index de recherche au connecteur de la GED.

2. La LAD trouve également son application dans le domaine de lÉducation[3], pour la correction automatique des questionnaires d'évaluations pédagogiques[4], permettant l'usage de barèmes évolués, ainsi que le traitement de l'anonymat de copies d'examens pour les corrections[5].

Liens externes

Notes et références


Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Lecture automatique de document de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Regardez d'autres dictionnaires:

  • Lecture Automatique De Document — La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents numérisés de type formulaires… …   Wikipédia en Français

  • Lecture automatique de documents — Lecture automatique de document La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents… …   Wikipédia en Français

  • Lecture automatique des documents — Lecture automatique de document La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents… …   Wikipédia en Français

  • Lecture Automatique De Plaques Minéralogiques — Le système doit pouvoir traiter des plaques minéralogiques de différents types. La lecture automatique de plaques minéralogiques ou lecture automatisée de plaques d’immatriculation (LAPI) est une méthode de surveillance de masse qui utilise la… …   Wikipédia en Français

  • Lecture automatique de plaques mineralogiques — Lecture automatique de plaques minéralogiques Le système doit pouvoir traiter des plaques minéralogiques de différents types. La lecture automatique de plaques minéralogiques ou lecture automatisée de plaques d’immatriculation (LAPI) est une… …   Wikipédia en Français

  • lecture — [ lɛktyr ] n. f. • 1495; « récit » 1352; lat. médiév. lectura 1 ♦ Action matérielle de lire, de déchiffrer (ce qui est écrit). Lecture d un texte difficile dans une langue étrangère. Lecture et correction d épreuves. À la première, à la seconde… …   Encyclopédie Universelle

  • Ecriture automatique (spiritisme) — Écriture automatique (spiritisme) Représentation imagée d un médium faisant de l écriture automatique sous l influence d un esprit. L écriture automatique, également appelée psychographie, est une technique de spiritisme supposée permettre de… …   Wikipédia en Français

  • Écriture automatique (spiritisme) — Représentation imagée d un médium faisant de l écriture automatique sous l influence d un esprit. L écriture automatique, également appelée psychographie, est une technique de spiritisme supposée permettre de communiquer avec les esprits de l au… …   Wikipédia en Français

  • Radar Automatique — Le radar automatique est un appareil de contrôle de la vitesse des véhicules routiers disposé sur le bord des routes et qui fonctionne seul, sans l intervention d un opérateur. Il combine un radar de contrôle routier (cinémomètre radar) à un… …   Wikipédia en Français

  • Detection automatique des publicites televisees — Détection automatique des publicités télévisées La détection automatique des publicités télévisées est un ensemble de techniques informatiques qui permettent de détecter automatiquement les publicités dans un flux vidéo de télévision. C est une… …   Wikipédia en Français

Share the article and excerpts

Direct link
https://fr-academic.com/dic.nsf/frwiki/999049 Do a right-click on the link above
and select “Copy Link”