Lecture automatique de documents

Lecture automatique de documents

Lecture automatique de document

La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d'extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents numérisés de type formulaires structurés ou semi-structurés. Les informations ainsi extraites peuvent alors être utilisées comme métadonnées dans un système de GED.

La LAD intègre également la reconnaissance de cases à cocher. Par exemple, un coupon réponse qui comportait plusieurs cases à cocher pourra être traité par un mécanisme de LAD. Le coupon réponse sera numérisé et le moteur de LAD sera capable de détecter les cases qui ont été cochées de celles qui ne l'ont pas été. Le Sigle anglais pour la reconnaissance de case à cocher est "OMR" qui signifie: Optical Mark Recognition.

De façon plus générale, le document numérisé peut provenir de différents supports, tels l'image d'une plaque minéralogique capturée par un radar routier.

LAD

Ne pas confondre Reconnaissance automatique de documents (RAD) ou de type de documents et Lecture Automatique de Documents (LAD). En effet, si la reconnaissance de caractères ou de formes et autres cases à cocher permet de distinguer un document d’un autre ainsi que certains mots contenus de manière à alimenter une bases d’index destinée à une Gestion Électronique de Documents, l’appellation LAD, pour lecture automatique de documents, concerne les processus évolués de capture de données sur des documents structurés et désormais aussi non structurés.

L’objectif n’est pas d’archiver des documents mais d’alimenter un système d’informations (souvent un système de GED - gestion électronique de document - avec les données contenues dans les documents numérisés dans le cadre de processus de type industriel. La richesse d’une solution avancée de LAD réside dans sa capacité à fournir, en bout de chaîne de traitement, la totalité des informations attendues par le système d'informations lui-même.

Au niveau de la reconnaissance initiale OCR, on parle de taux caractère et de taux page pour indiquer la proportion de caractères capturés et la proportion de pages saisies en totalité. Aucune solution ne sait fournir des taux de 100 % ! Une phase de vidéo-codage est donc forcément requise pour compléter via un opérateur et son clavier les informations mal reconnues et aussi saisies avec des erreurs par la personne qui aura renseigné le document initial.

Les données à saisir sont dactylographiées et manuscrites. Il y a aussi une phase d'ICR (Intelligent Character Recognition) qui est un OCR intelligent permettant de s'attaquer à l'écriture manuscrite et à des traitements intelligents comme cités ci-dessous*.

La richesse des solutions de LAD réside beaucoup dans la capacité de compenser les erreurs de lecture ou de saisie par des contextes. En effet une base de prénoms va être interrogée lorsqu’on sait que l'on est dans une zone prénom, et ainsi lorsque la barre du bas du E de JEAN va se confondre avec la case à remplir, le système va confirmer que JFAN n'est pas une bonne réponse et proposer plutôt JEAN. La solution de LAD doit être paramétrable pour permettre une correction automatique d'un champ prénom dans des cas ou celui-ci n'est pas essentiel, et de présenter l'image à un opérateur pour validation ou correction, dans le cas par exemple ou il s'agit d’état-civil.

  • Si un code alphanumérique possède un algorithme de validation, la solution de LAD va savoir le recalculer et ainsi certifier la bonne saisie.
  • Si un document comporte des calculs comme le total d'une facture, la LAD va savoir recalculer le montant total.

En bout de chaîne de traitement, les informations vont être acheminées au système d'informations destinataire. Ces informations sont constituées de données extraites, d’index attendus et extraits eux aussi au moment de la LAD, et bien entendu d’images de chaque document.

La Lad devient de ce fait source d'alimentation de la GED (Gestion Électronique de Documents). Il y a donc aujourd’hui un certain chevauchement des fonctions LAD et GED. Sur le plan technologique la LAD est plus avancée ou pointue, alors que la GED qui se nourrit d’images indexées, va voir sa richesse s’exprimer dans des fonctionnalités transversales au niveau de toutes les fonctions d’une organisation chaque fois que le mot document est utilisé…

La LAD est donc le chaînon manquant dans le traitement du document et la gestion des processus, résolvant le problème de la saisie manuelle et trop différée des informations, alors que la GED s’appuyant sur les données arrivées ou transformées en format électronique et indexées va fournir celles-ci de manière structurée, indexée et donc efficace à l’ensemble des utilisateurs et applications requérantes.

Ce document provient de « Lecture automatique de document ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Lecture automatique de documents de Wikipédia en français (auteurs)

Игры ⚽ Нужна курсовая?

Regardez d'autres dictionnaires:

  • Lecture automatique des documents — Lecture automatique de document La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents… …   Wikipédia en Français

  • Lecture Automatique De Document — La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents numérisés de type formulaires… …   Wikipédia en Français

  • Lecture automatique de document — La lecture automatique de documents (LAD) est un ensemble de technologies qui permet de segmenter et d extraire, par reconnaissance optique de caractères (OCR), des informations textuelles sur des documents numérisés de type formulaires… …   Wikipédia en Français

  • Radar Automatique — Le radar automatique est un appareil de contrôle de la vitesse des véhicules routiers disposé sur le bord des routes et qui fonctionne seul, sans l intervention d un opérateur. Il combine un radar de contrôle routier (cinémomètre radar) à un… …   Wikipédia en Français

  • Radar automatique — Article principal : Radar de contrôle routier. Première génération de Radar automatique (France) Le radar automatique est un appareil de contrôle de la vitesse des véhicules routiers disposé sur le bord des routes et qui fonctionne seul,… …   Wikipédia en Français

  • Signature automatique — Signature Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom. La signature de John Hancock est l une des plus remarquables de la …   Wikipédia en Français

  • Input Management — L input management désigne la gestion automatisée des documents reçus par une entreprise avec des logiciels et du matériel de numérisation. L input management consiste à archiver automatiquement une copie électronique des documents reçus en les… …   Wikipédia en Français

  • Classification chaotique — Le classement chaotique combine des outils d indexation automatique avec un classement chronologique des originaux et permet de retrouver un document parmi un ensemble de documents non ordonnés. L application la plus utile permet de retrouver un… …   Wikipédia en Français

  • Abreviations en informatique L — Abréviations en informatique L l10n : Localisation, voir Internationalisation de logiciel L2F : Layer 2 Forwarding (transfert de couche 2) L2TP : Layer 2 Tunneling Protocol, RFC 3931 LAD : Lecture automatique de documents LAME : LAME Ain t… …   Wikipédia en Français

  • Abréviations En Informatique L — l10n : Localisation, voir Internationalisation de logiciel L2F : Layer 2 Forwarding (transfert de couche 2) L2TP : Layer 2 Tunneling Protocol, RFC 3931 LAD : Lecture automatique de documents LAME : LAME Ain t an MP3 Encoder, acronyme… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”