Les premiers pas de l’OCR.

L’OCR prend ses origines dans le domaine du télégraphe. Inventée par le physicien Emmanuel Goldberg durant la première guerre mondiale, la technologie permettait, via une machine dédiée, de lire les caractères et de les convertir en code télégraphe. Les premières versions de l’OCR étaient entrainées à reconnaitre des images et ne pouvaient traiter qu’une seule police à la fois. En 1960, une police est créée spécifiquement pour cet usage.  

Cette technologie est rapidement adoptée à travers le monde pour réduire la charge de travail lorsqu’il faut extraire des données de documents. 

Dans les années 1970, le procédé s’améliore grâce à Razy Kurzweil. Ce dernier invente et commercialise l’”omni-font OCR” ; capable de reconnaitre la plupart des polices imprimées. Une révolution dans le domaine !  

Les années 80 voient un développement rapide des ordinateurs : plus puissants, ils deviennent aussi peu à peu plus compacts et sont adoptés par les ménages dans la décennie suivante.  

Dans les années 2000 ; l’OCR s’invite dans le cloud. Des entreprises comme Adobe développent des services faciles à utiliser.  

La technologie OCR existe depuis les années 60 L'OCR est un procédé informatique permettant de traduire des images dactylographiées ou imprimées en fichier texte.

Les utilisations de la reconnaissance optique de caractères.

L’OCR est utilisée dès les années 90 pour digitaliser des livres et magazines et ainsi rechercher plus facilement et rapidement des informations. Elle est aussi plébiscitée par des industries utilisant des données, comme la finance ou la santé, pour automatiser et gagner du temps. Des documents tels que les passeports ou les factures peuvent être traités de cette manière avant une vérification humaine, épargnant ainsi une saisie de données chronophage à l’opérateur. Bien que peu performante selon les critères actuels, elle représente à ce moment une véritable innovation.  

Dans les années 2000, Google lance Google Books grâce à l’OCR, rendant des milliers de livres plus accessibles au public.  

 

L’OCR est aujourd’hui capable de reconnaitre des caractères de manière précise et efficace, avec le service d’Adobe par exemple. Il est tout à fait possible de scanner un document imprimé ou rédigé manuellement et de le convertir en fichier texte en quelques clics ! Les documents sont reconnus à plus de 99%. L’intervention humaine reste essentielle car les erreurs sont toujours possibles, bien que la technologie ne cesse de s’améliorer. Ainsi ; une solution d’automatisation du traitement des factures reconnait les caractères présents sur tout type de factures et automatise le traitement des données qui y sont présentes en couplant l’OCR à l’IA. Ce procédé est encore plus efficace sur des documents nativement numériques. 

L’intelligence artificielle et le machine learning se couplent à merveille avec l’OCR pour décupler leurs performances. Exploiter des données reconnues devient simple et rapide. Qui sait ce que nous réservent les évolutions de ces technologies dans les prochaines années ?  

Cet article vous a plu ? Partagez-le !

LinkedIn
Twitter
Facebook