Comparativa de servicios OCR para documentos administrativos en PDF con Java/Tess4J y Python/EasyOCR

  • Ortega Cuevas I
N/ACitations
Citations of this article
7Readers
Mendeley users who have this article in their library.

Abstract

Las entidades y dependencias universitarias manejan documentos administrativos, que a menudo están almacenados en formatos digitales que consisten exclusivamente en imágenes. Esto genera demoras en el acceso al contenido, y dificulta su utilidad en búsquedas y toma de decisiones. Con el propósito de acceder al contenido de texto de estos documentos, se desarrollaron y compararon dos servicios web de procesamiento óptico de caracteres (OCR). El primer servicio está implementado en lenguaje Java, utilizando el marco de desarrollo Spring y la biblioteca Tess4J, mientras que el segundo servicio se ha desarrollado en Python, haciendo uso de la biblioteca EasyOCR. En esta comparación, se evaluaron los tiempos de respuesta al procesar 50 documentos con contenido administrativo y en formato PDF, los cuales contienen información exclusivamente en forma de imágenes. El código fuente de ambos servicios está disponible en el repositorio GitHub, lo que facilita su implementación y uso. Los resultados indican que el servicio Java presenta un tiempo de procesamiento de documentos con una ventaja de dos segundos respecto a Python; sin embargo, se destaca que los resultados pueden variar en condiciones distintas, ya sea porque los algoritmos de OCR utilizados implementan procesos diferentes, o en el caso de documentos de otro ámbito distinto al administrativo, o bien, por encontrarse en equipos con tarjeta gráfica dedicada. Es importante señalar como limitación de este estudio que no se considera la precisión del texto recuperado.

Cite

CITATION STYLE

APA

Ortega Cuevas, I. (2024). Comparativa de servicios OCR para documentos administrativos en PDF con Java/Tess4J y Python/EasyOCR. Cuadernos Técnicos Universitarios de La DGTIC, 2(1). https://doi.org/10.22201/dgtic.ctud.2024.2.1.37

Register to see more suggestions

Mendeley helps you to discover research relevant for your work.

Already have an account?

Save time finding and organizing research with Mendeley

Sign up for free