Categorías: NoticiasTutoriales

Reconocimiento Optico de caracteres (OCR)

El reconocimiento óptico de caracteres (OCR), permite convertir diferentes tipos de documentos y pasarlos a texto plano (ejemplo: documentos en papel escaneados guardados como Tif, jpg, png, o ficheros en PDF.

La función es separar el texto de la imagen, o lo que es lo mismo, poder diferenciar un texto de una imagen cualquiera, esto permite tener acceso y editar el contenido del documento original (albaranes, formularios, facturas, etc.). Generalmente en el sector de la empresa se le llama “gestión documental” y se usa para agilizar los procesos de localización y recuperación de archivos, reducción de costes de almacenamiento de los documentos e incremento de la productividad.

Hoy en día podemos encontrar software potente para las empresas, pero de momento no es libre. Para hacerse una idea de la “gestión documental” en empresa usando OCR:
height=315

En otros sectores la tecnología OCR tiene cabida por ejemplo en los radares de trafico. Una cámara captura la matricula y el motor OCR se encarga de pasar los números de la imagen a texto plano.

La tecnología OCR actualmente esta dando mas avances dentro las google glass. o los teléfonos moviles:
height=315

Hay muchos motores OCR de código abierto pero tienen sus limitaciones (la imagen tiene que tener una gran calidad, la mayoría solo admite ficheros de imagen en formato Tif …).

Tesseract-ocr esta entre estos. Desarrollado originalmente por Hewlett Packard, fue liberado como código abierto en el año 2005 y esta patrocinado actualmente por Google, que lo distribuye bajo licencia Apache. Es multiplataforma y soporta múltiples idiomas (funciona por terminal y solo puede procesar imágenes TIFF.).

Otro es Tessract-GUI, que no es un front-end para tesseract-ocr. Es sólo una manera gráfica para utilizarlo con la manipulación de imágenes sencillas a través de ImageMagick (ofrece mas formatos de entrada como png, jpeg, tif, pdf).

Tessract-GUI tiene dependencias de las siguientes aplicaciones que deben ser instaladas:
tesseract-ocr y ImageMagick

Descargamos Tesseract-GUI desde su web
[code]$ cd /directorio donde se descargue/tesseract-gui-X.X.tar.gz
$ tar xzvf tesseract-gui-X.X.tar.gz
$ cd tesseract-gui-X.X
$ sudo make install[/code]
Y lo lanzamos con:
[code]$ tesseract-gui.py[/code]

Otra opción mas fácil es hacer pasar la imagen a texto online, hay bastantes webs para subir las imágenes y pasarlas a texto

mcanchal

Trabajo en Oliran magevais, una empresa del sector de las energías renovables. No practicante de la iglesia de Emacs.

Siguiente Lo mejor de mi RSS del 28 de julio al 3 de agosto de 2014 »

Anterior « Teclado

Ver comentarios

Marcos dice:

1 septiembre 2014 en 1:30 am

Muy buen aporte. Probé el OCR online que dices al final, no reconoce todos los textos del documento, deberia probar con Tesseract-ocr.

Saludos