Utilice gImageReader para extraer texto de imágenes y archivos PDF en Linux

Breve: gImageReader es una herramienta GUI para utilizar el motor tesseract OCR para extraer textos de imágenes y archivos PDF en Linux.

gImageReader es un front-end para Motor de OCR de código abierto Tesseract. Tesseract se desarrolló originalmente en HP y luego fue de código abierto en 2006.

Básicamente, el motor OCR (reconocimiento óptico de caracteres) le permite escanear textos de una imagen o un archivo (PDF). Puede detectar varios idiomas de forma predeterminada y también admite el escaneo a través de caracteres Unicode.

Sin embargo, Tesseract en sí mismo es una herramienta de línea de comandos sin GUI. Entonces, aquí, gImageReader viene al rescate para permitir que cualquier usuario lo utilice para extraer texto de imágenes y archivos.

Permítanme resaltar algunas cosas al respecto mientras menciono mi experiencia con él durante el tiempo que lo probé.

gImageReader: una interfaz multiplataforma para Tesseract OCR

Para simplificar las cosas, gImageReader es útil para extraer texto de un archivo PDF o una imagen que contiene cualquier tipo de texto.

Ya sea que lo necesite para la revisión ortográfica o la traducción, debería ser útil para un grupo específico de usuarios.

Para resumir las funciones en una lista, esto es lo que puede hacer con ella:

  • Agregue documentos e imágenes PDF desde el disco, dispositivos de escaneo, portapapeles y capturas de pantalla
  • Posibilidad de rotar imágenes.
  • Controles de imagen comunes para ajustar el brillo, el contraste y la resolución
  • Escanee imágenes directamente a través de la aplicación
  • Capacidad para procesar múltiples imágenes o archivos de una sola vez
  • Definición del área de reconocimiento manual o automático
  • Reconocer texto sin formato o hOCR documentos
  • Editor para mostrar el texto reconocido
  • Puede revisar la ortografía del texto extraído
  • Convertir / exportar a documentos PDF desde un documento hOCR
  • Exportar el texto extraído como un archivo .txt
  • Multiplataforma (Windows)

Instalación de gImageReader en Linux

Nota: Necesita instalar explícitamente paquetes de idioma Tesseract para detectar imágenes / archivos de su administrador de software.

Puede encontrar gImageReader en los repositorios predeterminados para algunas distribuciones de Linux como Fedora y Debian.

Para Ubuntu, debe agregar un PPA y luego instalarlo. Para hacer eso, esto es lo que necesita escribir en la terminal:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader

También puede encontrarlo para openSUSE desde su servicio de compilación y AUR será el lugar para los usuarios de Arch Linux.

Todos los enlaces a los repositorios y los paquetes se pueden encontrar en su Página de GitHub.

gImageReader

Experiencia con gImageReader

gImageReader es una herramienta bastante útil para extraer textos de imágenes cuando los necesite. Funciona muy bien cuando lo intentas desde un archivo PDF.

Para extraer imágenes de una imagen tomada en un teléfono inteligente, la detección fue close pero un poco inexacto. Quizás cuando escanea algo, el reconocimiento de caracteres del archivo podría ser mejor.

Por lo tanto, tendrá que probarlo usted mismo para ver qué tan bien funciona para su caso de uso. Lo probé en Linux Mint 20.1 (basado en Ubuntu 20.04).

Solo tuve un problema para administrar los idiomas desde la configuración y no obtuve una solución rápida para eso. Si encuentra el problema, es posible que desee solucionarlo y explorar más sobre cómo solucionarlo.

Aparte de eso, funcionó bien.

¡Pruébalo y cuéntame cómo te funcionó! Si conoce algo similar (y mejor), hágamelo saber en los comentarios a continuación.