Use o Gimagereader para extrair texto de imagens e PDFs no Linux

8 de março de 2021

Gimagereader é uma ferramenta GUI para utilizar o mecanismo de Tesseract OCR para extrair textos de imagens e arquivos PDF no Linux.

Gimagereader é um front-end para Tesseract Open Source OCR Engine. Tesseract foi originalmente desenvolvido na HP e depois foi aberto em 2006.

Basicamente, o motor OCR (reconhecimento de caracteres óptico) permite digitalizar textos de uma imagem ou um arquivo (PDF). Ele pode detectar vários idiomas por padrão e também suporta a digitalização de caracteres Unicode.

No entanto, o Tesseract por si só é uma ferramenta de linha de comando sem qualquer GUI. Então, aqui, Gimagereader vem para nos salvar e permitir que qualquer usuário o utilize para extrair texto de imagens e arquivos.

Deixe-me destacar algumas coisas sobre ele, mencionando minha experiência com ele pelo tempo que testei.

Gimagereader: um front-end multiplataforma para Tesseract OCR

Gimagereader

Para simplificar as coisas, o Gimagereader vem à mão para extrair texto de um arquivo PDF ou uma imagem que contém qualquer tipo de texto.

Se você precisar de SpellCheck ou tradução, deve ser útil para um grupo específico de usuários.

Para resumir os recursos em uma lista, aqui está o que você pode fazer com ele:

  • Adicionar documentos e imagens PDF do disco, digitalização de dispositivos, área de transferência e capturas de tela
  • Capacidade de girar imagens
  • Controles de imagem comuns para ajustar o brilho, o contraste e a resolução
  • Digitalizar imagens diretamente através do aplicativo
  • Capacidade de processar várias imagens ou arquivos de uma só vez
  • Definição de área de reconhecimento manual ou automático
  • Reconhecer para texto simples ou para documentos HOC
  • Editor para exibir o texto reconhecido
  • Pode verificar o texto extraído
  • Converter/exportar para documentos PDF do documento Hocr
  • Exportar texto extraído como um arquivo .txt
  • Multiplataforma (Windows)

Instalando Gimagereader no Linux

Nota: Você precisa instalar explicitamente os pacotes de idiomas de Tesseract para detectar imagens/arquivos do seu gerenciador de software.

Tesseract Language Pack

Você pode encontrar o Gimagereader nos repositórios padrão para algumas distribuições Linux, como Fedora e Debian.

Para o Ubuntu, você precisa adicionar um PPA e instalá-lo. Para fazer isso, aqui está o que você precisa digitar no terminal:

Comandos para usar no terminal

sudo add-apt-repository ppa:sandromani/gimagereader

sudo apt update

sudo apt install gimagereader

Você também pode encontrá-lo para openSUSE de seu serviço de compilação e o AUR será o local para usuários do Arch Linux.

Todos os links para os repositórios e os pacotes podem ser encontrados em sua página do GitHub.

Gimagereader

Experiência com o Gimagereader

O Gimagereader é uma ferramenta bastante útil para extrair textos de imagens quando você precisa deles. Funciona ótimo quando você tenta de um arquivo PDF.

Para extrair imagens de uma foto tirada em um smartphone, a detecção foi próxima, mas um pouco imprecisa. Talvez quando você digitalize algo, o reconhecimento de caracteres do arquivo pode ser melhor.

Então, você terá que experimentar por si mesmo para ver o quão bem funciona para o seu caso de uso. Eu tentei no Linux Mint 20.1 (com base no Ubuntu 20.04).

Acabei de ter um problema para gerenciar idiomas das configurações e não recebi uma solução rápida para isso. Se você encontrar o problema, talvez você queira solucionar e explorar mais sobre isso como consertá-lo.

Gimagereader 1

Além disso, funcionou bem.

Experimente e me avise como funcionou para você! Se você sabe de algo semelhante (e melhor), deixe-me saber sobre isso nos comentários abaixo.

Confira também a versão original desse post em inglês
Esse post foi originalmente escrito por Ankush Das e publicado no site itsfoss.com. Traduzido pela rtland.team

Use gImageReader to Extract Text From Images and PDFs on Linux

Propaganda
Propaganda