in

Program that enables OCR (Optical Character Reading) of a PDF


Este programa tem o intuito de ser um modificador de arquivos PDF. Os arquivos PDFs podem ser 3: PDFs verdadeiros – em que podem ser selecionados o tipo de texto, PDFs-de-imagem – arquivos feitos de imagens e que o conteúdo é “aprisionado” e não pode ser acessado. Como terceiro tipo temos o PDFs-buscáveis: estes são os PDFs que resultam de aplicação OCR (Optical Character Recognition – Reconhecimento óptico de caracter), em que o documento é analizado e estruturado com uma nova camada de texto por detrás da camada de imagem do PDF-de-Imagem.

A criação do terceiro tipo de PDF a partir do segundo tipo é o intuito deste programa. Para isto é necessário a aplicação de alguns programas externos ao python.

Abaixo listarei o processo que utilizei para instalar estes programas externos:

Além de ter o python instalado e um ambiente virtual iniciado, é necessário utilizar o comando pip: pip install ocrmypdf. Esta biblioteca é um conjunto de pacotes que atuará sobre o PDF.

Primeiro de tudo, caso seja usuário de windows, é necessário ter um administrador de pacotes chamado. Após ter instalado ele, é necessário escrever os seguintes comandos:

  • choco install –pre tesseract
  • choco install ghostscript

Para mais informações sobre esse processo, caso utilizar MacOS ou Linux, acesse aqui.

GitHub

View Github


Leave a Reply

Your email address will not be published. Required fields are marked *

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

GIPHY App Key not set. Please check settings

Day 5 of 100 Days of Code & Scrum: Rejected, Mislead, and Distracted

Twist 2.0 — For teams burnt out by real-time chat, work async, not ASAP