Como Funciona o OCR

Quando um scanner lê a imagem de um documento, ele converte os elementos escuros da página em um mapa de bits, esse mapa é uma matriz de pixels quadrados que podem estar ativos (pretos) ou inativos (brancos).

Como os pixels são maiores que os detalhes da maior parte do texto, este processo degrada as extremidades mais finas dos caracteres, assim como acontece na máquina de fax.

A degradação cria a maior parte dos problemas para os sistemas de reconhecimento óptico de caracteres (OCR).

O programa de OCR lê o bit gerado pelo scanner e verifica as áreas de pixels ativos e inativos da página, na realidade ele marca o espaço em branco da página.

Isto possibilita que um programa separe em blocos os parágrafos, colunas, títulos e partes gráficas.
O espaço em branco entre as linhas de texto contidos em um bloco define a base de cada linha, um detalhe essencial para o reconhecimento de caracteres num texto.

Na primeira etapa de conversão de imagens em texto, o programa tenta reconhecer cada caractere através de uma comparação pixel a pixel com o modelo de caractere que o programa guarda na memória.

Os modelos são compostos de conjuntos completos, de número, de pontuação e caracteres estendidos, de fontes comuns como Courier de 12 pontos e o conjunto Selectric da IBM.

Como esta técnica demanda uma correspondência muito próxima, os atributos do caractere, tais como negrito e itálico, devem ser idênticos para serem reconhecidos. Uma varredura de má qualidade não consegue bons resultados neste aspecto.
Os caracteres não reconhecidos passam por um processo mais minucioso e demorado conhecido como extração de recursos, o programa calcula a altura x do texto, relativa à altura da letra minúscula x, e analisa cada combinação das linhas retas, curvas e áreas preenchidas de cada caractere, como no caso da letra o ou da b.

Os programas OCR sabem, por exemplo, que o caractere com uma curva descendente abaixo da linha de base e uma área preenchida acima tem grande possibilidade de ser um g minúsculo.

Como o programa elabora um alfabeto de trabalho de cada novo caractere encontrado, a velocidade de reconhecimento aumenta.

Como estes dois processos acabam por não decifrar todos os caracteres, os programas OCR usam dois métodos para reconhecer os hieróglifos remanescentes.

Alguns programas OCR marcam os caracteres não reconhecidos com um caractere especial como ~, #, ou @ e desistem.
Nos casos assim é necessário o uso de um processador de textos para localizar tais caracteres especiais, corrigindo-os manualmente.

Alguns programas de OCR são capazes de mostrar um bitmap em zoom (tamanho aumentado) na tela e pedir que seja pressionada a tecla correspondente ao caractere em questão, que deverá ser substituído pelo bitmap.

Outros programas de OCR ainda solicitam um corretor ortográfico especial para procurar erros óbvios e localizar as possíveis alternativas para as palavras que contêm caracteres especiais não reconhecidos.

Por exemplo, para os programas de OCR, o número 1 e a letra I são muito parecidas, da mesma forma que o 5 e o S, ou ainda o cl e o d.

Uma palavra como aclimatar poderia transformar-se em adimatar, o corretor ortográfico reconhece esses erros típicos do OCR e os corrige.

A maioria dos programas de OCR permite que um documento convertido seja gravado em ASCII ou em um formato possível de ser reconhecido pelos processadores de texto e planilhas eletrônicas mais conhecidas.

Acesse e conheça O Canal Ibytes no Youtube
Acesse o Canal Ibytes no Youtube