O que é reconhecimento óptico de caracteres (OCR)?

Índice:

O que é reconhecimento óptico de caracteres (OCR)?
O que é reconhecimento óptico de caracteres (OCR)?
Anonim

Optical Character Recognition (OCR) refere-se ao software que cria uma versão digital de um documento impresso, digitado ou manuscrito que os computadores podem ler sem a necessidade de digitar ou inserir o texto manualmente. OCR geralmente é usado em documentos digitalizados em formato PDF, mas também pode criar uma versão de texto legível por computador dentro de um arquivo de imagem.

O que é OCR

OCR, também conhecido como reconhecimento de texto, é uma tecnologia de software que transforma caracteres como números, letras e pontuação (também chamados de glifos) de documentos impressos ou escritos em um formato eletrônico mais facilmente reconhecido e lido por computadores e outros programas de software. Alguns programas de OCR fazem isso quando um documento é digitalizado ou fotografado com uma câmera digital e outros podem aplicar esse processo a documentos que foram digitalizados ou fotografados anteriormente sem OCR. OCR permite que os usuários pesquisem em documentos PDF, editem texto e reformatem documentos.

Image
Image
Digitalização de jornais históricos com software OCR.

Getty Images

Para que serve o OCR?

Para necessidades de digitalização rápidas e diárias, o OCR pode não ser um grande problema. Se você fizer uma grande quantidade de digitalização, poder pesquisar em PDFs para encontrar exatamente o que você precisa pode economizar um pouco de tempo e tornar a funcionalidade OCR em seu programa de scanner mais importante. Aqui estão algumas outras coisas que o OCR ajuda:

  • Processamento e entrada de dados automatizados (Example: Sistemas de rastreamento de candidatos a emprego para currículos).
  • Tornar livros digitalizados pesquisáveis.
  • Conversão de digitalizações manuscritas em texto legível por computador.
  • Tornar os documentos mais utilizáveis por programas de leitura que auxiliam usuários com deficiência visual.
  • Preservando documentos históricos e jornais, além de torná-los pesquisáveis.
  • Extração de dados e transferência para programas de contabilidade (Exemplo: Recibos e faturas).
  • Indexação de documentos para uso por mecanismos de busca.
  • Reconhecimento de placas de motorista por um radar de velocidade e software de câmera de semáforo.
  • Sintetizadores de fala para pessoas que não falam – o físico teórico, Stephen Hawking, talvez seja o usuário mais conhecido de um programa de sintetizador de fala.

Linha de fundo

Por que não tirar uma foto, certo? Porque você não conseguiria editar nada ou pesquisar o texto porque seria apenas uma imagem. Digitalizar o documento e executar o software OCR pode transformar esse arquivo em algo que você pode editar e pesquisar.

Histórico do OCR

Embora o uso mais antigo do reconhecimento de texto data de 1914, o amplo desenvolvimento e uso de tecnologias relacionadas ao OCR começou a sério na década de 1950, especificamente com a criação de fontes muito simplificadas que eram mais fáceis de converter para digitalmente. texto legível. A primeira dessas fontes simplificadas foi criada por David Shepard e comumente conhecida como OCR-7B. OCR-7B ainda está em uso hoje no setor financeiro para a fonte padrão usada em cartões de crédito e débito. Na década de 1960, os serviços postais de vários países começaram a usar a tecnologia OCR para acelerar enormemente a classificação de correspondências, incluindo Estados Unidos, Grã-Bretanha, Canadá e Alemanha. OCR ainda é a tecnologia principal usada para classificar correspondências para serviços postais em todo o mundo. Em 2000, o conhecimento fundamental dos limites e capacidades da tecnologia OCR foi usado para desenvolver os programas CAPTCHA usados para parar bots e spammers.

Ao longo das décadas, o OCR se tornou mais preciso e sofisticado devido aos avanços em áreas de tecnologia relacionadas, como inteligência artificial, aprendizado de máquina e visão computacional. Hoje, o software OCR usa reconhecimento de padrões, detecção de recursos e mineração de texto para transformar documentos com mais rapidez e precisão do que nunca.

FAQ

    Como digitalizo documentos com meu telefone ou tablet?

    No iOS, abra o aplicativo Notas e crie uma nova nota. Abra a câmera e toque em Scan Documents. No Android, abra o Google Drive e selecione Plus (+) e toque em Scan para digitalizar o documento com seu telefone.

    Como uso o OCR no Adobe Acrobat?

    Abra um arquivo PDF contendo uma imagem digitalizada e selecione Ferramentas > Edit PDF. O Acrobat aplicará automaticamente o OCR para que você possa editar o texto. Basta selecionar onde deseja editar e começar a digitar.

    Qual é a diferença entre OCR e OMR?

    Optical Mark Recognition (OMR) é um software que detecta marcas no papel, normalmente uma folha de bolha. OMR é usado para processar os resultados de exames, pesquisas, questionários e até eleições. Ao contrário do OCR, o OMR não pode decifrar as marcas na página, mas apenas verificar se as marcas estão lá.

Recomendado: