sexta-feira, 20 de setembro de 2013

Conversao de arquivos digitais em arquivos de textos - OCR, by Guardamoria

Meu amigo Paulo Werneck sempre prestando bons favores aos pesquisadores.


Paulo Werneck
Blog Guardamoria, 19 Sep 2013 07:59 PM PDT

Os textos apresentados aqui no Guardamoria são, em geral, obtidos na Internet, sob a forma de arquivos de imagem (jpg, pnt) ou pdf, e convertidos para texto. Alguns, felizmente poucos, são copiados em bibliotecas.

Algumas conversões foram feitas na base da cópia pura e simples, ou seja, alguém lê o texto e o digita, mas existem ferramentas denominadas OCR, acrônimo de Optical Character Recognition, em vernáculo Reconhecimento Ótico de Caracteres, que fazem o trabalho de conversão automaticamente.

O primeiro problema é que os textos são cópias de textos antigos, impressos há séculos, com caracteres irregulares, muitas manchas de oxidação do papel ou da tinta, umidade, insetos, além do formato dos caracteres muitas vezes ser bem diferente do formato atual, em especial o "ſ", forma antigamente usada para o "s" em algumas posições na palavra, nunca no final, e que se parece extremamente com o "f".

Essas características acabam ocasionando muitos erros de conversão, que precisam ser corrigidos manualmente, pela comparação visual entre o texto original e o convertido mecanicamente.

Um segundo problema é o próprio software OCR. Há versões pagas, há versões on line. Guardamoria prefere as gratuitas, on line e simples de usar, que tenham razoável taxa de acertos, ou baixa taxa de erros.

Assim recomenda o Free Online OCR, da Smart Soft, disponível em free-online-ocr.com, uma ferramenta bem simples de usar: basta subir o arquivo (PDF, GIF, BMP, JPEG, TIFF or PNG), selecionar o formato de saída (DOC, PDF, RTFou TXT) e pressionar o botão "Convert".


Free Online OCR

Convert scanned images into editable text.
Free Online OCR is a free service that allows you to easily convert scanned documents, faxes, screenshots and photos into editable and searchable text, such as DOC, TXT or PDF.
The service is completely free and you don't need to register or install anything on your computer. Just select an image file and click Convert. You can immediately download the resulting document.
 

Features
 

  • Precise image to text conversion
  • Keeps the layout and formatting
  • Scanned PDF to DOC conversion
  • Supports PDF, GIF, BMP, JPEG, TIFF or PNG as input
  • Supports DOC, PDF, TXT or RTF as output
  • Automatically rotates pages
  • Supports low resolution images
  • Keeps the image layer of a scanned PDF
  • Works online - no installation
  • Keeps your data confidential and secure
 


What is OCR?

OCR (Optical Character Recognition) is a technology that extracts the text from an image or a scanned document so that it can be edited, formatted, searched, indexed, automatically translated or converted to speech.
OCR can be used to convert books and documents into electronic format and to automate various business processes.
It's time to stop retyping. Just scan and OCR.

Nenhum comentário:

Postar um comentário

Comentários são sempre bem-vindos, desde que se refiram ao objeto mesmo da postagem, de preferência identificados. Propagandas ou mensagens agressivas serão sumariamente eliminadas. Outras questões podem ser encaminhadas através de meu site (www.pralmeida.org). Formule seus comentários em linguagem concisa, objetiva, em um Português aceitável para os padrões da língua coloquial.
A confirmação manual dos comentários é necessária, tendo em vista o grande número de junks e spams recebidos.