|
Paulo Werneck
Blog Guardamoria, 19 Sep 2013 07:59 PM PDT
Os textos apresentados aqui no Guardamoria são, em geral, obtidos na Internet, sob a forma de arquivos de imagem (jpg, pnt) ou pdf, e convertidos para texto. Alguns, felizmente poucos, são copiados em bibliotecas.
Algumas conversões foram feitas na base da cópia pura e simples, ou seja, alguém lê o texto e o digita, mas existem ferramentas denominadas OCR, acrônimo de Optical Character Recognition, em vernáculo Reconhecimento Ótico de Caracteres, que fazem o trabalho de conversão automaticamente.
O primeiro problema é que os textos são cópias de textos antigos, impressos há séculos, com caracteres irregulares, muitas manchas de oxidação do papel ou da tinta, umidade, insetos, além do formato dos caracteres muitas vezes ser bem diferente do formato atual, em especial o "ſ", forma antigamente usada para o "s" em algumas posições na palavra, nunca no final, e que se parece extremamente com o "f".
Essas características acabam ocasionando muitos erros de conversão, que precisam ser corrigidos manualmente, pela comparação visual entre o texto original e o convertido mecanicamente.
Um segundo problema é o próprio software OCR. Há versões pagas, há versões on line. Guardamoria prefere as gratuitas, on line e simples de usar, que tenham razoável taxa de acertos, ou baixa taxa de erros.
Assim recomenda o Free Online OCR, da Smart Soft, disponível em free-online-ocr.com, uma ferramenta bem simples de usar: basta subir o arquivo (PDF, GIF, BMP, JPEG, TIFF or PNG), selecionar o formato de saída (DOC, PDF, RTFou TXT) e pressionar o botão "Convert".
|
Temas de relações internacionais, de política externa e de diplomacia brasileira, com ênfase em políticas econômicas, viagens, livros e cultura em geral. Um quilombo de resistência intelectual em defesa da racionalidade, da inteligência e das liberdades democráticas. Ver também minha página: www.pralmeida.net (em construção).
Mostrando postagens com marcador OCR. Mostrar todas as postagens
Mostrando postagens com marcador OCR. Mostrar todas as postagens
sexta-feira, 20 de setembro de 2013
Conversao de arquivos digitais em arquivos de textos - OCR, by Guardamoria
Meu amigo Paulo Werneck sempre prestando bons favores aos pesquisadores.
Assinar:
Comentários (Atom)
Postagem em destaque
Livro Marxismo e Socialismo finalmente disponível - Paulo Roberto de Almeida
Meu mais recente livro – que não tem nada a ver com o governo atual ou com sua diplomacia esquizofrênica, já vou logo avisando – ficou final...
-
Carreira Diplomática: respondendo a um questionário Paulo Roberto de Almeida ( www.pralmeida.org ) Respostas a questões colocadas por gradua...
-
Ficha catalográfica de um livro saindo agora do "forno": Intelectuais na diplomacia brasileira : a cultura a serviço da nação /...
-
Stephen Kotkin is a legendary historian, currently at Hoover, previously at Princeton. Best known for his Stalin biographies, his other wor...
-
Brasil: cronologia sumária do multilateralismo econômico, 1856-2006 Paulo Roberto de Almeida In: Ricardo Seitenfus e Deisy Ventura, Direito ...
-
Licença pouco poética para espezinhar quem merece (com desculpas às almas sensíveis) Jornalistas diversos e até psiquiatras (que não deveri...
-
Artigo do embaixador Jorio Dauster sobre a ironia trágica decorrente do fato que o autocrata DJT patrocinou, com seu espetáculo Hollywoodia...
-
Conversas sobre o Brics: uma visão contrarianista A Funag - Fundação do Itamaraty - produziu, provavelmente sob instruções do gove...
-
O Brasil é mesmo uma democracia, um amigo da democracia? Paulo Roberto de Almeida, diplomata, professor. Nota sobre as democracias que apoia...
-
Trump apresenta lista de exigências para o novo governo da Venezuela Fim de apoio para adversários dos EUA, expulsão de cubanos e pleno ace...