|
Paulo Werneck
Blog Guardamoria, 19 Sep 2013 07:59 PM PDT
Os textos apresentados aqui no Guardamoria são, em geral, obtidos na Internet, sob a forma de arquivos de imagem (jpg, pnt) ou pdf, e convertidos para texto. Alguns, felizmente poucos, são copiados em bibliotecas.
Algumas conversões foram feitas na base da cópia pura e simples, ou seja, alguém lê o texto e o digita, mas existem ferramentas denominadas OCR, acrônimo de Optical Character Recognition, em vernáculo Reconhecimento Ótico de Caracteres, que fazem o trabalho de conversão automaticamente.
O primeiro problema é que os textos são cópias de textos antigos, impressos há séculos, com caracteres irregulares, muitas manchas de oxidação do papel ou da tinta, umidade, insetos, além do formato dos caracteres muitas vezes ser bem diferente do formato atual, em especial o "ſ", forma antigamente usada para o "s" em algumas posições na palavra, nunca no final, e que se parece extremamente com o "f".
Essas características acabam ocasionando muitos erros de conversão, que precisam ser corrigidos manualmente, pela comparação visual entre o texto original e o convertido mecanicamente.
Um segundo problema é o próprio software OCR. Há versões pagas, há versões on line. Guardamoria prefere as gratuitas, on line e simples de usar, que tenham razoável taxa de acertos, ou baixa taxa de erros.
Assim recomenda o Free Online OCR, da Smart Soft, disponível em free-online-ocr.com, uma ferramenta bem simples de usar: basta subir o arquivo (PDF, GIF, BMP, JPEG, TIFF or PNG), selecionar o formato de saída (DOC, PDF, RTFou TXT) e pressionar o botão "Convert".
|
Temas de relações internacionais, de política externa e de diplomacia brasileira, com ênfase em políticas econômicas, viagens, livros e cultura em geral. Um quilombo de resistência intelectual em defesa da racionalidade, da inteligência e das liberdades democráticas. Ver também minha página: www.pralmeida.net (em construção).
sexta-feira, 20 de setembro de 2013
Conversao de arquivos digitais em arquivos de textos - OCR, by Guardamoria
Meu amigo Paulo Werneck sempre prestando bons favores aos pesquisadores.
Labels:
Guardamoria,
OCR,
Paulo Werneck
Assinar:
Postar comentários (Atom)
Postagem em destaque
Brasil e México, amigos distantes: a busca de um ALC Brasil-México em 2008-2010 - Sérgio Abreu e Lima Florencio
Brasil e México. Amigos Distantes A busca de um ALC Brasil-México em 2008-2010 Sérgio Abreu e Lima Florencio Brasil e México têm ...
-
Minha entrevista desta sexta-feira 25/02/2022, sobre a dramática situação da Ucrânia no canal +BrasilNews. 1437. “ Entrevista sobre a Ucrân...
-
Personagens Bíblicos / História do Profeta Samuel: Quem foi Samuel na Bíblia? https://estiloadoracao.com/historia-do-profeta-samuel/ Histó...
-
Recorrências … (não, não acredito que a História se repete; os homens se repetem, alguns de forma delirante): Paulo Roberto de Almeida O...
-
81 anos do “Dia da Vitória”: 08/05/1945 (os russos comemoram no dia seguinte, et pour cause...) Mas é o dia da vitória sobre os nazistas par...
-
_*A iminente derrota de Trump no Irã é uma crise pessoal e política.*_ _*"Ele está postando de forma mais descontrolada do que nunca – ...
-
Onde será que se esconde Putin? Seu amigo Trump vai aparecer para o desfile da "vitória"? Creio que será, ou já está sendo, um 9 d...
-
9 de maio de 2026: o "Dia da Derrota" Todos os dias 9 de maio, a cada ano desde 1946, é reputado representar o maior feriado nacio...
-
Rogerio Pinto, aka Roger Pinto, me envia suas considerações de economista sobre a questão das tarifas, da política comercial, e seus efeit...
-
Um professor catedrático convidado numa universidade portuguesa consultou-me sobre a dívida externa do Brasil na interação com Portugal na é...
-
A história econômica brasileira na pena de Afonso Arinos de Melo Franco Versão abreviada de meu capítulo no livro *Nos 120 Anos de Afonso Ar...
Nenhum comentário:
Postar um comentário