Arma contra spam ajuda a preservar livros antigos

3 10 2007 por Alessandro Martins
· 7 comentários

Todo mundo já precisou digitar as letras e números que via em uma imagem para mostrar que é um humano e não um robô de spam, seja na caixa de comentários de blogs, seja na confirmação de emails, seja para confirmar a inscrição em um site.

Esse sistema é conhecido como “captcha” (Completely Automated Turing Test To Tell Computers and Humans Apart).

Esse teste não é muito popular, pois é um trabalho a mais para quem quer mandar uma mensagem eletrônica ou fazer um comentário. Além do mais, você tem certeza de que é humano, embora às vezes algumas pessoas tenham opiniões diferentes.

Porém, ao mesmo tempo existem diversos livros digitalizados dos quais se possui uma imagem, mas não o texto. Existem programas - os OCRs - que fazem a leitura dessas imagens, mas eles costumam cometer erros.

Por enquanto os únicos que conseguem ter a interpretação satisfatória de 10% das palavras escaneadas são os humanos.

Alguém da Carnegie Mellon University teve a genial idéia de pegar as palavras em que os OCRs ficam em dúvida e oferecê-las automaticamente para diversos sites que precisam de autenticação por captcha.

Quando usuários humanos decifram o significado da imagem, elas são reenviadas ao sistema. Assim, cada vez que alguém faz isso, uma nova palavra de um livro antigo deixa de ser uma imagem e passa a ser uma palavra propriamente.

Na verdade, o sistema espera que duas ou mais pessoas concordem com a mesma palavra até que haja confirmação.

Mas considerando o número de pessoas que faz isso diariamente, o trababalho está bem adiantado.

Transformados em textos e armazenados digitalmente, os livros acabam sendo menos manuseados e, ainda assim, continuam acessíveis a todos os pesquisadores e estudantes que deles precisarem na tela de um computador, em um e-book ou reimpressos.

A matéria completa está na BBC News. Um complemento a este artigo é observar que por lá os portais de notícia também não costumam fazer links para suas fontes. Eu tive que correr atrás de todos. Então melhor seria dizer que a matéria incompleta está na BBC News.

Para mim, ficou apenas uma dúvida. Se o sistema não sabe exatamente que palavra é aquela, como saberá que se a pessoa acertou e que, portanto, é de fato uma pessoa e não um robô?

Você vai gostar...

  • Jogos com livros para bibliotecários viciados
  • Ser bibliotecário não é fácil como sugere o labor silencioso das bibliotecas. Jogue durante cinco minutos o game I'll Get It e você vai entender como recolher livros que ficam sobre
  • O spam sobre o fim do site Domínio Público
  • Coisa de dois anos, vem circulando um email sobre o possível fim do site do governo federal Domínio Público, em que são disponibilizados livros, sons e imagens cujos direitos autorais

    As 100 Melhores Histórias Eróticas da Literatura Universal Carlos Drummond de Andrade: Poesia Completa A Arte de Escrever

    Clique nos livros para comprar. Quero ver mais indicações.

    Tags: Dica de site · O prazer de ler

    7 comentários até agora ↓

    • 1 Carlos Correa // 3 10 2007 às 9:33

      Interessante esse sistema, realmente…

      Parabéns pela dia, com sabor de um final surpreendente e filosófico.

    • 2 Cayo Medeiros aka. yogodoshi // 3 10 2007 às 10:36

      Valeu Alessandro, eu estava justamente procurando esse captcha, cheguei até a perguntar em uma lista mas ainda nem vi a resposta xD

      Abraços!

    • 3 Thássius // 3 10 2007 às 18:15

      Já conheço o sistema e já até usei no meu blog, mas acabei concluindo que não ficava muito integrado ao layout.

      Seria interessante se tivéssemos acesso aos livros que acabamos ajudando a digitalizar.

    • 4 _Maga // 4 10 2007 às 0:17

      Uaw! Que idéia boa!!! Tão boa que é quase inacreditável que, no tempo de fazer-se tudo pelo mais difícil, alguém tenha pensado nisso!

      … e a tua pergunta no final é mais do que pertinente! rs

      beijos

    • 5 Alexandre Fugita // 4 10 2007 às 2:54

      Alessandro,

      Quanto à sua última pergunta, lembro de ter lido em algum lugar, acho que no site do Recaptcha mesmo…

      Na verdade o sistema mostra uma palavra em formato de imagem que o computador já sabe qual é e outra que não sabe. Só que no recaptcha não dá pra nós sabermos qual é a palavra conhecida.

      Inserimos as duas. Se a palavra conhecida estiver correta, é provável que a desconhecida também esteja. Assim, faz comparações com várias outras pessoas que usaram o recaptcha e pronto!

      Abraços e ótimo texto!

    • 6 Lady Cronopio // 6 10 2007 às 11:24

      Bravíssimo!
      E eu permaneço em dúvida, pois de vez em quando não acerto as tais letras…
      Sou gente ou robô?

    • 7 Daniela // 7 10 2007 às 18:24

      Bah, tenho certeza de que não sou humana…

    Deixe um comentário