Todo mundo já precisou digitar as letras e números que via em uma imagem para mostrar que é um humano e não um robô de spam, seja na caixa de comentários de blogs, seja na confirmação de emails, seja para confirmar a inscrição em um site.
Esse sistema é conhecido como “captcha” (Completely Automated Turing Test To Tell Computers and Humans Apart).
Esse teste não é muito popular, pois é um trabalho a mais para quem quer mandar uma mensagem eletrônica ou fazer um comentário. Além do mais, você tem certeza de que é humano, embora às vezes algumas pessoas tenham opiniões diferentes.
Porém, ao mesmo tempo existem diversos livros digitalizados dos quais se possui uma imagem, mas não o texto. Existem programas - os OCRs - que fazem a leitura dessas imagens, mas eles costumam cometer erros.
Por enquanto os únicos que conseguem ter a interpretação satisfatória de 10% das palavras escaneadas são os humanos.
Alguém da Carnegie Mellon University teve a genial idéia de pegar as palavras em que os OCRs ficam em dúvida e oferecê-las automaticamente para diversos sites que precisam de autenticação por captcha.
- Então se você precisa combater o spam em seu site, eu sugiro que você use o sistema reCaptcha e, assim, ajude a preservar livros antigos. Para evitar problemas de acessibilidade para pessoas cegas, eles também oferecem audioCaptchas.
Quando usuários humanos decifram o significado da imagem, elas são reenviadas ao sistema. Assim, cada vez que alguém faz isso, uma nova palavra de um livro antigo deixa de ser uma imagem e passa a ser uma palavra propriamente.
Na verdade, o sistema espera que duas ou mais pessoas concordem com a mesma palavra até que haja confirmação.
Mas considerando o número de pessoas que faz isso diariamente, o trababalho está bem adiantado.
Transformados em textos e armazenados digitalmente, os livros acabam sendo menos manuseados e, ainda assim, continuam acessíveis a todos os pesquisadores e estudantes que deles precisarem na tela de um computador, em um e-book ou reimpressos.
A matéria completa está na BBC News. Um complemento a este artigo é observar que por lá os portais de notícia também não costumam fazer links para suas fontes. Eu tive que correr atrás de todos. Então melhor seria dizer que a matéria incompleta está na BBC News.
Para mim, ficou apenas uma dúvida. Se o sistema não sabe exatamente que palavra é aquela, como saberá que se a pessoa acertou e que, portanto, é de fato uma pessoa e não um robô?




7 comentários até agora ↓
1 Carlos Correa // 3 10 2007 às 9:33
Interessante esse sistema, realmente…
Parabéns pela dia, com sabor de um final surpreendente e filosófico.
2 Cayo Medeiros aka. yogodoshi // 3 10 2007 às 10:36
Valeu Alessandro, eu estava justamente procurando esse captcha, cheguei até a perguntar em uma lista mas ainda nem vi a resposta xD
Abraços!
3 Thássius // 3 10 2007 às 18:15
Já conheço o sistema e já até usei no meu blog, mas acabei concluindo que não ficava muito integrado ao layout.
Seria interessante se tivéssemos acesso aos livros que acabamos ajudando a digitalizar.
4 _Maga // 4 10 2007 às 0:17
Uaw! Que idéia boa!!! Tão boa que é quase inacreditável que, no tempo de fazer-se tudo pelo mais difícil, alguém tenha pensado nisso!
… e a tua pergunta no final é mais do que pertinente! rs
beijos
5 Alexandre Fugita // 4 10 2007 às 2:54
Alessandro,
Quanto à sua última pergunta, lembro de ter lido em algum lugar, acho que no site do Recaptcha mesmo…
Na verdade o sistema mostra uma palavra em formato de imagem que o computador já sabe qual é e outra que não sabe. Só que no recaptcha não dá pra nós sabermos qual é a palavra conhecida.
Inserimos as duas. Se a palavra conhecida estiver correta, é provável que a desconhecida também esteja. Assim, faz comparações com várias outras pessoas que usaram o recaptcha e pronto!
Abraços e ótimo texto!
6 Lady Cronopio // 6 10 2007 às 11:24
Bravíssimo!
E eu permaneço em dúvida, pois de vez em quando não acerto as tais letras…
Sou gente ou robô?
7 Daniela // 7 10 2007 às 18:24
Bah, tenho certeza de que não sou humana…
Deixe um comentário