jueves, 22 de enero de 2009

Digitalizando libros usando Recaptcha

Quien no se ha encontrado que a la hora de llenar un formulario les aparecen unas palabritas algo ilegibles, que nos hacen perder un poco el tiempo a los usuarios de la web, pero que sirven de protección a los sitios contra los ataques de robots. Pues cada vez que nos encontramos esto, estamos en presencia de lo que se conoce como CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart).




Pues bien vamos a lo que me llamo la atención. De todos los sistemas de captcha que nos podemos encontrar el que nos brinda ReCAPTCHA(http://www.recaptcha.net) merece la excelencia no solo por la facilidad con que se acopla a un sitio y si no porque……. Ya veremos.




Un poco de historia

Como dato interesante sepan que este termino surge por el ano 2000 gracias a Luis von Ahn, Manuel Blum, Nicholas Hopper and John Langford de la Universidad de Carnegie Mellon. Por aquellos tiempo ellos desarrollaron el primer CAPTCHA para ser usado por Yahoo.




(imagen de recaptcha)




Entrando en materia…



Digamos que la peculiaridad de Recaptcha es que las palabras que nos aparecen pertenecen a libros escaneados mediante OCR, que no son 100% exactos. y de esa forma al usar el servicio, estamos constribuyendo a la traducción de estos textos.



Como funciona?

De las 2 palabras que aparecen, de la 1ra se conoce su traducción exacta y de la 2da no, si un usuario introduce correctamente la 1ra palabra, entonces el sistema asume que la 2da tiene alguna probabilidad de estar también correctamente traducida, luego, la 2da palabra se le muestra a otros usuarios y al final se promedia de todas las traducciones cual es la mas acertada, y asi, ese tiempo que invertimos inconscientemente tecleando esas palabritas que vemos, pueden estar seguro que es de gran utilidad a la humanidad.



El propio sitio de Recaptcha nos revela que diariamente se resuelven 200 millones de CAPTCHAS, lo que equivale a 150 000 horas de trabajo, en materia de resolver estos puzzles. Y actualmente están usando esa fuerza de trabajo para digitalizar libros del Archivo de Internet y ediciones antiguas de New York Times. Pues ya saben, comiencen a regar la bola