Google compra ReCaptcha para impulsar Google Books

recaptcha-exampleGoogle vuelve a ser noticia, esta vez por la compra de la empresa ReCaptcha encargada de facilitar un sistema rápido y eficaz de captcha a webmasters para utilizar en sus proyectos web. Con esta adquisición, Google pretende acelerar el proceso de digitalización de libros para Google Books, proyecto en el que lleva trabajando varios años.

¿Qué es un captcha?

Los captcha son esas “molestas” cajas con textos a menudo casi ilegibles que nos encontramos a la hora de registrarnos en una web, insertar un comentario blog…

La función de un captcha es la de asegurarnos que quien está realizando una acción, como las mencionadas anteriormente, sea una persona y no un programa (comunmente llamados bots). Para una máquina, el reconocimiento de textos distorsionados dentro de imágenes es un proceso bastante complejo (aunque no imposible), por lo tanto al colocar este tipo de sistemas en el registro de hotmail, por poner un ejemplo, estaremos eliminando el 99,9% de los registros automáticos por programas que después utilizan la cuenta para enviar spam.

¿Por qué ha comprado Google la empresa ReCaptcha?

Los emprendedores que iniciaron ReCaptcha pensaron que este sistema, además de ser muy útil para webmasters, podría ser también muy útil para que los usuarios del sistema fueran digitalizando poco a poco libros previamente escaneados y pasados por un OCR (software de reconocimiento óptico de caracteres).

Los OCR tienen muy buenos resultados en libros actuales con los caracteres bien definidos, pero en el caso de libros antiguos o en mal estado puede cometer un porcentaje muy elevado de errores:

sample-ocr

La idea es mostrar en los sistemas de captcha dos palabras, una conocida que será la encargada de validar correctamente el texto introducido por el usuario, y otra desconocida que el usuario se encargará de traducir.

Google ha visto en este sistema un filón para dar impulso a su macro proyecto Google Books, proyecto que pretende digitalizar y poner a disposición de todos los internautas miles de libros para que puedan ser descargados de manera gratuita.