
Cualquier noticia sobre Google más o menos relevante os llegará a través de este blog hasta vuestros ojos. En este caso es para anunciaros una adquisición, pues los de Mountain View se han dado otra vuelta más por el supermercado de empresas tecnológicas y esta vez no han podido resistir la tentación de llenar su carro con esta empresa que a muchos no les sonará.
Se trata de reCaptcha, y aunque no te suene el nombre seguro que te has acordado alguna vez de la familia de Captcha (acrónimo que significa Completely Automated Public Turing test to tell Computers and Humans Apart), pues se trata del servicio por el cual tenemos que ingresar una serie de letras que se muestran por pantalla con formas raras o camufladas entre otras formas.
Sabéis que esto se hace para eliminar la posibilidad de que seas un bot en vez de una persona humana (creo que yo, por mis dificultades en este tema, pertenezco al primer grupo). Pues reCaptcha es una utilidad surgida en el seno de la Universidad Carnegie Mellon no sólo para proteger de bots y spam sino también para digitalizar texto en libros.
¿Ya habéis caído en la cuenta de por qué le interesa tanto a Google una empresa tan difícil de pronunciar? Eso es, para ayudar en el proceso de digitalización de Google Books y Google News Archive Search. ¡Ay que ver, lo que pasa cuando tienes unos millones de dólares en el bolsillo!










Nadie dentendrá a Google ;D
si hablamos de monopolios… me gusta mas el monopolio qe qiere hacer google qe el qe qiere hacer microsoft [x lo de micro aburre.. ._. Google tiene mejores ideas ;D claro qe todo esto es sólo una opinión muy personal ^_^
Ok, ayuda a digitalizar libros… pero de qué manera? no se me ocurre cómo y tampoco me lo explican ._.
Ayuda en eso, gracias.
Cuando se escanea un libro se escanea como imagen, luego mediante software se aplica un proceso llamado ocr, que significa “reconomiento óptico de caracteres” esto no siempre es perfecto, la calidad de papel, la antiguedad del libro, las manchas y arañazos ganados por los años dificultan su trabajo y allí entra la intervención del hombre, donde se deben ingresar las palabras y/o caracteres que el programa no reconoció, de alli nace recaptcha, un sistema captcha que ayuda a digitalizar libros, mediante la colaboración y validación del captcha, ayuda a reconocer las palabras digitalizadas que no fueron reconocidas por el software y que sólo el ojo humano es capaz de reconocer, teniendo en cuenta esto, perjudica también a los bots que envían spam a los sitios webs porque también utilizan ocr, es decir el beneficio es recíproco, ayudas a digitalizar libros y te ayuda a combatir el spam, asi de simple ;-)
Saludos.
Si te preguntas ¿cómo es posible que validen lo que ingresé, si ellos mismos no saben lo que dicen en la imagen…. te respondo, es posible que el mismo captcha se lo muestre a otra persona (o a varias) en ese mismo instante y así evitan errores, ¿que mejor verificación que dos personas con el mismo criterio? ;-)
qe interesante enterarse de estas cosas, no me habia imaginado que ese sistema funcionaba asi, yo pense que ellos hacian los codigos medio feos solo para proteger de bot y spam, pero no digitalizando libros, algo simple pero muy interesante
Jose, cuando usan este sistema recaptcha, en realidad te ponen 2 series de caracteres, una del libro, y otra captcha artificial, pero muy parecida a la del libro, de tal manera que uno no reconozca cual es la real y cual no.
de nada serviria poner solo la del libro, porque en teoria el sistema no se tiene la serie exacta como para validar el acierto o el error al introducirla, no tiene nada con que comparar, asi que ponen las dos, al uno no saberlo, en teoria uno intenta escribir correctamente las dos, luego el sistema procesa la respuesta que conoce, y da por valida la que no conoce.
obviamente, luego podria pasar lo que decis, que para asegurarse, muestran el mismo pedazo de texto a otros usuarios, para asegurar una respuesta correcta. esto porque de todas formas uno logra reconocer cual es el captcha real y cual no, al menos yo si puedo :D
mi duda con esto es si el proceso de introducir como captcha el texto que no se reconoce correctamente toma mas tiempo y recursos que el hecho de reconocerlo manualmente. si el proceso es automatico, como sabe el programa cual parte del texto esta bien reconocido y cual no? como hace para separar el texto dudoso y crear el captcha? solo se me ocurre que al automatizar el proceso, en realidad ponen todo el libro en su totalidad, lo que haria perder eficiencia ya que eso significaria que procesan lo que no es necesario de procesar, y que es la mayoria del texto.
Según en la wikipedia el texto escaneado es analizado por dos programas ocr distintos y en caso de que no exista coincidencia en una palabra la convierten en captcha, en el sistema captcha hay dos palabras, que en realidad es… una que fue previamente reconocida y otra por reconocer, recaptcha asume que si eres capaz de reconocer la palabra que fue previamente verificada -la otra palabra en cuestión también es correcta, internamente maneja un sistema de votos, 0.5 puntos por el programa ocr que lo reconoció y 1 punto entero por cada persona, al llegar a los 2.5 puntos se considera como bueno y una vez validada se reutiliza en otro recaptcha pero como palabra reconocida junto a otra nueva palabra por reconocer, así de facil.
Saludos.