martes, 7 de julio de 2015

El número de páginas web supera los mil millones, la cifra se alcanzó hace algún tiempo, según los datos difundidos en tiempo real por la web Internet Live Stats A esa hora, el número de páginas web había ascendido a más de 1.060 millones, una cifra que no para de crecer y a un ritmo considerable, según revelan los datos.
 
Internet, esa red mundial interconectada, ideada por el británico Tim Berners-Lee, (artículo) que presentó su idea por escrito el 12 de marzo de 1989 (fecha oficial establecida como el nacimiento de la web) y que estableció la primera comunicación entre un cliente y un servidor usando el protocolo HTTP un poco más tarde, allá por noviembre de 1989, celebró sus 25 años este 2014.
 


A pesar de que los inicios de la web fueron tímidos, los gurús de la red afirman que el punto de inflexión en la creación de páginas web tuvo lugar en 1993 con la introducción del navegador Mosaic, que propició un auténtico “boom” de nuevas páginas, crecimiento que, no ha ido sino aumentando a un ritmo acelerado desde entonces y con el único punto negativo destacable del estallido o desplome de la burbuja de las punto-com en 2001.

Los algoritmos de los buscadores evolucionan a la vez que lo hacen las necesidades de las personas. Al principio la única manera que había de organizar la información era mediante directorios, ¿quién no se acuerda cómo era buscar en Ask y Yahoo?

La revolución de los buscadores vino cuando Sergey Brin y Larry Page fueron capaces de crear un algoritmo de IR que ordenaba las páginas por el número enlaces que recibían y te las ofrecía en una lista de 10 resultados. Gracias a este desarrollo del PageRank nació Google.

Poco a poco los buscadores fueron incorporando este sistema y añadiendo otros algoritmos de IR en paralelo (o reescribiendo directamente el core). Por ejemplo algoritmos centrados en las páginas y sus relaciones (como el HITS, TrustRank, Okapi 25, Tf-idf…), evolucionando hacia el contenido y calidad (los de NLP; LSI, LDA, Spamdexing…) para llegar a las entidades (con el AuthorRank, el SocialGraph…).

El problema sobretodo reside en que es muy difícil para un buscador capturar la intención real del usuario en una búsqueda y ofrecer un resultado óptimo. Y este problema es todavía más complejo de resolver por los algoritmos cuando hablamos de búsquedas de nombre de entidades y la intención que hay detrás ellas.

Una entidad puede ser una persona, un lugar o una cosa. Y estas entidades se pueden asociar a fechas, acciones u otras entidades.

Internet, esa red mundial interconectada, ideada por el británico Tim Berners-Lee, que presentó su idea por escrito el 12 de marzo de 1989 (fecha oficial establecida como el nacimiento de la web) y que estableció la primera comunicación entre un cliente y un servidor usando el protocolo HTTP un poco más tarde, allá por noviembre de 1989, celebró sus 25 años en 2014.


En Google para resolver las necesidades de los usuarios,  se usa el Knowledge Graph (KG o copia de Wikipedia para los amigos).
 
Bing también tiene su propio KG, pero si no está seguro no te lo muestra y te ofrece en el lateral queries relacionadas antes de mostrártelo.

Entonces para que los buscadores puedan ofrecer las respuestas específicas más populares o una ayuda para que el usuario pueda completar su tarea inicial, no sólo tienen que capturar la intención, sino también las relaciones que hay entre las entidades. Para ello hace falta que esa información se extraiga, se relacione y se almacene en algún lugar. Y la mejor manera de lograrlo eficientemente es mediante grafos.