Mostrando entradas con la etiqueta Google KnowLedge. Mostrar todas las entradas
Mostrando entradas con la etiqueta Google KnowLedge. Mostrar todas las entradas

miércoles, 7 de enero de 2015

Web Semántica (II): Google Knowledge


El número de páginas web supera los mil millones, la cifra se alcanzó hace unos meses según los datos difundidos en tiempo real por la web Internet Live Stats A esa hora, el número de páginas web había ascendido a más de 1.060 millones, una cifra que no para de crecer y a un ritmo considerable, según revelan los datos.
Figura 1. Captura en tiempo real de la web Internet Live Stats. 

Internet, esa red mundial interconectada, ideada por el británico Tim Berners-Lee(artículo) que presentó su idea por escrito el 12 de marzo de 1989 (fecha oficial establecida como el nacimiento de la web) y que estableció la primera comunicación entre un cliente y un servidor usando el protocolo HTTP un poco más tarde, allá por noviembre de 1989, celebró sus 25 años este 2014.

Este hito en comunicación transformaría por completo la vida de miles de millones de personas en todo el mundo con el paso del tiempo. Ahora, en la actualidad, es imposible concebir el mundo tal y como lo vivimos sin la presencia de internet.

A pesar de que los inicios de la web fueron tímidos, los gurús de la red afirman que el punto de inflexión en la creación de páginas web tuvo lugar en 1993 con la introducción del navegador Mosaic, que propició un auténtico “boom” de nuevas páginas, crecimiento que, no ha ido sino aumentando a un ritmo acelerado desde entonces y con el único punto negativo destacable del estallido o desplome de la burbuja de las punto-com en 2001.
Figura 2. Captura Country Codes of ther World.
    
Los algoritmos de los buscadores evolucionan a la vez que lo hacen las necesidades de las personas. Al principio la única manera que había de organizar la información era mediante directorios, ¿quién no se acuerda cómo era buscar en Ask y Yahoo?
La revolución de los buscadores vino cuando Sergey Brin y Larry Page fueron capaces de crear un algoritmo de IR que ordenaba las páginas por el número enlaces que recibían y te las ofrecía en una lista de 10 resultados. Gracias a este desarrollo del PageRank nació Google.
Poco a poco los buscadores fueron incorporando este sistema y añadiendo otros algoritmos de IR en paralelo (o reescribiendo directamente el core). Por ejemplo algoritmos centrados en las páginas y sus relaciones (como el HITS, TrustRank, Okapi 25, Tf-idf…), evolucionando hacia el contenido y calidad (los de NLP; LSI, LDA, Spamdexing…) para llegar a las entidades (con el AuthorRank, el SocialGraph…).
Hasta ahora vivimos en un mundo de 10 links azules donde, para encontrar la información que buscas,  tienes que leer los snippets de texto y con un poco de suerte encuentras la respuesta a tus preguntas. Durante mucho tiempo esto ha sido (y sigue siendo) una buena solución, pero no es suficiente para el usuario cuyas necesidades evolucionan (búsquedas más cortas en móvil, más búsquedas locales, búsquedas por voz…). 
El problema sobretodo reside en que es muy difícil para un buscador capturar la intención real del usuario en una búsqueda y ofrecer un resultado óptimo. Y este problema es todavía más complejo de resolver por los algoritmos cuando hablamos de búsquedas de nombre de entidades y la intención que hay detrás ellas.
 Figura 3. Captura Google BETA (1998).
¿QUÉ ES UNA ENTIDAD ?

Muy sencillo, una entidad puede ser una persona, un lugar o una cosa. Y estas entidades se pueden asociar a fechas, acciones u otras entidades.


A día de hoy, una porción muy significativa de las búsquedas son nombres de entidades (20-30% según un estudio de Microsoft (documento) y una porción aún más grande de las búsquedas son las que contienen nombres de entidades (71% según el mismo estudio). Como he mencionado antes, es complejo para un buscador detectar la intención que hay detrás de la búsqueda de una entidad. A continuación podemos un ejemplo de cuáles son las intenciones más comunes detrás de diferentes tipos entidades:





Internet, esa red mundial interconectada, ideada por el británico Tim Berners-Lee, que presentó su idea por escrito el 12 de marzo de 1989 (fecha oficial establecida como el nacimiento de la web) y que estableció la primera comunicación entre un cliente y un servidor usando el protocolo HTTP un poco más tarde, allá por noviembre de 1989, celebró sus 25 años este 2014.



Este hito en comunicación transformaría por completo la vida de miles de millones de personas en todo el mundo con el paso del tiempo. Ahora, en la actualidad, es imposible concebir el mundo tal y como lo vivimos sin la presencia de internet.

Figura 4.  Intenciones más comunes para ciertos tipos de entidades.
 
Incluso para búsquedas que contienen nombres de entidades cuya intención debería ser más clara, los usuarios escogen diferentes tipos de resultados. En la imagen siguiente podemos ver un ejemplo real de las intenciones que hay detrás de 4 tipos distintos de búsquedas que contienen la entidad “Seattle”:



Figura 5.Porcentaje de usuarios escogiendo diferentes resultados para cuatro búsquedas distintas que contienen la palabra “Seattle”.
Otro problema que nos encontramos con las entidades pueden ser citadas por más de un nombre, o un mismo nombre puede ser referido a entidades distintas. Por ejemplo la entidad “Barcelona” puede ser referida a la ciudad española, al equipo de fútbol y en menor medida a la ciudad de Venezuela. También la Barcelona española es comúnmente conocida por “ciudad condal".
 
 Figura 6. Grado de conectividad social. 


LAS ENTIDADES Y LOS BUSCADORES
Los principales buscadores están continuamente desarrollando y testeando diferentes soluciones para satisfacer las necesidades del usuario cuando hace una búsqueda con el nombre de una entidad. Por ejemplo, nada más entrar en Yahoo, nos encontramos con un apartado que nos muestra “lo más buscado”, donde vemos curiosamente que la mayoría de search queries son nombres de entidades.

Figura 7. Lo más buscado en Yahoo.
 
En Google para resolver estas necesidades se usa el Knowledge Graph (KG o copia de Wikipedia para los amigos). Podemos ver para la query “Barcelona” que la principal tarea que viene a realizar el usuario es más la futbolística que cultural/turística, pero no por ello no se incluye la segunda por su peso:
Figura 8.Google Knowledge Graph para la búsqueda “Barcelona”.
 
Bing también tiene su propio KG, pero si no está seguro no te lo muestra y te ofrece en el lateral queries relacionadas antes de mostrártelo.

Uno de los mejores buscadores semánticos Wolfram Alpha, para la entidad Barcelona te ofrece una desambiguación como podemos ver:
 Figura 9. Búsqueda semántica en 'WolframAppha'.

Entonces para que los buscadores puedan ofrecer las respuestas específicas más populares o una ayuda para que el usuario pueda completar su tarea inicial, no sólo tienen que capturar la intención, sino también las relaciones que hay entre las entidades. Para ello hace falta que esa información se extraiga, se relacione y se almacene en algún lugar. Y la mejor manera de lograrlo eficientemente es mediante grafos.

----------------- TO BE CONTINUED ---------------------



domingo, 4 de enero de 2015

Web Semántica (I): Google Knowledge


En 2012, el buscador de Google provocó el gran salto con nuevo algoritmo Knowledge graph o Gráfico de conocimiento, el cual permitiría a los usuarios obtener información instantánea relacionada con los resultados. Una nueva función que comenzó en Estados Unidos para luego ir expandiéndose gradualmente en los demás países del mundo.

Nota: Dada la extensión del tema, será tratado en diferentes post.

Figura 1. Portada de la web 'The Knowledge Graph'.

Nacimiento de la web semántica



     En 2012, el buscador de Google provocó el gran salto con nuevo algoritmo Knowledge graph o Gráfico de conocimiento, el cual permitiría a los usuarios obtener información instantánea relacionada con los resultados. Una nueva función que comenzó en Estados Unidos para luego ir expandiéndose gradualmente en los demás países del mundo.

     Dicho cambio lo convertirá en un buscador semántico, es decir una especie de motor de búsqueda “inteligente”, donde ya no sólo mostrará como resultado los enlaces que contienen las palabras introducidas sino que “entenderá” lo que el usuario quiere buscar mediante datos relacionados, y le ofrecerá la respuesta sin que este tenga que entrar en la web que contiene la información. Knowledge graph, es un ejemplo más de aplicaciones basadas en Web Semántica cuyo objetivo es satisfacer las expectativas de búsqueda de usuarios tal como ellos las entienden.

Ejemplo de búsqueda semántica  
Figura 2. Ejemplo de resultados obtenidos en un buscador normal.

 Figura 3. Ejemplo de resultados obtenidos en un buscador semántico.

     El nuevo algoritmo hace uso de una gran base de datos creada por Google, nutrida de diversas fuentes como CIA World Factbook, Freebase y Wikipedia, lo que deja fuera de juego a otros buscadores con tecnología semántica que no disponen de tanta información.
  Este cambio producirá incertidumbre para las empresas dedicadas al posicionamiento web, pero sin duda el buscador de Google ha evolucionado para mostrar información de calidad y relevante. La mejor manera para que la web de una pyme sobreviva, será creando contenido original y de calidad, muy orientado a sus clientes y aprovechando las últimas tecnologías.



      Al igual que el motor de búsqueda de Google a evolucionado, la Web de una empresa puede incorporar tecnología que aporte valor semántico a sus datos. La Web Semántica utiliza esencialmente RDF, SPARQL, y OWL, tecnología que convierte a la Web en una infraestructura global, donde los datos pueden ser “entendidos” por aplicaciones externas y sea posible compartir y reutilizar datos.

     Un ejemplo conocido del uso de RDF, son los canales RSS 1.0 basados en XML, cuya función principal es avisar a los usuarios de nuevos cambios en el contenido de su interés.

     En resumen, estamos en la era donde el hombre y “las máquinas” pueden comunicarse con coherencia, una especie de “inteligencia artificial” que a este ritmo no tardará mucho en convertirse en Skynet.
Entender los buscadores para que te entiendan
 
     La web semántica es mucho más que estructurar los datos o usar HTML5. Para ser profesionales SEO o SEM, necesitamos saber qué algoritmos usan los buscadores en cada fase o por lo menos una aproximación de los mismos.

Cómo funciona un buscador


     El funcionamiento de un buscador es mucho más que conocer la fases “primero un buscador hace el crawling, luego la indexación y luego rankea en el momento de la query, que podemos ver el vídeo de Matt Cutts o en documento Googlebot : Cómo funciona un buscador documento.
 
     En cada fase los buscadores usan, combinan y mejoran centenares de algoritmos para ser capaces de responder nuestras preguntas. Una clave, los componentes semánticos ya están integrados en todas las fases.

Figura 3. Diagrama básico de un buscador.

     Al entender cómo los motores de búsqueda usan estos componentes semánticos para extraer, clasificar y recuperar la información consigues una visión distinta y una aproximación más real al verdadero trabajo del SEO-SEM a día de hoy.
     Este trabajo es cada vez más difícil de parametrizar porque se alinea directamente con las necesidades de información de las personas y de cómo la aplicación de la Inteligencia Artificial en la lingüística es capaz de resolverlas (búsqueda personalizada, predictiva, conversacional y semántica). Lo mismo ocurre a la hora de hacer CRO, donde no existe un checklist al ser cada proyecto diferente.
No es un checklist
Figura 4. Representación CheckList.

 
    Desde la experiencia acumulada, porque cuanto más se aprende sobre los buscadores, mejores resultados se obtienen (no vamos a ciegas). Por otro lado, cuanto más se estudia, y pones en práctica lo aprendido, más nos damos cuenta que menos sabemos. Haber hecho optimizaciones (documento)  que más adelante puedes apreciar en realidad eran sobre-optimizaciones innecesarias y en algunos casos hasta contraproducentes (nos hace aprender). Hemos podido implementar y quitar cosas simplemente porque aparecen en una lista de factores obtenida por ingeniería inversa, pero que exista correlación no implica causalidad. Y algunos de estos factores son simplemente rumorología (bla,bla) que se extiende porque a un gurú se le hayan encendido las luces (cuidado con los Blogs: tomar siempre los recomendados por profesionales).
     Los mejores profesionales del SEO y del SEM, están interesados en la recuperación y extracción de la información (IR y el IE), las verdaderas bases del SEO, por ende de la web semántica, a la que el SEM no es ajena. 

Evolución : de páginas enlazadas a entidades conectadas

     Especialmente la parte de la extracción de la información es cada vez más importante desde la llegada de Hummingbird y coge más fuerza desde la oficialización de Google de su nuevo grafo del conocimiento, el Google Knowledge Vault.
Figura 5. Google, de motor de búsqueda a motor de respuestas.

     Este anuncio es muy interesante porque es algo de lo que se lleva hablando mucho tiempo, la transformación de Google de un motor de búsqueda a un motor de respuestas. Es un cambio de paradigma en la forma de entender el SEO y el SEM, donde van a tener menos peso los algoritmos centrados en las páginas y sus relaciones que son fácilmente manipulables (PR, HITS, TrustRank, Okapi 25, Tf-idf…).
     A medida que vayan evolucionando los métodos de extracción de la información cada vez serán menos necesarias las keywords (OJO), los anchors y los links. Por lo tanto, el marco de trabajo, y todo lo que estamos aprendiendo, cambia por completo.


Semántica en los pilares del posicionamiento web


La semántica está presente en los tres pilares fundamentales del  poscionamiento web: Autoridad, Contenido y Arquitectura.


     Autoridad


Para hacer link builing tienes que saber cómo los buscadores interpretan el linking y anchoring en sus algoritmos, esto va mucho más allá de hacer un simple tiered linkbuilding que ahora se ha puesto de moda (cuando esto se lleva haciendo años) y tirar X porcentaje de variaciones de anchors. Muy pocos profesionales (brókers) de links tienen en cuenta los conceptos semánticos que usan los buscadores para rankear. La relevancia a día de hoy tiene más peso que la autoridad. Te ahorrarías mucho trabajo y disminuirías al máximo las probabilidades de ser penalizado".


     Contenido


Para escribir un contenido optimizado (hemos hablado de ello) no sirve con poner la keyword (palara clave) en los más que conocidos lugares y repetirla porque a día de hoy eso ya no funciona tan bien (y cada vez lo hará menos). Los buscadores se están centrando en las entidades y sus relaciones más que en la propia keyword. Con esto quiero decir que puedes crear contenido mucho más relevante para el buscador hacia un topic sin necesidad de repetir la misma palabra, incluso sin que ésta aparezca en los lugares clave, no hace falta ni que la palabra que quieres posicionar aparezca.

Figura 6 . Entidades relacionadas FreeBase.

     ¿Conoces cómo hacen los buscadores las relaciones semánticas? ¿sabes qué es la desambiguación lingüística? o ¿cómo parsea Google los elementos HTML para extraer significado? El contenido es el rey: conseguirás un texto orientado 100% a las personas y 100% entendible por los buscadores. Puedes hacer las páginas accesibles pero si no las haces semántica entendibles, estás perdiendo el tiempo y el dinero.

     Arquitectura


A nivel técnico se puede entender cómo los buscadores crawlean tu web para optimizar el crawl budget que tienes asignado y cómo interpreta la estructura de la misma entre muchas otras cosas. Sabes por ejemplo ¿cómo hace Google el renderizado para detectar distintas regiones de un documento? ¿cómo lo hace Bing? ¿o Yahoo? ¿o cómo extrae Google las taxonomías para entener la arquitectura? Con estudio, podríamos obtener una estructura mucho más relevante para los buscadores y evitaríamos sobreoptimizaciones que podemos llegar a pensar que son necesarias.

Esto son solamente unos pocos ejemplos, sin conocer y entender cómo los buscadores hacen la recuperación y extracción de la información (IR – IE), nos perdemos las mejores cosas (gratis). Cuando estudiamos estos campos, podemos darnos cuenta cuenta de que podemos hacer que los buscadores aprendan más rápido y nos entiendan mucho mejor ahorrándoles trabajo, que al fin y al cabo, esa es nuestra tarea como profesionales. ¿Cuántas de estas cosas aparecen en el famoso checklist de más de 200 factores? Ninguno de ellos habla de cómo aplicar el lenguaje natural en nuestro proyectos, esto va mucho más allá de la keyword.

La web semántica ha llegado para quedarse


A medida que evoluciona la web, también tiene que evolucionar el SEO y el SEM:
Figura 7.  Represantación de la evolución.


............ To be continued.......... 




Recursos y complementos: