martes, 22 de septiembre de 2009

¿Qué contiene el algoritmo de Google?

En marzo de 2005 se descubrió el contenido de la solicitud de registro de patente del algoritmo de Google donde se encuentran parte de sus conceptos clave de funcionamiento. Es un documento fundamental que, leído con atención, permite conocer las bases sobre la que se asienta su funcionamiento. Por buscar un símil, sería como conocer los ingredientes de una receta pero no el orden ni las cantidades.

Voy a tratar de hacer un resumen amplio que permita su comprensión agrupada por los diferentes grupos de conceptos.

Google se define como un sistema que identifica un documento o conjunto de documentos (un sitio web) y almacena datos históricos del mismo para generar una valoración basada en una o más partes de dichos datos conjuntamente con el contenido del mismo.

La definición que facilita de documento es muy amplia:
“Un documento, como término usado de ahora en adelante, debe ser interpretado como cualquier contenido legible y almacenable por un ordenador. Un documento puede ser un e-mail, un sitio web, un archivo, una combinación de archivos, uno o más archivos que incluyan links a otros archivos, un mensaje de en un grupo de noticias, un blog, una web publicitaria, etc… En el contexto de Internet, el documento más común es una página web. Una página puede ser un documento o sólo una parte del mismo. Por tanto, las palabras “página” y “documento” pueden ser intercambiadas en algunos casos.”


Los criterios que utiliza para valorar dicho documento – o lo que es lo mismo, asignarle un pagerank o relevancia- pueden ser agrupados en varios conceptos:

Tiempo
La fecha de inicio del documento (esto es, cuando se indexó por vez primera o cuando se encontró un enlace hacia dicho documento)
El promedio de las fechas de inicio de todos los documentos indexados en su base de datos. Contra este se medirá cualquiera de los documentos. (Digamos que si un documento tiene 2 años pero la media de los documentos de Google tiene 4 tendrá un valor u otro).
La antigüedad de un dominio y la fecha de expiración del mismo. Y sobre este punto debo traducir literalmente este párrafo:
Ciertas señales pueden ser usadas para distinguir entre dominios legítimos o ilegítimos. Por ejemplo, los dominios pueden ser renovados hasta por 10 años. Los dominios con valor o legítimos suelen pagar varios años por adelantado, mientras que los dominios usados como “doorways” –puertas de entrada- rara vez son usados por más de un año. Por tanto, la fecha en la que un dominio expira puede ser usada como un factor para predecir la legitimidad del mismo y, por tanto, de los documentos o páginas que contienen.


Actualización de los contenidos
El cambio o actualización de contenidos del documento, incluyendo diferentes variables sobre:

- Cuantas veces cambia.
Promedio de cambios periódicos, esto es, con qué frecuencia.
Comparación de los ratios de cambios sobre periodos previos (quiero entender que un periódico tendrá una dinámica de cambio diferente a un catálogo y que lo considera al valorar dicho web site. No por que un periódico cambie más puede ser considerado más importante).

- Cuanta parte del contenido cambia.
Cuanto cambian los documentos relacionados (o que enlazan) al mismo.
Cada cuanto cambian los documentos enlazados
El deterioro del documento a través del paso del tiempo (imagino enlaces rotos, imágenes rotas, etc) implica que la novedad del documento es menor.
Se marca la diferencia entre contenidos que al ser cambiados, tienen poco peso o son completamente ignorados -como Javascript, comentarios de código, publicidad, elementos de navegación, líneas de hora o fecha…- con respecto a los contenidos realmente relevantes y útiles para el usuario.

- Resultados de Búsqueda
Cuantas veces el documento es elegido cuando es presentado en un resultado de búsqueda (esto es, el ratio de clic que presenta una página sobre una búsqueda concreta).
Si la elección es continuada dentro de un periodo de tiempo (si ese ratio de clic permanece en el tiempo parece ser considerado positivo).
Comparación de dicha selección con los otros documentos, aportando una valoración superior o inferior acorde con el promedio.
La asociación entre los términos de búsqueda cuya frecuencia de búsqueda se incrementa con el tiempo y los que se encuentran en el documento (esto es, si un término se busca cada vez más o menos o lo que es lo mismo, la tendencia de dicha búsqueda por tratarse de un tema más o menos actual).

Enlaces (PageRank)
El comportamiento de los enlaces que tiene un documento desde Internet a lo largo del tiempo (parece indicar que un enlace puede que no sea válido hasta que pase un plazo determinado) así como su aparición y desaparición.
La novedad de los enlaces genera una valoración que incluye:
- Determinar la novedad de los enlaces (esto es, cuando es un enlace nuevo o viejo)
- Asignar pesos a dichos enlaces basándose en la novedad y valorar el documento acorde con el peso asignado a los links. En resumen: nuevos enlaces aportan importancia al documento y cada nuevo enlace tiene un peso diferente. Cuantos más enlaces, más importantes y más actuales mejor.
La novedad de un enlace está asociada a la fecha en la que esté aparece o cambia el texto que utiliza.
El peso de un enlace se basa en la calidad y confianza de la fuente (web que enlaza), si el web es una “autoridad” en una materia y en la propia novedad de dicho enlace.
La manera en como cambia en el tiempo el texto utilizado para enlazar
La asociación entre el texto utilizado para enlazar y la página o documento al que enlaza Por ejemplo, si una página enlaza con la palabra “Nokia” debe llevar a otra con contenido de “Nokia” y no de “Siemens”.
La utilización del mismo texto de enlace desde diferentes procedencias. Igualmente considera si todas las palabras para enlazar son las mismas (puede hacerlo de manera positiva o negativa – ¿relevancia para un término o spam?-)
La calidad de los dominios asociados al documento generando la valoración a partir de la asociación a lo largo del tiempo, la legitimidad de dichos dominios, la fecha de expiración del dominio y el histórico del servidor asociado al dominio.
El incremento de uso en las palabras de enlace a lo largo de un periodo de tiempo.
La duración de los enlaces penalizará el documento en caso de ser corta y lo apoyará si se prolonga, considerando además que, si el contenido de las páginas que enlazan se actualiza en el tiempo será mejor valorado que si no lo hace. Esto es, un enlace que dura poco o mucho y si lo hace desde una página que cambia o no en el tiempo (lo que implica contenido fresco y preocupación por parte de los webmasters).

Dentro de este tema es destacable este párrafo que traduzco literalmente:
“Considérese el ejemplo de un documento que es dado de alta ayer y es referenciado con 10 backlinks. Este documento puede ser valorado más positivamente que uno dado de alta hace 10 años y que es referenciado por 100 back links por que el ratio de crecimiento de enlaces del nuevo es relativamente superior que el más antiguo. Mientras que este crecimiento de backlinks puede ser un factor usado para valorar el documento también puede ser una señal de spam de buscadores”.


Tráfico y conducta del usuario
Dentro de los datos históricos, Google almacena información relacionada con el tráfico recibido por un documento y las características del mismo, elaborando posteriormente patrones de tráfico y analizando los cambio durante periodos de tiempo.
Igualmente almacena la conducta del usuario asociada al documento, incluyendo información relativa a cuantas veces es seleccionado el documento de un conjunto de resultados de búsqueda y cuanto tiempo están los usuarios dentro del mismo. En el fondo se trata de una medida de ratio de clic pero sobre los resultados gratuitos. Cuantos más clicks para una búsqueda dada, mejor será el resultado.
La valoración de un documento también se basa en la historia previa del ranking del mismo, incluyendo en la misma la cantidad y amplitud de los movimientos en el ranking, basando la historia de dicho ranking en la cantidad de veces que es elegido dentro de un conjunto de resultados de búsqueda a lo largo del tiempo o estacionalidad de dicha selección
La valoración de un documento se podrá basar en información generada por el usuario donde indique el grado de interés que le ha producido. Esta información puede provenir de favoritos, archivos temporales, caches o basarse en los sistemas de votos de la barra de Google. Esta valoración incluirá la relación o presencia de dicha información a lo largo del tiempo y como esta cambia o se modifica.
La relevancia del documento para una búsqueda dada generando una valoración de la relevancia para dicha búsqueda y la historia de dicha valoración a lo largo del tiempo.
La valoración de un documento incluye su identificación, la obtención de sus diferentes datos históricos –incluyendo la trayectoria de su valoración, los enlaces entrantes, el texto y tiempo de los mismos, la actualización o renovación de dichos enlaces- y la combinación de los mismos para asignar el valor.

Vía Trabajarsinconexion.com

No hay comentarios: