Introducción
Google es una empresa estadounidense que fue fundada en 1998, conocida por el motor de búsqueda creado por Sergey Brin y Larry Page.
Este motor, llamado en su día BackRub, se basaba en el uso de vínculos para establecer la importancia de una página web individual.
Indexación y rastreo
Google utiliza un software rastreador de la web conocido como GoogleBot para realizar la búsqueda de páginas de dominio público dentro de un índice que está almacenado y que contiene todas las web accesibles.
Este índice es creado con programas "araña", que exploran las web y los enlaces que éstas contienen recursivamente.
El software busca las palabras clave de la búsqueda, cuántas veces se repiten, en qué partes aparecen, si apaarecen sinónimos, evalúa la calidad de las páginas, usa la fórmula de cálculo de relevancia de una web mediante el número de enlaces externos que la referencian.
El rastreo se realiza con sitemaps (documentos xml que contienen la estructura de la página) que incluyen los propietarios de las web y un listado de webs de búsquedas realizadas anteriormente.
Como indican en el vídeo incluido a continuación donde se explica esta tecnología:
"Estamos en las primeras fases de ser un motor de información a convertirnos en un motor de conocimiento"
Esto está muy enlazado con lo comentado en las primeras entradas del blog, el extraer conocimiento de la información, de tal manera que se disponga de datos útiles y nos aporten un valor añadido.
Por otra parte, para poder configurar la indexación de Google mediante el uso de la metaetiqueta robots en HTML o utilizando una cabecera HTTP.
Para configurar la metaetiqueta de tal manera que no se quiera el rastreo de la página se escribe, por ejemplo:
<meta name="googlebot" content="noindex" />
Esta etiqueta puede variar en función del buscador a bloquear (Google news, otros buscadores como Yahoo, Bing...)
La cabecera X-Robots-Tag puede seguir una estructura similar a:
X-Robots-Tag: googlebot: nofollow, noindex
Los diferentes valores que esta configuración puede tomar son:
Directiva | Significado |
---|---|
all | No hay restricciones de indexación ni de presentación de contenido. Nota: Esta directiva es el valor predeterminado y no tiene ningún efecto si se muestra de forma explícita. |
noindex | No se muestra ni esta página ni un enlace "en caché" en los resultados de búsqueda. |
nofollow | No se siguen los enlaces de esta página. |
none | Equivalente a noindex, . |
noarchive | No se muestra ningún enlace "en caché" en los resultados de búsqueda. |
nosnippet | No se muestra ningún fragmento en los resultados de búsqueda de esta página. |
noodp | No se utilizan metadatos del proyecto de Open Directory para los títulos o los fragmentos que se muestran en esta página. |
notranslate | No se ofrece una traducción de esta página en los resultados de búsqueda. |
noimageindex | No se indexan las imágenes de esta página. |
unavailable_after: [RFC-850 date/time] | No se muestra esta página en los resultados de búsqueda después de la fecha y la hora especificadas. La fecha y la hora deben especificarse en el formato RFC 85 |
En esta imagen obtenida de la página web de Google aparece un breve resumen de cómo funciona el motor de búsqueda
Para realizar las consultas se siguen los siguientes pasos:
- Parsear la consulta introducida.
- Convertir las palabras en wordIDs.
- Se posiciona en el inicio del repositorio con el listado de documentos para cada palabra.
- analiza la lista de documentos hasta que haya uno que coincida con todos los términos de la búsqueda.
- Calcula el PageRank de ese documento para la consulta.
- Si se continúa dentro del repositorio y al final de un listado de documentos, se busca desde el principio de la lista dentro de todo el repositorio para cada palabra y se repite el paso 4.
- Si no se encuentra al final de la lisa¡ta de documentos se va al paso 4, se ordenan los documentos emparejados por rango y se devuelve a la parte superior k.
Algoritmo PageRank
Este algoritmo es el encargado de la realización del rastreo y búsqueda de páginas web. Calcula la relevancia de una página web a la hora de incluirla en la lista de resultados en base al siguiente ejemplo:
Asumiendo que la página A tiene desde las páginas T1...Tn referencias (citas).
El parámetro d es un factor de amortiguación que puede tomar valor entre 0 o 1, generalmente considerado 0,85.
C(A) se define como el numero de enlaces que aparecen en la página A.
El PageRank de una página A sería: PR (A) = (1-d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))
Conclusión
En definitiva, el buscador de Google ha evolucionado adaptándose y aportando nuevas opciones de búsqueda a lo largo del tiempo.
Actualmente, se ha pasado de buscar meras páginas web a contenido como imágenes, vídeos, noticias, compras, documentos orientados a la investigación indexados desde Google Académico...
Bibliografía
The Anatomy of a Large-Scale Hypertextual Web Search Engine, por Sergey Brin and Lawrence Page