Introducción
En la entrada anterior se trató el tema de el sistema de indexación y rastreo del motor de búsqueda de Google.Como se comentaba, los datos de las páginas web se encuentran almacenados en un índice que contiene metadatos y palabras clave que es el utilizado para realizar la búsqueda de resultados a la consulta introducida por el usuario, además del uso del Gráfico del Conocimiento para mostrar más información asociada a los datos de la búsqueda.
Diferentes algoritmos
Como se puede ver en la siguiente imagen extraída de la web de Google, se han implementado diferentes métodos no sólo de búsqueda, sino como modo de añadir funcionalidades tanto a la búsqueda como al propio usuario, de tal manera que dependerá del contenido a buscar o incluso los dispositivos desde los que se realice la consulta.
Centros de datos
Google almacena una gran cantidad de información no sólo de las páginas web, sino de los diferentes usuarios y aplicaciones que mantiene, por lo que ha creado diferentes centros de datos para poder albergarlos y soportar el gran tráfico que generan.Localizaciones
Como es de esperar, hay diferentes centros de datos (CPD en adelante) situados en diferentes regiones:- Asia: Hong Kong, Singapur y Taiwan.
- Europa: Bélgica, Finlandia e Irlanda.
- Estados Unidos: Carolina del Sur, Iowa, Georgia, Oklahoma, Carolina y Oregón.
- Sur América: Chile.
Al no estar localizados en un único punto, permite una rapidez de acceso a máquinas a la hora de realizar consultas mucho mayor, aporta mayor movilidad en caso de caída de alguno de los servidores o de problemas dentro del CPD que impidan su normal funcionamiento.
Dentro de la gestión de la empresa, esto induce a un menor coste de mantenimiento, debido a que es más barato mantener diferentes centros más pequeños y aporta la posibilidad de desviar el tráfico de datos hacia aquellos CPD donde la tarifa sea más baja por la franja horaria o desviar mayor carga hacia aquellos en los que el clima sea más frío en ese momento para reducir riesgos por sobrecalentamiento de las instalaciones.
Dentro de la gestión de la empresa, esto induce a un menor coste de mantenimiento, debido a que es más barato mantener diferentes centros más pequeños y aporta la posibilidad de desviar el tráfico de datos hacia aquellos CPD donde la tarifa sea más baja por la franja horaria o desviar mayor carga hacia aquellos en los que el clima sea más frío en ese momento para reducir riesgos por sobrecalentamiento de las instalaciones.
Tráfico de datos
Como se comentaba anteriormente, Google tiene un tráfico de datos no sólo derivado del buscador, sino del resto de servicios que ofrece la empresa, lo cual implica una gran cantidad de información que se mueve a lo largo de su infraestructura.
Para ello utiliza dos redes diferenciadas:
- Red de servicios: incluye datos de su buscador, YouTube, Gmail, Maps... Hay dos grandes franjas diferenciadas que se dividen entre el tráfico diurno (mucho más abundante) y nocturno. Pese a esta diferenciación, teniendo en cuenta que se presta un servicio a nivel global, el tránsito de esta red es constante, por lo que apenas presenta picos dentro del volumen de tráfico.
- Red de conexiones entre los CPD: contiene el tráfico interno de la empresa, e incluye los índices mencionados en la anterior entrada, backups, datos de los productos... Todo ello implica un mayor control del tiempo de procesamiento y envío de los datos entre centros, buscando el priorizar aquellos más importantes.
Está basado en la separación de funciones de direccionamiento de la red en unos servidores que conocen el estado de la red al completo, por lo que el sistema de decisión es mucho mejor que el uso de routers.
Esta estructura, también conocida como Red Definida por Software, busca el control de la red no mediante hardware, sino utilizando un controlador software que permita un uso más óptimo de la red.
Este sistema aporta unas herramientas centralizadas de virtualización, programación y monitorización del estado de la red en tiempo real, aportando una mayor adaptabilidad a las necesidades de tráfico.
Esto aporta una mayor automatización de recursos y escalabilidad que permiten explotar los diferentes CPD a su máximo rendimiento.