Búsqueda y gestión de la información: marzo 2016

Introducción

Google es una empresa estadounidense que fue fundada en 1998, conocida por el motor de búsqueda creado por Sergey Brin y Larry Page.

Este motor, llamado en su día BackRub, se basaba en el uso de vínculos para establecer la importancia de una página web individual.

Indexación y rastreo

Google utiliza un software rastreador de la web conocido como GoogleBot para realizar la búsqueda de páginas de dominio público dentro de un índice que está almacenado y que contiene todas las web accesibles.

Este índice es creado con programas "araña", que exploran las web y los enlaces que éstas contienen recursivamente.

El software busca las palabras clave de la búsqueda, cuántas veces se repiten, en qué partes aparecen, si apaarecen sinónimos, evalúa la calidad de las páginas, usa la fórmula de cálculo de relevancia de una web mediante el número de enlaces externos que la referencian.

El rastreo se realiza con sitemaps (documentos xml que contienen la estructura de la página) que incluyen los propietarios de las web y un listado de webs de búsquedas realizadas anteriormente.

Para mejorar el sistema de búsqueda se ha desarrollado el Gráfico del Conocimiento, que busca enlazar las búsquedas con el conocimiento que se encuentra en toda la información almacenada.
Como indican en el vídeo incluido a continuación donde se explica esta tecnología:

"Estamos en las primeras fases de ser un motor de información a convertirnos en un motor de conocimiento"

Esto está muy enlazado con lo comentado en las primeras entradas del blog, el extraer conocimiento de la información, de tal manera que se disponga de datos útiles y nos aporten un valor añadido.

Por otra parte, para poder configurar la indexación de Google mediante el uso de la metaetiqueta robots en HTML o utilizando una cabecera HTTP.

Para configurar la metaetiqueta de tal manera que no se quiera el rastreo de la página se escribe, por ejemplo:

<meta name="googlebot" content="noindex" />

Esta etiqueta puede variar en función del buscador a bloquear (Google news, otros buscadores como Yahoo, Bing...)

La cabecera X-Robots-Tag puede seguir una estructura similar a:

X-Robots-Tag: googlebot: nofollow, noindex

Los diferentes valores que esta configuración puede tomar son:

Directiva	Significado
`all`	No hay restricciones de indexación ni de presentación de contenido. Nota: Esta directiva es el valor predeterminado y no tiene ningún efecto si se muestra de forma explícita.
`noindex`	No se muestra ni esta página ni un enlace "en caché" en los resultados de búsqueda.
`nofollow`	No se siguen los enlaces de esta página.
`none`	Equivalente a `noindex, nofollow`.
`noarchive`	No se muestra ningún enlace "en caché" en los resultados de búsqueda.
`nosnippet`	No se muestra ningún fragmento en los resultados de búsqueda de esta página.
`noodp`	No se utilizan metadatos del proyecto de Open Directory para los títulos o los fragmentos que se muestran en esta página.
`notranslate`	No se ofrece una traducción de esta página en los resultados de búsqueda.
`noimageindex`	No se indexan las imágenes de esta página.
`unavailable_after: [RFC-850 date/time]`	No se muestra esta página en los resultados de búsqueda después de la fecha y la hora especificadas. La fecha y la hora deben especificarse en el formato RFC 85

En esta imagen obtenida de la página web de Google aparece un breve resumen de cómo funciona el motor de búsqueda

Para realizar las consultas se siguen los siguientes pasos:

Parsear la consulta introducida.
Convertir las palabras en wordIDs.
Se posiciona en el inicio del repositorio con el listado de documentos para cada palabra.
analiza la lista de documentos hasta que haya uno que coincida con todos los términos de la búsqueda.
Calcula el PageRank de ese documento para la consulta.
Si se continúa dentro del repositorio y al final de un listado de documentos, se busca desde el principio de la lista dentro de todo el repositorio para cada palabra y se repite el paso 4.
Si no se encuentra al final de la lisa¡ta de documentos se va al paso 4, se ordenan los documentos emparejados por rango y se devuelve a la parte superior k.

Algoritmo PageRank

Este algoritmo es el encargado de la realización del rastreo y búsqueda de páginas web. Calcula la relevancia de una página web a la hora de incluirla en la lista de resultados en base al siguiente ejemplo:

Asumiendo que la página A tiene desde las páginas T1...Tn referencias (citas).

El parámetro d es un factor de amortiguación que puede tomar valor entre 0 o 1, generalmente considerado 0,85.

C(A) se define como el numero de enlaces que aparecen en la página A.

El PageRank de una página A sería: PR (A) = (1-d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn))

Conclusión

En definitiva, el buscador de Google ha evolucionado adaptándose y aportando nuevas opciones de búsqueda a lo largo del tiempo.

Actualmente, se ha pasado de buscar meras páginas web a contenido como imágenes, vídeos, noticias, compras, documentos orientados a la investigación indexados desde Google Académico...

Bibliografía

Google

The Anatomy of a Large-Scale Hypertextual Web Search Engine, por Sergey Brin and Lawrence Page

Introducción

En esta entrada se va a hablar de los sistemas de almacenamiento más destacados actualmente, centrándonos principalmente en los medios de almacenamiento virtuales más utilizados.

Para ello se expondrá una evolución histórica de dichos sistemas para poder comprender hacia donde se encuentra dirigida su tendencia, ya que en este ultimo siglo, se ha conseguido un progreso muy significativo debido a la creación de dispositivos de almacenamiento virtual lo cual permitió una mejor organización y búsqueda de la información con el paso de la utilización de contenedores físicos (papiro, papel…) al uso de contenedores digitales (CD, pen drive, DVD…) .

Dispositivos de almacenamiento

Cuando hablamos de dispositivos de almacenamiento nos referimos a todo dispositivo capaz de leer o escribir datos en algún tipo de soporte o medio de almacenamiento.

Debido a la amplitud de esta definición se puede observar que existe una gran cantidad de dispositivos que cumplen estas condiciones, en esta entrada nos centraremos en los relacionados con el ámbito de la informática.

Comenzaremos hablando por los dispositivos más antiguos aunque con una gran relevancia hasta hablar de los más actuales.

· Disquetes: Considerado como el primer sistema de almacenamiento con la capacidad de ser extraíble. Esta compuesto por una fragmento circular magnético, fino y flexible. Este dispositivo en la actualidad se encuentra prácticamente obsoleto, debido a la poca capacidad de almacenamiento y para realizar labores de lectura/escritura de datos se necesita de una disquetera la cual, ya no viene implementada en los nuevos modelos de ordenadores.

· CD-ROMs: Dispositivos de almacenamiento con una capacidad de hasta 700 MB. La utilización de estos dispositivos se extendió por su facilidad de almacenar en ellos copias de seguridad, programas, material multimedia… Pero a diferencia de otros medios de almacenamiento, en ellos una vez cerrada la grabación no se podía modificar, a excepción de los CDs regrabables.

· DVDs: estos dispositivos son muy semejantes a los CDs pero en su interior se puede almacenar una cantidad mayor de información y podía transmitirla al computador más rápido que un CD.

· Memorias USB: Utilizan memoria flash para almacenar la información. Estos dispositivos son fácilmente portables y que permiten el almacenamiento de grandes cantidades de información aunque a partir de los 64GB no resultan practico por su elevado coste.

· Tarjetas de memoria: Existen distintos tipos de modelos como las Micro SD/ Mini SD utilizadas en dispositivos móviles o la SD y la XD utilizadas en cámaras fotográficas, estos dispositivos están basados en las memorias flash pero no disponen de ningún tipo de controlador.

· Servicios en la nube: Permite el almacenamiento de información en equipos ajenos al que utiliza el usuario de manera que toda la información queda almacenada en granjas de servidores los cuales son accesibles mediante una red normalmente Internet.

Evolución histórica

A lo largo de la historia, el ser humano siempre ha buscado preservar y compartir el conocimiento para generaciones futuras.

La información en el principio de los tiempos se almacenaba mediante garabatos en superficies rocosas, pero con el tiempo fue evolucionando, almacenando la información en objetos más fácilmente portables como pieles de animales e incluso mediante el papiro como el que utilizado por el antiguo Egipto.

La llegada del papel fue factor fundamental, ya que era fácilmente portable y legible por ello durante muchos siglos fue el formato de almacenamiento por excelencia.

En la actualidad, con la llegada de las nuevas tecnologías, se ha destronado al papel como medio de almacenamiento por excelencia debido a la facilidad de portar grandes cantidades de documentos en pequeños dispositivos físicos y la posibilidad de buscar información especifica de manera sencilla en el interior de estos.

Un gran avance es el espacio de almacenamiento dentro de dispositivos de menor tamaño, la disponibilidad de almacenar datos en la nube accesibles desde cualquier lugar y la escalabilidad de estos sistemas a la hora de ampliar el espacio en función de las necesidades.

Como se comentaba en la entrada anterior, la propia manera de almacenar digitalmente la información ha cambiado debido a las diferentes formas que ésta puede tomar (documentos, imágenes...) dando lugar a la creación de bases de datos no relacionales.

Así mismo, la gran cantidad de datos y la necesitad de almacenarlos ha dado lugar a instalaciones como las granjas de servidores.