sábado, 13 de febrero de 2016

Tema 1: Introducción a la Búsqueda y Gestión de la Información y Recursos Multimedia

Introducción 

En la actualidad hay una gran cantidad de información accesible en diversos formatos al alcance de cualquier persona.

El problema reside en la capacidad de filtrar toda esa cantidad  de datos disponible, utilizar fuentes de confianza que aporten una información verídica, contrastada y actual que nos permita extraer el conocimiento.

En esta entrada del blog hablaremos de convertir los datos en conocimiento útil y en los diferentes avances dentro del ámbito de la recolección y gestión de la información como respuesta al gran volumen de datos disponible.

¿Qué es el conocimiento? 

Según la RAE, un dato es información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho. Por ello, se puede considerar como un elemento primario de la información.

Un conjunto de datos relevantes enmarcados en un contexto y enfocados hacia un propósito puede considerarse como información.

Por ejemplo, se pueden recopilar datos de ventas, pero si no se analizan y se utilizan, sólo es información.

Es necesario transformar todos esos datos de los que se dispone en conocimiento.

 "El conocimiento es construido por el sujeto con base en la asimilación, integración y reorganización de estructuras que le permiten interpretar el mundo e interactuar con él."


El aprender de estos datos nos hace adquirir conocimiento, que nos aporta algo a nivel personal, estratégico y de negocios, de investigación...

Fuentes de información

Para poder empezar a filtrar los datos que queremos obtener, es muy importante saber dónde empezar a buscarlos.
Para ello, hay que tener en cuenta los diferentes tipos de fuentes de información que existen, de tal manera que así se podrán encontrar más fácilmente los datos necesarios.
En base al nivel de información que aportan, pueden considerarse tres tipos de fuentes de las que extraer los datos:

  • Fuentes primarias: aportan información nueva resultante de un trabajo de investigación.  Ejemplos de este tipo son revistas científicas, libros, periódicos, informes y documentos de instituciones, normas, patentes...
  • Fuentes secundarias: este tipo de fuentes recogen información que ha sido obtenida mediante un análisis o investigación realizada sobre una fuente primaria. Un ejemplo de este tipo son los directorios, enciclopedias, libros y artículos que interpretan otros trabajos...
  • Fuentes terciarias: albergan guías de información de fuentes secundarias, como puedan ser las bibliografías, guías  de obras de referencias...



El conocimiento de estos tipos de fuentes no es otro que el saber a cuál se debe acudir en función de lo que necesitamos buscar y así facilitar el trabajo de búsqueda y de la veracidad de la información, ya que hoy en día cualquiera puede crear contenido en la web.

Una manera diferente de almacenar los datos

Una gran parte de la información está disponible digitalmente y, debido a la gran cantidad de datos, a su carácter polivalente y de los diferentes formatos que pueden tener, ha surgido una necesidad de almacenarlos de una manera diferente a las bases de datos que siguen una estructura relacional.

Las bases de datos no relacionales (también conocidas como NoSQL) presentan diferentes estructuras de objetos y están orientadas a grafos, columnas, almacenamiento de pares de clave/valor y documentos.

Debido a la temática de esta entrada profundizaremos más en las bases de datos orientadas a documentos, ya que están estrechamente relacionadas con el almacenamiento de fuentes de información de carácter digital y de la interconexión y extracción de datos de las mismas.


Una base de datos orientada a documentos es, como bien indica su nombre, aquella pensada para almacenar una gran cantidad de archivos.
La información se almacena en documentos XML, JSON e incluso PDF y documentos de Microsoft Office que contienen una clave única para identificar los registros.
Los documentos están organizados mediante metadatos, etiquetas, colecciones y jerarquías de directorios para facilitar las búsquedas.

Generalmente este tipo de bases de datos disponen de una API que permite recuperar los documentos en función de su contenido.

Algunos ejemplos de este tipo de bases de datos son MongoDB o CouchDB.



Minería de texto

El concepto de text mining está estrechamente relacionado con la extracción del conocimiento de una gran cantidad de documentos que no tienen por qué estar relacionados en un principio.

Esta técnica busca tendencias, promedios y dependencias de los datos de diferentes documentos para poder obtener una información conjunta.

En definitiva, en base a información conocida no relacionada, se busca obtener información primaria o, como lo definió Marti A. Hearst en "Untangling text data mining":


"La minería textual trata de descubrir información y conocimiento que previamente se desconocía, y que no aparecía en ninguno de los documentos analizados"

Esta tecnología utiliza técnicas de lingüística computacional y recuperación de la información como:

  • Pre procesamiento de documentos: se encarga de extraer términos importantes, eliminación de palabras vacías y normalización de los términos mediante stemming (técnica que extrae sufijos y prefijos comunes).
  • Identificación de nombres propios y análisis gramatical y sintáctico.
  • Representación de documentos mediante un modelo vectorial y uso de fórmulas para calcular la similitud entre pares de documentos.
  • Agrupación automática de documentos.
  • Categorización automática.
  • Extracción de relaciones entre conceptos y términos.
La minería de texto aporta una herramienta muy potente a la hora de realizar nuevas investigaciones y estudios, ya que permite el estudio de una gran cantidad de documentos de una manera más ágil.


Conclusión

Tras el análisis de esta entrada, puedo afirmar que pese a los problemas que puedan surgir a la hora de buscar información debido a la veracidad de los datos y la gran cantidad de lugares a los que acudir, han aparecido nuevas herramientas a nuestra disposición para facilitar la recolección de datos.

Si bien es cierto que a pequeña escala con saber dónde buscar y filtrar las fuentes a utilizar sería suficiente, para realizar investigaciones que requieran una gran cantidad de información, éstas herramientas ofrecen grandes posibilidades.




Bibliografía




No hay comentarios:

Publicar un comentario