martes, 2 de diciembre de 2014

Almacenes de Datos

Almacenes de Datos


Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el análisis de la información- en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.


Objetivo: Análisis de Datos para el Soporte en la Toma de Decisiones.



Características del Almacén de Datos
Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.
Integrado. Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.
Dependiente del tiempo. Esta dependencia aparece de tres formas:
La información representa los datos sobre un horizonte largo de tiempo.
Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).
La información, una vez registrada correctamente, no puede ser actualizada.


No volátil. El Almacén de Datos sólo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.


Existen un conjunto básico de procesos detrás de una arquitectura de un DW de suma importancia para el mismo.

Primeramente se realiza el proceso de extracción, que consiste en estudiar y entender los datos fuente, tomando aquellos que son de utilidad para el almacén. Una vez que los datos son extraídos, éstos se transforman a una forma presentable y de valor para los usuarios. Este proceso incluye corrección de errores, resolución de problemas de dominio, borrado de campos que no son de interés, generación de claves, agregación de información, etc.

Al terminar el proceso de transformación, se hace la carga de los datos en el DW y seguido se realizan controles de calidad para asegurar que la misma sea correcta. Cuando la información se encuentra disponible, se le informa al usuario. Es importante publicar todos los cambios que se hayan realizado. En este momento ya el usuario final puede realizar consultas. Este debe disponer de herramientas de consulta y procesamiento de datos.

A veces es aconsejable seguir el camino inverso de carga. Por ejemplo, pueden alimentarse los sistemas con información depurada del DW o almacenar en el mismo alguna consulta generada por el usuario que sea de interés, por eso se realiza la retroalimentación de datos o feedback.

También se realiza el proceso de auditoría, que permite conocer de dónde proviene la información así como qué cálculos la generaron.

Ya construido el DW, es de interés para la empresa que llegue la información a la mayor cantidad de usuarios pero, por otro lado, se tiene sumo cuidado de protegerla contra posibles 'hackers', 'snoopers' o espías (seguridad).

Además, se deben realizar actividades de backup y restauración de la información, tanto de la almacenada en el DW como de la que circula desde los sistemas fuente al almacén.

Conclusiones:

Los almacenes de datos son el centro de atención de las grandes empresas actuales, porque son una colección de datos donde se encuentra integrada la información de estas, proporcionando una herramienta para que puedan hacer un mejor uso de la información y para el soporte al proceso de toma de decisiones gerenciales.
Existen numerosas causas que provocan suciedad en los registros de los sistemas operacionales, lo que trae como consecuencia que haya gran cantidad de datos almacenados en las empresas que carece de la calidad adecuada para ser utilizada de forma confiable.
El problema de la limpieza de datos es uno de los tres problemas fundamentales de los DW. Sin embargo, es poco tratado o evitado por muchas organizaciones, ya que no consideran adecuadamente el impacto negativo que puede ocasionar para el negocio el tener almacenada información deficiente.

No hay comentarios:

Publicar un comentario