Bodegas de datos › › › › ›
Definiciones Características Ventajas Desventajas Funciones de uso
Minería de datos Aplicativos Costos Conclusiones Bibliografía
Construcción de grandes almacenes de datos integrados, organizados y estructurados de tal forma que le permiten al usuario facilitar el proceso en una toma de dediciones. Ralph Kimball, lo define como una copia de transacciones de datos específicamente estructurada para su consulta y análisis.
Algunas
organizaciones han comenzado a construir repositorios más pequeños, más fáciles y rápidos de implementar, conocidos como Data Marts, que son organizados alrededor de aplicaciones específicas, como por ejemplo, almacenando los datos relevantes del área de contabilidad, de producción o de ventas en un almacén de datos por separado.
Información accesible. Información consistente. Información adaptable y elástica. Fundamental para la toma de decisiones. Seguridad en la información
No volátil. Variable en el tiempo. Orientado a temas. Integrado – Datos consistentes. Favorece el análisis y divulgación de datos especialmente OLAP (Procesamiento analítico en línea).
Las bodegas de datos hacen más fácil el acceso a una gran variedad de datos para su uso. Facilitan el funcionamiento de las aplicaciones, de los sistemas de apoyo en la toma decisiones tales como: › informes de tendencia, por ejemplo: obtener los ítems con la
mayoría de las ventas en un área en particular dentro de los últimos dos años › informes de excepción, informes que muestran los resultados reales frente a los objetivos planteados a prioridad.
Las bodegas de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes. Muy útiles para el almacenamiento de análisis y consultas de históricos. Permite hacer planes de forma más efectiva. Transforma los datos en información y la información en conocimiento.
Los costos de mantenimiento son elevados. Las bodegas de datos se pueden quedar obsoletos relativamente pronto. Requiere continuo mantenimiento, transformación e integración de datos. Requieren sistemas, aplicaciones y almacenamiento específico. En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que pretende una organización. No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir.
Una Bodega de Datos debe entregar la información correcta a la gente indicada en el momento adecuado en el formato correcto Da respuesta a las necesidades de usuarios conocedores, utilizando Sistemas de Soporte en la decisión (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas y reportes Los usuarios finales pueden hacer consultas sobre sus Bodegas de Datos sin tocar o afectar la operación del sistema
Realización de los requerimientos:
› Definición del nombre del requerimiento › Descripción:
Fuentes de información Variables que se van a cargar en la bodega de datos. Proceso de cargue inicial y actualización de la información. Visualización de la información. Seguridad tanto en la autorización para la publicación en Internet como en los permisos de consulta de la información.
Verificación y actualización del requerimiento. Desarrollo del requerimiento en el sistema.
Paralelamente al desarrollo de los sistemas Data Warehouse y Datamarts, ha surgido un nuevo componente que provee herramientas avanzadas de análisis de información, y facilita el acceso a la misma a través de dimensiones, de tal manera que un mismo dato puede ser analizado bajo distintos puntos de vista. El análisis de datos a través de diversas dimensiones (cubo) permite detectar comportamientos y reglas del negocio que no son fácilmente identificables con los sistemas transaccionales.
Dimensiones Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de información complementaria necesaria para la presentación de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada uno de los registros de la tabla de hechos. Variables También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a la variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días, horas, semanas, etc.)
Ejemplos de variables podrían ser: › Beneficios › Gastos › Ventas
Ejemplos de dimensiones podrían ser: › producto (diferentes tipos o denominaciones de productos) › localidades (o provincia, o regiones, o zonas geográficas) › tiempo (medido de diferentes maneras, por horas, por días,
por meses, por años, ...) › tipo de cliente (casado/soltero, joven/adulto/anciano, ...)
Según lo anterior, podríamos construir un cubo de información sobre el indice de ventas (variable a estudiar) en función del producto vendido, la provincia, el mes del año y si el cliente está casado o soltero (dimensiones). Tendríamos un cubo de 4 dimensiones.
La minería de datos es una tecnología de soporte para usuario final, cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas.
Los objetivos de un sistema de minería de datos nos permitirían analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos.
Los sistemas de minería de datos se desarrollan bajo lenguajes de ultima generación basados en la inteligencia artificial y utilizando métodos matemáticos, tales como: Redes neuronales Introducción de reglas Arboles de decisión Conjunto de reglas por clase
Soporta también sofisticadas operaciones de análisis tales como los sistemas Scoring y aplicaciones de detección de fraude.
El KDD (Knowledge Discovery in Databases) es un proceso que comprende tanto a la minería de datos como el proceso de creación de conocimiento, buscando procesar las grandes cantidades de datos crudos, identificando los patrones entre los datos obtenidos y generando el conocimiento que satisfaga las necesidades del cliente.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación de la información y ese modelo representen un valor agregado, entonces nos referimos al conocimiento.
Data Mining toma el proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación porque está soportado por tres tecnologías que ya están suficientemente maduras: Recolección masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
Explorar los datos se encuentran en las profundidades de las bases de datos. Consolidar los datos en un almacén de datos. Tiene una arquitectura cliente-servidor usando procesamiento paralelo. Facilita el uso de varias herramientas y técnicas para la extracción de los datos. La minería de datos produce cinco tipos de información: — — — — —
Asociaciones Secuencias Clasificaciones Agrupamientos Pronósticos
Descubrimiento automatizado de modelos previamente desconocidos. Predicción automatizada de tendencias y comportamientos. Aportes a la toma de decisiones con bases y fundamentos reales basados en los dato.
Los
ambientes para el desarrollo de las bodegas de datos son: › Oracle Data Warehouse › SQL Server Entreprise ed. › Sybase – PoweDesigner, Sybase IQ
Fabricante Oracle
Oracle
Oracle
Producto
SO
Costo
Oracle Database Enterprise Edition Windows 32 Bits (Perpetua Licencia)
USD 45,700,00
1 Año
USD 9.500,00
Oracle Data Mining
Windows 32 Bits
(Perpetua Licencia)
USD 23.000,00
1 Año
USD 4.600,00
Oracle Olap
Windows 32 Bits
(Perpetua Licencia)
USD 23.000,00
1 Año
USD 4.600,00
Fabricante Microsoft Enterprise Edition
Buy N
Microsoft
Volume L
Retail, VL
Standard Edition
Microsoft
Información segura y confiable Se usa como una alternativa para la toma de decisiones en una organización Permite tener de una manera organizada los datos con el fin de poder extraer informes específicos en determinados ciclos de tiempo Brinda una estructura robusta en el almacenamiento de datos