OLT Es la sigla en inglés de Procesamiento de Transacciones En Línea (OnLine Transaction Processing). Es un tipo de procesamiento que facilita y administra aplicaciones transaccionales, usualmente para entrada de datos y recuperación y procesamiento de transacciones (gestor transaccional). OLAP Es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia de negocios (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. ¿Cómo funciona hoy?
Son atendidas con un gasto excesivo de energía. Son atendidas, frecuentemente, fuera de plazo. Impactan en el proceso operacional. Generan sistemas cada vez más difíciles de ser mantenidos.
Muchos datos, poca información
Alto volumen de datos y necesidades de respuesta rápida. Análisis complejo — consultas imposibles de prever. Ambiente de negocio en cambio constante.
Propiedades del Data Warehouse
Orientada a un tema (La data es categorizada y almacenada por áreas de negocio en lugar de aplicaciones) Integrada (La data es definida como única) Variante en el Tiempo (La data es almacenada como serie de fotos asociadas al tiempo) No Volátil (La data en el DW típicamente NO cambia)
Características del DW
Las Bases de Datos son creadas específicamente para dar soporte a las decisiones. La información es extraída desde los sistemas originales, transformada e integrada. La estructura del DWH es simplificada y en términos comunes del negocio, haciéndola más fácil de usar y entender. Un DWH contiene información basada en el tiempo. Los datos son analizados básicamente para detectar patrones y tendencias.
Data Warehouse Empresarial Data Mart
Implementación a escala grande. Alcance de todo el negocio. Datos desde todos los subject áreas. Niveles de datos atómicos. Desarrollo incremental. Usuarios de toda la organización. Punto de distribución de los data marts dependientes.
Subconjunto de un Data Warehouse existente. Optimizado para consultas específicas. Altamente sumarizado. Atiende funciones específicas del negocio. Data Histórica. Orientada a un grupo de usuarios.
Data Warehouses Versus Data Marts
Propiedades - Data Warehouse - Data Mart Alcance – Empresarial - Departamental Areas – Múltiples - Unicas Fuente de Datos – Muchos - Pocos Tamaño (típico) - 100 GB to > 1 TB - < 100 GB Implementación - Meses a Años - Meses
Almacén de Datos Operacionales (ODS) Almacena data táctica desde los sistemas de producción, orientada a un tema e integrada con fines operacionales.
Mixtura de un Data Warehouse y un sistema operacional Atiende necesidades operacionales Estructura desnormalizada Levemente sumarizada, datos de detalle Contiene algunos datos operacionales Data actualizada o casi actualizada
Procesamiento Operacional vs Analítico
Procesamiento operacional (OLTP). - Es el conjunto de sistemas transaccionales on-line que ejecutan las operaciones diarias del negocio. Procesamiento analítico (OLAP). - Es el conjunto de sistemas que ofrecen información usada para el análisis de un problema o situación.
OLTP y OLAP
Objetivo - Control de los Proc. Oper. - Toma de Decisiones Cliente - Personal Operacional - Gestores del Negocio Datos - Atómicos, Actualizados y Dinámicos Consolidados, Históricos y Estables Estructura - Normalizada - Dimensional Tiempo Resp. - Segundos - De Seg. a Minutos Orientación - Orientado a Aplicaciones - Orient. a Información Acceso - Alto - Moderado a bajo Actualización - Contínuamente - Periódicamente Aplicación - Estructurada y Procesos repetitivos No Estructurada y Procesos Analiticos
Análisis en el mundo OLAP Recursos disponibles
Drill Down (Cambiar el nivel de detalle de la consulta) Drill Up Slicing (Seleccionar las Dimensiones para la Consulta) Dicing (Limitar el Conjunto de Valores de cada Dimensión) Pivoting (Cambiar las Dimensiones entre las Líneas y las Columnas)
Data Surfing
Modelo de Datos Multidimensional.- La data se encuentra en la intersección de las dimensiones. Multi-Dimensional vs. Relational Databases
Multi-Dimensional
Acceso más rápido Multiplicidad de vistas de los datos Slice and dice Problemas de Performance con base de datos grandes Usada especialmente para Data Marts
Categorías de Data Mining
Relacional
Es conocida y entendida Fuerte procesos de back up y de restore Mejor performance en base de datos grandes
La capa de presentación almacena los datos en estructuras multidimensionales La capa de presentación provee las vistas Multidimensionales Data fuera del servidor. Almacenamiento y procesamiento eficiente. Oculta la complejidad al usuario. Análisis usando medidas preagregadas y precalculadas.
Almacenamiento de datos atómicos. La capa de aplicación genera los SQL para la vista de terceros. La capa de presentación provee la vista multidimensional. Data y Metadata en el servidor Vista Multidimensional de la Data No limitado Complejos SQL generados por herramientas
MOLAP, ROLAP, y HOLAP (Warehouse Multidimensional – Usuario Final)
–
Servidor
Minería de Datos
Es una base de datos compleja que contiene información muy valiosa. Es alimentada a través de un proceso de Knowledge Discovery. Es el más común ejemplo de una aplicación rentable de un Data Warehouse. Origenes: 1960: Análisis Estadístico: SAS, SPSS, IBM 1980: Nuevas técnicas: Fuzzy Logic, heuristic reasoning, neuronal network. Dieron origen al Artificial Intelligence. 1990: Mejores prácticas de Analisis Estadistico, neuronal network, decision trees, market basket analysis
Definiciones de Data Mining
Clasificación: Técnicas: statistics, memory-based reasoning, genetic algorithms, link analysis, decission trees,neuronal network. Estimación y Predicción: Técnicas: standar statistics y neuronal network para variables numéricas. Grupos Afines: Técnicas: Link analysis, special purpose market basket analysis.
Minería de Datos (Tipos de aplicaciones de Minería de Datos)
Análisis de tráficos de datos. Medicina. Detección de Fraude. Pronósticos. Control de calidad. Análisis de procesos. Clasificación de individuos.
OLAP vs. Minería de Datos
Servidor ROLAP
Servidor MOLAP
Data Mining es la actividad de extraer información oculta desde Bases de Datos grandes, automáticamente, esto es sin la intervención humana en la iniciativa del proceso de descubrimiento de conocimiento. Data Mining es el proceso de descubrimiento del conocimiento en la Base de Datos. El input es limpiado, es transformado en dato, busca la data usando algoritmos y saca patrones y relaciones para la interpretación / evaluación del proceso KDD.
Foco - Data Sumarizada - Transaccional o de detalle Dimensiones - Limitada - Muchas Número de Atributos - Decenas - Cientos por cada dimension Tamaño del set de datos - Pequeña a mediana por cada dimension - Millones por cada dimension Foco de Análisis - ¿Qué está sucediendo en el negocio? - ¿Por qué está sucediendo? Acciones de Predicción. Técnicas de análisis - Slice y Dice Descubrimiento automatico Proceso de análisis - Análisis de negocio iniciado y controlado Factor de confidencia - Derivada para el análisis del negocio - Derivada desde la data Estado de la tecnología - Madura - Madura en Análisis Estadístico, emergente en Knowledge Discovery
¿Cuál fue el tiempo de respuesta a nuestro email?
¿Cuál es el perfil de personas que posiblemente respondan
¿Cuántas unidades de nuestro nuevo producto hemos vendido a nuestros clientes existentes? ¿Quiénes fueron mis 10 mejores clientes el año pasado? ¿Cuáles clientes no renovaron su poliza el mes pasado? ¿Qué clientes no pagaron sus préstamos? ¿Cuáles fueron las ventas por región el último trimestre? ¿Qué porcentaje de las partes producidas ayer están defectuosas?
nuestro email? ¿Cuáles clientes existentes les gustaría comprar nuestro siguiente nuevo producto? ¿Cuáles son los 10 clientes que me ofrecen la mayor rentabilidad potencial? ¿Cuáles clientes se pueden cambiar a la competencia en los siguientes 6 meses? ¿Es este cliente un buen sujeto de crédito? ¿Cuáles son las expectativas de ventas para la región el siguiente año? ¿Qué puedo hacer para mejorar el tiraje y reducir fallas?