TALLER DE BIG DATA
Rodrigo Rebolledo
[email protected] 13 de enero de 2017
Agenda Definir Big Data Soluciones de Big Data Mejores prácticas
Discusión: ¿Qué es Big Data?
Big data: ¿necesidad o moda?
Big data: ¿necesidad o moda? Lo “convencional”
Las tareas: 1. Capturar: ¿cómo ingresan los datos a nuestros sistemas? 2. Administrar: ¿cómo almacenamos y mantenemos ordenados los datos? 3. Procesar: ¿cómo calculamos reportes mensuales, evaluaciones de campañas, indicadores de riesgo?
¡NO ESTÁ DEFINIDO POR NUEVAS SOLUCIONES DE NEGOCIO!
Big data: ¿necesidad o moda? Lo “convencional” ¿Qué datos son “convencionales” de capturar? ¿Cuántos tiempo de ejecución es “convencional” en un proceso hoy? ¿Qué software y hardware es “convencional” hoy? ¿Cuántos datos son “convencionales” hoy?
Big data: ¿de dónde nace?
1881 El censo de Estados Unidos de 1880 impulsó la búsqueda de nuevas metodologías para analizar los datos. Así, en 1881 Herman Hollerith inventó la “Tabuladora”. Se usó exitosamente en el censo de 1890, tardando sólo 6 semanas en obtener resultados. El censo anterior tardó 7 años. Herman Hollerith y su invento “Electric Tabulating Machine" fueron parte de la originación de IBM.
Big data: ¿de dónde nace?
1911 Fundación de International Business Machines Corp. (IBM). 1937 IBM proveyó servicios de tabulación censal para registrar a los judíos en la Alemania nazi y Thomas Watson recibió la medalla del águila negra. En 1941 Thomas Watson devolvió la medalla y terminó la prestación de servicios.
Big data: ¿de dónde nace?
1941 Las bibliotecas de las universidades se enfrentaron a un problema de almacenamiento debido al rápido aumento de publicaciones e investigación. Los académicos comenzaron a denominar a este increíble fenómeno como la “explosión de la información”.
Big data: ¿de dónde nace?
1944 El bibliotecario Fremont Rider calculó que las bibliotecas de las universidades de EE. UU. duplicaban su tamaño cada dieciseis años. Rider calculó que, si la tasa de crecimiento se mantuviera, la biblioteca de Yale tendría en el año 2040 “aproximadamente 200.000.000 de volúmenes, que ocuparían 9656 km de estanterías y se necesitarían 6000 bibliotecarios”.
Big data: ¿de dónde nace?
Julio 1997 El término «Big Data» se empleó por primera vez en un artículo de la NASA: “Los conjuntos de datos son generalmente bastante grandes, afectando las capacidades de memoria principal, disco local e incluso disco remoto. A esto lo llamamos el problema de big data”.
https://www.nas.nasa.gov/assets/pdf/techreports/1997/nas-97-010.pdf
Big data: ¿de dónde nace?
Febrero 2001 Gartner publicó un artículo definiendo las “tres V” de Big Data: volumen, velocidad y variedad. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-DataManagement-Controlling-Data-Volume-Velocity-and-Variety.pdf
Big data: ¿de dónde nace?
Febrero 2004 Netezza anunció el primer “data warehouse appliance” en la industria para satisfacer la necesidad de almacenar y procesar grandes volúmenes de datos de consumidores.
Big data: ¿de dónde nace?
2004 Google publicó su paper “Map Reduce”, en que define la operación de grandes datos mediante computación paralela. 2005-2006 Un año después de la publicación de Google nació Hadoop: software para implementar procesos en paralelo. Aquí es donde se inicia el proyecto clave en lo que hoy llamamos “big data”. http://static.googleusercontent.com/media/research.google.com/en/us/archive/mapreduce-osdi04.pdf
Big data: ¿de dónde nace?
2010 Se desarrolló y liberó “Spark”, un nuevo componente para el gran ecosistema que se ha construido alrededor de Hadoop. Provee aún mejores niveles de desempeño y la capacidad de desarrollar modelos analíticos, entre otras.
Big data: ¿de dónde nace?
Febrero 2010 El supercomputador Watson ganó el concurso Jeopardy!. Hito para la nueva era cognitiva. Watson es un sistema informático capaz de entender el lenguaje y ofrecer una respuesta única y precisa a una pregunta.
Big data: ¿de dónde nace?
2013 IBM SPSS Modeler habilitó la conexión con fuentes de Hadoop mediante el nuevo producto IBM SPSS Analytic Server. Esta tecnología permite que los procesos se realicen completamente en el ambiente de Hadoop, sin tener que transferir datos por las redes (idealmente).
Las V de Big Data Las “tres V” originales y comúnmente aceptadas: 1. Volumen: el espacio de almacenamiento de datos. 2. Velocidad: la rápida aparición de nuevos datos, y la necesidad de operarlos. 3. Variedad: las diversas fuentes de datos y los formatos de éstos.
Actualmente han definido (ingeniosamente) hasta “siete V”: 4. 5. 6. 7.
Variabilidad Veracidad Visualización Valor
Las V de Big Data: la velocidad
Las V de Big Data: el volumen OK, OK, PERO ¿CUÁNTO VOLUMEN ES “BIG”? Una empresa de telecomunicaciones puede tener alrededor de 400 millones de registros CDR al mes. Los datos de transacciones bancarias o compras en el retail también poseen centenas de millones de operaciones mensuales (Transbank, Redbanc, internas de la empresa).
El transporte público: Metro en 2007 tuvo una afluencia anual de 600 millones de validaciones. Llamados de un call center: reclamos en texto, voz grabada, etc. Cada fila de estas fuentes contiene información como identificador del lugar, origen, destino, unidades monetarias, duración, fecha de inicio y término, entre otros.
Las V de Big Data: el volumen TIPO DE DATO
BYTES APROX
bigint
8
date
8
varchar
255
En una tabla con muchos atributos, una fila podría ocupar 1 KB. 400 millones de transacciones
¡400 GB de datos al mes!
Las V de Big Data: la variedad Datos estructurados Son los tradicionales datos en forma de tabla que se pueden encontrar en archivos CSV, planillas Excel, bases de datos relacionales.
Las V de Big Data: la variedad
DATOS SEMI-ESTRUCTURADOS: XML, JSON.
https://graph.facebook.com/127708121003_10155025681531004?access_token=245031128840351|8d0cabbccbf6332ab099dd43.1-100002453978341|245031128840351|anT-byq2EUfRSAjTeeci2T3F1t0
Las V de Big Data: la variedad Datos NO estructurados
Las V de Big Data: la velocidad Velocidad en el almacenamiento del dato. Ejemplo: Netezza almacena a 2TB/hora (estructurados)
Velocidad en la explotación del dato: real-time analytics.
Uso aplicado: banco monitoreando las redes sociales de la competencia.
Las V de Big Data: la velocidad Con análisis de sentimientos en tiempo real es posible detectar continuamente lo que está opinando la gente.
¿Dónde hay muchos datos?
Arquitectura de datos tradicional Sistemas transaccionales (OLTP)
Integración y consolidación
Operaciones y analítica
CRM Reportes Operativos y Analíticos
Cubos ERP
ETL
Modelamiento y minería de datos
Web Channel
Enteprise Data Warehouse Call Center
ETL
Datamart
ETL
CRM Auditoría
Datamart ERP
Arquitectura de datos tradicional
La arquitectura tradicional no está preparada para la transformación digital
•
El soporte de volúmenes de datos está limitado a nivel de los sistemas OLTP.
•
La integración y consolidación sería compleja a través de procesos ETL.
•
Tiene excesiva normalización y rigidez a nivel de los esquemas de datos.
•
No es compatible con la carga de fuentes de datos no estructuradas.
•
No soporta naturalmente la implementación de real-time analytics.
•
Las capacidades de escalamiento y elasticidad son limitados y de alto costo.
Arquitectura de Big Data
Interactivo
Batch
Analítico
Data Access APIs
OLTP
OLTP
OLTP
Real-time
Otro DM
Hadoop Distributed File System (HDFS)
EDW DM
Fuentes de Datos No Estructuradas Documentos y Correos
Web Logs & Click Streams
Social Networks
Cloud-based Services
Sensors Data
Geo-location Data
Arquitectura de datos tradicional
Arquitectura de Big Data
Data Lake + Nuevas fuentes
Data warehouse offloading
Usos de Big Data: Digital Journey El usuario se conecta a www.caja.cl
Web
Red Social
Móvil
Email
La aplicación le indica que se registre con sus credenciales de Twitter / Facebook o Linkedin
La aplicación le muestra sus datos, le solicita que ingrese su número de móvil, una clave segura y le envía por SMS un código de enrolamiento para su dispositivo.
El usuario confirma su registro y ya es “cliente registrado”. La aplicación le da la bienvenida y la indica que 36 de sus contactos en Linkedin son afiliados a Caja Los Andes y que 22 de ellos han usado sus beneficios, mientras que 10 tienen créditos sociales, invitándolo a contratar dichos productos
El usuario selecciona Linkedin y la aplicación solicita permisos para acceder a su perfil y su lista de contactos El usuario recibe el código de enrolamiento para confirmar su registro El cliente recibe un correo de bienvenida, con la misma información de sus contactos que está viendo en la aplicación web y con la invitación a seguir explorando los productos de la Caja.
Usos de Big Data Telecomunicaciones Análisis en la predicción y prevención de pérdida de clientes y campañas de venta proactiva. Bancos y aseguradoras Prevención de fraudes. Predicción de comportamiento de pago de clientes. Fuga (inactividad) en uso de tarjetas. Manufactura Temas de calidad en la línea de producción. Los mismos problemas de negocio, sólo que esta vez se abordan con nuevas herramientas que pueden manejar mayores volúmenes y responder a mayor velocidad.
Soluciones Big Data
La estrella del Big Data
Hadoop: la estrella de Big Data Apache Hadoop es un conjunto de programas de código abierto y métodos estandarizados, usado para almacenamiento y procesamiento distribuido de grandes volúmenes de datos. Hadoop está diseñado para ejecutar en clústeres de computadores con hardware genérico. Un supuesto fundamental en todos los componentes de Hadoop es que las fallas de hardware son comunes y deben ser resueltas automáticamente.
Hadoop: la estrella de Big Data Hadoop está compuesto, en esencia, por dos elementos: HDFS y MapReduce. HDFS (Hadoop Distributed File System) es el sistema de archivos de Hadoop que se encarga de gestionar los archivos en el clúster. Cuando el usuario escribe o lee un archivo desde Hadoop, no ve cómo se separa cada porción en los diferentes nodos, sino que ve el archivo como uno íntegro (tal como en nuestras carpetas habituales).
Hadoop: la estrella de Big Data Hadoop está compuesto, en esencia, por dos elementos: HDFS y MapReduce. MapReduce es un método de programación para resolver operaciones sobre datos que están particionados y almacenados en diferentes nodos.
Hadoop: la estrella de Big Data VENTAJAS DE USAR HADOOP Capacidad de almacenar grandes cantidades de datos. Capacidad de operar rápidamente. Tolerancia a fallos. Flexibilidad en el tipo de datos, gracias a componentes del ecosistema. Bajo costo. Escalabilidad.
Hadoop: la estrella de Big Data ECOSISTEMA DE HADOOP
Por extensión, a todos los programas que se han desarrollado para ejecutar en Hadoop se les considera “Hadoop”, lo que puede ser un poco confuso. En realidad, son parte del “ecosistema” de programas que complementan al HDFS y MapReduce. Cassandra Es una base de datos no relacional de almacenamiento
. Chukwa Diseñado para la colección y análisis a gran escala de logs. HBase Es una base de datos no relacional columnar que se ejecuta en HDFS. HBase no soporta SQL. HBase permite que muchos atributos sean agrupados llamándolos familias de columnas. Hive Base de datawarehouse que facilita administrar grandes conjuntos de datos que se encuentran almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a SQL llamado HQL.
La nueva chispa de Big Data
Spark: la nueva chispa de Big Data
Spark: la nueva chispa de Big Data EL LADO ANALÍTICO DE SPARK MLlib es un subproyecto de Spark que provee algoritmos de aprendizaje de máquinas: 1. Clasificación: regresión logística, SVM lineal, Bayes naïve. 2. Regresión: modelos lineales generalizados. 3. Filtrado colaborativo: alternating least squares (ALS). 4. Segmentación: k-means. 5. Descomposición: singular value decomposition (SVD), principal component analysis (PCA).
Spark: la nueva chispa de Big Data EL LADO ANALÍTICO DE SPARK
El filtrado colaborativo se basa en que si una persona A tiene la misma opinión que una persona B sobre un tema, entonces A es más probable que tenga la misma opinión que B en otro tema diferente que la opinión que tendría una persona elegida azar.
Spark: la nueva chispa de Big Data
PureData for Analytics
PureData for Analytics
Data warehouse appliance pensado en resolver rápidamente la carga y operación de grandes volúmenes de datos relacionales.
Incluye componentes de analytics como modelos predictivos.
Velocidad: 10-100x más rápido que los sistemas tradicionales.
Simplicidad: mínima administración y configuración.
Escalabilidad: puede alcanzar petabytes de capacidad.
Inteligente: analítica avanzada de alto desempeño.
PureData for Analytics
Disk Enclosures
SMP Hosts S-Blades™ (with FPGA-based Database Accelerator)
Slice of User Data Swap and Mirror partitions High speed data streaming SQL Compiler Query Plan Optimize Admin Processor & streaming DB logic High-performance database engine streaming joins, aggregations, sorts, etc.
PureData for Analytics
SPSS Analytic Server
SPSS Analytic Server
SPSS Analytic Server Uno de los principales desafíos en la adopción de Hadoop es que en la industria aún no hay suficientes personas expertas que puedan explotar los datos del sistema. SPSS Analytic Server facilita las operaciones gracias a que integra los procesos de Hadoop con la intuitiva interfaz de SPSS Modeler.
SPSS Analytic Server
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Watson Machine Learning
Puntuación en tiempo real: Nombre
Juan Pérez
Meses en dirección actual
20
Meses de tenencia del celular
12
Ingresos diarios USD
64
Edad
50
PROPENSIÓN DE FUGA
87%
Watson Analytics
Watson Analytics Gratuito
Plus
Profesional
Suba hojas de cálculo, obtenga visualizaciones, descubra insights y construya dashboards de instrumentos por su cuenta.
Obtenga todos los características de la edición Gratuita más almacenamiento y fuentes de datos extras, incluyendo database y Twitter.
Obtenga todas las características de Plus más un acceso multiusuarios para colaborar
A partir de US$3843 por usuario por mes
A partir de US$10248 por usuario por mes
US$000 1 usuario
1 usuario
1 o más usuarios
1 MB de almacenamiento incluido 2 GB de almacenamiento incluido
100 GB de almacenamiento incluido
30 días de prueba para usuario Profesional
Añada almacenamiento extra de 10 GB por una tarifa mínima
Añada almacenamiento extra de 50 GB por una tarifa mínima
Obtenga acceso a bases de datos relacionales,en las instalaciones y en la nube
Obtenga acceso a bases de datos relacionales,en las instalaciones y en la nube
Acceda a 18 conectores de datos
Acceda a 19 conectores de datos
Acceda a los datos de Twitter
Acceda a los datos de Twitter
Acceso total a ofertas y datos de IBM Analytics Exchange
Acceso total a ofertas y datos de IBM Analytics Exchange
Acceso limitado a ofertas de IBM Analytics Exchange
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Watson Analytics
Cómo usa IBM la tecnología de Hadoop
Tealeaf on cloud usa Hadoop
Mejores prácticas: Smart Marketing
Anexo
Arquitectura de Big Data
TALLER DE BIG DATA
Rodrigo Rebolledo [email protected] 13 de enero de 2017