Big Data V1.pptx

  • Uploaded by: Carlos Javier
  • 0
  • 0
  • May 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Big Data V1.pptx as PDF for free.

More details

  • Words: 2,345
  • Pages: 79
TALLER DE BIG DATA

Rodrigo Rebolledo [email protected] 13 de enero de 2017

Agenda Definir Big Data Soluciones de Big Data Mejores prácticas

Discusión: ¿Qué es Big Data?

Big data: ¿necesidad o moda?

Big data: ¿necesidad o moda? Lo “convencional”

Las tareas: 1. Capturar: ¿cómo ingresan los datos a nuestros sistemas? 2. Administrar: ¿cómo almacenamos y mantenemos ordenados los datos? 3. Procesar: ¿cómo calculamos reportes mensuales, evaluaciones de campañas, indicadores de riesgo?

¡NO ESTÁ DEFINIDO POR NUEVAS SOLUCIONES DE NEGOCIO!

Big data: ¿necesidad o moda? Lo “convencional” ¿Qué datos son “convencionales” de capturar? ¿Cuántos tiempo de ejecución es “convencional” en un proceso hoy? ¿Qué software y hardware es “convencional” hoy? ¿Cuántos datos son “convencionales” hoy?

Big data: ¿de dónde nace?

1881 El censo de Estados Unidos de 1880 impulsó la búsqueda de nuevas metodologías para analizar los datos. Así, en 1881 Herman Hollerith inventó la “Tabuladora”. Se usó exitosamente en el censo de 1890, tardando sólo 6 semanas en obtener resultados. El censo anterior tardó 7 años. Herman Hollerith y su invento “Electric Tabulating Machine" fueron parte de la originación de IBM.

Big data: ¿de dónde nace?

1911 Fundación de International Business Machines Corp. (IBM). 1937 IBM proveyó servicios de tabulación censal para registrar a los judíos en la Alemania nazi y Thomas Watson recibió la medalla del águila negra. En 1941 Thomas Watson devolvió la medalla y terminó la prestación de servicios.

Big data: ¿de dónde nace?

1941 Las bibliotecas de las universidades se enfrentaron a un problema de almacenamiento debido al rápido aumento de publicaciones e investigación. Los académicos comenzaron a denominar a este increíble fenómeno como la “explosión de la información”.

Big data: ¿de dónde nace?

1944 El bibliotecario Fremont Rider calculó que las bibliotecas de las universidades de EE. UU. duplicaban su tamaño cada dieciseis años. Rider calculó que, si la tasa de crecimiento se mantuviera, la biblioteca de Yale tendría en el año 2040 “aproximadamente 200.000.000 de volúmenes, que ocuparían 9656 km de estanterías y se necesitarían 6000 bibliotecarios”.

Big data: ¿de dónde nace?

Julio 1997 El término «Big Data» se empleó por primera vez en un artículo de la NASA: “Los conjuntos de datos son generalmente bastante grandes, afectando las capacidades de memoria principal, disco local e incluso disco remoto. A esto lo llamamos el problema de big data”.

https://www.nas.nasa.gov/assets/pdf/techreports/1997/nas-97-010.pdf

Big data: ¿de dónde nace?

Febrero 2001 Gartner publicó un artículo definiendo las “tres V” de Big Data: volumen, velocidad y variedad. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-DataManagement-Controlling-Data-Volume-Velocity-and-Variety.pdf

Big data: ¿de dónde nace?

Febrero 2004 Netezza anunció el primer “data warehouse appliance” en la industria para satisfacer la necesidad de almacenar y procesar grandes volúmenes de datos de consumidores.

Big data: ¿de dónde nace?

2004 Google publicó su paper “Map Reduce”, en que define la operación de grandes datos mediante computación paralela. 2005-2006 Un año después de la publicación de Google nació Hadoop: software para implementar procesos en paralelo. Aquí es donde se inicia el proyecto clave en lo que hoy llamamos “big data”. http://static.googleusercontent.com/media/research.google.com/en/us/archive/mapreduce-osdi04.pdf

Big data: ¿de dónde nace?

2010 Se desarrolló y liberó “Spark”, un nuevo componente para el gran ecosistema que se ha construido alrededor de Hadoop. Provee aún mejores niveles de desempeño y la capacidad de desarrollar modelos analíticos, entre otras.

Big data: ¿de dónde nace?

Febrero 2010 El supercomputador Watson ganó el concurso Jeopardy!. Hito para la nueva era cognitiva. Watson es un sistema informático capaz de entender el lenguaje y ofrecer una respuesta única y precisa a una pregunta.

Big data: ¿de dónde nace?

2013 IBM SPSS Modeler habilitó la conexión con fuentes de Hadoop mediante el nuevo producto IBM SPSS Analytic Server. Esta tecnología permite que los procesos se realicen completamente en el ambiente de Hadoop, sin tener que transferir datos por las redes (idealmente).

Las V de Big Data Las “tres V” originales y comúnmente aceptadas: 1. Volumen: el espacio de almacenamiento de datos. 2. Velocidad: la rápida aparición de nuevos datos, y la necesidad de operarlos. 3. Variedad: las diversas fuentes de datos y los formatos de éstos.

Actualmente han definido (ingeniosamente) hasta “siete V”: 4. 5. 6. 7.

Variabilidad Veracidad Visualización Valor

Las V de Big Data: la velocidad

Las V de Big Data: el volumen OK, OK, PERO ¿CUÁNTO VOLUMEN ES “BIG”? Una empresa de telecomunicaciones puede tener alrededor de 400 millones de registros CDR al mes. Los datos de transacciones bancarias o compras en el retail también poseen centenas de millones de operaciones mensuales (Transbank, Redbanc, internas de la empresa).

El transporte público: Metro en 2007 tuvo una afluencia anual de 600 millones de validaciones. Llamados de un call center: reclamos en texto, voz grabada, etc. Cada fila de estas fuentes contiene información como identificador del lugar, origen, destino, unidades monetarias, duración, fecha de inicio y término, entre otros.

Las V de Big Data: el volumen TIPO DE DATO

BYTES APROX

bigint

8

date

8

varchar

255

En una tabla con muchos atributos, una fila podría ocupar 1 KB. 400 millones de transacciones

¡400 GB de datos al mes!

Las V de Big Data: la variedad Datos estructurados Son los tradicionales datos en forma de tabla que se pueden encontrar en archivos CSV, planillas Excel, bases de datos relacionales.

Las V de Big Data: la variedad

DATOS SEMI-ESTRUCTURADOS: XML, JSON.

https://graph.facebook.com/127708121003_10155025681531004?access_token=245031128840351|8d0cabbccbf6332ab099dd43.1-100002453978341|245031128840351|anT-byq2EUfRSAjTeeci2T3F1t0

Las V de Big Data: la variedad Datos NO estructurados

Las V de Big Data: la velocidad Velocidad en el almacenamiento del dato. Ejemplo: Netezza almacena a 2TB/hora (estructurados)

Velocidad en la explotación del dato: real-time analytics.

Uso aplicado: banco monitoreando las redes sociales de la competencia.

Las V de Big Data: la velocidad Con análisis de sentimientos en tiempo real es posible detectar continuamente lo que está opinando la gente.

¿Dónde hay muchos datos?

Arquitectura de datos tradicional Sistemas transaccionales (OLTP)

Integración y consolidación

Operaciones y analítica

CRM Reportes Operativos y Analíticos

Cubos ERP

ETL

Modelamiento y minería de datos

Web Channel

Enteprise Data Warehouse Call Center

ETL

Datamart

ETL

CRM Auditoría

Datamart ERP

Arquitectura de datos tradicional

La arquitectura tradicional no está preparada para la transformación digital



El soporte de volúmenes de datos está limitado a nivel de los sistemas OLTP.



La integración y consolidación sería compleja a través de procesos ETL.



Tiene excesiva normalización y rigidez a nivel de los esquemas de datos.



No es compatible con la carga de fuentes de datos no estructuradas.



No soporta naturalmente la implementación de real-time analytics.



Las capacidades de escalamiento y elasticidad son limitados y de alto costo.

Arquitectura de Big Data

Interactivo

Batch

Analítico

Data Access APIs

OLTP

OLTP

OLTP

Real-time

Otro DM

Hadoop Distributed File System (HDFS)

EDW DM

Fuentes de Datos No Estructuradas Documentos y Correos

Web Logs & Click Streams

Social Networks

Cloud-based Services

Sensors Data

Geo-location Data

Arquitectura de datos tradicional

Arquitectura de Big Data

Data Lake + Nuevas fuentes

Data warehouse offloading

Usos de Big Data: Digital Journey El usuario se conecta a www.caja.cl

Web

Red Social

Móvil

Email

La aplicación le indica que se registre con sus credenciales de Twitter / Facebook o Linkedin

La aplicación le muestra sus datos, le solicita que ingrese su número de móvil, una clave segura y le envía por SMS un código de enrolamiento para su dispositivo.

El usuario confirma su registro y ya es “cliente registrado”. La aplicación le da la bienvenida y la indica que 36 de sus contactos en Linkedin son afiliados a Caja Los Andes y que 22 de ellos han usado sus beneficios, mientras que 10 tienen créditos sociales, invitándolo a contratar dichos productos

El usuario selecciona Linkedin y la aplicación solicita permisos para acceder a su perfil y su lista de contactos El usuario recibe el código de enrolamiento para confirmar su registro El cliente recibe un correo de bienvenida, con la misma información de sus contactos que está viendo en la aplicación web y con la invitación a seguir explorando los productos de la Caja.

Usos de Big Data Telecomunicaciones Análisis en la predicción y prevención de pérdida de clientes y campañas de venta proactiva. Bancos y aseguradoras Prevención de fraudes. Predicción de comportamiento de pago de clientes. Fuga (inactividad) en uso de tarjetas. Manufactura Temas de calidad en la línea de producción. Los mismos problemas de negocio, sólo que esta vez se abordan con nuevas herramientas que pueden manejar mayores volúmenes y responder a mayor velocidad.

Soluciones Big Data

La estrella del Big Data

Hadoop: la estrella de Big Data Apache Hadoop es un conjunto de programas de código abierto y métodos estandarizados, usado para almacenamiento y procesamiento distribuido de grandes volúmenes de datos. Hadoop está diseñado para ejecutar en clústeres de computadores con hardware genérico. Un supuesto fundamental en todos los componentes de Hadoop es que las fallas de hardware son comunes y deben ser resueltas automáticamente.

Hadoop: la estrella de Big Data Hadoop está compuesto, en esencia, por dos elementos: HDFS y MapReduce. HDFS (Hadoop Distributed File System) es el sistema de archivos de Hadoop que se encarga de gestionar los archivos en el clúster. Cuando el usuario escribe o lee un archivo desde Hadoop, no ve cómo se separa cada porción en los diferentes nodos, sino que ve el archivo como uno íntegro (tal como en nuestras carpetas habituales).

Hadoop: la estrella de Big Data Hadoop está compuesto, en esencia, por dos elementos: HDFS y MapReduce. MapReduce es un método de programación para resolver operaciones sobre datos que están particionados y almacenados en diferentes nodos.

Hadoop: la estrella de Big Data VENTAJAS DE USAR HADOOP  Capacidad de almacenar grandes cantidades de datos.  Capacidad de operar rápidamente.  Tolerancia a fallos.  Flexibilidad en el tipo de datos, gracias a componentes del ecosistema.  Bajo costo.  Escalabilidad.

Hadoop: la estrella de Big Data ECOSISTEMA DE HADOOP

Por extensión, a todos los programas que se han desarrollado para ejecutar en Hadoop se les considera “Hadoop”, lo que puede ser un poco confuso. En realidad, son parte del “ecosistema” de programas que complementan al HDFS y MapReduce. Cassandra Es una base de datos no relacional de almacenamiento . Chukwa Diseñado para la colección y análisis a gran escala de logs. HBase Es una base de datos no relacional columnar que se ejecuta en HDFS. HBase no soporta SQL. HBase permite que muchos atributos sean agrupados llamándolos familias de columnas. Hive Base de datawarehouse que facilita administrar grandes conjuntos de datos que se encuentran almacenados en un ambiente distribuido. Hive tiene definido un lenguaje similar a SQL llamado HQL.

La nueva chispa de Big Data

Spark: la nueva chispa de Big Data

Spark: la nueva chispa de Big Data EL LADO ANALÍTICO DE SPARK MLlib es un subproyecto de Spark que provee algoritmos de aprendizaje de máquinas: 1. Clasificación: regresión logística, SVM lineal, Bayes naïve. 2. Regresión: modelos lineales generalizados. 3. Filtrado colaborativo: alternating least squares (ALS). 4. Segmentación: k-means. 5. Descomposición: singular value decomposition (SVD), principal component analysis (PCA).

Spark: la nueva chispa de Big Data EL LADO ANALÍTICO DE SPARK

El filtrado colaborativo se basa en que si una persona A tiene la misma opinión que una persona B sobre un tema, entonces A es más probable que tenga la misma opinión que B en otro tema diferente que la opinión que tendría una persona elegida azar.

Spark: la nueva chispa de Big Data

PureData for Analytics

PureData for Analytics 

Data warehouse appliance pensado en resolver rápidamente la carga y operación de grandes volúmenes de datos relacionales.



Incluye componentes de analytics como modelos predictivos.



Velocidad: 10-100x más rápido que los sistemas tradicionales.



Simplicidad: mínima administración y configuración.



Escalabilidad: puede alcanzar petabytes de capacidad.



Inteligente: analítica avanzada de alto desempeño.

PureData for Analytics

Disk Enclosures

SMP Hosts S-Blades™ (with FPGA-based Database Accelerator)

Slice of User Data Swap and Mirror partitions High speed data streaming SQL Compiler Query Plan Optimize Admin Processor & streaming DB logic High-performance database engine streaming joins, aggregations, sorts, etc.

PureData for Analytics

SPSS Analytic Server

SPSS Analytic Server

SPSS Analytic Server Uno de los principales desafíos en la adopción de Hadoop es que en la industria aún no hay suficientes personas expertas que puedan explotar los datos del sistema. SPSS Analytic Server facilita las operaciones gracias a que integra los procesos de Hadoop con la intuitiva interfaz de SPSS Modeler.

SPSS Analytic Server

Watson Machine Learning

Watson Machine Learning

Watson Machine Learning

Watson Machine Learning

Watson Machine Learning

Watson Machine Learning

Watson Machine Learning

Watson Machine Learning

Watson Machine Learning

Puntuación en tiempo real: Nombre

Juan Pérez

Meses en dirección actual

20

Meses de tenencia del celular

12

Ingresos diarios USD

64

Edad

50

PROPENSIÓN DE FUGA

87%

Watson Analytics

Watson Analytics Gratuito

Plus

Profesional

Suba hojas de cálculo, obtenga visualizaciones, descubra insights y construya dashboards de instrumentos por su cuenta.

Obtenga todos los características de la edición Gratuita más almacenamiento y fuentes de datos extras, incluyendo database y Twitter.

Obtenga todas las características de Plus más un acceso multiusuarios para colaborar

A partir de US$3843 por usuario por mes

A partir de US$10248 por usuario por mes

US$000 1 usuario

1 usuario

1 o más usuarios

1 MB de almacenamiento incluido 2 GB de almacenamiento incluido

100 GB de almacenamiento incluido

30 días de prueba para usuario Profesional

Añada almacenamiento extra de 10 GB por una tarifa mínima

Añada almacenamiento extra de 50 GB por una tarifa mínima

Obtenga acceso a bases de datos relacionales,en las instalaciones y en la nube

Obtenga acceso a bases de datos relacionales,en las instalaciones y en la nube

Acceda a 18 conectores de datos

Acceda a 19 conectores de datos

Acceda a los datos de Twitter

Acceda a los datos de Twitter

Acceso total a ofertas y datos de IBM Analytics Exchange

Acceso total a ofertas y datos de IBM Analytics Exchange

Acceso limitado a ofertas de IBM Analytics Exchange

Watson Analytics

Watson Analytics

Watson Analytics

Watson Analytics

Watson Analytics

Watson Analytics

Cómo usa IBM la tecnología de Hadoop

Tealeaf on cloud usa Hadoop

Mejores prácticas: Smart Marketing

Anexo

Arquitectura de Big Data

TALLER DE BIG DATA

Rodrigo Rebolledo [email protected] 13 de enero de 2017

Related Documents

M-big Data-web.pdf
June 2020 11
Big Data V1.pptx
May 2020 20
Big Border Data 2
April 2020 17
Big Data Hadoop.docx
December 2019 19
Big Border Data 1
April 2020 13
Big Data Translate.docx
August 2019 25

More Documents from "Fathika R Helend"