Data Replication El valor de la replicación, la consistencia del negocio
Especialistas en Gestión de Datos
ÍNDICE Data Replication. El valor de la replicación, la consistencia del negocio . . . . 3 Para quién y cuándo es conveniente usar esta forma de integración . . . . . . . 5 Cómo seleccionar herramientas para la replicación de datos. . . . . . . . . . . . . . . 6 Modalidades y métodos de replicación de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Desafíos asociados al data replication. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Mejores prácticas en replicación de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Síguenos en:
2
Especialistas en Gestión de Datos
3
Data Replication. El valor de la replicación, la consistencia del negocio
¿Conoces la manera de disponer de datos nuevos siempre a punto para el reporting, incluyendo los transaccionales? ¿Sabes cómo reducir y mantener el gasto de IT bajo control? ¿Te imaginas poder trabajar sin downtime a la hora de llevar a cabo actualizaciones o hacer el mantenimiento de aplicaciones? Eficiencia, ahorro y disponibilidad continua se conocen como data replication. La replicación de datos es el proceso de creación y gestión de versiones duplicadas de una base de datos y de transacciones en tiempo real. Con este nombre se conoce, tanto al proceso de data replication en sí mismo, como al conjunto de tecnologías que automatiza la clonación de datos de aplicativos a través de miles de tablas a la vez. Es importante tener en cuenta que la replicación no consiste únicamente en la copia de una base de datos, sino que se ocupa también de sincronizar el conjunto, de forma que los cambios realizados en una réplica se reflejan en todas las demás.
Síguenos en:
Especialistas en Gestión de Datos
4
La replicación de datos es una práctica que las empresas suelen aplicar en sus grandes almacenes de datos para ayudar a garantizar la eficiencia del sistema y evitar cualquier posible fallo. Muchos de los sistemas de data warehouse utilizan la replicación de datos para compartir información, con el fin de asegurar la coherencia entre los recursos redundantes, como componentes de hardware y software. También se puede recurrir a ella si los mismos datos se almacenan en múltiples dispositivos o si una tarea informática determinada debe ser ejecutada muchas veces (en el espacio, cuando se ejecuta en dispositivos separados; o en el tiempo, como sucede cuando se ejecuta repetidamente en un mismo dispositivo). Lo más característico de este método es que data replication es del todo transparente para el usuario final. Por lo que un consumidor de información sólo tiene la impresión de estar usando siempre un almacén de datos único. Ahí radica la belleza de la replicación, que permite que varios usuarios trabajen con su propia copia local de una base de datos, manteniendo la original actualizada de igual modo en que lo estaría si estuvieran trabajando directamente sobre ella. Para las aplicaciones de base de datos donde los usuarios están geográficamente distribuidos, la replicación es el método más eficiente de acceso a la información al permitir que, independientemente de la ubicación desde la que se introduzcan los cambios o se requieran los datos, todos los trabajos se puedan realizar como si se practicasen directamente sobre una base de datos única y centralizada. La replicación de datos es una tecnología flexible que se puede utilizar para muchos propósitos, incluyendo: • La integración de datos. • La creación de un servidor de reporting. • Migraciones. • Proyectos que impliquen una alta disponibilidad de la información. La replicación basada en el log de transacciones es uno de los escenarios de uso más comunes. No es casualidad que las herramientas de Replicación de Datos sean el segundo tipo de herramientas de integración de datos más popular, por detrás de las herramientas ETL.
Síguenos en:
5
Especialistas en Gestión de Datos
Para quién y cuándo es conveniente usar esta forma de integración Todas las empresas pueden beneficiarse de data replication. Este tipo de tecnologías permiten replicar para crear backups o con el objetivo de tener ambientes disponibles en otros entornos, sin impactar los orígenes, permitiendo realizar algún tipo de operación adicional sin que ello afecte al entorno productivo. Y esto no es más que el principio de los beneficios de esta forma de entender la integración de datos.
QUIÉN DEBERÍA PLANTEARSE RECURRIR A DATA REPLICATION 1. Empresas que quieren aumentar su agilidad: hoy día, la mayoría de negocios son DATA-DRIVEN y la aceleración del entorno les obliga a mejorar sus condiciones de agilidad en la toma de decisiones. Minimizar latencias y ganar en actualización es un imperativo para mantener posiciones y tener posibilidades reales de avanzar. Para conseguirlo, las organizaciones deben proporcionar a sus ejecutivos datos actuales, información de última hora y todo en condiciones de calidad y confiabilidad; puesto que sólo así podrán conocer la realidad del negocio en el presente y permanecer alerta a cualquier cambio en las operaciones.
¿Quieres saber cómo instaura una cultura Data Driven en tu empresa? Descarga aquí
nuestra guía gratuita
2. Compañías con el objetivo de impulsar la productividad de IT: la elección tecnológica es clave para reducir la complejidad. Cuando se provee al área técnica de la organización de un software rápido de configurar, de sencillo manejo y que no implica dificultades a la hora de la implementación o el despliegue se está dando poder a IT, pero también se dota de más autonomía al usuario de negocio; disminuyen las complicaciones y los problemas que podrían derivarse de la implementación y a la vez se garantiza un mayor control. 3. Organizaciones que buscan reducir costes: el ahorro comienza por un menor coste total de propiedad y, para ello, hace falta aglutinar. Buscando soluciones más efectivas, en vez de tener que recurrir a múltiples soluciones puntuales de bases de datos, cada una orientada a cubrir una funcionalidad determinada; se puede apostar por la estandarización de un software que aglutina las mejores capacidades de gestión de datos. Esta decisión incide directamente en la maximización de la eficiencia de los procesos y la mejora de la cobertura de las necesidades de integración de la información. 4. Negocios que quieren reducir los riesgos para sus datos y sistemas de forma efectiva: y buscan lograrlo mediante la auto-recuperación de las excepciones que puedan surgir durante el proceso de entrega de datos (para minimizar el riesgo de pérdida de datos durante las tareas de replicación), la integridad transaccional de los datos (que previene inconsistencias), la reducción al máximo del impacto en el sistema de origen operativo ( eliminando sobrecargas innecesarias y reduciendo la degradación del rendimiento del sistema) y el soporte adecuado para plataformas heterogéneas (que reduce al mínimo los riesgos asociados con el uso de tecnologías de integración dispares).
Síguenos en:
Especialistas en Gestión de Datos
6
CUÁNDO USAR DATA REPLICATION La replicación se puede usar en diferentes momentos, aunque muchas empresas son conscientes de la necesidad de incorporar este tipo de tecnologías cuando se enfrentan a: a) Cuestiones relacionadas con la integridad de datos: generalmente, se ponen de manifiesto cuando se utiliza la misma base de datos para la entrada y presentación de datos, puesto que la actualización y lectura simultánea de la información puede conducir a problemas de funcionamiento o de integridad. b) Problemas de sobrecarga de servidores: aparecen a medida que la organización crece, puesto que también aumenta el volumen de información manejado, lo que puede resultar en la sobrecarga de un único servidor de base de datos que está siendo utilizado al mismo tiempo por muchos usuarios. c) Necesidad de niveles más altos de disponibilidad de la información: son los casos en que se quieren replicar las transacciones desde el servidor principal a un servidor de reserva. d) Proyectos que implican el transporte de datos: otro uso común para la replicación es simplemente mover datos de transacciones a un servidor de almacenamiento de datos, donde se transforman y se agregan para la presentación de informes OLAP.
Cómo seleccionar herramientas para la replicación de datos Dependiendo del uso que se quiera dar a data replication o del objetivo que se tenga en mente a la hora de incorporar estas tecnologías, habrá que centrarse en unas u otras funcionalidades de las herramientas de replicación. En cualquier caso, existen diez criterios que deben ser comunes a cualquier elección tecnológica: 1. Flexibilidad: hay que buscar una solución de carga de datos configurable, rápida e intuitiva, que garantice un alto rendimiento y permita seleccionar entre distintas opciones de extracción.
Síguenos en:
Especialistas en Gestión de Datos
7
2. Disponibilidad: para permitir que sea posible generar un nuevo entorno replicado en el que todas las aplicaciones puedan trabajar normalmente mientras el original se desconecta para su actualización y mantenimiento. 3. Programación: ha de permitir la planificación de los procesos y asegurar que éstos son reiniciables de modo nativo. 4. Escalabilidad: se tiene que adaptar a las nuevas circunstancias sin necesidad de recurrir al rediseño. Ha de garantizar que el proceso de replicación se escala en función de las posibilidades y los requisitos, sin depender de modificaciones. 5. Autonomía: debe poder asegurar que no impactará en el origen y, para ello, tendrá que apoyarse en una técnica CDC que, sin afectar a las fuentes, tiene la capacidad de generar diferentes copias. 6. Rendimiento: muy relacionado con la flexibilidad, el archiving debe darse en condiciones de high performance, para poder llevar a cabo la descarga de datos desde origen en formatos portables. 7. Compatibilidad: con los diferentes proveedores de bases de datos ya que, en la práctica el origen y el destino pueden proceder de distintos vendors. En esta línea, es esencial también que la herramienta de integración sea compatible con la de replicación. 8. Gobernabilidad: la herramienta de data replication preferiblemente ha de tener el gobierno incorporado para, a través de una buena interfaz gráfica, facilitar el poder gobernar todos los procesos de replicación. 9. Cumplimiento normativo: debe incorporar trails de auditoría para cumplir tanto con las normas externas, como con las reglas internas de negocio facilitando la identificación de los autores de las modificaciones, las actualizaciones practicadas o la detención de los procesos, entre otros datos. 10. Usabilidad: la herramienta debe facilitar la labor de IT, no complicarla y, por eso, debe ser intuitiva y de sencillo manejo, para permitir que los profesionales del área técnica se enfrenten a la complejidad en las mejores condiciones posibles.
Modalidades y métodos de replicación de datos La replicación de datos puede llevarse a cabo desde diversos planteamientos, que dependerán de las necesidades de la organización y sus usuarios. La principal diferencia entre las distintas modalidades de data replication es la que tiene que ver con su latencia, en función de si los procesos se ejecutan de modo continuo o periódicamente. Así, pueden distinguirse tres alternativas: 1. Replicación de instantáneas: los datos de un servidor de base de datos se copian directamente en otro servidor o a otra base de datos en el mismo servidor. No es requerido el control continuo de los datos.
Síguenos en:
Especialistas en Gestión de Datos
8
2. Replicación de mezcla: los datos de dos o más bases de datos que funcionan de manera autónoma, ya sea en línea o sin conexión; se combinan en una sola base de datos, sincronizándose a una hora programada o bajo petición expresa. 3. Replicación transaccional: los usuarios obtienen copias iniciales completas de la base de datos , que quedan sujetas a actualizaciones periódicas mediante las que se introduce cualquier cambio practicado en la información. A su vez, para llevar a cabo cualquiera de estos procesos es posible escoger entre varios métodos, que dependen de los siguientes criterios:
a) Nivel de automatización de data replication: Manual: puede aplicarse cuando la replicación no se necesita en tiempo real, sino de forma periódica. Programada: es la opción más indicada cuando se requiere llevar a cabo la replicación de los datos transaccionales a medida que se van produciendo, aunque también puede recurrirse a esta forma para programar su clonado y actualización de acuerdo a una planificación.
b) Proporción de la base de datos a replicar: Clonación: se copia íntegramente y por completo. Backup: la copia llega al nuevo entorno de forma muy granulada y sólo en la proporción que se ha especificado previamente. No se clona todo.
c) Origen de la herramienta empleada para llevar a cabo la acción de data replication: Herramienta externa: cuando las soluciones disponibles en la organización no cuentan con este tipo de aplicaciones. Herramienta interna: si la solución de integración incorpora tecnología de data replication. Por lo general, el momento de escoger herramienta de replicación coincide con la detección de necesidades de sincronización y consolidación de datos. Las acciones a tomar, que marcarán los criterios a aplicar en la elección tecnológica, pueden tomar varios rumbos diferentes como: • Sincronización de datos: una acción en la que los datos se distribuyen entre varios equipos, manteniendo cada cual una copia actualizada de la información, por lo que los diferentes servidores deben permitir realizar cambios en su información, modificaciones que, de forma transparente, se propagarán a todos los demás servidores. • Integración: es el resultado de la combinación de la información procedente de una variedad de orígenes, que se distribuye en una colección de equipos de destino. • Consolidación de datos: en este caso, una colección remota de datos se extrae y se fusiona en uno o más servidores de replicación para facilitar su almacenamiento e impulsar el rendimiento de BI y la analítica avanzada. • Migración de datos: a través de data replication la información se traslada de las fuentes heredadas a los nuevos servidores de destino.
Es importante que la organización conozca el proceso que quiere llevar a cabo para seleccionar la herramienta idónea aunque, en esta elección, siempre deberá tener presente que muchas veces es preciso combinar distintas acciones y que, la mejor opción es, en cualquier caso, la tecnología más escalable y compatible, puesto que evita depender de modificaciones y se adapta a los cambios del negocio en su evolución.
Síguenos en:
Especialistas en Gestión de Datos
9
Desafíos asociados al data replication Data Replication es la solución a muchas de las preocupaciones actuales de los negocios, que quieren mejorar las condiciones de consistencia e integridad de su información. Sin embargo, aunque la replicación consigue resolver problemas complejos de forma aparentemente sencilla para el usuario final, sus procesos internos deben enfrentarse a importantes retos, que sólo las mejores herramientas pueden superar. Entre ellos, cabe destacar los siguientes: VISIÓN. Permitir visualizar y entender el historial de cambios que precede a los datos que se presentan. PERSPECTIVA. Mantener el dato que se modificó, se cambió o incluso se borró. Garantizar que no desaparezca tras su replicación sino que toda la información relativa a él siga existiendo en destino, concretamente en una tabla adicional conocida como Journal, que debe estar actualizada pero sin perder el historial de los cambios que se fueron haciendo. VERSATILIDAD. Poder tener actualizaciones en el origen hacia un destino, independientemente de las características o particularidades de la configuración de la fuente de datos. BIDIRECCIÓN. Garantizar que las actualizaciones que se practican en destino replican también hacia el origen. CRITERIO. Hacer posible seleccionar criterios de filtro para determinar cuándo y en qué filas o columnas se quieren replicar los datos. GOBIERNO. Incorporar el gobierno de datos para, de modo visual, poder seleccionar el origen, el momento y los recursos que se quieren dedicar a cada replicación. FUNCIONAMIENTO. Asegurar que el servicio no se detendrá y las aplicaciones podrán funcionar de forma transparente con las réplicas, mientras se hace mantenimiento en origen o durante el proceso de actualización. Por supuesto, además de estos desafíos, la tecnología de data replication tiene que asegurar una alta disponibilidad y un rendimiento óptimo, dado que ha de seguir el ritmo de las transacciones de negocio; y ha de hacerlo sin suponer una carga extra para los sistemas productivos. A este reto habría que añadir, por último, el proporcionar una interfaz amigable que facilite la gestión de replicaciones, mejorando la productividad y precisión de los usuarios que han de tomar decisiones de data replication.
Síguenos en:
Especialistas en Gestión de Datos
10
Mejores prácticas en replicación de datos La digitalización de las empresas ha sido y es progresiva. Nadie ha logrado todavía hacer el proceso de transformación en un solo paso y, precisamente este recorrido que es tan común configura el panorama tecnológico organizacional.
Diversos sistemas, aplicaciones variadas y soluciones diferentes para el almacenamiento de datos han ido adoptándose sin un plan previo. Esto a menudo conduce a complicaciones y conflictos cuando se trata de garantizar el acceso a la información que se requiere, algo que resulta aún más difícil en condiciones real time. Cuando la fragmentación es inevitable, los negocios se dan cuenta de que resulta casi imposible extraer información clave de los datos que poseen y conocimiento de ella. Entonces suelen plantearse el data replication. Sus ecosistemas de aplicaciones y de servicio han crecido sin parar, como respuesta a la necesidad de servirse de distintas de fuentes de datos. Ya no es viable tener una única fuente de datos, no es económico... ni necesario, menos aún cuando existe la posibilidad de empezar a generar copias de fuentes de datos productivas. Y esto puede hacerse de forma manual, sí, pero hasta cierto punto. IT puede encargarse de hacer un backup o de mantener una replicación, pero sólo si existe un único destino. Cuando se empiezan a necesitar más hay que ir a buscar una herramienta de replicación que tenga determinadas características y esté alineada con las siguientes mejores prácticas:
1. No impactar en el sistema de origen. Para ello los datos tendrán que replicarse en bases de datos más
pequeñas, donde sólo se contienen los datos necesarios, pero que se encuentran perfectamente sincronizadas con la base original.
2. Asegurar las opciones de granularidad. Hoy día es inadmisible tener que replicar la base de datos entera, porque eso lleva mucho tiempo y consume recursos (mucho espacio en disco): es dinero y es riesgo. LA tecnología de data replication debe permitir escoger qué porciones del database se quieren replicar.
Síguenos en:
Especialistas en Gestión de Datos
11
3. Minimizar las latencias. Hace falta conocer el margen permitido en el nuevo destino para actualizar desde
que se genera o modifica un dato en el origen. Saber cuánto va a tardar en replicarse y comprender los requisitos de negocio es necesario para poder elegir si hacer el data replication en modo batch o en tiempo real.
4. Ordenar los conjuntos de datos en base a su importancia. Habrá que priorizar las aplicaciones
y procesos esenciales, aquéllos imprescindibles para el funcionamiento del negocio deben ser los primeros en replicarse, el resto, pueden abordarse posteriormente.
5. Probar la replicación de datos y no quedarse en la comprobación de la validez de los datos, sino verificar
que el orden de las operaciones es el correcto. De esta forma se prueba que todos los sistemas se comunican adecuadamente.
6. No excederse al programar la frecuencia de las replicaciones en modo batch y evitar que cada acción de data replication se solape con otras. La función principal de la replicación de datos podría resumirse en el acto de disolver las divisiones que existen entre las distintas bases de datos. En su lugar, data replication logra que la información esté disponible, sea consistente y rápidamente accesible en cualquier punto de la organización. Esto resulta de gran utilidad cuando se trata de optimizar la convivencia de software y aplicaciones más antiguos con otros de nueva generación o cuando se necesita trabajar en condiciones de máxima actualización. El ritmo vertiginoso del entorno de negocios actual obliga a las empresas a ser conscientes de que cada segundo cuenta y de que no pueden arriesgarse a perder consistencia en términos de información. Si, además, como sucede al incorporar tecnología de replicación de datos, consiguen mejorar el rendimiento del sistema, aumentar la productividad de IT y fomentar el ahorro de costes, no cabe retrasar la decisión de escoger herramienta de data replication.
Síguenos en:
Especialistas en Gestión de Datos
ESPAÑA MADRID
BARCELONA
VALENCIA
C/ Miguel Yuste, 17, 4º, C 28037 Madrid Tel:(+34) 91 129 72 97
[email protected] www.powerdata.es
C/ Pau Claris, 95 08009 Barcelona Tel: (+34) 934 45 60 01
[email protected] www.powerdata.es
Edificio Europa - 5º I Avda. Aragón, 30 46021 Valencia Tel: (+34) 960916025
[email protected] www.powerdata.es
LATINOAMÉRICA ARGENTINA
CHILE
Avenida Leandro N Alem 530, Piso 7 CD C100 1AAN Ciudad Autónoma de Buenos Aires Tel: (+54) 11 4314 1370
[email protected] www.powerdataam.com
Padre Mariano Nº 82 - Oficina 602 Las Condes, Santiago CP 7550357 Tel: (+56) 2 29363-100
[email protected] www.powerdataam.com
COLOMBIA
MÉXICO
Calle 100 No. 8A-55 Torre C. Of. 718 Bogotá Tel: (+57 1) 6167796
[email protected] www.powerdataam.com
Homero 906, Colonia Polanco, Miguel Hidalgo C.P. 11550, México, D.F. Tel: +(52) 55 5203 1771
[email protected] www.powerdataam.com
PERÚ Calle Los Zorzales Nº 160, piso 9 San Isidro, Lima 27 Tel: (+51) 1 6344900
[email protected] www.powerdataam.com
Síguenos en: