UNIVERSITÉ DE BRETAGNE-SUD IUP MIS RUE YVES MAINGUY 56000 VANNES
Étude comparative des différents outils d'ETL (Extract, Transform, Load) du marché
ETUDE RÉALISÉE DANS LE CADRE DU COURS DE SYSTÈME DÉCISIONNEL
CHLOÉ FRIGUET MARIE COUSSEAU MASTER 1 STAT SOUTENANCE : 12 MAI 2005
Mise en contexte..............................................................................................3 1.Principe de l’alimentation.............................................................................5 1.1.Extraction des données......................................................................................5 1.2.Transformation des données.............................................................................6 1.3.Chargement de données....................................................................................6
2.Les outils ETL................................................................................................7 3.Le marché des outils ETL.............................................................................8 3.1.Les leaders du marché.....................................................................................10 3.1.1.Informatica : PowerCenter....................................................................................10 3.1.2.SAS : ETL Serveur...............................................................................................12 3.1.3.Ascential : Datastage et Datastage TX.................................................................12
3.2.Les challengers................................................................................................13 3.2.1.DataMirror : Transformation Server......................................................................13 3.2.2.Cognos : DecisionStream.....................................................................................14 3.2.3.Microsoft : Data Transformation Services............................................................15 3.2.4.Oracle : Data Integration.......................................................................................15 3.2.5.BusinessObjects : Data Integrator........................................................................15 3.2.6.Hummingbird : Genio............................................................................................16 3.2.7.Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL..........................................16
4.Les caractéristiques....................................................................................19 4.1.Transformation des données : plusieurs approches........................................19 4.1.1.Les serveurs ETL..................................................................................................19 4.1.2.Utilisation de fonctions intégrées..........................................................................20 4.1.3.Les outils générateurs de code.............................................................................20 4.1.4.Développement manuel d’un outil ETL.................................................................21 4.1.5.Comparaison des différentes approches..............................................................22
4.2.Temps réel / Batch ..........................................................................................22 4.2.1.Temps réel – mode synchrone.............................................................................23 4.2.2.Mode batch – mode asynchrone...........................................................................23
4.3.ETL et gestion des métadonnées....................................................................23 4.4.Autres caractéristiques.....................................................................................24 4.4.1.Architecture et environnement technique.............................................................24 4.4.2.Prix des outils en fonction des configurations choisies.........................................24 4.4.3.Interfaces graphiques............................................................................................25
Conclusion......................................................................................................26 Bibliographie..................................................................................................28 Glossaire.........................................................................................................29 Annexes...........................................................................................................30
2
Mise en contexte Un Système d'Information Décisionnel (SID) est un outil destiné à recueillir, organiser, mettre en forme et diffuser des données de manière à en faire des informations. Un SID est un dispositif à double face : il combine des données d'origines diverses (opérationnelles ou externes) et les met à disposition des utilisateurs selon des objectifs informationnels.
Schéma 1 : Représentation schématique d'un datawarehouse
Les Systèmes Décisionnels se caractérisent par : o d'importants volumes de données qui évoluent rapidement, o des exigences de temps d'accès, o l'absence de mises à jour transactionnelles, o des besoins évolutifs, o des requêtes imprévisibles et pouvant rapprocher des données "éloignées". En général, les données sources, qui peuvent représenter un gros volume, ne sont ni cohérentes sémantiquement, ni liées entre elles d'une manière adaptée à la perspective décisionnelle. De plus, les environnements d'où proviennent ces données sont conçus et organisés d'une manière qui se prête mal à l'implémentation d'applications décisionnelles. Ces contraintes sont à prendre en compte lors de la mise en place d'un entrepôt de données. D'une manière générale, la mise à disposition des données implique quatre étapes : o Collecte des données : approvisionnement du SID en données (à partir des bases de production (opérationnelles) ou de l'extérieur),
3
o Intégration des données : pour assurer la cohérence globale des données (modèle unifié) et leur mise à disposition en un point unique (entrepôt), o Diffusion des données : mise à disposition des applications, sous forme dimensionnelle, des données puisées dans l'entrepôt, o Présentation des données : accès aux données organisées (forme dimensionnelle) par les utilisateurs au moyen de services logiciels. Également appelée reporting, cette étape se charge de diffuser et de présenter les informations à valeur ajoutée de telle sorte qu’elles apparaissent de la façon la plus lisible possible pour le décideur. Nous allons nous intéresser plus particulièrement aux deux premières fonctions : collecte et intégration des données. Le Système de Collecte et d'Intégration des données (SCI) est un sous système d'un SID complexe mais essentiel : c'est sur lui que repose le SID. En effet, la base d'intégration des données est l'entrepôt de données lui-même. La diffusion des données se fait à partir de cet entrepôt. Le SCI doit avoir un impact minimal sur la fonction opérationnelle mais il doit, en même temps, permettre le rafraîchissement périodique des données en fonction des besoins des utilisateurs. Le rôle du SCI est de collecter les données à partir de différentes sources et de les mettre en forme, conformément à un modèle (intégration). Un même outil peut effectuer les fonctions de collecte, de transformation et de chargement des données. C'est le cas des outils ETL.
4
1.
Principe de l’alimentation
L’alimentation d’un entrepôt de données se déroule en trois étapes : l’extraction des données à partir des bases sources, leur transformation puis le chargement dans l’entrepôt.
Transform
Schéma 2 : Alimentation d'un datawarehouse
1.1.Extraction des données La première phase de la construction d’un entrepôt de données consiste à extraire les données utiles des systèmes opérationnels, sans pour autant perturber les environnements de production. Ces données sont dans de nombreux cas hétérogènes, complexes et diffuses : o Hétérogènes : on rencontre plusieurs SGBD différents et parfois plusieurs méthodes d’accès o Complexes : les données sont organisées en vue de traitements transactionnels o Diffuses : les données proviennent de plusieurs environnements matériels, voire de différents sites connectés par un réseau L'extracteur est un composant logiciel simple dont le but est de prélever un flux de données à partir des systèmes de production pour alimenter le système décisionnel. Son rôle est prédominant dans la capacité du système décisionnel à se préserver des évolutions structurelles des systèmes en amont. On réalise un extracteur par nature de flux à prélever sur les applications opérationnelles. L'extracteur met à disposition du système d'information décisionnel un flux de données au format fixe, validé en phase de spécification. L'extraction peut être de deux types : o totale : on extrait la globalité du flux à chaque traitement. Technique adaptée dans le cas d'une volumétrie réduite. o incrémentale ou "Delta" : on ne traite que les enregistrements créés, modifiés ou supprimés depuis la dernière extraction.
5
Les données sont extraites des bases de production à la création de l’entrepôt et lors des rafraîchissements. À la création de l’entrepôt, un premier chargement est effectué. Cela consiste à prendre une copie intégrale des données opérationnelles intéressant le SID. Le rafraîchissement périodique se fait par collecte dynamique, en ne capturant que les changements qui ont eu lieu dans le système opérationnel depuis la dernière opération de collecte. Il nécessite un mécanisme de détection des changements. L’extraction doit être performante et doit éviter de perturber les environnements de production.
1.2.Transformation des données Les bases de production peuvent contenir des données de mauvaise qualité (données manquantes, incomplètes, aberrantes, en double, obsolètes…). Cette mauvaise qualité a plusieurs origines : manque de contrôle dans la saisie des données, incident de transfert lors du processus de collecte des informations, retard dans les mises à jour… Les conséquences de la mauvaise qualité des données peuvent être importantes : remise en cause des indicateurs de performance, décrédibilisation du système d’information, perte financière… La deuxième phase du processus d’alimentation de l’entrepôt consiste donc à transformer les données extraites de manière à obtenir un ensemble homogène. Les données subissent un filtrage, pour éliminer les données manquantes ou aberrantes par exemple, et un formatage afin de normaliser les informations (unification du codage). Les doublons doivent être détectés pour assurer la cohérence de l’entrepôt. Les données de l'entrepôt ne sont pas simplement copiées depuis les bases de production mais sont même en général créées par agrégation ou calcul.
1.3.Chargement de données Cette phase consiste à injecter en une seule fois les informations collectées dans l’entrepôt. Elle permet aussi de stocker les informations de manière correcte dans les tables de faits correspondantes du datawarehouse, dans le but de rendre les données disponibles pour l’analyse et le reporting.
6
2.
Les outils ETL
Afin d’effectuer ces différentes opérations, un outil appelé ETL (Extract, Transform, Load) est apparu, chargé d’automatiser les traitements et de les rendre facilement paramétrables. Il doit être capable d’extraire des données décrites sous des formats susceptibles de changer dans le temps et stockées sur des systèmes amenés à évoluer. Contrairement aux EII (Enterprise Information Integration) qui interrogent plusieurs sources en temps réel mais sans déplacer les données, les outils ETL les déplacent en général en mode asynchrone vers une nouvelle base. L’outil ETL fait parti d’un sous-ensemble des EAI (Enterprise Application Integration), domaine plus général regroupant toutes les formes d'intégration entre des applications, des processus ou/et des interfaces. L'ETL se positionne sur l'intégration des données. Après avoir été paramétré suivant les besoins du décisionnel, avec les données en entrée, les données en sortie et les processus de transformation à effectuer, l’ETL effectue l’alimentation généralement en mode batch1. Les mêmes processus de transformation sont appliqués de manière récurrente lors de chaque alimentation.
Inconvénients
Avantages Description
EAI
EII
ETL
•Bus inter applicatif qui orchestre les échanges entre les applications.
•Hub de données pour interroger des sources hétérogènes, doté de fonction de mapping.
•Extrait les données sources hétérogènes, les transforme et les réinjecte dans une nouvelle base.
•Fonctionne en mode synchrone.
•Fonctionne en mode synchrone.
•Nettoyage et transformation des données.
•Traite des charges importantes.
•Centralise l’accès à des sources hétérogènes.
•Une seule source de données interrogée par l’outil de restitution, gage de performance.
•Pas de fonctions de transformation.
•Pas de fonctions de transformation.
•Fonctionne en mode asynchrone.
•Coûts d’acquisition et de mise en œuvre élevés.
•Peu performant sur les requêtes complexes.
•Flexibilité moindre sur les modifications.
Tableau 1 : Trois méthodes phares du décisionnel - source : 01Informatique (03/05)
1
Syn. traitement par lots. Un batch est un fichier contenant un ensemble de commandes qui seront traitées automatiquement comme si elles étaient entrées au clavier par l'utilisateur, les unes après les autres.
7
3.
Le marché des outils ETL
Le marché des outils ETL se compose de plusieurs éditeurs qui ont développé des solutions aux caractéristiques variées.
Schéma 3 : Marché mondial des outils ETL - source : Forrester (mars 2005)
Les principaux outils sont : Éditeur Informatica SAS Ascential (IBM) DataMirror Cognos Microsoft Oracle Business Objects Hummingbirg Sunopsis ELT Solutions Ltd
Solution ETL PowerCenter ETL Server DataStage Transformation Server DecisionStream SQL Server module DTS (Data Transformation Services) Warehouse Builder ActaWorks – Data Integrator Genio Sunopsis ETL Transformation Manager (TM)
Version 7.1.1 9.1.3 7.5 5.1 ?
date 08/2004 08/2004 07/2004 04/2003 ?
2000 SP3
08/2000
10.1.0.2.0 6.5 5.1 3.2
05/2004 04/2004 09/2004 06/2003
?
?
Tableau 2 : Les principaux éditeurs et leur solution ETL
8
Plus
OFFRE Moins
Présence le marché Moins
sur
STRATEGIE
Plus
Schéma 4 : La performance des outils ETL - Source : Forrester
Nous allons présenter les outils des principaux éditeurs du marché : les leaders Informatica, Ascential et SAS mais aussi certains outils en pleine évolution comme DataMirror, Cognos, Microsoft, Oracle, Business Objects et Sunopsis.
3.1.Les leaders du marché 3.1.1.
Informatica : PowerCenter2
Informatica PowerCenter fournit une plate-forme d’intégration de données à l’échelle de l’entreprise qui permet d’accéder aux données d’une large gamme de systèmes, de les transformer, de les intégrer et de les mettre à disposition d’autres systèmes transactionnels, processus métiers temps réel et collaborateurs de l’entreprise. En rendant possible la création un référentiel d’information unique, cohérent et partagé par toute l’organisation, PowerCenter aide les entreprises à réduire les coûts et la complexité de leurs systèmes d’information, facilite l’adoption de nouvelles technologies et contribue à l’amélioration globale de leurs performances. 2
http://www.informatica.com/fr/products/powercenter/default.htm
9
Grâce à Informatica PowerCenter, il est possible de : o Intégrer les données pour offrir aux utilisateurs métiers un accès exhaustif aux données de l’entreprise – des données complètes, exactes et disponibles en temps voulu. o Monter en charge de façon à répondre aux besoins croissants d’information des équipes métiers – Les données sont distribuées dans un environnement sécurisé et évolutif, garantissant un accès immédiat aux données d’un nombre illimité de sources hétérogènes. o Simplifier la conception, la collaboration et la réutilisation pour réduire les délais de livraison des équipes de développement - Une gestion inégalée des métadonnées renforce la capacité des équipes à satisfaire des besoins en constante évolution et toujours plus complexes. PowerCenter est disponible en deux éditions : o PowerCenter Standard Edition : Logiciel permettant l'accès, l'intégration et la distribution de données, PowerCenter Standard Edition est une solution économique pour exploiter les données issues de tous systèmes vers tous autres systèmes. PowerCenter Standard Edition peut être installé en moins de 30 minutes. o PowerCenter Advanced Edition : En plus des fonctionnalités de PowerCenter Standard Edition, PowerCenter Advanced Edition couvre tous les besoins d’intégration de données de l’entreprise avec une seule plate-forme, incluant de solides fonctionnalités d’analyse de métadonnées et de reporting, des fonctions économiques de grid computing et des capacités avancées de développement collaboratif. Avec PowerCenter Advanced Edition, les entreprises bénéficient pleinement des avantages résultant de l’utilisation d’une plate-forme unique pour gérer la totalité du cycle de l’intégration de données : gains de productivité, réduction des coûts de maintenance et économies substantielles liées à une prise en main immédiate. PowerCenter Advanced Edition peut être installé en moins d’une heure. PowerCente PowerCenter r Standard Advanced Edition Edition
Caractéristiques et fonctionnalités Plate-forme principale PowerCenter Data Server (serveur de données) Référentiel de métadonnées Outils de conception et de gestion Librairie complète d’objets de transformation Serveur de référentiel avec import/export XML Outils de sécurité (rôles et authentification) et intégration LDAP Planification et contrôle centralisés de workflows Traitement des données relationnelles natives, XML et hiérarchiques Extensibilité totale des transformations personnalisées Clients développeurs et administrateurs à usage illimité Ensemble d’API ouvertes pour l’intégration avec des outils tiers Intégration totale avec Informatica PowerExchange Support des sources XML et fichiers plats
10
X X X X X X X X
X X X X X X X X
X
X
X X X X X
X X X X X
PowerCente PowerCenter r Standard Advanced Edition Edition
Caractéristiques et fonctionnalités Documentation complète sur la plate-forme Connecteurs pour sources standards (2) Connecteurs pour cibles standards (2) Reporting prêt à l’emploi (PowerAnalyzer) : • Création de rapports • Mesures et alertes en temps réel • Reporting ad hoc et rapports pré-configurés • Intégration avec Excel
X X X
Analyse des métadonnées (SuperGlue) : • Généalogie intelligente de l'information au niveau du champ • Reporting interactif sur l’utilisation des métadonnées • Fonctions de recherche et options de personnalisation web • Métamodèle extensible et ouvert basé sur le standard OMG/CWM • Connectivité préconfigurée pour un grand nombre de métadonnées Développement collaboratif Grid computing Fonctionnalités supplémentaires Data Cleansing (nettoyage de données) Option Data Profiling (profilage de données) Option Metadata Exchange Option Partitioning (partitionnement) Option PowerCenter Connect Option Real-time (temps réel) Option Tableau 3 : Caractéristiques de PowerCenter - source : Informatica
3.1.2.
X X X X X X X X X X X X X X X X Option Option Option Option Option Option
SAS : ETL Serveur3
Le serveur ETL de SAS permet de concevoir, développer et exploiter les traitements d’alimentation périodique des systèmes décisionnels et se compose : o d’un environnement de développement ETL intégrant les phases de développement, test et production, o d’un générateur de traitement réduisant la programmation au stricte minimum, o d’un langage décisionnel spécialisé comportant plusieurs milliers de fonctions, o d’un environnement de métadonnées pour conserver la traçabilité des données, o de connecteurs natifs aux SGBD/R et fichiers séquentiels indexés, texte, bureautique, log web, etc. soit plusieurs dizaines de sources de données, o de connecteurs natifs et de dictionnaire métier des principaux ERP,
3
http://www.sas.com/offices/europe/france/software/technologies/etl.html
11
o de fonctions paramétrables de détection et de correction de la qualité des données, o d’un ordonnanceur intégré avec gestion événementielle permettant d’exploiter les traitements sur plusieurs serveurs. Le serveur ETL de SAS a été spécialement conçu pour supporter des charges de traitements lourdes et s’appuie sur la technologie « multithreading » du serveur SAS pour l’extraction, la transformation et la préparation des grandes bases de données décisionnelles. Il intègre directement des fonctions de vérification et standardisation des informations, qui assurent leur exactitude et leur qualité. Cette étape du traitement des données, souvent négligée, s’avère fondamentale pour pouvoir créer une réelle valeur à partir des données. Il a été spécialement conçu pour supporter l’alimentation des données des applications analytiques comme la connaissance du comportement des clients ou le reporting dynamique des ventes qui nécessitent des transformations spécifiques telles que la transposition ou l’agrégation des données transactionnelles.
3.1.3.
Ascential : Datastage et Datastage TX4
DataStage DataStage, le module de gestion des mouvements de données de la Suite d’Intégration de données, est totalement adapté à la problématique d'extraction, de transformation, d'intégration et de chargement de données (ETL) car il est fondé sur des composants ouverts, optimisés et réutilisables permettant : o Le développement de processus de mouvement et de transformation des flux de données par modélisation graphique ; o La réutilisation naturelle des environnements existants (modèles, flux, programmes, etc.) La famille de produits DataStage constitue une solution ETL performante aux capacités de montée en charge illimitées. Elle est offre des fonctions de gestion de métadonnées et d’assurance de la qualité des données pour la gestion et l’intégration des applications stratégiques. Avantages de DataStage o Les décisions business sont basées sur des données complètes et pertinentes. o Les temps de développement et le retour sur investissement des applications d’entreprise sont accélérés. o L'intégration de grands volumes de données quelle que soit la complexité des structures de ces données est assurée. Cette offre ETL s'appuie sur une expérience réussie auprès de plus de 2200 clients dans le monde et plus de 350 en France. Ascential est capable de simplifier et d’assurer le déploiement réussi d’applications d’entreprise intensives en données en intégrant la gamme complète de profiling et de nettoyage de données, de gestion des metadonnées et 4
http://www.ascential.fr/produits/datastage.html
12
d’intégration des données, au sein d’une suite unique de produits, totalement intégrée. DataStage TX Ascential DataStage® TX supporte les standards du marché et répond à des exigences de connectivité, en permettant de résoudre les problèmes stratégiques en temps réel. L'architecture orientée solutions de DataStage TX est ouverte et évolutive. La mise en oeuvre est accélérée, les risques réduits et l'efficacité accrue. DataStage TX permet d'automatiser facilement et de façon transparente de gros volumes de transactions complexes sans codage additionnel. Grâce à son architecture ouverte et extrêmement évolutive, DataStage TX 6.7 offre un retour sur investissement beaucoup plus rapide. Avantages de DataStage TX o Intégration rapide et transparente d'un grand nombre des applications, bases de données et systèmes de messagerie les plus utilisés ; o Prise en compte rapide et souple des exigences de gestion stratégiques à évolution rapide ; o Exploitation de la valeur de vos systèmes et applications d'entreprise ; Respect des besoins en matière de solutions d'intégration complètes ou basées sur des projets.
3.2.Les challengers 3.2.1.
DataMirror : Transformation Server5
Elément central d’Intégration Suite de DataMirror, Transformation Server™ est une solution d’intégration de données hautement performante et « Peer-to-Peer » qui permet aux entreprises de gagner du temps et d’économiser des ressources en leur fournissant l’intégration de données sans aucun besoin de programmation, dans tous leurs systèmes informatiques. Transformation Server étend la fonctionnalité ETL en permettant aux entreprises de capturer, de transformer et de transférer des données commerciales et d’entreprise, en temps réel, entre DB2 UDB, Microsoft SQL Server, Oracle, PointBase, Sybase, Teradata et XML vers de multiples platesformes informatiques. La technologie de Transformation Server pour la capture, la transformation et le transfert des données (CTF) améliore l’efficacité opérationnelle et fait gagner du temps et des ressources en supprimant les transferts de données redondants et en économisant la bande passante du réseau. Que les données soient intégrées en temps réel ou à intervalles réguliers, seules les données modifiées sont capturées puis transférées du système source vers le système cible. Supportant en natif les principales bases de données, Transformation Server est idéal pour mettre en oeuvre des applications de gestion en temps réel et ‘on demand’, telles que la distribution de données, l’intégration d’applications d’entreprise, l’e-Business, la business intelligence, le CRM (Customer Relationship Management) et le BAM (Business Activity Monitoring). 5
http://www.datamirror.com/fr/products/tserver/default.aspx
13
Avantages de Transformation Server o Intégration de données sûre et dynamique, sans aucune programmation, o Solution souple et adaptable à presque tous les environnements informatiques, o Partage dynamique des informations en temps réel, à travers toute l’entreprise et au-delà, o Visualisation et surveillance faciles des réseaux d’intégration complexes, à l’aide de représentations graphiques, o Identification et résolution rapides des problèmes de réseau, grâce à une surveillance centralisée, o Performances et efficacité opérationnelles accrues, grâce à un solide gestionnaire des communications, o Optimisation du retour sur investissement, grâce à une mise en place rapide et des coûts de maintenance réduits.
3.2.2.
Cognos : DecisionStream6
Le logiciel ETL (extraction, transformation et chargement) DecisionStream rassemble des données disparates en une base unifiée de Business Intelligence pour exécuter rapidement rapports et analyses à partir des données d'exploitation disponibles. Les entrepôts de données dimensionnels constituent une base cohérente, précise et réutilisable en rendant conformes les principales dimensions de l'entreprise (temps, produit, client, etc.) pour autoriser le reporting à l'échelle des différents services de l'entreprise. Un environnement visuel intuitif vous permet de concevoir rapidement et facilement le cadre de vos données sans programmation. Cognos DecisionStream offre un accès rapide aux données BI en générant toutes les métadonnées requises pour développer un environnement de Business Intelligence et le maintenir. Avantages de DecisionStream o Les entrepôts de données dimensionnels organisent les données par sujet/service (ventes, finances) et par catégorie (client, produit). o Le moteur ETL, basé sur serveur et multi plate-forme, traite de gros volumes de données dans des fenêtres de mise à jour, sans investissement matériel important. o L'interface graphique intuitive rend les processus de transformation simples et rapides pour l'utilisateur. o Le cadre dimensionnel flexible s'adapte aux changements et peut évoluer d'une solution dédiée à un département, par exemple, à un service de plateforme d'entreprise. o Intégration parfaite des meilleurs logiciels de Business Intelligence au monde, les logiciels Cognos d'analyse, de reporting, de tableau de bord et de scorecarding.
6
http://www.cognos.com/fr/products/business_intelligence/data_preparation/
14
3.2.3.
Microsoft : Data Transformation Services
Les Services de Transformation des Données (DTS) permettent d’importer et d’exporter des clés primaires et étrangères entre des produits de base de données pris en charge, de programmer la récupération de données en plusieurs étapes et d’enregistrer des lots DTS sous forme de code Visual Basic. Cet outil ETL est uniquement intégré à SQL Server.
3.2.4.
Oracle : Data Integration
L’architecture de Warehouse Builder génere du code pour la base de données cible Oracle9i. Le code généré garantit une haute performance du processus de chargement des données et offre les fonctionnalités d’un outil ETL évolutif. Warehouse Builder dispose d’un environnement graphique pour créer les transformations à appliquer aux données (Mapping Editor). Cet outil ETL est uniquement intégré au SGBD Oracle9i.
3.2.5.
BusinessObjects : Data Integrator7
BusinessObjects Data Integrator est une plate-forme d’intégration de données productive et évolutive. Avec Data Integrator, un outil ETL complet, il est facilement possible d’explorer, d’extraire et d’alimenter les bases décisionnelles avec la fréquence de son choix. Data Integrator garantit que les utilisateurs disposent toujours d’informations précises et fiables au jour le jour. L'intégration des processus ETL et des fonctions BI permet de disposer d'avantages essentiels en matière de gestion des métadonnées, d'analyse d' impacts, d'optimisation des cycles de vie des systèmes décisionnels et de réduction des coûts de maintenance. Les utilisateurs peuvent se fier à leurs rapports BI dans la mesure où ils peuvent en établir l'origine et obtenir une traçabilité jusqu'au système source. Data Integrator permet de définir très facilement des process de traitements des données à l’aide d’une interface graphique et de puissantes fonctions de transformation. Cet ETL se connecte à l’ensemble des sources de données et possède des connecteurs natifs sur des ERP tels que SAP. Data Integrator propose une riche interface graphique à partir de laquelle il est possible de définir les processus ETL d'extraction, de transformation et de chargement, d’assurer l'intégrité des données, de collaborer avec les développeurs et de déployer des applications dans tous les types d'environnement. Business Objects Data Integrator est un outil d'intégration de données batch et temps réel conçu pour simplifier et accélérer les flux de données et leur partage dans toute l'entreprise.
3.2.6.
Hummingbird : Genio8
Hummingbird ETL est une solution d'intégration de données recouvrant les domaines fonctionnels de l'ETL (extraction, transformation, chargement de données) et de l'EAI (intégration des applications d'entreprise). Cette solution permet de transformer, nettoyer et enrichir l'information pour ensuite la diriger à travers tout l'éventail des systèmes décisionnels et des applications stratégiques de l'entreprise 7 8
http://www.france.businessobjects.com/produits/dataintegration/dataintegrator/default.htm http://www.hummingbird.com/international/france/products/etl/overview.htm
15
et ce dans le cadre d'une grande variété de projets du type datawarehouses, datamarts, etc. Hummingbird ETL est capable d'assurer toutes les opérations d'échange de données quels que soient le format, la syntaxe, la source ou la cible de ces données (depuis le support XML jusqu'à la connectivité mainframe, depuis les SGBD relationnels jusqu'à l'OLTP multidimensionnel). Dans tous les types de projets ETL, Hummingbird ETL garantit une étroite intégration avec n'importe quel environnement d'entreprise, offrant un support et une connectivité en natif, c'est-à-dire sans aucune programmation ni préparation des données. Cette solution permet ainsi à l'entreprise d'économiser du temps et des ressources en pérennisant son environnement informatique hétérogène. Hummingbird ETL permet de connecter n'importe quelle source de données à n'importe quel système cible à travers toute l'entreprise, aidant ainsi les organisations à exploiter plus efficacement leurs données en vue d'accélérer et d'optimiser leur processus stratégique de prise de décision.
3.2.7.
Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL
ETL9 Sunopsis ETL permet une distribution optimisée des processus et offre d'excellentes performances sur les gros volumes, même avec des transformations complexes. Comparé aux approches ETL traditionnelles, typiquement des scripts manuels ou des outils à moteur centralisé, Sunopsis ETL permet d'économiser jusqu'à 90% du temps et des coûts d'implémentation et de maintenance. Avec le support, par défaut, de toutes les sources de données grâce aux standards de connectivité, Sunopsis ETL couvre tous les besoins avec la même flexibilité. L'architecture distribuée de Sunopsis ETL génère du code natif SQL pour tirer parti des composants existants du système d'information, comme les moteurs de bases de données sur lesquels les applications et les data warehouses sont installés. Cette architecture apporte un double avantage à l'entreprise : en l'absence de serveur dédié et de moteur de transformation à installer, les coûts de la solution ETL sont considérablement réduits. Et parce que les moteurs de base de données sont extrêmement fiables et optimisés pour traiter de larges volumes de données et des transformations complexes, les processus ETL bénéficient de ces mêmes avantages.
9
http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_etl.htm
16
Real-Time ETL10 Sunopsis Real-Time ETL est une solution pour l'ETL en batch et en temps réel. Grâce à son architecture innovante qui optimise l'exécution des processus de manière distribuée, l’outil est performant même pour des transformations complexes, sans compromettre sa facilité d'utilisation. Parce que seules certaines informations et non toutes - doivent être analysées et restituées en temps réel, l'approche de Sunopsis Real-Time ETL permet de gérer les processus de transfert de données à la fois en batch et en temps réel. Avec la fonction intégrée "Changed Data Capture", cet outil ETL détecte les changements en temps réel sur toutes les bases sources. Les transformations sur les données sont effectuées à la volée. L'information est propagée en temps réel sur les systèmes cibles, via une connectivité directe ou en utilisant le MOM intégré Sunopsis MQ. Sunopsis Real-Time ETL s'appuie sur le code natif SQL qu'il génère pour les moteurs de base de données déployés dans le système d'information pour exécuter les processus ETL, et utilise pleinement les fonctionnalités de manipulation de données de ces moteurs. Ceci donne un avantage unique à Sunopsis ETL : des agrégations aux statistiques en passant par les outils de chargement natifs, il utilise entièrement les fonctions les plus appropriées pour chaque processus à réaliser.
10
http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_rte.htm
17
4.
Les caractéristiques11
4.1.Transformation des données : plusieurs approches Les différents outils ETL du marché peuvent être classés en plusieurs catégories. Nous allons en présenter trois, qui sont celles retenues par les principaux éditeurs : o Les transformations sont exécutées sur un serveur ETL de manière centralisée (engine-based), o Les transformations sont réalisées à l’aide de fonctions intégrées dans la base de données (database- embedded), o Une description des transformations est utilisée afin de générer du code qui pourra être déployé sur tout autre système (code-generators). Les entreprises peuvent aussi choisir de développer elles-mêmes leur propre outil ETL.
4.1.1.
Les serveurs ETL
Cette approche est l’approche traditionnelle, utilisée dès les années 90. Avec ce type d’architecture, l’information est extraite des sources de production, transformée, ligne par ligne, sur un serveur en utilisant un langage propriétaire puis chargée dans la base de données cible.
Schéma 5 : transformation des données - approche traditionnelle
Voir annexe 1 : Tableau récapitulatif – classement des éditeurs d'outils ETL en fonction des différentes caractéristiques. 11
18
Tous les processus ont lieu sur le serveur et non sur les systèmes sources. Il peut donc être nécessaire d’acheter un serveur pour héberger l’application, ce qui augmente les coûts. Cependant, l’apprentissage est très rapide. Pourtant, cette architecture n'apporte pas la flexibilité ou la liberté de créer d'autres transformations sur les données, nécessitées par certains projets.
4.1.2.
Utilisation de fonctions intégrées
Plusieurs éditeurs de SGBD intègrent des fonctions ETL dans leurs produits, ce qui réduit les coûts, et permet de simplifier l'environnement décisionnel. Le SGBD est utilisé comme moteur pour effectuer les transformations et les agrégations. On peut donc se demander pourquoi acheter un outil ETL alors que le SGBD peut réaliser les mêmes fonctions à moindre coût. En effet, les éditeurs de SGBD proposent des fonctions qui, à la fois, concurrencent et appuient les outils ETL indépendants. Il y a encore quelques années, les SGBD ne permettaient que des transformations basiques. Depuis le milieu des années 90, les éditeurs ont considérablement augmenté le nombre et amélioré les fonctions ETL des SGBD. Ces outils ETL fonctionnent comme des générateurs de code et montrent que SQL peut suffire pour exécuter les transformations, même les plus complexes. Il faut cependant noter que toutes les fonctions des outils ETL ne font pas forcément partie de cette solution même si les nouvelles versions incluent toujours plus de fonctions. De plus, ces outils demandent du codage manuel et l'évolution entre deux versions successives reste faible : la productivité et les possibilités techniques ne sont donc pas optimisées. Le défaut le plus important de cette solution est que le code ne peut être utilisé que sur le SGBD de l'éditeur lui-même.
4.1.3.
Les outils générateurs de code
Cette solution s'appuie sur le principe que l'outil ETL peut utiliser le SGBD comme moteur mais en résolvant le principal problème des fonctions intégrées : l'utilisation de l'outil indépendamment du SGBD lui-même. La description des processus d'alimentation aboutit à la génération automatique de code qui sera ensuite intégrée dans les chaînes d'exploitation. Une interface graphique permet de créer un diagramme qui représente l'extraction depuis la source, les transformations pertinentes puis le chargement dans les tables cibles. La génération de code est l’approche la plus flexible car le code ainsi généré peut s’intégrer dans toutes les architectures, ne requiert pas de serveur additionnel et est indépendante de toute base de données propriétaire. En général, le code généré est du code SQL : ce langage s'est beaucoup développé ces dernières années et permet aujourd'hui d'effectuer plus de tâches en étant plus riche et plus performant. L'avantage de cette architecture est qu'il n’y a pas besoin de coder manuellement, ni d’installer de serveur dédié ou de moteur de transformations. Les coûts engendrés par le choix d'une telle solution sont donc moindres. Par ailleurs, les outils générateurs de code permettent l’intégration des données en batch ou en temps réel. Cette approche supporte des processus plus complexes que les serveurs ETL et peut donc effectuer des traitements eux aussi plus complexes. Cependant, l'utilisation de ces outils est moins intuitive que ceux utilisant l'approche traditionnelle. 19
Les outils ETL générateurs de code s'orientent vers un fonctionnement TEL ou ELT, c'est-à-dire que la phase de transformation à lieu avant ou après celles d’extraction et de chargement des données. Avec un outil ELT, le SGBD sert de moteur des transformations : les données sources sont chargées en masse directement des bases de production vers l'entrepôt de données et les transformations sont exécutées en bloc par le SGBD cible de l'entrepôt. Les transformations de données se font à l'aide d'outils graphiques, puis l'outil génère du code SQL contenant les instructions des transformations et qui sera exécuté par le SGBD de l'entrepôt de données.
Schéma 6 : une autre approche (Approche ELT par Sunopsis)
4.1.4.
Développement manuel d’un outil ETL
Avant les outils ETL spécialisés, des solutions de transformation de données existaient déjà, développées au sein même des services informatiques de l'entreprise. Cette solution, aujourd'hui, est généralement choisie lorsque le projet ne concerne qu’un volume de données peu important (jusqu’à 20 tables environ). Pour cette tâche, l’achat d’un outil ETL représenterait un coût financier important, ainsi que des coûts de formation. Cependant, le développement manuel d’un outil ETL prend du temps et demande des compétences spécifiques en programmation (développement du programme, maintenance et mise à jour du code…). De plus, le code manuel ne permet pas toujours d'effectuer les transformations les plus complexes et de gérer un contrôle de qualité des données. Le codage manuel reste néanmoins un moyen qui perdure, malgré la maturité atteinte par les outils ETL du marché.
20
Avantages •Prise en charge de transformations complexes •Production de code compilé compatible avec de nombreuses plateformes •Pas d’achat de matériel ni de formation sur un logiciel propriétaire •Coût moindre
•Environnement graphique moins intuitif
•Possibilité de configurer le serveur pour optimiser les performances •Pas d’interférence avec d’autres applications •Interface graphique intuitive
•Nécessité d'acheter un serveur plus performant •Le serveur peut être un goulot d’étranglement •Utilisation de langages et de logiciels propriétaires •Qualités et fonctionnalités variables
Fonction ETL intégrée
Outil ETL Générateur de code
Comparaison des différentes approches
Serveur
4.1.5.
Inconvénients
•Pas d’achat de matériel •Coûts réduits
•Transformations de complexité moindre •Utilisation limitée au SGBD de l'éditeur •Nécessité de codage manuel
•Environnement simplifié
Tableau 4 : Comparaison des différentes approches
4.2.Temps réel / Batch L’approche en temps réel montre peu d’impact sur la phase de restitution (reporting, tableau de bord…), qui se contente de croiser les données qui lui sont fournies. Tout se joue au niveau du processus d’interrogation des données. L’analyse se pratique en général en mode asynchrone, pour des raisons de performance et de cohérence des données. Les outils ETL fonctionnent principalement en mode asynchrone (batch), et souvent la nuit pour ne pas avoir d'impact sur les ressources machine et réseau pendant les heures de bureau. Ils sont capables d’apporter de la cohérence aux informations et de consolider les données dans un entrepôt, en garantissant les performances. Cependant, l’évolution des architectures permet aux outils ETL de détecter les modifications survenues dans les bases de production afin d’alimenter l’entrepôt au fur et à mesure. 21
Ainsi, la plupart des outils ETL fonctionnent en mode asynchrone mais proposent des modules de traitement des données en temps réel. Les outils ETL peuvent donc fonctionner en deux modes : temps réel (synchrone) ou batch (asynchrone).
4.2.1.
Temps réel – mode synchrone
Aujourd'hui, les besoins d'analyse et de reporting en temps réel restent marginaux alors que la demande d’application en temps réel est de plus en plus importante, particulièrement dans des domaines tels que les télécoms ou le secteur bancaire, par exemple. Cependant, les outils de requêtes multi-sources en temps réel (EAI par exemple) ne gèrent pas la qualité des données (cohérence, transformation…) par manque d’un référentiel global. Ce mode de traitement des données se base sur un détecteur de modification, qui propage à l'entrepôt de données les changements des bases de production. Le raccourcissement des délais de rafraîchissement des données implique des serveurs plus robustes, donc plus chers. De plus, les différentes couches de l’architecture décisionnelle doivent dialoguer en permanence pour fonctionner en mode synchrone. Malgré la complexité et le surcoût entraîné par le fonctionnement en temps réel, les éditeurs d’ETL intègrent des modules de traitement des données en mode synchrone dans leur outil.
4.2.2.
Mode batch – mode asynchrone
Les outils asynchrones sont ceux permettant de faire transiter l’information au fil de l’eau entre les applications sans impliquer leur disponibilité immédiate mais en garantissant le traitement de l’événement. Les outils batch, qui effectuent le traitement des données par lot, sont conçus pour traiter de gros volumes de données.
4.3.ETL et gestion des métadonnées Les outils ETL orientés métadonnées permettent de s'assurer que les données lues et écrites répondent aux contraintes de l'intégrité des données. Cela permet de constituer une architecture particulièrement adaptée aux environnements multi-utilisateurs. L'objectif est de concevoir un environnement unique avec un dictionnaire unique. Les rapports d'analyses se basant sur un entrepôt de données construit à l'aide d'un outil orienté métadonnées sont fiables, puisque on peut établir l'origine des données et effectuer une traçabilité jusqu'au système source. Le dictionnaire des métadonnées comporte des informations sur les données sources / cibles, sur les transformations…: o Description des données sources et cibles (description technique, fonctionnelle, métier, administrative…) o Description des processus d'alimentation o Règles de gestion (contrôles qualitatifs, calculs d'indicateurs, règles de transformation…) o Comptes-rendus d'exécution (historique des alimentations …) 22
Ce dictionnaire des métadonnées à pour vocation de devenir le dictionnaire de référence pour l'ensemble des outil d'analyse et de restitution. Pour assurer la performance des outils, certaines caractéristiques du dictionnaire de métadonnées sont importantes, parmi lesquelles : o Personnalisation : possibilité d’ajouter des modifications, que l’éditeur n’avait pas prises en compte. o Format de stockage libre pour pouvoir intégrer des informations avec d’autres produits. o Partage des métadonnées avec d’autres applications… La stratégie du dictionnaire de métadonnées étendu à toute l'entreprise ne s'appuie pas sur une alimentation en temps réel. Il deviendrait une sorte d'interface entre tous les dictionnaires de métadonnées des applications du système d'information. Son rôle serait alors de coordonner et de donner une vision cohérente des concepts présents dans l'entreprise, en facilitant le dialogue entre les applications.
4.4.Autres caractéristiques 4.4.1.
Architecture et environnement technique
Les outils disposent d’architecture compatible avec celle des données existantes. Ils sont compatibles avec les plateformes serveur et de conception, les bases de données sources/cibles usuelles.
4.4.2.
Prix des outils en fonction des configurations choisies
Le prix d’un outil ETL est important, d’autant plus qu’il est difficile d’évaluer le gain réel qu’il va apporter à l’entreprise. Il s’agit donc de déterminer l’outil ETL dont le prix correspondra au budget et dont les performances seront adaptées au projet, c’est-à-dire celui qui aura le meilleur rapport performance/prix. On peut donc classer les outils ETL du marché en fonction de leur configuration (solution plus ou moins complète) et de leur prix : Prix faible
Configuration complète
Configuration intermédiaire
De $80K à $150K Business Objects Hummingbird IBM Pervasive Sunopsis De $40K à $90K Business Objects DataMirror Hummingbird IBM Microsoft Pervasive Sunopsis
Prix moyen De $200K à $450K DataMirror ETI Group 1 iWay Microsoft De $100K à $255K Ascential ETI Group 1 iWay Oracle
23
Prix élevé De $8000K à $1.4M Ascential Informatica Oracle SAS De $350K à $500K Informatica SAS
Prix faible
Prix moyen
Prix élevé
Moins de $40K De $50K à $90K De $105K à $360K Business Objects Ascential ETI DataMirror Group 1 Informatica IBM Hummingbird SAS Petite iWay Oracle configuration Microsoft Oracle Pervasive Sunopsis Tableau 5 : Prix des outils ETL en fonction de leur configuration – source : Forrester
4.4.3.
Interfaces graphiques
La plupart des outils ETL disposent d’interfaces graphiques pour que les utilisateurs puissent effectuer les transformations des données sources de façon plus intuitive, rapide et conviviale, en utilisant le principe du glisser-déposer. Des assistants automatisés peuvent guider les développeurs tout au long du processus de création de l’entrepôt et de l’intégration des données dans celui-ci.
Interface graphique – PowerCenter (Informatica)
24
Conclusion Avantages de l’ETL Les grandes forces des ETL sont : o leur souplesse : ils sont fortement paramétrables o leur facilité d’utilisation : utilisables par des non informaticiens après formation o leur facilité de maintenance et leur pérennité Les bases de données comprennent souvent des outils d’alimentation qui peuvent extraire des données, effectuer des transformations basiques et charger des données. Mais ces outils n’ont pas les avantages d’un ETL et sont souvent difficilement paramétrables, pas ergonomiques et n’offrent pas beaucoup de possibilité de transformation de données. Limites de l’ETL Coûts en ressources matérielles et en temps : Ils font subir différents traitements à de gros volumes de données. Un outil ETL nécessite donc un fort besoin en machines, débit et maintenance. Les traitements étant très gourmands, l’alimentation s’exécute souvent la nuit, pour ne pas impacter les ressources machine et réseau pendant les heures de bureau. Temps réel : La durée des traitements et le temps machine consommé est tel que cela est difficilement compatible avec des traitements en temps réel. La plupart des éditeurs d'ETL essaye d’évoluer dans ce sens en développant leur propres outils, ou en passant des accords avec des acteurs du marché de l'EAI. Cependant, au-delà des considérations stratégiques et technologiques, on peut se demander si une application décisionnelle gagnerait en pertinence avec un datawarehouse actualisé en permanence. Évolution de l’ETL Au cours de ces dernières années, le marché de l'ETL a considérablement évolué. Le créneau des ETL pourrait avoir à subir une nouvelle révolution dans les années qui viennent à la faveur de l’émergence de trois nouveaux concepts touchant au traitement des données : o la création d'un référentiel de métadonnées commun à l'ensemble des applications du système d'information, sans nécessiter la centralisation au préalable des contenus à traiter : le MDM12 (Master Data Management). o les technologies d'intégration en temps réel et l’EAI. En effet, dans un contexte où la plupart les responsables seront aidés dans leurs prises de 12
Voir annexe 3 : Master Data Management (MDM)
25
décision, les entreprises gagnantes seront celles capables de réagir au plus vite. La plupart des outils ETL ne fonctionnent pas en temps réel mais les éditeurs intègrent les fonctionnalités des EAI afin de pouvoir prendre en compte les données en temps réel. La tendance sera donc plutôt de fusionner les outils ETL et EAI en un seul produit.
26
Bibliographie Ouvrages La construction du datawarehouse – Du datamart au dataweb JF Goglin, Hermès - 2ème édition (2001) Publications Le Monde Informatique (dec 2004 – janv 2005) Pages Internet LE LIVRE BLANC EAI - MEDIADEV http://www.dsi.cnrs.fr/ref-partage/Documents/EAI/livre_blancMEDIADEV.pdf
01Informatique – plusieurs articles sur le thème du décisionnel http://www.01net.com/
Les sites des différents outils ETL étudiés Sunopsis : www.sunopsis.com Informatica : www.informatica.com Ascential : www.ascential.fr/ Hummingbird : www.hummingbird.com/international/france SAS : www.sas.com Cognos : www.cognos.com/fr/ Business Objects : www.france.businessobjects.com/ …
The Evolution of ETL - Wayne Eckerson http://tdwi.org/research/display.aspx?ID=6716
Will SQL become the industry standard language for ETL? – John Rauscher http://databasedadvisor.com/doc/14213
Panorama des outils d'ETL http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml
[JargonF - dictionnaire informatique] Définition de ETL http://www.linux-france.org/prj/jargonf/E/ETL.html
Formation : Présentation et panorama des outils ETL http://formation.journaldunet.com/formation/827/presentation_et_panorama_des_outils _etl/
How to evaluate enterprise ETL – P. Russom (12/2004) http://eu.informatica.com/AAFB/mailer.asp
27
Glossaire DATA WAREHOUSE ou ENTREPOT DE DONNÉES Le Data Warehouse, ou Entrepôt de Données, est une base spécifiquement constituée pour procéder à des analyses décisionnelles. Il est constitué puis alimenté à l'aide d'outils ETL qui y chargent les données de production régulièrement remises à jour. Les datamarts ou magasins sont des sous ensembles du DWH (ED) qui rassemblent les données spécifiques à un métier dans l'entreprise. Ces bases sont interrogées et manipulées à l'aide d'outils de requête et d'analyse multidimensionnelle. DÉCISIONNEL Ce terme regroupe les outils ou techniques permettant de trier, de croiser et de manipuler à des fins d'analyse les données gérées par le systèmes d'information de l'entreprise. L'analyse décisionnelle soutient les prises de décision stratégiques en permettant de visualiser les données notamment à l'aide d'indicateurs métier. EAI (Enterprise Application Integration) Intégration des applications dans l'entreprise. Le but est de faire fonctionner ensemble (en particulier en matière d'échange transparent de données) les programmes existant dans une entreprise, en vérifiant leur interopérabilité, et gérer l'hétérogénéité générale. Ce sont des logiciels qui permettent la compatibilité entre des applications déjà existantes, non compatibles à l’origine. ETL (Extract Transform Load) Les outils ETL sont utilisés pour la constitution des entrepôts de données. Ils servent à extraire les données des différentes bases de production, à leur donner une présentation homogène et fiable pour l'analyse (nettoyage des données, suppression des doublons…) et à les charger dans l'entrepôt de données. MÉTADONNÉE Information sur une information. Les métadonnées sont cruciales pour le fonctionnement et la maintenance d'un datawarehouse. SID (Système d’Information Décisionnel) Le système d'information décisionnel est un ensemble de données organisées de façon spécifique, facilement accessible et appropriées à la prise de décision ou encore une représentation intelligente de ces données au travers d'outils spécialisés. La finalité d'un système décisionnel est le pilotage de l'entreprise.
28
Annexes
Annexe 1.Tableau récapitulatif......................................................................31 Annexe 2.Principaux outils ETL du marché.................................................32 Annexe 3.Master Data Management (MDM).................................................34
29
Annexe 1.Tableau récapitulatif Éditeur
Générateu r de code
Informatica
x
Serveu r
Fonctio n intégrée
Temps réel
Mode batch
Gestion des métadonnée s
x
x
x
SAS
x
x
x
Ascential (IBM)
x
x
x
DataMirror
x
x
Cognos
x
Microsoft
x
Oracle
x
Business Objects
x
Sunopsis
x
ELT Solutions Ltd
x
x
?
x
x
x
x
x
x
x
x x
30
Annexe 2.Principaux outils ETL du marché Produit
Caractéristiques
Prix (à partir de...)
Data Transformation Services
Alimentation en mode batch interprété (moins rapide).
Intégré à l'offre SQL Server (100 euros/utilisateur + 5000 euros)
PowerCenter
Éditeur indépendant, Informatica a progressivement développé une offre de BI (outils de restitution) et évolue aujourd'hui vers le dictionnaire de métadonnées. PowerCenter est également capable de se connecter sur le bus EAI de WebMethods pour récupérer des informations en temps réel.
155 000 euros par serveur de production
Sunopsis v3.2
Petit dernier arrivé sur le marché de l'ETL, Sunopsis propose un kit de développement plus qu'un moteur d'ETL proprement dit. Il permet de générer les processus d'alimentation qui sont ensuite exécutés par un serveur d'application J2EE
30 000 euros
Ascential
DataStage
Leader sur le marché de l'ETL, Ascential évolue vers le dictionnaire de métadonnées avec le rachat des technologies MetaRecon (analyse et documente les données avec des metadonnées) et Integrity (nettoyage et qualification des données par matching, scoring, etc.). Offre déclinée en plusieurs modules capables de s'interfacer avec les MOM et bus EAI du marché.
250 000 euros pour l'offre complète (50 000 euros par module environ)
Cognos
DecisionStrea m
Apparu il y a environ un an, DecisionStream a clairement été conçu pour la suite BI de Cognos. Accords avec Iway sur la connectivité
Genio (Hummingbird ETL)
Spécialiste de la connectivité, Hummingbird a développé une offre de BI basée sur le rachat du produit Genio côté ETL. La V8 prévue vers la fin de l'année s'interfacera avec la plateforme de Tibco et MQSeries. Genio gère un dictionnaire de métadonnées étendu.
46 000 euros par CPU
Oracle9i Datawarehous e Builder
Conçu pour la suite BI d'Oracle, Oracle9i Datawarehouse Builder bénéficie des technologies de clustering du leader du marché de la base de données. Apparu avec la restructuration de l'offre BI d'Oracle, Datawarehouse Builder a été classé comme le meilleur ETL pour la transformation des données par le MetaGroup.
4985 euros par utilisateur
Éditeur
Microsoft
Informatica
Sunopsis
Hummingbir d
Oracle
31
Éditeur
Business Objects
Produit
Caractéristiques
Business Data Integrator
Intégré à Business Objects Enterprise Suite 6, l'ETL de BO est issu du rachat de la société Acta qui disposait d'une technologie originale basée sur un serveur de cache; ce dernier nettoie les données avant de les injecter dans un datamart.
Prix (à partir de...)
nc
Tableau 6 : Principaux outils ETL du marché 13
13
http://www.zdnet.fr/techupdate/infrastructure/imprimer.htm?AT=2135959-39020938t-39000766c
32
Annexe 3.Master Data Management (MDM) MDM pour Master Data Management14 Gérer la qualité et la cohérence des données contenues dans les bases et systèmes de l’entreprise, telle est la vocation de cette méthode applicative.
29 Novembre 2004 > Que recouvre le concept de Master Data Management ? En général, une entreprise dispose de plusieurs bases de données rangées chacune au sein d'un système d'information ou derrière une application métier particulière (gestion comptable, ventes, gestion des ressources humaines, serveur de suivi de production, etc.). C'est notamment le cas pour des structures ayant opté pour une approche best-of-breed à l'inverse d'une politique technologique articulée autour d'un progiciel de gestion intégrée. Dans cette logique, les processus de mise à jour de données sont réalisés parallèlement par des équipes différentes par le biais d'outils hétérogènes. Un contexte structurel qui engendre des risques d'incohérences entre applicatifs. D'où l'importance de s'attacher à l'harmonisation des données. C'est bien là l'objectif de la méthode de "Gestion des données de base" (MDM - pour Master Data Management en anglais). > Comment fonctionne cette méthode ? Comme son nom l'indique, elle consiste à regrouper l'ensemble des données dites "de base" de l'entreprise (Master Data). Un référentiel standardisé qui a pour but de jouer le rôle de pré requis lors de la mise à jour de tel ou tel système. Concrètement, ce référentiel contient l'ensemble des objets essentiels à la vie de l'entreprise et décrit les liens qu'ils entretiennent entre eux : numéros de référence clients, fournisseurs, partenaires, etc. Grâce à cette couche généralement associée à des mécanismes de contrôle et de validation, les objets sont modifiés de façon cohérente et les doublons évités. Au final, ce dispositif a pour but de garantir la qualité des données métier en phase de production. > Quels sont les champs d'intervention du Master Data Management ? Cette démarche présente un intérêt dans de nombreux domaines. Ici, on peut notamment évoquer la mise en oeuvre d'une démarche de communication multicanal. Une approche qui nécessite de bénéficier d'une certaine cohérence entre contenus diffusés quel que soit le moyen de communication utilisé (site Internet, centre de contacts, etc.). Autre champ généralement évoqué : celui de l'analyse décisionnelle et du reporting qui peut impliquer des fonctions de contrôle des données manipuler pour assurer la régularité des rapports de résultats. > Quelle différence avec les fonctions d'ETL et d'EII ? Comme on l'a vu, le Master Data Management fournit une brique de référence pour contrôler l'homogénéité des données du système d'information. De leur côté, les mécanismes d'ETL (pour extraction, transfert et chargement de données) et d'EII (ou intégration des informations d'entreprise) prennent en charge leur manipulation.
14
http://solutions.journaldunet.com/0411/041129_mdm.shtml
33