LE DECISIONNEL D’ENTREPRISE IUT de Quimper Licence professionnelle « Logistique des filières alimentaires » Intervenant : Stephane Oberlechner
S. Oberlechner
Décisionnel d ’entreprise
Plan de l ’ensemble
•
Concepts et structure
•
– terminologie – Objectifs
•
•
L ’administration des données – Contraintes et pré requis
•
– Description de ce principe d’interrogation – Présentation en ligne
Construction du Datawarehouse – Cadre général – Les différents composants
La modélisation des données
Les cubes - l ’OLAP
•
La restitution de l ’information – Présentation des requéteurs
•
Le datamining et la recherche de connaissances – Présentation des quelques techniques de valorisation de l’information
– Principales techniques
S. Oberlechner
Décisionnel d ’entreprise
Concepts et structure - Terminologie•
•
• • • •
OLTP (on line transactional processing) est le principe dont l'application régit le relationnel classique. Il s'applique en général à la création et à la mise à jour individuelle des informations par le biais de transactions légère. OLAP (on line analytical processing) est un principe plus récent dont l'application régit le relationnel d'analyse. Il fait généralement intervenir des requêtes complexes manipulant de grande quantité de données. Datawarehouse : collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d ’un processus d ’aide à la décision. Datamarts : Datawarehouses satellites du datawarehouse principal et liés à un métier de l'entreprise (marketing, finance, DRH, etc). Infocentre : Système d'information regroupant des données thématiques, intégrées, volatiles et actuelles, organisées pour un processus de décision ponctuel. S.G.B.D. : Système de Gestion de Base de Données
S. Oberlechner
Décisionnel d ’entreprise
Concepts et structure - Objectifs• Pourquoi un entrepôt de données ? Service fabrication
BD Productions
BD Décisionnelle
S. Oberlechner
Service Commercial
Infos clients
Infos clients
Service Livraison Information segmentée peu d ’historique
Information regroupée et historisée
Décisionnel d ’entreprise
Concepts et structure - Objectifs• Pourquoi un entrepôt de données ? (point de vue du décideur) – Pouvoir disposer d ’une information utile, disponible, dans un format compréhensible. – Amélioration de la performance de l ’entreprise, d ’un point de vue interne et externe – La tendance actuelle est à la personnalisation, et se rajoute aux 4 tendances précédentes : Les prix, la qualité, le temps, les services.
S. Oberlechner
Décisionnel d ’entreprise
Concepts et structure - Objectifs• Pourquoi un entrepôt de données ? (point de vue de la technique) – L ’analyse de l ’activité par un non informaticien est complexe en OLTP • Ex : Lecture d ’un modèle logique
– Les requêtes autorisées ne sont jamais ouvertes (toujours prédéfinies), et ne permettent d ’analyser qu ’un historique réduit.
S. Oberlechner
Décisionnel d ’entreprise
Concepts et structure - Objectifs• 2 mondes différents Données Oltp et bases de -Atomiques production -Orientées application -Dynamiques -Peu d’historique -Petite quantité utilisée pour un traitement Datawarehouse -résumées -Orientées sujet -Statiques -Haute disponibilité - grande quantité utilisée pour un traitement
S. Oberlechner
Structure
Utilisateurs
-Statique -Normalisée
-Maj autorisées -Requetes prédéfinies -Réponses immédiates -Employés de bureau
-flexible -Dénormalisée
-Pas de maj de la part des utilisateurs -Requetes ouvertes/prédéfinies -Analystes / Managers
Décisionnel d ’entreprise
Concepts et structure - Architecture• 3 types d ’architecture sont possibles: – L ’architecture réelle : stockage réalisé dans un SGBD séparé du système de production . C’est l’architecture à favoriser. – L ’architecture virtuelle : Les données sont conservées dans le système de production mais une couche logicielle les rend visibles. – L ’architecture remote : Les données détaillées sont conservées dans le système de production, seules les agrégations sont stockées séparément.
S. Oberlechner
Décisionnel d ’entreprise
Construction du Datawarehouse - Cadre général•
Objectif: recomposer les données disponibles pour en obtenir une vision intégrée et transversale aux différentes fonctions de l ’entreprise, une vision métier au travers de différents axes d ’analyse et une vision agrégée ou détaillée, adaptée à son besoin. Application N Application 3 Application 2 Application 1
ACQUISITION
STOCKAGE
ACCES
IDENTIFIER
Infrastructure opérationnelle Infrastructure technique
S. Oberlechner
Décisionnel d ’entreprise
Construction du Datawarehouse - Les composants fonctionnels• L ’acquisition ( Ou « ETL » : Extract, Transform & Load) est le premier des 3 composants fonctionnels du DW (Acquisition /stockage/Accès) – L ’extraction : la récupération des données des bases de production, transactionnelles – La préparation / transformation : Recodification ou suppression de certaines valeurs – Le chargement : alimentation du datawarehouse
S. Oberlechner
Décisionnel d ’entreprise
Construction du Datawarehouse - Les composants fonctionnels• Le stockage – Composant de base : Le SGBD – Il doit proposer des extensions pour répondre aux caractéristiques du décisionnel. – Il doit apporter la transparence à l ’évolution matérielle.
S. Oberlechner
Décisionnel d ’entreprise
Construction du Datawarehouse - Les composants fonctionnels• L ’accès – Laisser aux utilisateurs l ’opportunité d ’utiliser les solutions les mieux adaptées à leur besoin : – Interrogation – Analyse – ... – – – –
S. Oberlechner
Géomarketing Segmentation Prévision ...
Analyse simple
Data Mining
Décisionnel d ’entreprise
Construction du Datawarehouse - L ’infrastructure• L ’infrastructure technique : – Choix du fournisseur : « One stop shopping » ou assemblage de briques logicielles ? – Choix des outils : Construire, acheter, faire avec l ’existant ? – Quels sont les utilisateurs, où sont ils situés , (Datamart vs datawarehouse, Web vs C/S) – quelle Structure de stockage?
• L ’infrastructure organisationnelle : – Organisation des équipes de développement et d ’exploitation.
S. Oberlechner
Décisionnel d ’entreprise
L ’administration des données - Cohérence et fiabilité (En Amont)• Redondance, duplication du système de production : – La vision du client est différente suivant les services de l ’entreprise.
• Incohérence selon l ’origine ou dans le temps : – La notion de produit peut ne pas être la même partout malgré une dénomination identique. (La gamme « Golf » chez Wolkswagen) – Inversement, un produit peut changer de formulation (« Raider » en « Twix ») » Solution: Gérer un versionnement, écraser l ’ancienne valeur…
• Non fiabilité de la donnée selon l ’origine de la donnée
S. Oberlechner
Décisionnel d ’entreprise
L ’administration des données - Cohérence et fiabilité (En Aval)Dans le cadre du Datawarehouse, on retrouve ces problèmes avec en plus le besoin d ’agréger et/ou de consolider les données, d ’ou un effort pour assurer : • la cohérence et l ’indépendance (Par rapport aux différentes sources de données) • La consolidation: Interpréter correctement un CA dépend du périmètre de consolidation par exemple. • L ’historisation : Pouvoir restituer un contexte.
S. Oberlechner
Décisionnel d ’entreprise
L ’administration des données - Metadonnées• La mise en place d ’un DW doit s ’accompagner d ’un référentiel de données • Metadonnées : « Data about data » Type d’information
Signification
Sémantique
Que signifie la donnée
Origine
D’où vient-elle, où, par qui est-elle créée ou mise à jour
Règle de calcul
Règle de calcul, de gestion
Règle d’agrégation
Périmètre de consolidation
Stockage, format
Où, comment est-elle stockée, sous quel format Programmes informatiques qui l’utilisent, Machines : comment et sur lesquelles, à disposition, Temps de conservation
Utilisation
S. Oberlechner
Décisionnel d ’entreprise
Modélisation des données - Qualification d ’un modèle décisionnel-
Lisibilité
Performances (Chargement)
Performances (Exécution) S. Oberlechner
Administration
Évolutivité
Décisionnel d ’entreprise
Modélisation des données - IntroductionAnalyse d ’un modèle normalisé GAMME Id gamme libellé objectif marge
Fournisseur Id fourn nom id pays
Produit Id prod id gamme id fourn nom code pays prix ht
S. Oberlechner
Pays Id pays libellé
CLIENT Id client nom adresse id pays
Commande Ligne cde Id cde N° ligne id prod qte remise id tva
Id cde id exp id client date remise
Décisionnel d ’entreprise
Modélisation des données - Processus de conception• Modèle en étoile – Table de fait – Table de dimension à un niveau (volume important)
• Modèle en flocon – Table de fait – Plusieurs niveaux de tables de dimensions (volume moindre mais jointures pour reconstruire)
S. Oberlechner
Décisionnel d ’entreprise
Modélisation des données - Techniques de modélisation - DénormalisationLe modèle en étoile Fournisseur Id fourn libellé type region
Produit
Ventes
Temps jjmmaaaa semaine trimestre quadrimestre année S. Oberlechner
Id prod id fourn jjmmaaaa id client . . . Ca Marge unité
Id prod libellé gamme cout unitaire couleur
Client Id client nom adresse situation maritale Décisionnel d ’entreprise
Modélisation des données - Techniques de modélisation - DénormalisationLe modèle en Flocon
Gamme id gamme nom gamme fourchette prix
Fournisseur Id fourn libellé type region
Ventes
Jour_sem jj jour
Mois mm Nom trimestre année
S. Oberlechner
Produit
Temps jjmmaaaa semaine
Id prod id fourn jjmmaaaa id client . . . Ca Marge unité
Id prod libellé id gamme cout unitaire couleur
Client Id client nom adresse situation maritale Décisionnel d ’entreprise
Modélisation des données - Optimisation physique• Agrégation de tables – avantages : temps d ’exécution des requêtes amélioré (information déjà agrégée) – inconvénients : coût de stockage
• Partitionnement de tables – avantages : permet de réduire le volume manipulé par le moteur de la base de donnée -> gain à l ’exécution des requêtes. – Inconvénient : rigueur à l ’administration
• Autres : indexation, indexation Bitmap, choix de l ’OLAP,… la liste n’est pas finie S. Oberlechner
Décisionnel d ’entreprise
Modélisation des données - Optimisation physiquePrincipe d’indexation Bitmap : personne nom a b c d e f g
cheveux noir brun brun noir blond brun blond
yeux bleu bleu vert marron vert bleu bleu
index bitmap couleur cheveux noir brun blond 1 0 0 0 1 0 0 1 0 1 0 0 0 0 1 0 1 0 0 0 1
index bitmap couleur yeux bleu vert marron 1 0 0 1 0 0 0 1 0 0 0 1 0 1 0 1 0 0 1 0 0
blond(es) aux yeux vert ? 0 0 0 0 1 0 1
0 0 1 0 1 0 0
Système performant si les colonnes à indexer comportent une liste réduite de valeurs
S. Oberlechner
Décisionnel d ’entreprise
Du Datawarehouse vers Les bases multidimensionnelles (Cubes)
S. Oberlechner
Décisionnel d ’entreprise
OLAP -Terminologie •Analyse multidimensionnelle: Manipulation d ’un ensemble de données préalablement agrégées, pouvant être analysées suivant différentes dimensions (axes d ’analyse).
•Principe du cube : Restructurer et stocker dans un format multidimensionnel les données issues de fichiers plats ou de bases de données relationnelles ainsi que leurs jointures. Ce format organise les données en dimensions (axe d ’analyse comme Produit, Région, Temps...), en niveaux (hiérarchies d ’une dimension ex : famille produit, gamme produit, nom produit). Les catégories sont les valeurs discrètes que l ’on peut trouver dans un niveau. Ex : 1999 et 2000 sont 2 catégories du niveau année de la dimension temps.
S. Oberlechner
Décisionnel d ’entreprise
OLAP- Les règles et principes associés D ’après les travaux d ’Edgar Codd, tout système de pilotage multidimensionnel devrait respecter au mois les 12 règles suivantes (« Les 12 règles OLAP »). •Vue multidimensionnelle
•Gestion dynamique des matrices creuses
•Transparence du serveur OLAP à différents types de logiciels
•Support multi-utilisateurs
•Accessibilité à de nombreuses sources de données •Performance du système de Reporting •Architecture Client/Serveur •Dimensions Génériques
S. Oberlechner
•Calculs à travers les dimensions •Manipulation intuitive des données •Souplesse et facilité de constitution des rapports •Nombre illimité de niveaux d'agrégation et de dimensions
Décisionnel d ’entreprise
L ’OLAP - Un peu plus concrètement ...
Dimension produit
Dimension Temps
Arêtes du cube : dimensions d ’analyse
Dimension Vendeurs Valeurs observées
La comparaison (base multidimentionnelle /cube) s ’arrête sur cette représentation. En effet, le nombre de dimensions n ’est pas limité à 12.
S. Oberlechner
Décisionnel d ’entreprise
L ’OLAP - Un peu plus concrètement ...
Ce que voit l ’utilisateur dans l ’exemple précédent : 95 200 340
Produits frais Boisson
96 240 321
97 250 327
Où encore: 400 350 300 250 200 150 100 50 0
Produits frais Boisson
95
96
97
(suivant la performance du système de reporting) S. Oberlechner
Décisionnel d ’entreprise
OLAP -Les principales opérations
Drill Up (Zoom avant) Toutes dates Produits frais 690 Boisson 988
Produits
95 540
96 561
97 577
Produits frais Boisson
95 200 340
96 240 321
97 250 327
95 31
96 29
97 27
Jus d'orange Lait … vin
… …
… … 18
T1-95 Produits frais Boisson
T2-95 43 57
… 45 89
…
T4-97 88 78
… … 12
Zoom sur niveau ‘ Boisson ’
S. Oberlechner
Zoom sur niveau ‘ 95 ’
23
Drill down (Zoom arriere)
Décisionnel d ’entreprise
OLAP -Les principales opérations
Rotate (Rotation-changement d ’axes)
Produits Frais Boisson
S. Oberlechner
95 200 340
96 240 321
97 250 327
Paris Marseille Lyon Bordeau
95 123 232 254 276
96 134 211 276 254
97 154 345 287 199
Décisionnel d ’entreprise
OLAP -Les principales opérations
Slicing (ou filtre)
Produits Frais Boisson
S. Oberlechner
95 200 340
96 240 321
97 250 327
Produits Frais
95 200
96 240
97 250
Décisionnel d ’entreprise
OLAP - Conclusion Ce que permet le cube : •Manipulation intuitive des données •analyse des données sur plusieurs axes •agrégations instantanées (« Drill ») •confirmer des intuitions,et/ou l ’existence de modèles par ex: → saisonnalité marquée dans les ventes →probable corrélation entre ce type de produit et ce type de client Démonstration sur www.multimania.com/oberlechner S. Oberlechner
Décisionnel d ’entreprise
La restitution de l ’information -Les requeteurs Principe: Utilisateurs
« Catalogue » ou « Univers »
Le catalogue rassemble les informations relatives: -au DWH (Tables, vues) -aux utilisateurs (droits d ’accès, visibilité, type de requêtes autorisée) et permet de : -redéfinir une vision du DWH en fonction de l ’utilisateur, et lui permettre la construction de requetes en mode Graphique (GQL)
DWH
S. Oberlechner
Décisionnel d ’entreprise
La restitution de l ’information -Les requeteurs (Exemple) -
Définition de la requête, via l’interface graphique
S. Oberlechner
Décisionnel d ’entreprise
La restitution de l ’information -Les requeteurs (Exemple) -
Résultat de la requête
S. Oberlechner
Décisionnel d ’entreprise
La restitution de l ’information -Les requeteurs (Exemple) -
Avec un peu d’entraînement…
S. Oberlechner
Décisionnel d ’entreprise
La restitution de l ’information -Les requeteurs • Intérêt pour l ’utilisateur : – accéder au datawarehouse ou datamart avec une vision métier et non une vision technique. – Lancer des requêtes sur l ’entrepôt de données sans connaître le SQL ou autre langage d ’interrogation, mais en utilisant une interface graphique conviviale, permettant le « GQL » (Graphic Query Language). – Mise en forme et présentation des résultats de bonne qualité
• Intérêt pour le service informatique: – contrôler les accès à la base , aux tables – maîtriser les sollicitations du serveur de données, en filtrant l ’accès aux données
S. Oberlechner
Décisionnel d ’entreprise
Le data mining et la recherche opérationnelle -La recherche de connaissances • Dernier maillon de la chaîne décisionnelle : la valorisation de l ’information • Taches et Domaines d ’application – – – –
La classification (ascendante ou descendante) L ’estimation La prévision Le regroupement par similitude
S. Oberlechner
Décisionnel d ’entreprise
Le data mining et la recherche opérationnelle -Positionnement du Data Mining • Statistiques descriptives et statistiques exploratoires sont complémentaires. • Il est nécessaire de maîtriser les règles de construction des indicateurs de tendance centrale et de dispersion. • Une moyenne peut être correcte, mais la variance (dispersion) importante, traduisant une absence de maîtrise du processus • Pourquoi utilise –t-on régulièrement le salaire « médian » et non « moyen » dans les communiqués ?
– > Objectif: utiliser cet ensemble d ’indicateurs dans la phase de préparation des données (première synthèse, recherche des valeurs aberrantes ou exceptionnelles…)
S. Oberlechner
Décisionnel d ’entreprise
Le data mining et la recherche opérationnelle -La découverte de connaissance -
La découverte de connaissances non dirigée sert à reconnaître les relations exprimées par les données tandis que la découverte de connaissances dirigée permet d'expliquer ces relations une fois qu'elles ont été trouvées.
S. Oberlechner
Décisionnel d ’entreprise
Le data mining et la recherche opérationnelle -quelques techniques de découverte de connaissance non dirigée -
• Analyse du panier de la ménagère – > une approche de la matrice des corrélations
• Classification par la méthode des K-moyennes – > comment mettre en œuvre un algorithme de classification Présentation et exemple de mise en œuvre de ces méthodes sur www.multimania.com/oberlechner
S. Oberlechner
Décisionnel d ’entreprise
Quelques points de repères
… et des plateformes décisionnelles open source
Source : solutions.journaldunet.com Oct. 2005
Communauté
Insight Strategy
Object web
Pentaho
Pragmatis consulting
outils
BEE
Spago BI
Pentaho
Open Decisionnel
ETL
Oui
Oui
Non
Oui
Reporting
Oui
Oui
Oui
Oui
Olap
Oui
Oui
Oui
Oui
Datamining
Oui
Oui
Oui
Non
Source : 01 informatique du 11/11/2005
S. Oberlechner
Décisionnel d ’entreprise
Revue de Presse
Une des réalisations d’Agrostar commentée par la presse spécialisée ... (N° 1711 du 14/02/2003)
S. Oberlechner
L’Usine Nouvelle : Le concept du décisionnel mis à l’épreuve dans la distribution
Décisionnel d ’entreprise