TIQView 1.2 Benutzerhandbuch
Stand: 24.02.2009 Version 1.0.7
INHALTSVERZEICHNIS
1.
EINFÜHRUNG .....................................................................................................3 1.1. 1.2. 1.3.
2.
BEVOR SIE STARTEN ............................................................................................................................. 3 SYSTEMVORAUSSETZUNGEN ................................................................................................................. 6 KONTAKT ............................................................................................................................................. 7
TIQVIEW ..............................................................................................................8 2.1. TIQVIEW STARTEN ............................................................................................................................... 9 2.2. DATENAUSWAHL UND DATENLADEN...................................................................................................10 2.2.1. Laden von Daten aus ODBC-Datenquellen mittels TIQView-Composer ..........................................10 2.2.2. Laden von Daten aus QlikView-Anwendungen...................................................................................14 2.2.3. Laden von Daten aus Excel-Anwendungen ........................................................................................18 2.3. ALLGEMEINER AUFBAU VON TIQVIEW ...............................................................................................22 2.3.1. Allgemeines.........................................................................................................................................22 2.3.2. Aufbau der TIQView-Anwendungen ...................................................................................................23 2.3.3. Filter...................................................................................................................................................24 2.3.4. Aufheben von Filtern ..........................................................................................................................27 2.3.5. Sperren und Entsperren einer Auswahl ..............................................................................................27 2.3.6. Erstellen und Löschen von Bookmarks...............................................................................................27 2.3.7. Workflow.............................................................................................................................................28 2.4. TIQVIEW COLUMN – SPALTENINHALTSANALYSE ...............................................................................29 2.4.1. Allgemeines.........................................................................................................................................29 2.4.2. Formatvorkommen..............................................................................................................................34 2.4.3. Wertvorkommen..................................................................................................................................36 2.4.4. Phonetikvorkommen ...........................................................................................................................37 2.4.5. Ausgangsdaten anzeigen.....................................................................................................................39 2.5. TIQVIEW DEPENDENCY – ABHÄNGIGKEITSANALYSE .........................................................................40 2.5.1. Allgemeines.........................................................................................................................................40 2.5.2. Regelbasierte Analyse.........................................................................................................................42 2.5.3. Verknüpfte Tabellen............................................................................................................................45 2.6. TIQVIEW DASHBOARD – DQ-MONITORING ........................................................................................48
3.
ÜBUNGSBEISPIELE .........................................................................................49 3.1. 3.2. 3.3. 3.4.
FORMATANALYSEN BEI PLZ-DATEN ...................................................................................................49 IDENTIFIZIERUNG MÖGLICHER SCHLÜSSELATTRIBUTE ........................................................................50 WERTVORKOMMEN ..............................................................................................................................51 NULLWERT-ANALYSE ..........................................................................................................................52
1. Einführung 1.1. Bevor Sie starten TIQView – Interaktives Data Profiling an jedem Ort zu jeder Zeit! Die TIQ Solutions GmbH hat mit TIQView eine spezielle Datenqualitäts-(DQ) Applikation entwickelt, mit der interaktives Data Profiling unabhängig von Ort und Zeit kein Problem mehr ist. Sie können ab sofort Ihre Daten mit auf die (Dienst-)Reise nehmen und ganz einfach auf Ihrem Laptop prüfen, wie es um die Qualität Ihrer Abteilungsdaten bestellt ist. Mit TIQView schaffen Sie sich schnell einen ersten Überblick, welche Qualitätsprobleme in Ihrer Datenwelt existieren und wo Sie mit gezielten Verbesserungsmaßnahmen ansetzen müssen. Dadurch werden auch ökonomische Effekte schnell wirksam, die wiederum die Akzeptanz solcher DQ-Aktivitäten für die Zukunft erhöhen!
Abbildung 1: Eine TIQView Column-Analyseoberfläche
TIQView ist ein Analysewerkzeug für Fachanwender – unabhängig von bestimmten Branchen und Unternehmensbereichen – die sich mit Fragen der Datenqualität auseinandersetzen.
3
Die funktionalen Vorteile gegenüber kostenintensiven herkömmlichen Profiling-Werkzeugen sind: • • • • • • • •
Intuitiver und übersichtlicher Zugang zu den Datenqualitätsproblemen Analysen direkt in den Fachbereichen, unabhängig von der IT-Abteilung Einfach, flexibel und schnell erstellte aussagekräftige Auswertungen Kreative Erschließung von komplexen Zusammenhängen Unkomplizierte Einbindung und Überwachung von Geschäftsregeln Viele zusätzliche Informationen zu den selektierten Daten Unkomplizierte Kommunikation mit den Daten- und Prozessverantwortlichen Automatisches Report Update
TIQView untergliedert sich im Wesentlichen in drei Hauptfunktionalitäten: • • •
TIQView Column als Spalteninhaltsanalyse TIQView Dependency als Abhängigkeitsanalyse TIQView Dashboard als Monitoringlösung
Spalteninhaltsanalyse mit TIQView Column TIQView Column hilft Ihnen festzustellen, wie die einzelnen Spalten einer Datenbanktabelle (Attribute) jeweils genau genutzt werden und welche Fehler dabei existieren. Fehler treten in diesem Zusammenhang vor allem dann auf, wenn Daten falsch erfasst bzw. übertragen oder Datenfelder für alternative (missbräuchliche) Zwecke verwendet werden, was Inkonsistenzen befördert. Folgende Untersuchungen werden durch TIQView Column im Einzelnen ermöglicht: • • • • • • • • • • •
Identifizierung von Schlüsselattributen Werte-Analysen Muster- bzw. Format-Analysen Phonetische Analyse Datentypen-Analysen Nullwert-Analysen Häufigkeits-Analysen Feldlängen-Analysen Wertebereichs-Analysen Sonstige statistische Verfahren Drill Down zu den jeweils relevanten Datensätzen
TIQView kann aber noch wesentlich mehr als reine Spalteninhaltsanalysen Ihrer Datenbank-Tabellen! Beispielsweise gibt es unterschiedliche Möglichkeiten, sich den Problemen analytisch zu nähern, so dass Sie immer wieder neue Perspektiven bzw. Fragestellungen aufwerfen und vertiefen können. Durch die übersichtliche Gestaltung der einzelnen Funktionen, Selektionen und Daten in der graphischen Oberfläche hat der Anwender auch bei Detailanalysen immer den gesamten Kontext der Auswertungen im Blick.
4
Mit der funktionalen Flexibilität gelingt es zudem in nur wenigen Minuten, komplizierte datenqualitätsspezifische Zusammenhänge zwischen Spalten verschiedener Datenbanktabellen herzustellen: Abhängigkeitsanalyse mit TIQView Dependency Die Abhängigkeitsanalyse wird genutzt, um Beziehungen zwischen Spalten zu überprüfen, die fachliches Wissen bzw. geschäftliche Anforderungen repräsentieren. Mit TIQView Dependency können Sie in diesem Sinne fachspezifische Regeln für Zusammenhänge zwischen verschiedenen Daten, die auf Qualitätsprobleme hinweisen können, anwenderfreundlich einbinden und überwachen. Beziehungen zwischen diesen Daten, die die festgelegten Business-Regeln nicht einhalten, können so leicht als Fehler identifiziert werden. DQ-Monitoring mit TIQView Dashboard Durch die strukturierte Darstellung der Datenqualitätsprobleme anhand einer integrierten und anforderungsspezifisch gestaltbaren Dashboardlösung lässt sich die Datenqualitätssituation langfristig überwachen und es können schnell Ansatzpunkte für eine gezielte Verbesserung der Datenqualität gewonnen werden. Im Gegensatz zu den in großen BI- oder Datenbanklösungen angesiedelten Data Profiling-Tools ist TIQView für den dezentralen Einsatz direkt in den Fachabteilungen wie z.B. Controlling, Einkauf, Vertrieb usw. oder aber als unternehmensweite Lösung für den Mittelstand konzipiert, weil dort Budgets und technische Ressourcen in der Regel begrenzt sind. Auf diese Weise kann die Unternehmensdatenbasis kostengünstig und ohne spezielles IT-Wissen intuitiv auf qualitative Probleme hin untersucht werden.
5
1.2. Systemvoraussetzungen TIQView basiert auf der Business Intelligence Software Qlikview von der Firma Qliktech und besitzt dadurch den Vorteil, alle Funktionalitäten eines modernen und flexiblen Datenanalysewerkzeuges schon in sich zu vereinen und für eine effiziente Datenqualitätsanalyse nutzen zu können. Für den Betrieb von TIQView wird die Anwendung QlikView in der Version 7 oder 8 mit dem Produktlevel Analyzer auf Ihrem System benötigt. Ein QlikView-Installationsprogramm ist in der Installation von TIQView enthalten. Beim Erwerb von TIQView erhalten Sie eine Lizenz des QlikView Analyzers, welche ausschließlich für TIQView genutzt werden darf. Für umfassendere DQ-Analyse-Lösungen sind natürlich auch Entwicklungs- und Serverversionen von Qlikview nutzbar. Sollten sie noch keine TIQView- oder QlikView-Lizenz haben, können Sie eine 15-tägige Testversion zur Evaluierung von TIQView nutzen. Registrieren Sie sich dafür unter www.tiqview.de. Nach Ablauf dieser Testversion setzen Sie sich zum Erwerb der Lizenzen bitte mit unserem Support in Verbindung! Um Ihre Daten in TIQView zu laden, muss ein an Ihre Datenquellen angepasstes CSV erzeugt werden. Der dafür notwendige TIQView-Skriptgenerator setzt eine Java-Laufzeitumgebung voraus, welche ebenfalls im Lieferumfang von TIQView enthalten ist. Folgende Voraussetzungen sind für die Nutzung von TIQView notwendig: Hardware: Ihr Computer sollte folgendermaßen ausgestattet sein: •
Mindestens Pentium II Prozessor (Empfehlung: Pentium 4 oder besser)
•
TIQView nutzt die Vorteile moderner Multi-Core-Prozessoren vollständig aus, wir empfehlen deshalb diese Prozessoren
•
Grafikkarte für VGA-Auflösung in Farbe oder besser
•
Monitore mit einer Auflösung von mindestens 1024 x 768 Punkten
•
Maus oder äquivalentes Windows-gestütztes Pointer System
•
CD-ROM-Laufwerk (falls Sie von CD installieren möchten)
•
Festplatte mit mindestens 150 MB freiem Speicher
•
Mindestens 512 MB RAM für die 32-Bit-Versionen von Windows
•
2 GB RAM für die 64-Bit-Versionen von Windows
•
Der benötigte Speicher ist nahezu proportional zur gewünschten Datenmenge
6
Betriebssystem: Sie benötigen eines der folgenden Betriebssysteme: •
Microsoft Windows 2000 TM
•
Microsoft Windows 2000 Server TM
•
Microsoft Windows 2003 Server TM
•
Microsoft Windows XP TM
•
Microsoft Windows Vista TM
Was sonst noch wichtig ist: Wichtig ist außerdem, dass sie beim ersten Start von TIQView folgende Einstellung aus der Abbildung vornehmen, um den reibungslosen Ablauf der Arbeit mit dieser Applikation sicherzustellen.
Abbildung 2: Einstellung des Sicherheitslevels für Makros
1.3. Kontakt Haben Sie Fragen oder Anregungen zu TIQView oder zum Thema Datenqualität? Kontaktieren Sie uns per Mail unter
[email protected] oder telefonisch unter 0341 35590302. Schriftlich erreichen Sie uns per Post unter: TIQ Solutions GmbH Support Weißenfelser Str. 84 D-04229 Leipzig
7
2. TIQView
Wir empfehlen Ihnen, sich diesem Produkt schrittweise zu nähern, also nicht gleich mit Massendaten zu beginnen. Bei der Einspielung der Daten werden für die DQ-Analyse wichtige Metadaten erzeugt, was in Abhängigkeit des Datenumfangs auch seine Zeit benötigt. Also nutzen sie die Möglichkeiten, sich zunächst mit einem Ausschnitt Ihrer Datenwelt einen guten Überblick über die Datenqualitätssituation zu schaffen und sich dadurch schrittweise mit TIQView vertraut zu machen!
Außerdem möchten wir Sie darauf hinweisen, dass wir die ausgelieferte TIQView-Applikation gerade für größere Organisationseinheiten lediglich als einen Piloten betrachten, der an die spezifischen Anforderungen in Ihrem Unternehmen angepasst werden kann bzw. muss, um eine effiziente unternehmens- bzw. bereichsspezifische DQ-Analyse-Plattform bereitstellen zu können. Für eine Erläuterung der Erweiterungsmöglichkeiten von TIQView, können Sie uns gern jederzeit kontaktieren. Gern helfen wir Ihnen auch vor Ort bei der Einführung und Erweiterung von TIQView!
8
2.1. TIQView starten Starten Sie TIQView durch Doppelklick auf die Datei TIQView.qvw im TIQViewProgrammverzeichnis (z.B. C:\Programme\TIQView). Alternativ können Sie TIQView auch innerhalb von QlikView öffnen. Starten Sie dazu QlikView. Gehen Sie in das Menü Datei → Öffnen und wählen Sie aus Ihrem TIQView-Verzeichnis die Datei TIQView.qvw aus. Geben Sie als Benutzername user ein (die Eingabe eines Passwortes ist nicht notwendig). Sie gelangen auf die Startseite:
Abbildung 3: TIQView starten
9
2.2. Datenauswahl und Datenladen Durch klicken auf den Registerreiter Auswahl Tabellen und Spalten kommen Sie auf die Seite für die Auswahl der Tabellen und Spalten:
Abbildung 4: Auswahl Tabellen und Spalten
Tabellen und Spalten können sowohl für externe Datenquellen als auch für QVDDateien direkt aus QlikView-Anwendungen für eine Datenqualitätsanalyse in TIQView geladen werden.
2.2.1. Laden von Daten aus ODBC-Datenquellen mittels TIQView-Composer Den TIQView-Composer können Sie über folgenden Button starten:
Abbildung 5: Button zum Starten des TIQView-Composers
Im Folgenden werden alle Schritte vom Aufbau einer ODBC Verbindung bis zum Speichern der Analyseauswahl durchgegangen. Dabei werden auch die einzelnen Arbeitsbereiche des Composers erklärt.
10
Verwaltung der ODBC Verbindungen Im Bereich Datenbanken können ODBC Datenquellen eingebunden, entfernt, gelöst oder reaktiviert werden. Das Lösen der Datenbank dient der Freigabe des Zugriffs auf die Datenquelle, für den Fall, dass nur eine begrenzte Abbildung 6: Arbeitsbereich Datenbanken Zahl Zugriffsverbindungen auf die Datenquelle erlaubt ist. Verbindungen die aus vorhergehenden Sitzungen vorhanden sind, können über einen Doppelklick auf das graue Datenbanksymbol reaktiviert werden (ODBC Dialog, siehe auch nachfolgend Neuerstellung einer Verbindung). Um eine neue Verbindung einzurichten, gehen Sie wie folgt vor: •
Klicken Sie auf das orangefarbene Symbol mit dem grünen Kreuz
•
Geben Sie in dem sich öffnenden Dialog den Namen der ODBC Quelle sowie den Nutzer und das Passwort ein. Es ist nicht möglich mehrere Datenquellen mit derselben ODBC Quellbezeichnung einzubinden (Groß-/Kleinschreibung wird von Windows nicht beachtet.
Abbildung 7: Verbindungsdialog für ODBC Quellen
•
Mit einem Klick auf "Verbinden" schließen Sie den Vorgang ab.
Auswählen von vollständigen Tabellen Wenn Sie den Baum im Bereich Datenbanken erweitern, werden alle der für sie verfügbaren Schemata der Datenquelle aufgelistet. Der Punkt (ohne Schema) ist ein Standardeintrag und wird für jede Datenquelle erzeugt. Dort werden je nach Datenbankhersteller alle oder bestimmte Tabellen einer ODBC Datenquelle dargestellt.
11
Abbildung 8: Anzeigen der Tabellen zu einem Schema
Bei einem Klick auf das jeweilige Schema werden im Bereich Tabellen/Views die dazugehörigen Tabellen angezeigt. Diese können einzeln, per Doppelklick oder mit einem Klick auf das Symbol
, zur Auswahl hinzugefügt werden.
Über die Symbole können einfache Anzeigefilter gesetzt und wieder entfernt werden. Es können durch Leerzeichen getrennte Zeichenketten als Mehrfachfilter eingegeben werden, der Filter unterscheidet nicht nach Groß-/Kleinschreibung und verarbeitet keine Wildcards. Über das Klappmenü neben den Icons zur Filtereinstellung können wahlweise Tabellen und Views aus der Anzeige ausgeblendet bzw. eingeblendet werden. Auswählen von Spalten Neben der Auswahl ganzer Tabellen können im Bereich Spalten einzelne oder mehrere Spalten zur Analyse hinzugefügt werden. Um die Spalten einer bestimmten Tabelle anzuzeigen, klicken Sie im entsprechenden Feld des Bereichs Tabellen/Views mit der linken Maustaste.
Abbildung 9: Auswahl von Spalten
Um mehrere Spalten gleichzeitig in die Analyseauswahl einzufügen, halten Sie die Strg- oder die Shift-Taste gedrückt und wählen Sie mit einem Klick auf die linke Maustaste die betreffenden Spalten. Anschließend werden die Spalten über das Symbol in die Auswahl eingefügt. Alternativ können auch einzelne Spalten per Doppelklick mit der linken Maustaste ausgewählt werden. Über das Symbol können die Spalten alphabetisch sortiert bzw. in ihrer logischen Reihenfolge angezeigt werden.
12
Bearbeiten der Auswahl Im Bereich Auswahl befinden sich nun alle Tabellen/Spalten die Sie mit TIQView analysieren möchten – gruppiert nach Tabellen. Zusätzlich dazu werden Informationen zum Datenbanksystem hinter der ODBC-Quelle und dem Schema angezeigt.
Abbildung 10: Befülltes Auswahlfenster
Neben reinen Informationsfenstern können einige Attribute der Auswahl noch bearbeitet werden (Klick in das Feld rechts neben der entsprechenden Eigenschaft): •
Tabellen-Alias – Aus technischen Gründen sind Tabellennamen in vielen Fällen nichtsprechende technische Kürzel. An dieser Stelle kann für die Analyse in QlikView ein Name vergeben werden, der anstelle des Originalnamens verwendet wird. In der Datenbank wird dabei nichts verändert, der Composer ist ein rein lesendes Werkzeug.
Abbildung 11: Bearbeiten des Tabellen-Alias
•
Spalten-Alias – Die Spalten werden in einem eigenen Dialog nachverarbeitet. Dazu klicken Sie im Auswahlfenster auf das Symbol – es erscheint sobald man das Feld mit den Spaltennamen auswählt. In diesem Dialog können Alias-Bezeichnungen für Spalten vergeben werden. Durch einen Mausklick in die Felder unter Primärschlüssel kann festgelegt werden, ob die betreffende Spalte ein Primärschlüssel ist (true) oder nicht (false). Mit Entfernen können eine oder mehrere ausgewählte Spalten entfernt werden.
•
Limit – Das Limit bestimmt wie viele Zeilen letztendlich aus der Abfrage an TIQView zur Analyse übergeben werden. Diese Funktion wird noch nicht für alle Datenbanksysteme unterstützt – da hier je Hersteller Unterschiede in der Nomenklatur bestehen
13
. Abbildung 12: Bearbeiten der Spalteneigenschaften
•
where-Klausel – In diesem Feld können datenbankspezifische Abfrageklauseln in SQL eingetragen werden. Dadurch wird die Ergebnismenge aus der Abfrage bestimmt.
können Tabellen vollständig aus der Analyseauswahl entfernt werden. KliÜber cken Sie dazu vorher auf den Tabellennamen. Mit einem Mausklick auf das Icon können Sie die Auswahl zur Verarbeitung mit TIQView speichern und mit der Analyse starten. Der Composer kann im Hintergrund offen bleiben und muss nicht nach jeder Auswahl geschlossen werden. Gegebenenfalls müssen nur die ODBC Verbindungen im Fenster Datenbanken kurzzeitig gelöst werden, z.B. bei Einschränkungen in der zulässigen Anzahl aktiver Verbindungen zu einer Datenbank. Die Verbindung wird automatisch neu aufgebaut sobald sie eine Aktion im Bereich der jeweiligen Datenbank tätigen.
2.2.2. Laden von Daten aus QlikView-Anwendungen Das Laden der QVD-Dateien aus QlikView-Anwendungen können Sie über folgenden Button starten:
Abbildung 13: QVD-Dateienauswahl
Nach dem Starten der QVD-Dateienauswahl finden Sie die folgende Oberfläche vor:
14
Abbildung 14: Oberfläche für das Laden von QVD-Dateien
Um aus einem bestimmten Verzeichnis QVD-Dateien laden zu können, geben Sie bitte in der oberen Box den Pfad des entsprechenden Verzeichnisses komplett an:
Abbildung 15: QVD – Pfadangabe
Danach müssen die Dateien aus dem entsprechenden Verzeichnis geladen werden. Dies geschieht über folgenden Button:
Abbildung 16: Dateien aus Verzeichnis laden
Nach dem Laden der Dateien finden Sie folgende Oberfläche vor:
15
Abbildung 17: Geladene QVD –Dateien
Nach Auswahl einer Tabelle in der Listbox QVD-Dateien auswählen, haben Sie die Möglichkeit, die zu analysierenden Spalten und den Primärschlüssel der Tabelle auszuwählen:
16
Abbildung 18: Auswahl der Spalten und des Primärschlüssels
Im oberen Bereich Einschränkung der Daten können Sie die Anzahl der Datensätze durch direkte Einschränkung der Zeilenzahl oder durch eine Filter-Bedingung (where-Clause) pro Tabelle einschränken. Mit der where-Bedingung ist es möglich, spezielle Datensätze aus den Tabellen zu extrahieren. Zum Beispiel im Feld ‚Filter-Bedingung’ KategorieNr = 8 (das bedeutet, die Bedingung beschränkt die Produkte auf eine Kategorie).
Abbildung 19: Einschränkung der Daten
Nachdem Sie alle Einstellungen für eine ausgewählte Tabelle vorgenommen haben, können Sie diese Einstellungen über den folgenden Button abspeichern und zur nächsten Tabelle übergehen.
17
Abbildung 20: QVD-Auswahl speichern
Haben Sie alle notwendigen Tabellen bearbeitet, können Sie nun die Daten in TIQView laden. Beim Laden der Daten haben Sie auf der Registerkarte Auswahl Tabellen und Spalten die Möglichkeit zu wählen ob ausschließlich Daten aus QVDDateien, externen Datenquellen oder aus beiden Quellen gemeinsam geladen werden sollen.
Abbildung 21: Daten laden
2.2.3. Laden von Daten aus Excel-Anwendungen Excel-Dateien für QlikView-Anwendungen können Sie über folgenden Button in der Registerkarte Excel-Auswahl laden:
Abbildung 22: Excel-Dateienauswahl
Nach dem Starten der Excel-Dateienauswahl finden Sie die folgende Oberfläche vor:
18
Abbildung 23: Oberfläche für das Laden von Excel-Dateien
Daten aus Excel-Dateien werden über eine ODBC-Datenquelle mit der Bezeichnung „Excel-Dateien“ geladen. Sollte der Datenquellenname (ODBC DSN) bei ihrer MS Office Installation abweichen (z. B. „Excel Files“), können Sie diese Einstellung hier anpassen. Ist noch keine Datenquelle eingerichtet, können Sie diese über Systemsteuerung / Verwaltung / Datenquellen (ODBC) einrichten:
19
Abbildung 24: Excel Datenquelle einrichten
Um aus einem bestimmten Verzeichnis Excel-Dateien laden zu können, geben Sie bitte in der oberen Box den Pfad des entsprechenden Verzeichnisses komplett an:
Abbildung 25: QVD – Pfadangabe
Danach müssen die Dateien aus dem entsprechenden Verzeichnis geladen werden. Dies geschieht über folgenden Button:
Abbildung 26: Dateien aus Verzeichnis laden
Nach dem Laden der Dateien finden Sie folgende Oberfläche vor:
20
Abbildung 27: Geladene Excel –Dateien
Nach Auswahl einer Tabelle in der Listbox Excel-Dateien auswählen haben Sie die Möglichkeit, die zu analysierenden Spalten und den Primärschlüssel der Tabelle auszuwählen. Im oberen Bereich Einschränkung der Daten können Sie die Anzahl der Datensätze durch direkte Einschränkung der Zeilenzahl oder durch eine where-Bedingung pro Tabelle einschränken. Nachdem Sie alle Einstellungen für eine ausgewählte Tabelle vorgenommen haben, können Sie diese Einstellungen über den folgenden Button abspeichern und zur nächsten Tabelle übergehen.
Abbildung 28: Excel-Auswahl speichern
Haben Sie alle notwendigen Tabellen bearbeitet, können Sie nun die Daten in TIQView laden. Hierbei besteht die Möglichkeit, die Daten über den Button Excel-Daten laden zu laden. Eine weitere Option ist über die Registerkarte Auswahl Tabellen und Spalten den Button Excel-Daten laden zu nutzen oder alle zuvor festgelegten 21
Daten (ODBC, QVD und/oder Excel) zusammen über den Button Alle Daten laden einzuladen.
Abbildung 29: Excel-Daten laden
2.3. Allgemeiner Aufbau von TIQView 2.3.1. Allgemeines Von der Seite Auswahl Tabellen und Spalten gelangen Sie durch Klick auf den Registerreiter Auswertungen direkt zur ersten Analyseoberfläche. Hier finden Sie allgemeine Auswertungen für die jeweiligen Tabellen und Spalten.
Abbildung 30: Analyseoberfläche von TIQView-Column
Weiterhin haben Sie die Möglichkeit, Ihre Daten speziell nach bestimmten Formaten und Werten zu analysieren. Die Analyse der Formate ermöglicht es beispielsweise, verschiedene Muster für Telefonnummern oder PLZ zu erkennen. Mit Hilfe der Wer22
teanalyse ist es zum Beispiel möglich, die verschiedenen Werte für die Spalte Geschlecht herauszufinden und so Fehler in den Daten zu entdecken. Zu Formaten siehe auch Kapitel 2.4.2. Zu Werten siehe auch Kapitel 2.4.3. 2.3.2. Aufbau der TIQView-Anwendungen Die Oberfläche der TIQView-Anwendung ist in zwei Bereiche aufgeteilt: Oben befindet sich die Navigationsleiste mit Filtermöglichkeiten, darunter wird der Auswertungsbereich dargestellt, der je nach Auswahl verschiedene Analysen enthalten.
Auswertungen
Filter
Abbildung 31: Aufbau der TIQView-Anwendungen
23
2.3.3. Filter In TIQView haben Sie die Möglichkeit, Einschränkungen der Daten in List- oder Multiboxen oder in den Tabellen und Diagrammen der Auswertungen vorzunehmen. Listboxen
Abbildung 32: Listbox
Multiboxen
Abbildung 33: Multibox
TIQView besitzt darüber hinaus eine intuitive Bedienoberfläche: Ein Klick auf die auszuwählenden Werte in Listboxen, Multiboxen und/oder den verschiedenen Auswertungen schränkt die angezeigten Werte auf den ausgewählten Bereich ein. Die Auswahl kann übergreifend in mehreren Auswahlboxen, Tabellen etc. erfolgen. Bei der Auswahl sollte berücksichtig werden, dass: • • •
eine Selektion von Werten grün hinterlegt wird, Werte, welche passend zu bisherigen Selektionen auch noch auswählbar sind, mit einem weißen Hintergrund versehen sind, Werte, welche nach einer getroffenen Auswahl nicht mehr gewählt werden können, grau hinterlegt werden, da sie mit der momentanen Auswahl nicht kombinierbar sind.
Abbildung 34: Auswahl in einer Listbox
•
Werden Daten in einer Tabelle ausgewählt, verschwinden alle Werte bis auf die selektierten. An einem kleinen grünen Punkt neben dem Spaltennamen sehen Sie, dass eine Selektion vorgenommen wurde. 24
Abbildung 35: Auswahl in einer Tabelle
•
Selektionen innerhalb einer Listbox muss man als „ODER“-Verknüpfung betrachten. In Abbildung 36 wurden alle Datensätze aus verschiedenen Tabellen ausgewählt, die entweder den Wert „USA“ oder „Deutschland“ enthalten.
Abbildung 36: Selektion als "ODER"-Verknüpfung
•
1
Selektionen in zwei oder mehreren Listboxen muss man als „UND“Verknüpfung betrachten. In der unten dargestellten Abbildung wurden alle Datensätze ausgewählt, die entweder das Format aa aaa, aaaaaa oder 999-9999999a1 enthalten und in den Spalten Fax oder Telefon vorkommen.
„a“ steht dabei für einen beliebigen Buchstaben und „9“ für eine beliebige Ziffer.
25
Abbildung 37: Selektion als "UND"-Verknüpfung
Sie können jeweils einen oder mehrere Werte auswählen. Bei mehreren Werten müssen Sie die Taste [STRG] gedrückt halten oder einfach mit der gedrückten linken Maustaste über die zu selektierenden Werte ziehen. In Listboxen und Multiboxen kann nach speziellen Werten gesucht werden. Klicken Sie dafür auf die Titelleiste der Listbox oder auf den Dropdown-Pfeil einer Spalte in einer Multibox und beginnen Sie den Begriff zu tippen, nach dem Sie suchen. Es öffnet sich ein Fenster in dem Sie den Suchbegriff sehen. Alternativ können sie auch die Taste F3 drücken. Die Suche kann durch die Platzhalter * (für mehrere Buchstaben) und ? (für einen Buchstaben) erweitert werden.
Abbildung 38: Suchen in Listboxen
Durch den Klick mit der rechten Maustaste auf eine Listbox können zudem folgende Aktionen auf die Felder der Listbox durchgeführt werden: • • •
• •
Wählbare Werte auswählen Ausgeschlossene Werte auswählen Auswahl sperren: Sperrt die Auswahl in der Listbox, die gesperrten Werte können nicht durch Auswahl aufheben aufgehoben, sondern müssen durch Freigeben entsperrt werden. Auswahl aufheben Auswahl in anderen Feldern auswählen, hebt die Auswahl in anderen Auswahlboxen auf.
Multiboxen sind komprimierte Darstellungen von Listboxen und werden wie diese behandelt.
26
2.3.4. Aufheben von Filtern Es gibt verschiedene Möglichkeiten, eine getroffene Auswahl aufzuheben: •
• •
Die in einer List- oder Multi-Box selektierten Werte können einzeln durch einen Klick auf das Radiergummi-Symbol in der Titelleiste der Listbox aufgehoben werden. Ebenfalls ist es möglich, die Auswahl eines Wertes durch nochmaliges Anklicken aufzuheben. Die gesamte Auswahl kann über den Button aufgehoben werden.
in der Menüleiste
2.3.5. Sperren und Entsperren einer Auswahl Um zu verhindern, dass eine Auswahl durch Auswahl aufheben aufgehoben wird, kann eine Auswahl über
in der Symbolleiste gesperrt werden. Die so ge-
sperrte Auswahl kann nur über nach aufgehoben werden.
wieder freigegeben und die Selektion da-
Sie können die Auswahl in einzelnen List- oder Multiboxen oder auch die gesamte Auswahl sperren und freigeben. Bei einzelnen Sperrungen oder Freigaben gehen Sie bitte über das Menü der rechten Maustaste. 2.3.6. Erstellen und Löschen von Bookmarks Um eine Auswahl dauerhaft zu speichern, können Sie Bookmarks erstellen. Diese Bookmarks können zu einem späteren Zeitpunkt wieder aufgerufen und die im Bookmark gespeicherten Selektionen angewendet werden.
Abbildung 39: Anlegen eines Bookmarks
Bookmarks verwalten Sie über den Menüpunkt Bookmarks. Zum Anlegen eines neuen Bookmarks können Sie über das Menü Bookmarks → neues Bookmark auswählen, in der Symbolleiste den Button
klicken oder sie nutzen die Tastenkom27
bination [STRG-B]. Vergeben Sie einen sinnvollen Namen für Ihr Bookmark. Um das Bookmark dauerhaft im Dokument zu speichern, setzen Sie den Haken bei Als Dokument-Bookmark anlegen. Möchten Sie, dass die Auswahl des Bookmarks zu einer aktuellen Auswahl hinzugefügt wird, markieren Sie Bookmark additiv anwenden. Ist dieses Merkmal nicht aktiviert, wird die aktuelle Auswahl bei Aufruf des Bookmarks überschrieben. Weitere Optionen beim Dialog Neues Bookmark sind für die Verwendung mit TIQView nicht relevant. Zum Aufrufen eines bestehenden Bookmarks wählen Sie unter dem Menüpunkt Bookmarks das entsprechende Bookmark aus. Bookmarks können ebenso unter dem Menüpunkt Bookmarks → Bookmarks löschen gelöscht werden. 2.3.7. Workflow Tabellen
Abbildung 40: Tabellenauswahl
Selektieren sie hier die Tabellen, die Sie analysieren wollen. Erfolgt keine Auswahl, werden alle aufgelisteten Tabellen betrachtet. Die Anzahl der Datensätze je Tabelle wird als zusätzliche Information angezeigt. Spalten
Abbildung 41: Spaltenauswahl
Hier wählen Sie die Spalten aus, die Sie überprüfen möchten. Wurden keine Tabellen in der Tabellenbox ausgewählt, enthält die Listbox alle Spalten aller Tabellen, sonst stehen nur die Spalten der selektierten Tabellen zur Auswahl. Datentyp und Primärschlüssel Möchten Sie nur bestimmte Datentypen betrachten (z.B. VARCHAR), wählen sie über das Dropdown Menü der Multibox den oder die entsprechenden Datentypen aus.
Abbildung 42: Auswahl Datentyp u. Primärschlüssel
Innerhalb der oben genannten Multibox werden die Primärschlüssel der von Ihnen selektierten Datensätze angezeigt. Dies ist allerdings nur möglich, wenn entsprechende Primärschlüsselinformationen in der Datenquelle vorhanden sind. Ansonsten finden Sie dort einen künstlich erzeugten Primärschlüssel.
28
2.4. TIQView Column – Spalteninhaltsanalyse 2.4.1. Allgemeines
Abbildung 43: Auswertungen
Für die selektierten Daten werden in der Tabelle „Auswertung allgemein“ verschiedene statistische Aussagen pro Tabelle und Spalte getroffen: • • • • • • • •
die Anzahl verschiedener Werte die Anzahl der Null-Werte die minimalen und maximalen Werte die minimalen und maximalen Feldlängen der am häufigsten auftretende Wert das am häufigsten auftretende Format die Anzahl numerischer und alphanumerischer Werte für numerische Werte: Standardabweichung, Median und Mittelwert
29
Anteil Null-Werte Diese Darstellung zeigt den prozentualen Anteil der Null-Werte (Felder ohne einen Eintrag bzw. nur mit Leerzeichen gefüllt2) des jeweils ausgewählten Datenbestandes als so genannte „leere“ Werte an (in diesem Fall 89 Prozent).
Abbildung 44: Anteil der Null-Werte
Treffen Sie mit dieser „Füllstandsanzeige“ schnell eine Aussage, wie gut bestimmte Datenfelder (z.B. die Telefonnummer im Kundenbestand) gepflegt wurden.
Anteil eindeutiger Werte
Abbildung 45: Anteil eindeutiger Werte
Differieren die Werte in einer Spalte, oder sind sehr viele identische Werte zu finden? Anhand dieser Grafik können Sie Aussagen zur Redundanz der Daten treffen und damit zusammenhängende Datenqualitätsprobleme aufspüren, die sich in den operativen Bereichen Ihres Unternehmens wie dem Kundenmanagement niederschlagen könnten. Dies verschafft Ihnen auch die Möglichkeit, mögliche Primärschlüsselkandidaten herauszufinden.
Anzahl Werte in % Zum Aufruf dieser Auswertung doppelklicken Sie in der Navigationsleiste auf Anzahl Werte in %. Die Auswertung zeigt in einem Balkendiagramm an, wie viele Werte oder wie viele verschiedenen Werte sich in den einzelnen Spalten befinden. Um eine Berechnung der Auswertung zu erreichen, müssen Sie zuerst eine Tabelle selektieren. Um zwischen den Berechnungen Anzahl Werte (Abbildung 46) und Anzahl eindeutiger Werte (Abbildung 47) zu wechseln, nutzen Sie bitte den dargestellten Button , welchen Sie innerhalb der Auswertung links oben finden.
2
Eigentlich ist nur der Wert eines rein leeren Datenfeldes ein Null-Wert. Allerdings zeigt die Praxis, dass Pflichtfelder in Eingabemasken oft durch Leerzeichen gefüllt werden. Deshalb sind für uns auch eingegebene Leerzeichen Null-Werte, um so nicht korrekt gefüllte Felder aufzuspüren.
30
Anzahl Werte stellt den prozentualen Anteil gefüllter Felder in einer bestimmten Spalte dar, während Anzahl eindeutiger Werte den prozentualen Anteil distinkter Werte darstellt. Im nachfolgenden Beispiel beträgt für die Spalte KundenNR die Anzahl eindeutiger Werte 100 Prozent. Dadurch ist jeder Datensatz eindeutig unterscheidbar, und diese Spalte kann beispielsweise auch als Primärschlüssel benutzt werden.
Abbildung 46: Anzahl der Werte
Abbildung 47: Anzahl der eindeutigen Werte
31
Mengenverteilung in % Zum Aufruf dieser Auswertung doppelklicken Sie in der linken Navigationsleiste auf Mengenverteilung in %. Diese Auswertung zeigt in einem Kreisdiagramm an, wie die Datenmengen in den einzelnen Tabellen und Spalten verteilt sind.
Abbildung 48: Mengenverteilung in Prozent
Indem Sie einen durch die Pfeile angezeigten Bereiche klicken, gelangen Sie in die Ansicht der Mengenverteilung auf Spaltenebene für die ausgewählte Tabelle.
Abbildung 49: Mengenverteilung in Prozent
32
Nutzen Sie bitte den dargestellten Button , welchen Sie innerhalb der Auswertung rechts oben finden, um zu der Tabellenansicht zurück zu gelangen.
Null-Werte / Verschiedene Werte Zum Aufruf der Auswertung Auswertung Null / Verschiedene Werte doppelklicken Sie in der Navigationsleiste auf den entsprechend beschrifteten Button. Die nachfolgend abgebildete Auswertung zeigt die Häufigkeit des Auftretens von Null-Werten je Spalte einer Tabelle.
Abbildung 50: Auswertung Null-Werte
Um in die Darstellung der verschiedenen Werte zu wechseln, betätigen Sie den rot eingekreisten Button. Nun sehen Sie die Anzahl von untereinander verschiedenen Werten, die in einer Spalte vorkommen.
33
Abbildung 51: Auswertung Verschiedene Werte
2.4.2. Formatvorkommen
Abbildung 52: Formatvorkommen tabellarisch
Zum Aufruf der Auswertung Formatvorkommen doppelklicken Sie links in der Navigationsleiste auf Format. Diese zeigt sowohl in Diagrammform als auch als Tabelle, welche Formate in welcher Häufigkeit in den selektierten Tabellen und Spalten vorkommen. Die Formatvorkommen sind nach Häufigkeit sortiert. Natürlich können Sie 34
die Sortierung jederzeit verändern, indem Sie auf die entsprechende Spaltenüberschrift doppelklicken. Sie sehen die Sortierung anhand eines kleinen Pfeils, der in der Spaltenüberschrift erscheint. Durch diese Darstellung können Sie auffällige Formate leichter identifizieren.
Abbildung 53: Formatvorkommen
•
•
Sie interessieren sich für einige auffällige Formatvorkommen? Markieren Sie die näher zu betrachtenden Formate einfach im Diagramm oder in der Tabelle und zoomen Sie somit in die Auswahl. Bedenken Sie, dass Sie für weitere Auswertungen die Auswahl wieder aufheben sollten. Zur Betrachtung der Daten, in denen die auffälligen Formate vorkommen, klicken Sie auf den Button Ausgangsdaten anzeigen und kontrollieren Sie den Datenbestand.
Abbildung 54: Formatvorkommen graphisch
35
Listbox „Format“
Abbildung 55: Listbox Formatvorkommen
Die Listbox zeigt die vorkommenden Muster der getroffenen Auswahl und deren Häufigkeiten absteigend geordnet an. Zahlen werden durch „9“ symbolisiert, Kleinbuchstaben durch „a“ und Großbuchstaben durch „A“. Alle anderen Zeichen sind unverändert. „Formatausreißer“ können so gezielt erkannt werden. 2.4.3. Wertvorkommen
Abbildung 56: Wertvorkommen
Zum Aufruf dieser Auswertung doppelklicken Sie in der Navigationsleiste auf Wertvorkommen. Diese zeigt tabellarisch, welche Werte in welcher Häufigkeit in den selektieren Tabellen und Spalten vorhanden sind. Die Werte sind nach Häufigkeit sortiert. Natürlich können Sie die Sortierung jederzeit verändern, indem Sie auf die Spaltenüberschrift einen Doppelklick ausführen. Sie sehen die Sortierung anhand eines 36
kleinen Pfeils, der in der Spaltenüberschrift erscheint. Durch diese Darstellung können Sie auffällige Werte identifizieren. •
Sie interessieren sich für einige auffällige Werte? Markieren Sie die näher zu betrachtenden Werte einfach in der Tabelle. Bedenken Sie, dass Sie für weitere Auswertungen die Auswahl wieder aufheben sollten.
Abbildung 57: Wertvorkommen
•
Zur Kontrolle des konkreten Datenbestands, in denen die auffälligen Werte vorkommen, klicken Sie auf den Button Ausgangsdaten anzeigen.
Listbox Wert Alle in der jeweils selektierten Auswahl vorkommenden Werte sowie die Häufigkeit ihres Auftretens werden in Listbox Wert angezeigt. Eine Prüfung der Werte ist sehr einfach möglich, wenn z. B. nur eine definierte Menge von Werten auftreten darf. Auch redundante Werte, z.B. Telefonnummern können so leicht erkannt werden. Abbildung 58: Wert
2.4.4. Phonetikvorkommen Im Arbeitsblatt Phonetikvorkommen erhalten Sie eine tabellarische Aufstellung der Häufigkeit von Phonetik-Codes. Bei der Beladung von TIQView werden alle Zeichenkettenwerte der Ausgangsdaten mit dem Kölner Verfahren in Phonetik-Codes umgewandelt (s. a. Kölner Phonetik in Wikipedia). Das Kölner Verfahren eignet sich speziell für Zeichenkettenanalyse im deutschen Sprachraum. Neben der Auswahl einzelner Phonetik-Codes über die Listbox (analog zu Wertevorkommen) haben Sie hier die Möglichkeit eine Auswahl über folgendes Eingabefeld zu treffen: 37
Abbildung 59: Auswahl über Phonetik-Kodierung
Bei Klick auf den Button Auswahl wird der eingegebene Wert in einen PhonetikCode umgewandelt und eine Auswahl in der Listbox mit entsprechendem PhonetikCode vorgenommen:
Abbildung 60: Auswahlbeispiel mit Phonetik-Kodierung
Im Beispiel wurde der Phonetik-Code #0626 der Zeichenkette Anton in der Listbox als Auswahl *626* selektiert. Die führende Null (Anlaut „A“) wurde entfernt, da Vokale innerhalb der Zeichenkette nicht kodiert werden. Damit wird eine Suche des eingegebenen Wertes innerhalb der gesamten Zeichenkette ermöglicht.
Abbildung 61: manuelle Suche über Phonetik-Code
Zur Überprüfung der Eingabe können Sie sich das Ergebnis der Kodierung in Kölner Phonetik über den Button Kodierung anzeigen lassen:
38
Abbildung 62: Ergebnis der Kodierung in Kölner Phonetik
Über den Button Alle können Sie alle Werte mit Phonetik-Code auswählen. Diese Auswahl wird auch automatisch getroffen, wenn Sie das Arbeitsblatt Phonetikvorkommen selektieren. Alle Nicht-Zeichenketten-Werte (Datum, Number, etc.) werden damit aus der Auswahl ausgeschlossen, da sie ohne Phonetik-Code innerhalb dieses Arbeitsblattes nicht relevant sind.
2.4.5. Ausgangsdaten anzeigen Über den Button Ausgangsdaten anzeigen gelangen Sie zu den vollständigen Datensätzen für die von Ihnen ausgewählten auffälligen Daten.
Abbildung 63: Ausgangsdaten anzeigen
Abbildung 64: Ausgangsdaten
Mit Auswertung anzeigen gelangen Sie zurück zu den beschriebenen Analysen.
Abbildung 65: Auswertung anzeigen
39
2.5. TIQView Dependency – Abhängigkeitsanalyse 2.5.1. Allgemeines
Abbildung 66: Regeln
Zum Aufruf dieser Auswertung klicken Sie in auf den Registerreiter Regeln. In dieser Auswertung kann geprüft werden, ob Spalten einer Tabelle bestimmte Regeln erfüllen. Insgesamt müssen zwei Regeln definiert werden. Vordefinierte Funktionen umfassen die Operatoren „=, <,>, <=, >=, Beginnt mit, Endet mit, Enthält und Länge“. Diese Operatoren werden genutzt um die Spaltenwerte mit einem Prüfwert zu vergleichen. Nach Auswahl der Tabelle über die Multibox Tabelle und der zu prüfenden Spalten über die Multibox Spalten 1 und Spalten 2 können Regeln erstellt werden.
Abbildung 67: Auswahl der Tabellen
40
Abbildung 68: Auswahl der Regel
Abbildung 69: Eingabe des Prüfwertes
Abbildung 70: Auswahl der Spalten
Nach Prüfwerteingabe erscheinen die Ergebnisse in dem Reiter RegelanalyseTabelle. In der Tabelle Regelanalyse werden für alle Datensätze, die wenigstens eine der beiden Regeln erfüllen, die Primärschlüssel PK angezeigt. Die 2. und 3. Spalte der Tabelle zeigen an, ob die jeweilige Regel erfüllt (Wert 1) oder nicht erfüllt (Wert 0) wird. Treffen beide Regeln für einen Datensatz zu, wird dieses in der 4. Spalte der Tabelle durch eine 1 gekennzeichnet.
Abbildung 71: Ergebnis der Regelanalyse
41
Durch Markierung von abweichenden Datensätzen in der Tabelle Regelanalyse und einen Klick auf den Button Ausgangsdaten können die Inhalte der ausgewählten Datensätze angeschaut werden.
Abbildung 72: Inhalte der ausgewählten Datensatze betrachten
2.5.2. Regelbasierte Analyse
Abbildung 73: Regelbasierte Analyse
Zum Aufruf dieser Funktion klicken Sie auf den Registerreiter Regelbasierte Analyse. Damit können verschiedene Spalten einer Tabelle über Qlikview-spezifische Formelausdrücke miteinander verglichen werden. Es ist möglich, mehrere Regeln zu definieren und zu speichern. Zur Auswahl der Tabelle, welche mit Regeln analysiert werden soll, wird in der Tabelle-Auswahlbox die Tabelle ausgewählt.
Abbildung 74: Auswahl Tabelle
42
Im Anschluss an die Tabellenauswahl können Regelsätze definiert werden. Für jeden Regelsatz muss ein Name vergeben werden. Die Regeln müssen manuell erfasst werden. Regeln können aufeinander aufbauend deklariert werden (maximal 10 Regelausdrücke). Zur Weiterverwendung der Regel in einem Regelsatz ist der Regelspaltenname anzugeben. Im abgebildeten Beispiel wird in Regelspalte3 mit den Regeln aus Regelspalte2 und Regelspalte1 gearbeitet. Zur Definition der Spalten der ausgewählten Tabelle ist folgende Syntax notwendig: -
Spaltenwert: <Spaltenname>
Zur Regeldefinition können Qlikview-Funkionen verwendet werden, z.B.: -
Bildung von Summen mit Sum() If-Ausdrücke Vergleichsoperatoren <, >, <=, >=, =
Abbildung 75: Definition der Regeln
Um die Regeln dauerhaft zu speichern, verwenden Sie den Button Regeln speichern.
Abbildung 76: Button Regeln speichern
Zur Verwendung der Regeln müssen diese nach erfolgter Speicherung mit dem Button Regeln laden geladen werden.
Abbildung 77: Button Regeln laden
43
Die Auswahl der Regeln erfolgt über die Auswahlbox Regelauswahl. Wählen sie unter dem Feld Namen die gewünschte Regel aus.
Abbildung 78: Regelauswahl
Die Ergebnisse werden in der Tabelle Regelanalyse dargestellt.
Abbildung 79: Tabellenauswahl
Durch Markierung von abweichenden Datensätzen in der Tabelle Regelanalyse und einen Klick auf den Button Ausgangsdaten können die Inhalte der ausgewählten Datensätze betrachtet werden.
44
2.5.3. Verknüpfte Tabellen
Abbildung 80: Verknüpfte Tabellen
Die Analyse Verknüpfte Tabellen erlaubt die Prüfung der referenziellen Integrität von Spalten zweier Tabellen, die über einen gemeinsamen einspaltigen Referenzwert (z.B. Schlüsselkandidaten) mit einander verknüpft werden können. Zur Auswahl der beiden Tabellen gelangen Sie mit einem Klick auf den Registerreiter Auswahl zu verknüpften Tabellen.
Abbildung 81: Übersicht Auswahl verknüpfter Tabellen
45
In den Listboxen Tabelle1 und Tabelle2 können Sie die zwei Tabellen auswählen, die Sie vergleichen möchten. Nach der Auswahl erscheinen die Auswahlboxen für die Spalten und die Referenzspalten. Sie können die Auswahl der Spalten optional vornehmen oder die Auswahl freilassen, wenn Sie alle Spalten der Tabelle in die Betrachtung einfließen lassen möchten. Die Auswahl der Referenzspalten ist notwendig. In Abbildung 82 wurde als Referenzspalte z.B. die Kundennummer ausgewählt.
Abbildung 82: Auswahl verknüpfter Tabellen
Nach erfolgter Auswahl bestätigen Sie diese mit dem Button Tabellenauswahl erstellen.
Abbildung 83: Button Tabellenauswahl erstellen
46
Wechseln Sie nun auf den Registerreiter Verknüpfte Tabellen.
Abbildung 84: Analyse verknüpfter Tabellen
Die ausgewählten Datentabellen werden in dieser Übersicht inhaltlich in zwei Tabellen dargestellt. Die Spalte Referenz zeigt den zuvor ausgewählten Referenzwert. PK1 bzw. PK2 sind die Primärschlüssel der jeweiligen Tabelle. Alle weiteren Spalten zeigen die ausgewählten Spalten der Datentabelle. Mit Hilfe der Buttons Schnittmenge, Nicht in Tabelle
und Nicht in Tabelle können Sie sehen, welche Referenzwerte in beiden Tabellen oder nur in jeweils einer Tabelle vorkommen. Beim Klick auf den Button Nicht in Tabelle Bestellungen in unserem Beispiel, werden diejenigen Werte herausgesucht, die eine Referenz in der Tabelle Kunden, aber nicht in der Tabelle Bestellungen haben.
Abbildung 85: Nicht in Tabelle Bestellungen
47
Abbildung 86: Auswahl Nicht in Tabelle Bestellungen
In dem Bespiel ist ersichtlich, dass es für genau zwei Kunden keine Bestellungen gibt. Bei Klick auf den Button Schnittmenge werden diese zwei Kunden nicht angezeigt.
2.6. TIQView Dashboard – DQ-Monitoring Durch die strukturierte Darstellung der Datenqualitätsprobleme anhand einer integrierten und anforderungsspezifisch gestaltbaren Dashboardlösung lässt sich die Datenqualitätssituation langfristig überwachen und es können schnell Ansatzpunkte für eine gezielte Verbesserung der Datenqualität gewonnen werden. Aufgrund der unternehmensspezifischen Anforderungen an Prozesse und Strukturen muss diese Monitoringlösung mit den vorhandenen Werkzeugen jeweils individuell eingerichtet werden.
48
3. Übungsbeispiele 3.1. Formatanalysen bei PLZ-Daten 1. Zunächst müssen alle Datensätze, die das Land USA enthalten, in den Kundendaten identifiziert werden. Folgen Sie hierfür der nachfolgenden Anleitung von Schritt 2 bis 7. Die eigentliche Analyse beginnt ab Schritt 8. 2. Wählen Sie auf dem Registerblatt Wertvorkommen in der Listbox Tabellen die Tabelle Kunden aus. 3. Klicken Sie auf die Titelleiste der Listbox Spalten und tippen sie auf der Tastatur das Wort „Land“. Wählen sie die Spalte Land. 4. Selektieren Sie in der Listbox Wert den Wert USA. Durch diese Einschränkung ist nun keine direkte Formatanalyse der Postleitzahlen für alle Kunden in den USA möglich, wie in Abbildung 87 verdeutlicht.
Abbildung 87: Selektion USA
5. Um nun alle Datensätze der Kunden aus den USA für die Postleitzahlenauswahl zu fixieren und auf das Format der Postleitzahlen zugreifen zu können, nutzen wir die Primärschlüssel als eindeutiges Attribut. Klicken Sie in der Multibox mit der rechten Maustaste auf Primärschlüssel und wählen sie im Kontextmenü Wählbare Werte auswählen. Wiederholen Sie den Vorgang und klicken Sie im Kontextmenü auf Auswahl sperren. 6. Nun kann die Auswahl der Tabelle und des Landes wieder aufgehoben werden. Klicken Sie dazu Auswahl aufheben in der Symbolleiste. Die Datensätze mit dem Land USA bleiben durch die Sperrung der Primärschlüssel erhalten. 7. Wählen Sie jetzt in der Listbox Spalten die Spalte PLZ, wie nachfolgend in der Abbildung 88 zu sehen.
Abbildung 88: Auswahl Postleitzahlen
49
8. Klicken Sie auf Formatvorkommen und beginnen Sie Ihre Analyse. Sie sehen nun alle im Feld PLZ vorhandenen Formate (Muster) für Kunden in den USA und können prüfen, welche korrekt und welche nicht korrekt sind.
Abbildung 89: Analyse Formatvorkommen für Postleitzahlen der USA
9. Sofern Sie weitere Analysen vornehmen möchten, vergessen Sie nicht, die Sperrung über den Button Freigeben aufzuheben und die Auswahl über den Button Auswahl aufheben zu löschen.
3.2.
Identifizierung möglicher Schlüsselattribute
1. Wählen Sie auf dem Registerblatt Auswertungen die Tabelle mit den Kundenstammdaten Kunden aus der Listbox Tabellen aus. 2. Unter der Listbox Tabellen finden Sie die Anzahl der Datensätze in der Tabelle „Kunden“. Handelt es sich um ein Schlüsselattribut beziehungsweise um einen Schlüsselkandidaten, müssen die Werte der gesuchten Spalte eindeutig sein. Das bedeutet, jeder Wert darf nur genau einmal vorkommen. 3. In unserem Beispiel kommt die Spalte KundenNr als Schlüsselattribut in Frage, da hier die Anzahl der verschiedenen Werte der Anzahl der Datensätze in der Tabelle Kunden entspricht.
Abbildung 90: Identifizierung von Schlüsselattributen
50
3.3. Wertvorkommen 1. Wählen Sie auf dem Registerblatt Wertvorkommen in der Listbox Spalten die Spalte Bestelldatum aus. 2. Selektieren Sie ungewöhnliche Wertvorkommen und klicken Sie auf Ausgangsdaten anzeigen, um die entsprechenden Datensätze anzuzeigen.
Abbildung 91: Wertvorkommen
3. Die identifizierten falschen Datensätze können z.B. nach Excel exportiert oder ausgedruckt werden. Für den Excel-Export finden Sie ein Symbol XL, für Drucken ein kleines Drucker-Symbol in der Titelleiste der Analyse Wertvorkommen.
51
3.4. Nullwert-Analyse 1. In der Analyse Auswertungen allgemein kann in der Spalte Null-Werte, die Verteilung der Null-Werte analysiert werden. 2. Selektieren Sie auffällige Null-Wert-Vorkommen und klicken Sie auf Ausgangsdaten anzeigen, um die entsprechenden Datensätze anzuzeigen.
Abbildung 92: Null-Wert-Analyse über eine gesamte Tabelle
52