Benutzerspezifische Werkzeuge

Data Warehouse

Seit mehr als zehn Jahren wird die serverseitige Ausgestaltung von analyseorientierten bzw. entscheidungsunterstützenden Systemlösungen maßgeblich durch das Data Warehouse-Konzept bestimmt. Allerdings erweist sich die unternehmens- oder gar konzernweite Integration heterogener Datenquellen in einem abgestimmten Datenpool nicht nur aus technischen sondern ebenfalls aus organisatorischen Gründen als anspruchsvolle Aufgabe.

Einordnung

Die Informationsbereitstellung ist und bleibt ein wesentlicher Gesichtspunkt von Managementunterstützungs- bzw. Business Intelligence-Systemen. Die Sammlung, Verdichtung und Selektion entscheidungsrelevanter Informationen kann nur auf Basis einer konsistenten unternehmungsweiten Datenhaltung geschehen. Diese teils schmerzhafte Erkenntnis mussten zahlreiche Praxisansätze in den 1980er und frühen 1990er Jahren akzeptieren, die mit dem Ziel einer umfassenden Informationsversorgung und Entscheidungsunterstützung betrieblicher Fach- und Führungskräfte konzipiert und realisiert worden sind, allerdings aufgrund der unzureichenden Beachtung von Datenhaltung und -aktualisierung scheiterten. Obwohl hierfür unterschiedliche Gründe verantwortlich zeichnen, präsentierte sich das Fehlen einer integrierten entscheidungsorientierten Datenbasis mit konsistenzgeprüften Fakten oftmals als zentrales Problem.

An dieser Stelle setzt das Data Warehouse-Konzept an und fordert den Aufbau einer separaten Entscheidungsdatenbasis zur Unterstützung dispositiver Aufgaben [Mucksch, Behme 2000, S. 5; Mertens, Griese 2002, S 24ff]. Im Idealfall soll eine derartige Datenbasis unternehmensweit ausgerichtet sein und das Informationsbedürfnis verschiedenster Anwendergruppen abdecken. Aus technischen Gründen erweist es sich als sinnvoll, ein derartiges zentrales Data Warehouse von den datenliefernden Vorsystemen zu entkoppeln und auf einer separaten Plattform zu betreiben, was teilweise sogar als konstituierendes Merkmal für Data Warehouse-Lösungen gewertet wird [Hummeltenberg 1998, S. 49]. Eine Entkopplung führt einerseits zu einer Entlastung der operativen Systeme und eröffnet andererseits die Option, das analyseorientierte System auf die Belange von Auswertungen und Berichten hin zu optimieren [Wieken 1999, S. 16].

Merkmale

Abweichend von den Daten der operativen Systeme lassen sich für die im Data Warehouse abgelegten Inhalte die vier idealtypischen Merkmale Themenorientierung, Vereinheitlichung, Zeitorientierung und Beständigkeit formulieren, die im folgenden näher erläutert werden sollen [Inmon 1996, S. 29-39].

  •  Themenorientierung

Die Informationseinheiten in einem Data Warehouse sind auf die inhaltlichen Kernbereiche der Organisation fokussiert. Dies bildet einen Unterschied zu den üblichen applikations- bzw. prozessorientierten Konzepten der operativen DV-Anwendungen, die auf eine effiziente Abwicklung des Tagesgeschäftes und damit auf Objekte wie „spezifischer Kundenauftrag“ oder „einzelne Produktionscharge“ ausgerichtet sind. Die hierbei verarbeiteten Daten sind jedoch kaum dazu geeignet, Entscheidungen zu unterstützen. Vielmehr erfolgt im Data Warehouse-Umfeld die Konzentration auf inhaltliche Themenschwerpunkte, wie z. B. Produkte und Kunden.

  •  Vereinheitlichung

Ein zentrales Merkmal des Data Warehouse-Konzeptes ist, dass die Daten während der Überführung aus den operationalen Vorsystemen vereinheitlicht werden. Diese Vereinheitlichung kann verschiedene Formen annehmen und bezieht sich häufig auf Namensgebung, Bemaßung und Kodierung [Holthuis 1998, S. 75]. Das Ziel ist der Aufbau eines konsistenten Datenbestandes, der sich stimmig und akzeptabel präsentiert, selbst wenn die Datenquellen große Heterogenität aufweisen.

  • Zeitorientierung

Die Zeitorientierung der in einem Data Warehouse abgelegten Informationseinheiten dokumentiert sich auf unterschiedliche Arten. Zunächst ist hier - im Gegensatz zu operativen Anwendungen, die mit präziser Aktualität im Moment des Zugriffs aufwarten - lediglich eine zeitpunktbezogene Korrektheit gegeben, bezogen auf den Zeitpunkt des letzten Datenimports. Dieser zunächst als Manko des Ansatzes erscheinende Umstand erklärt sich jedoch aus den Nutzungsformen: Anwendungsschwerpunkte sind in der Analyse von Zeitreihen über längere und mittlere Zeiträume (Wochen-, Monats- oder Jahresbetrachtungen) gegeben. Entsprechend reichen für diese Auswertungen Informationen mit mäßiger Aktualität vollkommen aus. Allerdings finden sich bei einigen Data Warehouse-Implementierungen heute bereits Lösungen, die eine zeitnahe Aktualisierung des Datenbestandes (bis hin zu Real Time Data Warehouse-Architekturen) unterstützen [Schelp 2006, S. 425ff].

Überdies hat die Zeitorientierung Auswirkungen auf die identifizierende Beschreibung von Datenwerten. Jede quantitative Größe in einem Data Warehouse enthält einen Zeitbezug. Im Falle von Bestandsgrößen können dies Datumsangaben, im Falle von Bewegungsgrößen Angaben zum entsprechenden Zeitraum (z. B. Monat Mai 2009, 45. Kalenderwoche 2010, Jahr 2008) sein [Mucksch, Behme 2000, S. 10f].

  • Beständigkeit

Die beständige Bevorratung von Zeitreihendaten über lange Zeiträume hinweg erfordert durchdachte, anwendungsgerechte Kumulationsverfahren und optimierte Speichertechniken, um den Umfang des zu speichernden Datenmaterials und damit die Zeit, die für einzelne Auswertungen und Abfragen benötigt wird, in erträglichen Grenzen zu halten. Die in einem Data Warehouse abgelegten Inhalte werden nach erfolgreicher Übernahme schließlich nur in Ausnahmefällen gelöscht oder modifiziert. Dagegen verweilen die Daten der operationalen Anwendungen nur für einen begrenzten Zeitraum im System (z. B. bis zur Abwicklung eines konkreten Auftrages) und werden anschließend ausgelagert oder gelöscht, um die Performance (Antwortzeiten) dieser Systeme nicht unnötig zu belasten.

Mit der inhaltlichen Ausrichtung einer Data Warehouse-Lösung ist folglich die zugehörige Aufgabenstellung festgelegt, themenorientierte und integrierte (i. S. v. vereinheitlichte) Informationen über lange Zeiträume und mit Zeitbezug zur Unterstützung von Entscheidern aus unterschiedlichen Quellen periodisch zu sammeln, nutzungsbezogen aufzubereiten und bedarfsgerecht zur Verfügung zu stellen [Gabriel, Chamoni, Gluchowski 2000, S. 77; Kemper, Mehanna, Unger 2004, S. 17].

Gestaltung einer Data Warehouse-Lösung

Beim Aufbau eines Data Warehouse-Konzeptes sind sowohl betriebswirtschaftlich-organisatorische als auch technische Gestaltungsaspekte sorgfältig zu durchdenken. Aus betriebswirtschaftlich-organisatorischer Sicht ist zu überlegen, welche Informationen auf welchen Verdichtungsstufen im Datenspeicher abgelegt werden müssen und welchen Mitarbeitern diese zugänglich gemacht werden sollen. Zudem ist zu klären, was konkret unter einzelnen Begriffen zu verstehen ist bzw. woraus sich die einzelnen Größen zusammensetzen, was sie repräsentieren und wie sie ermittelt werden [Lehmann 2001, S. 17-19].

Daneben muss ebenfalls ein tragfähiges technisches Realisationskonzept mit dem Ziel erarbeitet werden, die atomaren Daten aus den vielfältigen und heterogenen operativen Vorsystemen systematisch zusammenzuführen. Aus diesem Grund sind periodisch oder ad-hoc Verbindungen aufzubauen, um die relevanten Daten zu extrahieren. Durch vielfältige Aufbereitungsmechanismen werden diese gesäubert und entsprechend den Anforderungen strukturiert abgelegt. Die Integration der Daten in einem System führt dazu, dass ein gleichartiger Zugriff auf ein sehr breites inhaltliches Spektrum ermöglicht wird. Da im Idealfall alle Managementanwendungen eines Unternehmens mit diesen Daten arbeiten, gibt es nur eine „Version der Wahrheit“ [Gabriel, Chamoni, Gluchowski 2000, S. 77], d. h. dass in unterschiedlichen Berichten und Auswertungen auch abteilungsübergreifend keine abweichenden Zahlen vorkommen können.

Komponenten

Der Speicherbereich eines Data Warehouse setzt sich aus unterschiedlichen und aufeinander aufbauenden Komponenten zusammen. Als zentrale Komponente fungiert das unternehmens- oder sogar konzernweit ausgelegte (Enterprise oder Core) Data Warehouse. Hier finden sich aufbereitete und aggregierte Daten (beispielsweise auf Tagesbasis) aus allen Unternehmensbereichen und mit langer, meist über mehrere Jahre reichende Historie. Das gespeicherte Datenvolumen im Core Data Warehouse erweist sich in der Regel als sehr umfangreich und kann Größenordnungen bis in den hohen Terabyte-Bereich annehmen.

Bei einem derart großen Datenvolumen bereiten vor allem multidimensionale Sichtweisen auf den verfügbaren Datenbestand mit ausgeprägter Navigationsfunktionalität erhebliche Probleme. Schließlich sind entsprechend den OLAP-Forderungen beliebigen Rotationen und Schnittbildungen nebst Analysefunktionalitäten anzubieten. Aus diesem Grund werden Datenextrakte zur weiteren Verarbeitung gebildet, die sich als personen-, anwendungs-, funktionsbereichs- oder problemspezifische Segmente des zentralen Data Warehouse-Datenbestandes verstehen und als Data Marts [Kemper, Mehanna, Unger 2004, S. 22] bezeichnen lassen.

Beim Zusammenspiel zwischen einem Data Warehouse und den zugehörigen Data Marts sind unterschiedliche Grundformen voneinander abgrenzbar. Sehr häufig setzen Data Marts auf dem zentralen Data Warehouse auf und speichern Teilextrakte des Gesamtdatenbestandes nochmals separat in physischer Form ab. Eine Architektur mit zentralem Data Warehouse und angeschlossenen Data Marts wird auch als „Hub and Spoke“-Architektur tituliert, da die Anordnung der Komponenten an eine Naben-Speichen-Kombination erinnert [Mucksch, Behme 2000, S. 56-58].

Um jedoch bis auf den Kern von Problemen vordringen zu können, ist eine weitergehende Detaillierung der Inhalte bis auf Belegebene erforderlich. Heute erfolgt dazu der Aufbau eines Operational Data Store (ODS) [Chamoni, Gluchowski, Hahne 2005, S. 32], der harmonisierte Detaildaten i. d. R. in normalisierter Form mit geringer zeitlicher Reichweite verwaltet und dadurch gleichzeitig die Belange eines operativen Berichtswesens abdeckt [Bouzeghoub 2000, S. 47f]. Als Vorteil gegenüber dem herkömmlichen operativen Reporting kann vor allem die bereichsübergreifende Vereinheitlichung der Inhalte ins Feld geführt werden. Zudem findet beim Durchgriff von verdichteten, multidimensional aufbereiteten Daten zu den Daten auf Belegebene kein Systembruch statt. Da die abgelegten Inhalte im Operational Data Store bereits in qualitätsgeprüfter und harmonisierter Form vorliegen, lassen sich diese auch hervorragend zur Befüllung des Data Warehouse bzw. von Data Marts einsetzen.

Oftmals erfolgt im Rahmen des periodischen Aktualisierungsprozesses die Nutzung eines weiteren Speicherbereichs, um extrahierte Rohdaten vor deren Weiterverarbeitung zwischen zu lagern. In dieser als Staging Area bezeichneten Eingangsschicht werden die aus den Vorsystemen gelieferten Informationsobjekte ohne Modifikationen hinsichtlich Format oder Inhalt abgelegt, um diese einer ggf. benötigten Qualitätsprüfung oder einer Umformung zugänglich zu machen. Ergänzend zu den diskutierten Komponenten lassen sich noch ein Metadaten- sowie ein Archivierungsspeicherbereich separat aufführen [Bauer, Günzel 2004; Gluchowski, Gabriel, Dittmar 2008, S. 141].

Abbildung 1 visualisiert die unterschiedlichen Speicherkomponenten einer Data Warehouse-Lösung nochmals mitsamt den zugehörigen Datenflüssen.

Warehouse-Speicherkomponenten für Problemdaten

Abb. 1: Data Warehouse-Speicherkomponenten für Problemdaten

Insgesamt darf das Data Warehouse damit nicht mit dem Gesamtkomplex der Business Intelligence-Systeme gleichgesetzt werden. Vielmehr sind es beim Data Warehousing primär die technischen Implikationen auf der Back-End-Seite (Hintergrundstruktur), auf denen der Focus liegt. Von den Oberflächenwerkzeugen wird dagegen zunächst weitgehend abstrahiert, wenngleich das Data Warehouse sicherlich effiziente Zugriffsformen ermöglichen soll.

Zusammenfassend ist damit unter einem Data Warehouse ein unternehmensweites Konzept zu verstehen, das als logisch zentraler Speicher eine einheitliche und konsistente Datenbasis für die vielfältigen dispositiven Anwendungen bietet und losgelöst von den operativen Datenbanken betrieben wird.

Literatur

Bauer, Andreas; Günzel, Holger (Hrsg.): Data Warehouse Systeme: Architektur, Entwicklung, Anwendung. 2. Auflage. Heidelberg: dpunkt, 2004.

Bouzeghoub, Mokrane u. a.: Data Warehouse Refreshment. In: Jarke, Matthias et al. (Hrsg.): Fundamentals of Data Warehouses. Berlin u. a.: Springer, 2000, S. 47 – 85.

Chamoni, Peter; Gluchowski, Peter; Hahne, Michael: Business Information Warehouse, Berlin u. a.: Springer, 2005.

Gabriel, Roland; Chamoni, Peter; Gluchowski, Peter: Data Warehouse und OLAP – Analyseorientierte Informationssysteme für das Management. In: ZfbF 53 (2000), Nr. 1, S. 74 – 92.

Gluchowski, Peter; Gabriel, Roland; Dittmar, Carsten: Management Support Systeme und Business Intelligence, Computergestützte Informationssysteme für Führungskräfte und Entscheidungsträger. 2. Auflage. Berlin u. a.: Springer, 2008.

Holthuis, Jan: Der Aufbau von Data Warehouse-Systemen. Konzeption, Datenmodellierung, Vorgehen. Wiesbaden: DUV, 1998.

Hummeltenberg, Wilhelm: Data Warehousing: Management des Produktionsfaktors Information - eine Idee und ihr Weg zum Kunden. In: Martin, Wolfgang (Hrsg.): Data Warehousing. Bonn: mitp, 1998, S. 41 – 71.

Inmon, William H.: Building the Data Warehouse. 2. Auflage. New York: Wiley, 1996.

Kemper, Hans-Georg; Mehanna, Walid; Unger, Carsten: Business Intelligence - Grundlagen und praktische Anwendungen. Wiesbaden: Vieweg, 2004.

Lehmann, Peter: Meta-Datenmanagement in Data-Warehouse-Systemen. Rekonstruierte Fachbegriffe als Grundlage einer konstruktiven, konzeptionellen Modellierung. Aachen: Shaker 2001.

Mertens, Peter; Griese, Joachim: Integrierte Informationsverarbeitung, Band 2: Planungs- und Kontrollsysteme in der Industrie. 9. Auflage. Wiesbaden: Gabler, 2002.

Mucksch, Harry; Behme, Wolfgang: Das Data Warehouse-Konzept als Basis einer unternehmensweiten Informationslogistik. In: Mucksch, Harry; Behme, Wolfgang (Hrsg.): Das Data Warehouse-Konzept. 4. Auflage. Wiesbaden: Gabler 2000, S. 3 – 80.

Schelp, Joachim: „Real“-Time Warehousing und EAI. In: Chamoni, Peter; Gluchowski, Peter (Hrsg.): Analytische Informationssysteme. Business Intelligence-Technologien und –Anwendungen. 3. Auflage. Berlin u. a.: Springer 2006, S. 425- 438.

Wieken, John-Harry: Der Weg zum Data Warehouse. Wettbewerbsvorteile durch strukturierte Unternehmensinformationen. München u. a.: Addison-Wesley, 1999.

 

Autoren


 

Prof. Dr. Peter Gluchowski, Technische Universität Chemnitz, Fakultät für Wirtschaftswissenschaften, Professur Systementwicklung / Anwendungssysteme, Thüringer Weg 7/225, 09126 Chemnitz

Autoreninfo


Zuletzt bearbeitet: 21.08.2012 21:22
Letzter Abruf: 01.11.2014 13:11
Artikelaktionen