Datawarehouse Vorteile

- wann brauche ich ein DW und welche Vorteile bietet es

Ein Datawarehouse (Datenlager) ist die zentrale Sammlung von Daten in einem Unternehmen oder einer anderen Organisation. Diese Daten stammen aus verschiedenen Quellen, und sie können nach bestimmten Gesichtspunkten gesammelt worden sein, zum Beispiel die Daten aller Kunden mit den bisher erfolgten Umsätzen pro Kunde. In jedem Fall erlaubt das Datawarehouse eine Analyse von Daten und ihre Verknüpfung, was neuen Erkenntnisgewinn produziert.

Die Erstellung eines Datawarehouses
Man erstellt ein Datawarehouse, um Daten aus unterschiedlich strukturierten und verteilten Datenbeständen zu integrieren, zu sortieren und verknüpfen zu können. Die Daten kommen aus verschiedensten Quellen und weisen daher unterschiedliche Ansätze auf. Das Problem ergibt sich ständig bei Unternehmensfusionen und schon bei der Zusammenlegung von Abteilungen in einem Unternehmen, sofern Datenbanken nicht standardisiert sind. So könnte eine Abteilung ihre Kunden nach Region, die andere nach Berufsgruppen sortiert haben. Das Datawarehouse erlaubt zum Beispiel die Standardisierung zweier unterschiedlich strukturierter Datenbanken.
Des Weiteren werden über das Datawarehouse Daten separiert. Einige Daten werden für operative Vorgänge genutzt, andere für Statistiken und Analysen. Um mit den Daten zu arbeiten, müssen sie generell vorhanden sein. In ein Datawarehouse werden die Daten möglichst einheitlich implementiert. Dazu müssen nicht Datenbanken völlig vereinheitlicht werden, das ist manchmal gar nicht nötig, sondern es müssen alle nötigen Merkmale eines Datensatzes separiert vorhanden sein. Im vorliegenden Beispiel genügt es, wenn von jedem Kunden alle Daten inklusive Adresse und Beruf (sowie weiterer Vorgänge) im Datawarehouse abgelegt werden, wobei jedes Merkmal (Name, Straße, Ort, Beruf und so weiter) ein separates Feld erhält, was später eine beliebige Sortierung und auch Analyse zulässt. Die Vereinheitlichung der Daten vor der Implementierung ins Datawarehouse ist der ETL-Prozess (Extract, Transform, Load), der regelmäßig erfolgen sollte.

Die Möglichkeiten des Datawarehouses
Durch das Datawarehouse wird eine umfassende Sicht auf verteilte, heterogene Daten ermöglicht, die aus verschiedenen Quellen stammen. Damit werden betriebliche Kennzahlen erhoben, zum Beispiel Umsätze pro Kunde, es sind überdies Analysen in mehrdimensionalen Matrizen möglich, dem OLAP-Würfel (Online Analytical Processing). Aus dem Datawarehouse werden anwendungsspezifische Auszüge erstellt, die Data-Marts. Es werden zum Beispiel alle Kunden zusammengefasst, die zwecks Neuabschluss angesprochen werden können. Daten können themenorientiert, chronologisch orientiert, analytisch orientiert oder operativ orientiert verwendet werden. Die Daten werden zudem dauerhaft gespeichert, rein physisch bedingt ein Datawarehouse die Sicherheit von Daten. Der Begriff stammt aus der Computerbranche, IBM wandte ihn in den 1980er Jahren erstmals an, heute werden solche Systeme auswertungs- oder businessorientiert von Softwareherstellern umfangreich angeboten.

Das Datawarehousing
Der Gesamtprozess der Anlage eines Datawarehouses wird als Datawarehousing bezeichnet. Dazu gehören:
  • Datenbeschaffung
  • Datenintegration (Staging)
  • ETL
  • Datenhaltung langfristig, wozu physische Voraussetzungen inklusive Back-ups gehören
  • Datenseparierung (Data-Marts) und Versorgung der Anwender mit den separierten Daten
  • Datenanalyse
Die Anlage der Daten im Datawarehouse kann in unterschiedlichen Matrizen erfolgen. Hier ist das Sternschema bekannt, welches die Daten auf effiziente Leseoperationen optimiert, das Schneeflockenschema, welches Daten des Sternschemas klassifiziert und damit feiner strukturiert, sowie das Galaxy-Schema, welches zusätzlich die Implementierung komplexer Situationen erlaubt. In der Praxis existieren oft Mischformen.
Die Beladung des Datawarehouses erfolgte lange Zeit turnusmäßig, wovon in letzter Zeit zugunsten von Real-Time-Datawarehousing abgewichen wird. Das ist zum einen durch moderne Technologien einfacher geworden, zum anderen entstand immer höherer Bedarf an hochaktuellen, aufbereiteten Daten, wobei operative und auswertende Systeme getrennt bleiben sollen. Das Real-Time-Datawarehousing ermöglicht das aktive Datawarehousing (englisch Active Data Warehousing, ADW). Damit werden einerseits Ergebnisse sehr zeitnah übermittelt, andererseits können operative Prozesse direkt und zeitnah gesteuert werden. ADW spielt daher die Ergebnisse des Datawarehousings unmittelbar zurück in die operativen Systeme. Hierbei entfaltet das moderne Datawarehouse seine ganze Kraft, von Abteilungen gesammelte Daten stehen in kürzester Frist in aufbereiteter Form zur Verfügung. Da somit neue Datenströme entstehen, die wiederum dem Datawarehousing zugeführt werden, entsteht ein permanenter, geschlossener Kreislauf, der sogenannte Closed Loop, der freilich von den operativen Nutzern und Datenbereitstellern sowohl angezapft als auch mit Daten beliefert wird.
Sämtliche Unternehmen, die mit umfassenden Datenbeständen arbeiten, benötigen ein Datawarehouse. Kleinere Lösungen bieten sich auch für KMU an und selbst für Einzelunternehmer, wenn die Datenbestände groß und komplex sind.