Benutzerspezifische Werkzeuge

Big Data

Big Data ist ein Synonym für die Bedeutung großer Datenvolumen in verschiedensten Anwendungsbereichen sowie der damit verbundenen Herausforderung, diese verarbeiten zu können.

Definition

Big Data beschreibt Datenbestände, die aufgrund ihres Umfangs, Unterschiedlichkeit oder ihrer Schnelllebigkeit nur begrenzt durch aktuelle Datenbanken und Daten-Management-Tools verarbeitet werden können.

In Abgrenzung zu existierenden Business Intelligence (BI) und Data Warehouse Systemen arbeiten Big Data Anwendungen in der Regel ohne aufwändige Aufbereitung (siehe: ETL Prozess) der Daten. Dies ermöglicht Kosteneinsparungen, Flexibilität und einen schnellen Zugriff auf Analysen aktuellster Daten.

Herkunft

Das Volumen der weltweit zu Verfügung stehenden Daten verdoppelt sich nach aktuellen Berechnungen alle zwei Jahre. Der enorme Datenzuwachs in Wirtschaft, Forschung und privaten Umfeld ergibt sich aus der Digitalisierung von Inhalten, der Erfassung  von Daten in digitalen Mess-, Steuer- und Kommunikationssystemen sowie dem Austausch dieser Daten in „intelligenten Umgebungen“. Dazu zählen z.B. die permanente Generierung von Daten durch die Nutzung von Mobiltelefonen, intelligenten Steuerungen im Heimbereich, oder Sensorsysteme zur Steuerung von Produktionsanlagen.

In sozialen Netzwerken, der Finanzindustrie (Finanz-Transaktionen, Börsendaten), sowie im Energiesektor (Verbrauchsdaten) und Gesundheitswesen (Genanalyse, Telemonitoring) entstehen damit neue Anwendungen und Geschäftsmodelle. Auch in vielen Bereichen der Wissenschaft (z. B. in der Geologie, Genetik, Proteomik, Klimaforschung und Kernphysik) wird mit großen Datenvolumen gearbeitet, um Modellberechnungen und Auswertungen zu erstellen.

Bedeutung

Neben der Zunahme des Datenvolumens lässt sich die Bedeutung von Big Data aber auch damit erklären, dass der betriebswirtschaftliche Wert von Unternehmensdaten zunehmend erkannt wird. Informationen, die sich aus Rohdaten erschließen lassen, stellen oft einen Wettbewerbsvorteil dar. Mit Hilfe von Big Data Analysen sollen Informationen in großen Datenmengen transparent für das Unternehmen aufbereitet werden. Beispiele sind sogenannte Forecasts oder Nowcasts zur Vorhersage zukünftiger Ereignisse oder Simulationen von Verkaufszahlen oder Nutzerverhalten. Dabei sind Umfang und Detailgrad, der für die Segmentierung genutzten Daten, von höchster Wichtigkeit. Zudem steigt der Wert von Informationen je kontextbezogener und schneller sie den entsprechenden Anwendern zur Verfügung stehen.

Herausforderung

Die Herausforderung von Big Data ist nicht primär die Speicherung der Datensätze auf entsprechend großen Datenträgern oder der Zugriff auf einzelne Datensätze. Die größte Herausforderung ist es, Daten effektiv zu nutzen und in den Daten vorhandenen Informationen zu extrahieren. Die dazu nötige Auswahl an Kriterien, sowie die Analyse durch Aggregation und Verknüpfung mit anderen Datensätzen (u.U. aus anderen Systemen) ist von enormer Relevanz. Das Ziel ist die effiziente und schnelle Analyse dieser Daten zu verwertbaren Informationen, sowie die Integration in operative Entscheidungs- und Geschäftsprozesse. Dies ist notwendig, da einzelne Datensätze oft nur eine begrenzte Aussagekraft haben. Aus Anwendersicht ist es außerdem entscheidend, wie die Daten visualisiert werden und welche Möglichkeiten der Interaktion sich für ihn ergeben. Je vielfältiger die Zugriffsmöglichkeiten für den Anwender, desto schwieriger ist es, Datenstrukturen zu erstellen die schnelle Antwortzeiten garantieren.

Anwendungsbeispiele/ Einsatzgebiete/ Beispiele

Typische Big Data Anwendungsbeispiele sind dort zu finden, wo große Datenmengen zeitnah oder nach sehr unterschiedlichen Kriterien zu analysieren sind. Beispiele für Big Data Szenarien aus dem Umfeld von Geschäftsanwendungen sind:

  • Echtzeitauswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen

  • Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection)

  • Auswertung von Datenströmen aus Sensoren (Produktionsmonitoring, M2M Kommunikation)

  • Erkennen von Zusammenhängen in der medizinischen Diagnostik, z.B. in der personalisierten Medizin zum Finden individueller Therapiemöglichkeiten

Neben diesen neuen Szenarien ermöglichen für Big Data optimierte Systeme eine performante Integration von analytischen Informationen und Planungs- sowie Simulationsszenarien in bestehenden transaktionalen Anwendungen.  

Technologie

So umfassend wie die Definition von Big Data ist die Frage nach geeigneten Technologien. Neben der eigentlich Größe der Daten sind deren Eigenschaften, die Art der Abfragen (Häufigkeit und Komplexität) sowie die Echtzeitanforderungen (Verzögerung beim Schreiben neuer Daten, sowie bei der Abfragezeit) entscheidend für die Wahl der passenden Technologie. Prinzipiell kann man zwischen transaktionssicheren, real-time fähigen relationalen Datenbanken sowie hoch-skalierbaren Frameworks mit verteiltem Dateisystem und Parallelisierungskonzept unterscheiden. Um Echtzeit-Anforderungen von Big Data zu erfüllen, werden klassische relationale Datenbanksysteme zunehmend durch Hauptspeicherdatenbanken ergänzt oder komplett ersetzt. Für echtzeitkritische Unternehmensanwendungen sind verteilte Systeme wie Map/Reduce aufgrund ihrer hohen Latenz durch die Datenintegration oftmals keine Alternative. Map/Reduce-basierte Systeme wie Hadoop sind deshalb vor allem im Bereich von Batch-Analysen beliebt, wo Antworten nicht in Echtzeit benötigt werden oder die Datenmengen Größen erreichen, welche nicht mit vertretbaren Aufwand im Hauptspeicherdatenbanken verwaltet werden können (d.h. Hunderte bis Tausende von Terabytes).

Autor


 

Prof. Dr. Hasso Plattner, Fachbereich "Enterprise Platform and Integration Concepts", Hasso-Plattner-Institut an der Universität Potsdam, Prof.-Dr.-Helmert-Str. 2-3, 14482 Potsdam

Autoreninfo


Zuletzt bearbeitet: 16.10.2013 15:47
Letzter Abruf: 29.07.2016 21:35
Artikelaktionen