Was ist Big Data?
Die im Titel gestellte Frage klingt trivial, aber die Dinge sind manchmal etwas komplizierter als zunächst gedacht. Dies gilt insbesondere dann, wenn bei Modebegriffen Dinge (Daten), Verfahren (Data-Mining), Technologien (Programmiersprachen, Datenbanksysteme) und deren Anwendung in einem marketingtauglichen Begriff vermengt werden.
Genau das ist bei Big Data der Fall. Die Eingangsfrage sollte also lauten: „Was meinen die Marketingfuzzis und IT-Vertriebler, wenn sie von Dingen reden, von denen sie keine Ahnung haben (neuerdings Big Data)?
Um uns dem Thema sinnvoll zu nähern, werde ich zunächst ein paar Begriffe einführen. Fangen wir mit dem naheliegendsten an:
Wenn der Marketingfuzzi „Big Data“ sagt, meint er die Verarbeitung großer Datenmengen zum Zwecke des Erkenntnisgewinns, obwohl korrekt übersetzt (sofern das bei Modebegriffen möglich ist) eigentlich nur die Daten gemeint sind. Ich verwende im Folgenden die Begriffskombination „große Datenmengen“, um das Thema anschaulicher zu machen. Mit großen Datenmengen sind Datenmengen gemeint, die im Allgemeinen schwer zu verarbeiten sind. Das kann theoretisch schon bei ein paar Gigabyte der Fall sein, falls die Daten nicht in strukturierter Form vorliegen.
Merke: Big Data sind in der Regel große oder sehr große Datenmengen, die hauptsächlich in unstrukturierter Form vorliegen.
Das Strukturkriterium ist wichtiger als die Größe der Datenmenge. Eine relationale Datenbank wird, sofern sie korrekt angelegt ist, nicht unter den Begriff Big Data fallen. Auch dann nicht, wenn sie mehrere Terrabyte groß sein sollte.
Mit Marketingfuzzi meine ich jeden, bei dem es bei der gebetsmühlenartigen Wiederholung von was auch immer, eigentlich immer nur um Geld, Ruhm, Anerkennung oder sonstige Vorteile für sich selbst geht.
Data-Mining bezeichnet den Vorgang mittels geeigneter Algorithmen wertvolle Daten (in unserem Fall Entscheidungsgrundlagen und sonstige monetarisierbare Erkenntnisse) aus dem vorhandenen Datenrauschen zu extrahieren. Es geht also um die Beschaffung von Wissen, das bisher unbekannt UND potentiell nützlich ist. Unnützes Wissen ist allenfalls Gegenstand der „Neon“ (eine Art Bravo für die Ü-30 Zielgruppe) oder der „Bild“ (deren Hauptaufgabe in der Verbreitung von „Volks“-Produkten besteht. Insbesondere der „Volks-Verblödung“).
Big-Data und Data-Mining werden in den meisten Artikeln zu diesem Thema miteinander vermischt, was insbesondere auf den Umstand zurück zu führen ist, dass sie nicht unabhängig voneinander funktionieren. Die Methoden aus dem Data-Mining werden also häufig auf große Datenmengen angewandt.
Was unterscheidet Big Data von herkömmlicher Datenanalyse?
Das klingt bis hierher nicht sonderlich spektakulär, warum reden also alle davon? Die Frage ist nicht ganz unberechtigt. Aus Daten Informationen zu generieren auf deren Grundlage Entscheidungen getroffen werden, ist in jedem Unternehmen gängige Praxis. Der Bereich Big Data unterscheidet sich insbesondere durch folgende Punkte von herkömmlichen Daten-Auswertungen:
- Volumen der Daten
- Geschwindigkeit der Verarbeitung
- Vielfalt der Datenquellen
Schon am ersten Punkt wird deutlich, wo der Ursprung von Big Data liegt. Wir Menschen erzeugen täglich Unmengen von Daten (insbesondere, aber nicht ausschließlich, im Internet). Kleines Beispiel gefällig? Die Menge der Daten, die jede Sekunde durch unsere Datennetze fließt, ist größer als die Menge aller im Internet verfügbaren Daten vor knapp 15 Jahren. Wen stellt das wohl vor Probleme? Richtig, unsere Freunde die Suchmaschinen. Hier hat Google natürlich ganze Arbeit geleistet und das MapReduce-Verfahren entwickelt. Grob gesagt, geht es um das schnelle Durchsuchen sehr großer Datenmengen.
Was kann ich mit Big Data genau analysieren?
Damit nähern wir uns den Einsatzfeldern des Data-Mining, wo es anfängt spannend zu werden. Typische Einsatzfelder sind:
- Ausreißer-Erkennung (erkennt ungewöhnliche Ereignisse im Datenstrom);
- Clusteranalyse (findet sich ähnelnde Objekte, was gewissermaßen das Gegenteil der Ausreißer-Erkennung ist);
- Klassifikation (findet neue Zusammenhänge, nennen wir sie mir mal Informationsklassen);
- Assoziationsanalyse (Leute, die Milch kauften, kauften auch Müsli);
- Regressionsanalyse (wird für Prognosen verwendet: „Die Menschen fahren schneller nach Hause als zur Arbeit“) und
- Zusammenfassung (dient der Reduktion von Daten ohne Informationsverlust).
Das datengetriebene Unternehmen
Dem Management-Autor Peter Drucker wird folgender Satz zugeschrieben: „Was man nicht messen kann, kann man nicht managen.“ Dieser Satz kommt in nahezu jedem Buch über Unternehmensführung und in jeder zweiten Ausgabe von Wirtschaftsmagazinen vor (vielleicht sollte das mal jemand mit Big-Data-Methoden untersuchen).
Was habe ich in dem vorhergehenden Absatz gemacht? Ich habe eine Behauptung aufgrund von Erfahrungswerten aufgestellt, die ich aus dem Konsum von Literatur zur Unternehmensführung und Zeitschriften ableite. Meine These ist für die meisten Leute nicht überprüfbar. Bei wichtigeren Aussagen kann Intuition oder subjektive Erfahrung zu einem ernstzunehmenden Problem für die Existenz eines Unternehmens werden, sofern auf deren Basis falsche Entscheidungen getroffen werden. Das schöne an Big Data ist, dass wir jetzt keine falschen Entscheidungen mehr treffen werden, weil wir ja alles auswerten und unsere Rückschlüsse daraus ziehen können.
Bevor ich auf die Interpretation der Data-Mining Resultate eingehe, schauen wir uns an, was die perfekte Unternehmensvision mit Big Data wäre (wie man sie von einschlägigen Experten unter anderem im Harvard Business Manager nachlesen kann):
- Uns stehen alle Informationen zur Verfügung und wir können Sie auswerten;
- Wir verlassen uns nicht mehr auf unsere Intuition, sondern auf die Ergebnisse unserer Auswertungen;
- Wir treffen bessere Entscheidungen, weil Daten objektiver sind, als unser Bauchgefühl;
- Dadurch werden wir 5% produktiver und 6% profitabler als unsere Konkurrenten (diese Studie gibt es wirklich – siehe Harvard Business Manager 11/2012).
Schöne neue Welt. Prost.
Es gibt dabei eine Reihe von Problemen. Data-Mining ist super, allerdings eher dumm. Anders ausgedrückt: Es findet Zusammenhänge über deren Bedeutung der Algorithmus keine Kenntnis hat. Wie das ausgeht, ist in Davids Diskurs zu vermeintlichen Ranking-Faktoren nachzulesen: Es kommt zu schwerwiegenden Fehlinterpretationen. Das Gleiche passiert, wenn man die falschen Daten betrachtet oder zu wenige.
Ich will die Nützlichkeit von Big Data keineswegs in Abrede stellen. Es gibt auch ganz coole funktionierende Ansätze (zum Beispiel die Vorhersage von Immobilienpreisen aufgrund von öffentlich zugänglichen Suchinformationen).
Allerdings hat jede Analyse von Daten mit dem Zweck von Prognosen einen erheblichen Makel: Sie bezieht sich auf die Vergangenheit. Ich möchte regelmäßig Menschen auf der Straße ohrfeigen, die offenbar der Ansicht verfallen sind, es sei irgendwie möglich aus der Vergangenheit Erkenntnisse über die Zukunft abzuleiten. Dieses Vorgehen funktioniert nur in fiktiven linearen Welten.
Das Truthahn-Problem
Manche Leute wissen, dass ich gern für die Allgemeinheit teilweise etwas seltsam anmutendes Zeug lese. Der Schwarze Schwan: Die Macht höchst unwahrscheinlicher Ereignisse von Taleb gehört dazu, macht aber mit dem Truthahn-Problem sehr deutlich, was ich zum Ausdruck bringen möchte:
Ein Truthahn kann auf Basis aller ihm zur Verfügung stehenden Daten auf einem (für seine Verhältnisse) langen Zeitstrahl aus jeder Datenanalyse schließen, dass ihm der Metzger, der ihn täglich füttert, wohlgesonnen ist. Diese Annahme bezahlt er spätestens an Thanksgiving mit dem Leben.
Die Ausreißer-Erkennung im Data-Mining wird ein solch seltenes Ereignis erst im Nachhinein, also zu spät, feststellen. Ihr wollt es lebensnaher?
Schaut euch die Flut an, die kürzlich gefühlt halb Deutschland unter Wasser setzte. Das Extremereignis ist deshalb extrem, weil keiner damit gerechnet hat, dass die Pegelstände von vor 500 Jahren erreicht werden.
Also, Big-Data, Data-Mining und andere Datenanalysen sind super. Aber nur dann wenn die Auswirkungen unwahrscheinlicher Ereignisse nicht lebensbedrohlich sind.
Vielen Dank für den ausführlichen und gut erklärten Artikel. Gut verständlich für all diejenigen für die „Big Data“ im Moment noch lediglich ein Buzzword ist.
P.S. Das Wort „Fuzzi“ hätte ich weggelassen ;)