27. August 2014

Vom Gläsernen Menschen zum berechneten Bürger, Teil 2

Die NSA-Forscher haben im Falle der chinesischen Militärpolitiker etwa herausgefunden, dass die Bereitschaft, einen bewaffneten Konflikt führen zu wollen, sich von unterschiedlichen Kommunikationsprofilen ableiten lässt. Allein welche Angehörigen welcher Interessengruppen im Zentralkomitee der KP Chinas in welcher Intensität mit Mitgliedern der eigenen Gruppe oder mit Angehörigen anderer fraktioneller Gruppierungen telefonieren oder mailen, lässt Schlüsse auf die Risikobereitschaft für einen bewaffneten Konflikt zu.

Simulationen auf Big-Data-Grundlage sind riesige lineare Gleichungssysteme

Dabei werden sogenannte Inferenzen, also Abhängigkeiten auf der Grundlage statistischer Wahrscheinlichkeitsberechnungen ermittelt. Dafür nutzten die NSA-Statistiker für ihre Versuche im Jahr 2011 einen Höchstleistungsrechner, der 16 Billiarden Gleitkommaoperationen pro Sekunde schafft und ein System von 18 Millionen linearer Gleichungen für das Risikoprofil eines Politikers und dessen Verhaltensprognose berechnet.

Die Methode selbst ist schon recht alt. So haben die Vertriebsspezialisten der amerikanischen Supermarktkette Wall Mart Ende der 1980er Jahre herausgefunden, dass junge Männer, die abends Babywindeln einkaufen, auch einen Sixpack Bier in den Einkaufswagen legen. Diese statistisch signifikante Korrelation haben sie bei einer Auswertung von Kassenzetteln und Kreditkartendaten entdeckt.

Als Konsequenz wurden Sixpacks und Windeln nebeneinander in die Regale gestellt, um den Einkaufkomfort für die gestressten jungen Väter zu erhöhen. Die dankten das nicht nur durch besondere Kundentreue, sondern auch, indem sie den einen oder anderen Knabberartikel zusätzlich kauften, der in unmittelbar räumlicher Nähe von Sixpacks und Winden angeboten wurde.

Wall Mart entwickelte daraus ein Programm für die Sortimentspräsentation, mit dem besonders hohe Abverkaufszahlen erzielt wurden. Die Zahl der Parameter zur Ermittlung der statistisch signifikanten Korrelationen war recht überschaubar und ließ sich auch mit leistungsschwachen Buchhaltungscomputern nebenher berechnen.

Big Data hieß früher Business Intelligence und hat eine lange Tradition

Wesentlich mehr rechnerischen Aufwand musste da schon die Chase Manhattan Bank treiben, als sie ebenfalls Ende der 1980er Jahre ein Prognosesystem entwickelte, um die Insolvenzwahrscheinlichkeit ihrer Kunden besser abschätzen zu können. Hierfür wurden die auffälligsten Korrelationen zwischen dem Kauf- und Bezahlungsverhalten der Kunden und den tatsächlich eingetretenen Insolvenzen pro Geschäftsjahr ermittelt.

Dabei ergab sich, dass Kunden, die häufiger mit ihrer Kreditkarte Einkäufe bezahlten, ihre Barabhebungen am Bankschalter drastisch reduzierten und von teurer Qualitätsware vor allen Dingen bei Bekleidung auf Billig- und Sonderangebote umstiegen, extrem häufig zahlungsunfähig wurden. Die Bankmanager ließen eine Software für die Mustererkennung programmieren, die wöchentlich das Kauf- und Zahlungsverhalten der Kunden auswertete und daraus einen sogenannten Insolvenzkoeffizienten errechnete. Kunden mit erhöhter Insolvenzwahrscheinlichkeit wurden dann aktiv von ihrem Bankberater angesprochen.

Nach derselben Methode. aber auf einer wesentlich größeren Datenbasis arbeitet gegenwärtig ein System für bessere Kundenbindung, das der Mobilfunkanbieter Vodafone betreibt. Damit werden die am stärksten wechselwilligen Kunden identifiziert, denen dann bestimmte Bonusprogramme, Freiminuten oder neue Handymodelle angeboten werden, wenn sie ihren Vertrag verlängern.

„Grundlage solcher Kundenbindungsprogramme sind zumeist Kommunikationsdaten“, meint Professor Michael Feindt, dessen Blue Yonder GmbH wohl die derzeit leistungsstärksten Analysepakete für Big-Data-Auswertungen am Markt hat. „Die statistisch signifikanten Korrelationen werden in einem mehrdimensionalen Analyseverfahren ermittelt“, erläutert Professor Feindt, der seine ersten Big-Data-Analyseprogramme am europäischen Kernforschungszentrum CERN in Genf entwickelt hat.

Fehlerberechnung entscheidet über die Analysequalität

Die Prognosegüte hängt dabei auch wesentlich von der Fehlerberechnung und Plausibilitätsanalyse ab. „Die bloße Wahrscheinlichkeitsberechnung nur der Kriterien zur Ermittlung einer Korrelation reicht nicht“, urteilt Big-Data-Spezialist Michael Feindt. Die dafür massenhaft erhobenen und ausgewerteten Daten müssen zuvor um einzelne Ausreißer bereinigt werden. Und jede gefundene Abhängigkeit oder Inferenz wird noch einmal auf verschiedene Fehlerfaktoren hin analysiert.

Tags: politik

Kommentar schreiben

Kommentare: 0

Vom Gläsernen Menschen zum berechneten Bürger, Teil 2

Was kann ein Comiccast?