Big Data - Big Challenge

Elke Theobald (Hochschule Pforzheim/Steinbeis-Transferzentrum)

Von Prof. Dr. Elke Theobald, Professorin für computergestützte Medien an der Hochschule Pforzheim sowie Mitgründerin und stellvertretende Leiterin des Steinbeis-Transferzentrums.

Big Data – the next big thing

Big Data ist das IT-Thema des Jahres 2012 in Deutschland und den USA. Gartner hat im Hype Cycle Report 2011 erstmals das Thema Big Data aufgenommen und erwartet, dass die damit verbundenen Technologien in fünf Jahren Mainstream geworden sind. Big Data als neues Modethema ist zunehmend in den Medien und Fachdiskussionen anzutreffen. Doch was ist überhaupt Big Data?

Die Definition des Begriffes ist noch reichlich unscharf und in vielen Meldungen und Berichten wird versucht, die Datengröße von Big Data mit mehreren Dutzend Terrabytes, Petabytes oder Zettabytes zu beziffern. Unabhängig von konkreten Schwellenwerten wird von Big Data immer dann gesprochen, wenn es sich um sehr große Datenmengen handelt, deren Bearbeitung allein aufgrund der schieren Menge durch herkömmliche Computertechnologien schwierig wird.

Doch was sind die speziellen Herausforderungen die dazu führen können, dass herkömmliche Technologien hier an ihre Grenzen kommen? Und was hat Big Data mit Marktforschung zu tun?

Goldgrube oder Datengrab?

Eine Ursache für die Datenmengen liegt schlichtweg im digitalen Ursprung vieler Daten und ihrer einfachen Speicherbarkeit z.B. im Internet: 200 Millionen Tweets täglich, die von den Absendern oft für den Moment gedacht waren, aber für die Ewigkeit bewahrt werden, weltweit vier Milliarden Facebook-Posts täglich. Neben den Social Media Beiträgen entstehen auch in der klassischen Webanalyse kontinuierlich enorme Datenmengen ohne weiteres Zutun z.B. die Nutzungsprotokolle von Webangeboten in Logfiles oder die Speicherung und Auswertung von Bewegungsprofilen z.B. in Customer Journey oder Clickstreamanalysen, durch Web oder Mouse Tracking. In Zukunft dürfte diese Datenmenge durch die Informationen von mobilen Endgeräten noch wachsen. All diese von Menschen mittelbar oder unmittelbar erzeugten Daten kann man auswerten und daraus vielleicht Erkenntnisse für Fragestellungen von Forschern oder Unternehmen ziehen. Doch welche Fragen kann man auf Basis dieser Daten wirklich sinnvoll beantworten? Und wie können die Datenberge grundsätzlich erschlossen werden, um Antworten aus Big Data zu erhalten? Zur Beantwortung dieser Fragen muss geprüft werden, in welcher Form Big Data im Internet vorliegt und welche Herausforderungen sich dadurch für die Computertechnologie und die Marktforschung ergeben.

Die Nadel im Heuhaufen

Die Informationen im Internet liegen in unterschiedlichsten Anwendungen und damit auch Datenformaten vor. Die Heterogenität der Datenformate ist eine Herausforderung für die Suchroboter, die dazu führen kann, dass bestimmte Quellen nicht aufgenommen werden – einfach weil dazu bislang die Schnittstellen nicht programmiert wurden oder weil die Informationen nur in geschlossenen Nutzergruppen oder Datenbanken zu finden sind, oder einfach, weil der Zugriff durch Captcha geschützt ist. Wir müssen davon ausgehen dass nur ein bestimmter Prozentsatz an Informationen im Internet mit Standardmethoden automatisiert zugänglich ist.

Aber auch das zugängliche Material ist naturgemäß nicht nach Forschungsfragen strukturiert und zeichnet sich durch eine große sprachliche Ausdrucksvarianz aus. Sehr viele Analyseprozesse setzen auf das Vorkommen spezieller Schlagwörter, um Informationen zur Beantwortung der Forschungsfragen zu finden. Doch Synonyme, Homonyme, Dialekte und Fehlschreibweisen erschweren das Finden relevanter Beiträge im Internet. Wirklich alle Quellen zu finden und daraus gegebenenfalls eine wie auch immer geartete sinnvolle Stichprobe zu ziehen (z.B. nach Quellenarten oder nach Nutzertypen) bleibt deshalb nach wie vor und für jede Forschungsfrage wieder neu eine spannende Herausforderung und bestimmt wesentlich die Qualität der nachfolgenden Forschung. Neben der umfassenden Erschließung aller relevanten Quellen und validen Methoden zur Stichprobengenerierung müssen gerade bei Big Data notwendige Maßnahmen zur Qualitätssicherung im Quellenkorpus durchgeführt werden. So gilt es z.B. Doppelnennungen herauszufiltern (da User identische Beiträge in Twitter, Facebook und Google Plus posten oder sie über mehrere parallele Konten verfügen) oder gefälschte bzw. bezahlte Einträge zu identifizieren. Nur die technisch einfach mögliche Datensammlung in öffentlichen Quellen macht Big Data deshalb allein noch nicht zur Chance. In der nächsten Stufe muss man fragen, wie weit eine automatisierte Analyse der Informationen gehen kann.

Big Data braucht Big Intelligence

Machen wir einfache Häufigkeitsauszählungen von Texten, so sind diese eigentlich problemlos vollautomatisiert durchzuführen. Aber auch hier stellt sich die Frage, ob Synonyme oder reflexive Pronomen beachtet werden und ob die einfache quantitative Auswertung zu wirklich korrekten Ergebnissen führt. Viel schwieriger gestaltet sich die Inhaltsanalyse der Beiträge. Sollen z.B. Produkterfahrungen oder Einstellungen analysiert werden, wird die semantische Analyse notwendig. Hier hat die Computertechnologie in den letzten Jahren Fortschritte gemacht, eine vollautomatische korrekte Erkennung ist jedoch nicht möglich. Softwareprogramme können bei der Analyse die Arbeitsschritte unterstützen, durchführen sollte sie aber immer noch ein Mensch, um auch wirklich die Qualität der Analyse abzusichern. Die Analysen erfordern die Ausarbeitung eines differenzierten Codeplans, um den Analyseprozess nachvollziehbar und valide zu machen. Standardcorpora und Wörterbücher helfen hier nur bedingt, da z.B. der Begriff "lang" im Zusammenhang mit Reparaturzeiten als negativ zu werten ist, im Zusammenhang mit der Lebensdauer z.B. einer Batterie in der Regel positiv gemeint ist. Analytische Programme können uns bei Big Data vor allen Dingen helfen, die Daten zu strukturieren und passende Beiträge zu spezifischen Themen zu finden – sie bereiten uns die Quellencorpora auf und machen sie zugänglich, nicht mehr und nicht weniger.

Bei den Datenmengen im Internet handelt es sich nicht um strukturierte Daten (die wir viel einfacher verarbeiten könnten) und auch nicht nur um reine Textdaten. Zunehmend spielen weitere Informationsträger wie z.B. Videos und Bilder eine bedeutende Rolle und sollen in die Analysen einbezogen werden. Im Kontext von Big Data bedeutet dies, dass z.B. alleine bei Youtube pro Minute 60 Std. Film hochgeladen werden. Hier die relevanten Beiträge z.B. zu den eigenen Produkten oder Themenkreisen zu recherchieren ist eine aktuelle Herausforderung der Computer-Technologie. Sollen also alle Medien in die Analyse einbezogen werden, muss mit unterschiedlichen Analysemethoden für Bildanalyse, Textanalyse und Videoanalyse gearbeitet werden.

Echtzeitanalyse

Als Computernutzer sind wir seit langem an die Echtzeitverarbeitung unserer Anfragen gewöhnt. Bei den enormen Datenvolumen wird jedoch die Datenbearbeitung z.B. das Suchen von Mustern, sehr zeitaufwendig. Echtzeitanalysen dieser Datenmengen sind allein durch die schiere Menge eine Herausforderung und so entsteht etwas, was wir aus der Anfangszeit der Computertechnologie kennen: Stunden-, ja tagelange Wartezeit, bis die Ergebnisse vorliegen. Sind sprachanalytische Prozesse wie z.B. Sentimentanalysen von Web 2.0-Quellen durchzuführen, kann sich die Wartezeit noch deutlich verlängern. Um die Bearbeitungszeiten auf ein erträgliches Maß zu steigern, wird für die Bearbeitung von Big Data die parallele Datenverarbeitung auf mehreren Rechnern durchgeführt. Damit geht sehr häufig der Umgang mit Big Data in ein weiteres Modethema der IT-Industrie über: Die Verlagerung der Bearbeitungsprozesse in die Cloud.

Der Kontext macht den Unterschied

Die Identität der Autoren bleibt im Internet häufig im Verborgenen. Es fehlen dadurch Interpretationshinweise für die Bewertung von Aussagen und letztendlich lassen sich Zielgruppen nicht eindeutig identifizieren. So bleibt z.B. unklar, ob ein Blogger im Auftrag einer Organisation/eines Unternehmens handelt. Betrachtet der Forscher während der Analyse nur einzelne Beiträge, ohne den Kontext der Ursprungsseite zu berücksichtigen, besteht eine mögliche Quelle der Fehlinterpretation. Gerade bei Big Data entstehen sehr viele Informationen, die für die themenspezifische Interpretation isoliert in den Quellencorpus übernommen werden. Oft diskutieren z.B. Blogger Beiträge aus befreundeten Blogs, indem sie diese Beiträge zitieren – ohne Kontextinformation kann dies zu einer Fehleinschätzung des Beitrags führen.

Pluralität der Meinungen

Studien über die Nutzung von Internet- und Web 2.0-Anwendungen bestätigen bis heute, dass nur bestimmte Zielgruppen Web 2.0-Beiträge schreiben. Auf der Rezeptionsebene wird User Generated Content von sehr vielen Internetnutzern verwendet, doch das aktive Verfassen von Beiträgen ist nach wie vor auf eine spezifische Zielgruppe beschränkt. Durch diese Tatsache bleibt aber nach wie vor die zentrale Frage bestehen, ob über User Generated Content die Pluralität der Meinungen in der Bevölkerung erfasst werden kann: Big Data sind zwar viele Daten, aber sie enthalten vielleicht doch nicht alle Informationen und Meinungsbilder.

Fundgrube Big Data

Trotz aller Herausforderungen ist Big Data auch eine Fundgrube. Der Forscher hat die Chance authentische Meinungsäußerungen zu finden. Diese können gut als Original-Töne z.B. bei einer Produktneueinführung oder einer neuen Werbekampagne genutzt werden und die strukturierten Analysen durch Consumer Insights ergänzen.

Bei aktuellen Themen kann sehr zeitnah eine Analyse im Social Web Hinweise auf die Bewertung und Argumente der User geben. Trendthemen lassen sich teilweise frühzeitig durch die Analyse von Big Data erkennen. Google Insight for Search macht es vor: Durch die Analyse der Millionen Suchanfragen lässt sich die Ausbreitung von Grippeviren ebenso prognostizieren wie die Entwicklung von Börsenkursen.

Ein spannender Aspekt von Big Data ist die Verknüpfung von bisher unabhängigen Datenbeständen. Gerade durch diese Verknüpfung entstehen Big Data und damit auch die Chance auf neue Erkenntnisse. So ist z.B. denkbar die Zusammenhänge zwischen Werbekontakten im Customer Journey, Online-Produktkauf und Retouren auszuwerten und dadurch optimierte Werbemaßnahmen zu ergreifen um die Retourenquote zu verringern.

Fazit

Mein persönliches Fazit zu Big Data: Big ist nicht in jedem Fall gleich wonderful. Auch bei diesem Thema muss man die Qualitätsprinzipien der Marktforschung anlegen und sich fragen, ob alles Machbare auch wirklich sinnvoll ist. Sinnvoll sind Anwendungen dann, wenn sie zu neuen Erkenntnissen führen (z.B. durch die Kombination bislang getrennter Daten) oder Prozesse vereinfachen. Aber gerade bei der Vereinfachung von Prozessen muss sichergestellt werden, dass die bislang erreichten Qualitätsstandards auch beibehalten bleiben.

 

Diskutieren Sie mit!     

Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de