Schwarzenegger, Sensoren, und Simulation – Interview Teil zwei

Lesen Sie hier den zweiten Teil des Interviews mit Dr. Matthias Hagen, der seit anderthalb Jahren eine Juniorprofessur im Bereich Big Data Analytics an der Bauhaus-Universität Weimar innehat. marktforschung.de sprach mit ihm über die Chancen von Big Data, die Auswirkungen des Datenschutzes und Stimmungsanalyse.

Prof. Dr. Matthias Hagen, Bauhaus-Universität Weimar (Foto: Bauhaus-Universität Weimar, Candy Welz)

Prof. Dr. Matthias Hagen, Bauhaus-Universität Weimar (Foto: Bauhaus-Universität Weimar, Candy Welz)

Im ersten Teil des Interviews beschrieb Prof. Dr. Matthias Hagen, warum er dank Arnold Schwarzenegger auf das Akrostichon aufmerksam wurde, nun geht es um die weitere Verwendung dieser Akrosticha.

Matthias Hagen: Wir haben uns überlegt, Akrosticha in vorgegebenen Texten von Computern erzeugen zu lassen – quasi als Technologiedemonstration. Mithilfe verschiedener Textoperationen, zum Beispiel der Möglichkeit Synonyme oder Füllwörter zu finden und gegebenenfalls auch zu entfernen oder die Satzstellung zu ändern, ist das machbar. Man wendet diverse Textoperationen auf den Ausgangstext an. Dadurch ergibt sich ein Suchraum, der die zahllosen entstehenden unterschiedlichen Varianten des Textes abbildet.

In diesem riesigen Raum sucht man einen Weg von dem Ausgangstext zu einem Text im Suchraum, der die vorgegebene Eigenschaft erfüllt, also zum Beispiel ein bestimmtes Akrostichon zu enthalten oder 50 Wörter kürzer zu sein und trotzdem noch denselben Sinn zu haben. Dazu gibt es Technologien aus dem Bereich der Künstlichen Intelligenz, sogenannte heuristische Suchverfahren. Diese durchwandern den Suchraum nicht komplett, weil das ewig dauern würde, aber sie gehen die vielversprechendsten nächsten Schritte.

So haben wir zum Beispiel bei Wikipedia-Artikeln den Titel des Artikels als Akrostichon in den Anfang des Textes eingeflochten, was so in ungefähr jedem vierten oder fünften Fall gut funktioniert. Mit diesen Methoden ist es dann auch möglich von zwei vorgegebenen Texten, bei denen einer verdächtigt wird, Abschnitte des anderen zu enthalten, also ein Plagiat zu sein, herauszufinden, wie schwierig es war, den einen Text aus dem anderen zu bilden. Man erkennt die Schöpfungshöhe und kann so vielleicht einen menschlichen Plagiatserkenner unterstützen. Oder eben auch Texte lesbarer oder leichter verständlich machen.

Interaktionen im Netz und der Datenschutz

marktforschung.de: In welchen Bereichen gibt es aus Ihrer Sicht weiteren Forschungsbedarf?

Matthias Hagen: Vielversprechend sind Simulationen von menschlichem Verhalten. Möchte man Verhalten im Web analysieren, gibt es allerdings ein kleines Problem, denn nur die großen amerikanischen Firmen, wie zum Beispiel Google, wissen, was Menschen im Netz machen. Wir als Forscher bekommen aus verständlichen Gründen keinen Einblick in die Interaktionen. Wenn ich wüsste, welche Suchanfragen Sie in den letzten drei Wochen gestellt haben, würde ich ein ziemlich gutes Persönlichkeitsprofil von Ihnen erhalten und wüsste wofür Sie sich interessieren. Das geht bis zu Krankheitsbildern oder finanziellen Verhältnissen. An solche Daten kommen wir also zu Recht nicht.

marktforschung.de: Sie sprechen damit den wichtigen Aspekt des Datenschutzes an, inwieweit tangiert Sie der Datenschutz ansonsten bei Ihrer Arbeit?

Matthias Hagen: Wenn man das Sammeln von Daten unter juristischen Aspekten betrachtet, stellt sich die entscheidende Frage: Wem gehören überhaupt alle diese Daten? Um auf das Beispiel mit den Wellpappemaschinen zurückzukommen: Gehören die Daten eher dem Hersteller der Maschine oder demjenigen, der sie einsetzt? Uns berührt der Datenschutzaspekt aktuell eher nur in der bereits geschilderten Fragestellung der Analyse von etwa menschlichem Suchverhalten. Meiner Forschungsarbeit hat der Datenschutzaspekt bisher noch nicht entgegengestanden. Wenn ich zum Beispiel Menschen Texte schreiben lasse, dann sind sie natürlich vorher informiert, dass wir das für Wissenschaft und Forschung untersuchen.

Wenn ich also noch einmal zurückkomme zu den angesprochenen Interaktionen bei Suchmaschinen, die wir eben nicht abfragen dürfen, ist es schon so, dass wir eigentlich Suchmaschinen entwickeln möchten, die Menschen bei der Recherche unterstützen. Dafür wäre eine genauere Untersuchung dieser Interaktionen an sich schon interessant.

Aber wir entwickeln auch so neue Suchverfahren: Im Moment sind wir etwa im Kontakt mit "Der Spiegel". Große Verlage verschlagworten ihre Dokumente mithilfe einer sogenannten Taxonomie, sodass man Dokumente, die sich ergänzen auch gleich gemeinsam findet. Hier möchten wir noch einen Schritt weitergehen und sogenannte Schlüsselanfragen simulieren, es geht also nicht mehr um Schlüsselwörter sondern komplette Anfragen. Wir überlegen, bei welcher Anfrage welche Texte gefunden würden. Die kompletten Ergebnisse wandern in die Taxonomie und werden unter einer Anfrage verschlagwortet. Eine so funktionierende Systematik würde auch verhindern, dass bei der Schlagwortvergabe einzelne Dokumente nicht zuzuordnen sind und dann wie häufig üblich wenig aussagekräftig unter „Sonstiges“ landen.

marktforschung.de: Hat sich dieses Verfahren schon bewährt?

Matthias Hagen: Wir haben eine Nutzerstudie mit Wissenschaftlern gemacht, die unser Verfahren mit Google Scholar, einer ganz guten akademischen Suchmaschine, vergleichen sollten. Bei Google Scholar gibt es ein Feature, das Related Articles heißt. Vor den Augen der Wissenschaftler konnten wir ganz gut bestehen, sie waren mit unseren Suchergebnissen ebenso zufrieden wie mit denen von Google. An dieser Stelle würde sich auch eine Simulation des menschlichen Verhaltens anbieten, sodass man für eine Evaluation des Verfahrens gar keine Menschen rekrutieren und womöglich auch bezahlen müsste.

Stimmungen analysieren

marktforschung.de: Welche Szenarien in der Marktforschung könnten Sie sich darüber hinaus vorstellen?

Matthias Hagen: Vorhin sprachen wir über Stimmungsanalyse, die schon vielfach erfolgreich durchgeführt wird. Was aber noch in den Kinderschuhen steckt: Man kann einem Post zwar relativ gut ansehen, ob er insgesamt positiv oder negativ ist, aber wichtiger ist ja die Erkenntnis, in welchem Kontext der Tweet zu demjenigen steht, der ihn geschrieben hat. Wenn zum Beispiel die VW-Aktie um 20 Prozent gefallen ist und ich schreibe das in einem Tweet, hängt meine Sicht auf die Dinge ja davon ab, ob ich die Aktie habe oder vielleicht Wettbewerber von VW bin – im ersten Fall ist meine Stimmung vielleicht sehr negativ, im zweiten vielleicht gar nicht.

Für die Marktforschung kann ich mir auch vorstellen, dass es interessant wäre, größere Populationen von Menschen zu simulieren und zu schauen, wie sie sich verhalten oder wie sich Stimmungen entwickeln könnten. Man kann so etwas zwar schon beobachten, aber eine Simulation würde darüber hinaus den spannenden Blick in die Zukunft ermöglichen. Für die Suche im Web gibt es zum Beispiel schon ganz gute Simulationsverfahren: Wenn ich weiß, welche Anfragen Menschen potenziell stellen und welche Treffer sie erzielen könnten, kann ich menschliches Verhalten insofern simulieren, dass ich genauso viel Wissen aus meinen automatisch generierten Klicks gewinnen könnte wie der Mensch.

Aber ich kann auch genauso gut den idealen Nutzer simulieren, der dann ungefähr doppelt so gut ist im Umgang mit der Suchmaschine wie ein Mensch, er erhält also doppelt so viel Wissen in derselben Zeit. Das könnte man sicher auch gut verwenden, um zum Beispiel Interfaces miteinander zu vergleichen und herauszufinden, welches beim Menschen besser ankommt. Dann könnte man das Verhalten simulieren und schauen, wie weit weg vom idealen Verhalten der Durchschnittsnutzer eigentlich ist. Wenn der Durchschnittsnutzer bei System A weiter vom idealen Verhalten entfernt ist, obwohl das ideale Verhalten für System A eigentlich besser ist als für System B, weil er zum Beispiel länger braucht, um verschiedene Dinge anzuklicken, ist System A womöglich trotzdem nicht empfehlenswert. Der Durchschnittsnutzer wäre ja evtl. schlechter. Das wäre für die Marktforschung sicher ein spannender Bereich – und bei weitem nicht das einzige, was uns demnächst noch beschäftigen wird.

marktforschung.de: Herr Prof. Hagen, wir danken Ihnen für das informative Gespräch!

 

Diskutieren Sie mit!     

Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de