- marktforschung.de
- Marktforschung
- ChatGPT vs. Google Bard vs. unsere Kolumnisten – Braucht es überhaupt noch Marktforschende?
Applied Science KI Special ChatGPT vs. Google Bard vs. unsere Kolumnisten – Braucht es überhaupt noch Marktforschende?

Zum Verwechseln ähnlich: Roboter Nadine (l) steht neben Professorin Nadia Thalmann, nach deren Bild die Maschine vor zehn Jahren geschaffen wurde. Mensch und Künstliche Intelligenz werden zukünftig schwerer zu unterscheiden, gilt das auch bei Kolumnen? (Bild: picture alliance/dpa | Christiane Oelrich)
1. Runde: Studiendesigns - Ring frei: Auf was muss man alles achten, damit ein Studiendesign als möglichst valide gilt?
Michael & Jan-Paul: Wichtig sind die Schlagwörter „interne“ und „externe“ Validität, wobei es beim Design eher um die interne Validität geht. Hierbei dreht sich alles um die Frage, inwieweit das Design auch in der Lage ist, wirklich kausale Effekte im Sinne eines Ursache-Wirkungs-Zusammenhangs sicherzustellen. Also dass man wirklich sagen kann „X war für Y verantwortlich“, sonst nichts, darauf haben wir kontrolliert. Dieses „Kontrollieren“ kann man mit den bekannten Kontrollgruppen sicherstellen, die parallel zur Experimentalgruppe befragt/beobachtet werden, um sie später miteinander vergleichen zu können. Weiterhin kann man Ausgangsniveaus (Baselines) vor Beginn der Studie bzw. dem experimentellen Stimulus erheben, damit man einen unbeeinflussten Ex-Ante-Vergleichswert hat. Aus der Differenz von Ausgangsniveau (Pretest) und Wirkung (Posttest) nach Gabe des experimentellen Stimulus (z.B. Preiserhöhung oder ein Kontakt mit einem zu testenden Werbemittel) berechnet sich dann der Veränderungseffekt in der Experimentalgruppe.
Um sicherzustellen, dass dieser Veränderungseffekt auch wirklich auf den Stimulus zurückzuführen ist und nicht auf andere Einflüsse von außen (wie z.B. zeitlich parallele Veränderung der Preise von Konkurrenzprodukten oder Kontakt mit Werbemitteln der Konkurrenz), wird auch bei der Kontrollgruppe ein zeitlich simultan geschalteter Pre- und Posttest durchgeführt und diese Differenz wiederum mit dem Veränderungseffekt in der Experimentalgruppe vergleichen. Das Ganze kann man dann „Diff-in-Diff“ oder Prä-Post-Kontrollgruppen-Design nennen. Das ist schonmal ziemlich gut.
Allerdings zeichnen sich streng wissenschaftlich betrachtet „echte“ Experimente durch das Kriterium der „Randomisierung“ aus, das bislang vernachlässigt wurde.
Das bedeutet wiederum, dass die an der Studie teilnehmenden Probanden zufällig auf die Experimental- und Kontrollgruppe verteilt werden müssen. Der Zufall stellt dann nämlich sicher, dass alle möglichen Störvariablen (sog. „Confounder“ oder „confounding variables“) in beiden Gruppen gleich verteilt sind und sich etwaige störende Einflüsse damit gegenseitig aufheben (z.B. gleich viele Männer und Frauen in beiden Gruppen oder jeweils gleich viele Markenkäufer*innen). Das ist zwar oftmals nicht ganz einfach umzusetzen, bringt aber den Vorteil mit sich, dass wir uns den erwähnten Pretest häufig sparen können! Denn anstatt dass wir im Pretest mögliche Confounder, d.h. relevante bestehende Unterschiede zwischen beiden Gruppen erfragen müssen, regelt das im „echten“ Experiment ja der Zufall für uns.
Beide Gruppen sind durch die Randomisierung „äquivalent“, also strukturgleich. Damit erübrigt sich jede Kontrolle aller denkbaren – und vergessenen! – Confounder. Weiterhin kommt es nicht zum sog. „Pretest-Effekt“, denn die erste Vorab-Messung/Befragung kann häufig eine Sensibilisierung oder Training für den zu testenden Stimulus auslösen und damit die Wirkung verfälschen, ganz abgesehen von der Schwierigkeit (und den Kosten) dieselben Befragten beider Gruppen zu zwei statt zu einem Zeitpunkt zu befragen. Allerdings hat man dann auch keine „Pre-Werte“ mehr, man muss sich also in Abhängigkeit des zu untersuchenden Gegenstands überlegen, ob einem die Vergleichwerte der Kontrollgruppe ausreichen oder ob man die Nachteile eines Pretests ob der Vorteile in Kauf nehmen möchte. Zum Abschluss, und um den Bogen zu spannen, bezieht sich die eingangs erwähnte „externe“ Validität auf die grundsätzliche Generalisierbarkeit der Studienergebnisse über die einzelne Studie, deren Messmethoden sowie deren Durchführungszeitpunkt und -ort hinaus.
ChatGPT 4.0: Ein valides Studiendesign ist entscheidend für die Qualität und Verlässlichkeit der Ergebnisse einer wissenschaftlichen Studie. Hier sind einige Aspekte, auf die man achten sollte, um die Validität einer Studie zu gewährleisten:
-
Interne Validität: Dies bezieht sich darauf, wie gut die Studie in der Lage ist, einen kausalen Zusammenhang zwischen den Variablen zu zeigen. Um die interne Validität zu erhöhen, sollte man auf Kontrollmechanismen achten, wie die Randomisierung der Versuchspersonen in verschiedene Gruppen, die Verwendung von Kontrollgruppen und die Kontrolle von Störvariablen.
-
Externe Validität: Dies bezieht sich darauf, inwieweit die Ergebnisse auf andere Situationen, Personen oder Zeiträume übertragen werden können. Um die externe Validität zu erhöhen, sollte die Stichprobe repräsentativ für die Population sein, an die die Ergebnisse generalisiert werden sollen.
-
Konstruktvalidität: Diese bezieht sich darauf, inwieweit die verwendeten Messinstrumente tatsächlich das messen, was sie messen sollen. Um die Konstruktvalidität zu gewährleisten, sollten die Messinstrumente sorgfältig ausgewählt oder entwickelt und ihre Validität und Reliabilität nachgewiesen sein.
-
Statistische Schlussfolgerungsvalidität: Dies betrifft die Genauigkeit und Korrektheit der statistischen Analysen und Schlussfolgerungen. Hier ist es wichtig, geeignete statistische Tests zu wählen und sie korrekt anzuwenden, sowie mögliche Fehlerquellen wie Verzerrungen oder Zufallsfehler zu berücksichtigen.
Es ist wichtig zu beachten, dass diese Aspekte oft miteinander verbunden sind und dass Kompromisse zwischen ihnen notwendig sein können. Zum Beispiel kann eine strenge Kontrolle der Störvariablen die interne Validität erhöhen, aber möglicherweise die externe Validität verringern, indem sie die Studie weniger repräsentativ für die reale Welt macht. Daher ist es wichtig, das Studiendesign sorgfältig zu planen und diese Aspekte in einem ausgewogenen Verhältnis zu berücksichtigen.
Google Bard: Die Validität einer Studie ist ein Maß für die Genauigkeit, mit der die Studie die wahre Beziehung zwischen zwei oder mehr Variablen misst. Es gibt verschiedene Arten von Validität, darunter interne Validität, externe Validität, Konstruktvalidität und Kriteriumsvalidität.
-
Interne Validität bezieht sich darauf, ob die Studie die wahre Beziehung zwischen zwei oder mehr Variablen misst und nicht durch Störfaktoren beeinflusst wird. Um die interne Validität zu erhöhen, sollte die Studie sorgfältig geplant und durchgeführt werden. Dazu gehören die Verwendung einer Kontrollgruppe, die Randomisierung der Teilnehmer auf die Gruppen und die Kontrolle von Störfaktoren.
-
Externe Validität bezieht sich darauf, ob die Ergebnisse der Studie auf andere Populationen oder Situationen übertragbar sind. Um die externe Validität zu erhöhen, sollte die Studie eine große Stichprobe aus einer repräsentativen Population verwenden.
-
Konstruktvalidität bezieht sich darauf, ob die Studie das Konstrukt misst, das sie zu messen beabsichtigt. Um die Konstruktvalidität zu erhöhen, sollte die Studie sorgfältig geplant und durchgeführt werden. Dazu gehören die Verwendung von validen und reliablen Messinstrumenten und die Definition der Konstrukte, die gemessen werden sollen.
-
Kriteriumsvalidität bezieht sich darauf, ob die Studie die Ergebnisse einer anderen Messung vorhersagt. Um die Kriteriumsvalidität zu erhöhen, sollte die Studie die Ergebnisse einer anderen Messung vorhersagen können.
Die Validität einer Studie ist wichtig, um sicherzustellen, dass die Ergebnisse der Studie zuverlässig und aussagekräftig sind. Wenn die Validität einer Studie nicht gegeben ist, können die Ergebnisse der Studie irreführend sein.
2. Runde: Sampling - Was zeichnet eine gute Stichprobe aus?
Michael & Jan-Paul: Kurz und schmerzlos: Die Repräsentativität, also dass die Stichprobe dieselben für die Studie relevanten (und im allerbesten Falle auch irrelevanten) Merkmalsausprägungen der Population, auf die man mit der Studie schließen will, aufweist.
Die Stichprobengröße hingegen ist KEIN Qualitätsmerkmal einer guten Stichprobe, sobald wir n > 30 in der kleinsten auszuwertenden Zelle und eine Zufallsstichprobe gezogen haben (siehe auch Zentraler Grenzwertsatz).
ChatGPT 4.0: Eine gute Stichprobe sollte folgende Eigenschaften aufweisen:
-
Repräsentativität: Eine Stichprobe sollte die Gesamtpopulation, die sie repräsentiert, so genau wie möglich abbilden. Das bedeutet, dass die in der Stichprobe vertretenen Charakteristiken der Bevölkerung ähnlich sein sollten. Dies ermöglicht es, die Ergebnisse der Studie auf die gesamte Population zu übertragen. Repräsentativität kann durch Zufallsauswahl oder stratifizierte Stichprobenverfahren erreicht werden.
-
Größe: Die Größe der Stichprobe sollte ausreichend groß sein, um genaue und zuverlässige Ergebnisse zu erzielen. Dabei spielt das Verhältnis zwischen der Stichprobengröße und der Größe der gesamten Population eine Rolle. In der Regel gilt: Je größer die Stichprobe, desto geringer die Wahrscheinlichkeit von Zufallsfehlern.
-
Unverzerrtheit: Eine gute Stichprobe sollte frei von Verzerrungen sein. Verzerrungen können auftreten, wenn bestimmte Gruppen in der Bevölkerung über- oder unterrepräsentiert sind. Dies kann die Validität der Studienergebnisse beeinträchtigen.
-
Zufälligkeit: Bei einer zufälligen Stichprobe hat jede Person oder Einheit in der Gesamtpopulation eine gleich große Chance, in die Stichprobe aufgenommen zu werden. Dies hilft, Verzerrungen zu vermeiden und die Repräsentativität der Stichprobe zu gewährleisten.
Es ist wichtig, bei der Planung und Durchführung einer Studie auf diese Aspekte zu achten, um die Qualität und Verlässlichkeit der Studienergebnisse zu gewährleisten. Die Auswahl einer geeigneten Stichprobe kann eine Herausforderung sein und erfordert eine sorgfältige Überlegung und Planung.
Google Bard: Eine gute Stichprobe ist eine Teilmenge einer Grundgesamtheit, die repräsentativ für die Grundgesamtheit ist. Das bedeutet, dass die Stichprobe die gleichen Eigenschaften wie die Grundgesamtheit hat, in Bezug auf die Merkmale, die für die Studie wichtig sind.
Eine gute Stichprobe ist wichtig, um sicherzustellen, dass die Ergebnisse einer Studie auf die Grundgesamtheit übertragen werden können. Wenn die Stichprobe nicht repräsentativ ist, können die Ergebnisse der Studie irreführend sein.
Es gibt verschiedene Möglichkeiten, eine gute Stichprobe zu ziehen. Eine Möglichkeit ist, eine zufällige Stichprobe zu ziehen. Das bedeutet, dass jede Person in der Grundgesamtheit die gleiche Wahrscheinlichkeit hat, in die Stichprobe aufgenommen zu werden. Eine andere Möglichkeit ist, eine gezielte Stichprobe zu ziehen. Das bedeutet, dass die Personen in der Stichprobe nach bestimmten Kriterien ausgewählt werden, z. B. nach Alter, Geschlecht oder Wohnort.
Die Größe der Stichprobe ist ebenfalls wichtig. Je größer die Stichprobe ist, desto genauer sind die Ergebnisse der Studie. Allerdings gibt es auch einen Punkt, an dem die Größe der Stichprobe nicht mehr zunimmt. Das liegt daran, dass die Fehler, die durch die Stichprobenziehung entstehen, mit der Größe der Stichprobe abnehmen.
Insgesamt ist es wichtig, die Stichprobengröße und die Art der Stichprobenziehung sorgfältig zu planen, um sicherzustellen, dass die Stichprobe repräsentativ ist und die Ergebnisse der Studie auf die Grundgesamtheit übertragen werden können.
3. Runde: Datenbereinigung - Welche Fallstricke lauern nach der Feldphase, worauf muss man im Schritt der Datenbereinigung besonders achten?
Michael & Jan-Paul: Ausreißer: also ungewöhnliche Fälle/Beobachtungen, die signifikant anders sind als der Rest. Häufig handelt es sich dabei um „Straightliner“, also Probanden, die den Fragebogen einfach ganz schnell durchgekreuzt haben, z.B. immer „1“. Solche Fälle entdeckt man auch darüber, dass sie extrem wenig Zeit auf den Fragebogen (oder ein anderes Messinstrument) verwendet haben. Weiterhin muss man unterscheiden zwischen uni- und multivariaten Ausreißern. Der univariate Ausreißer ist dabei nur hinsichtlich eines Merkmals auffällig, der multivariate Ausreißer passt auch bei weiteren Variablen nicht zum restlichen Sample.
Missing Values: Fehlende Werte kommen immer wieder vor, sei es durch übersprungene Fragen oder „weiß nicht“- Antwortoptionen. Wenn man seine Probanden zum Antworten „zwingt“, also mit Pflichtfragen arbeitet, hat man zwar vollständige Datensätze, allerdings auch das Problem, dass diese Antworten auf Fragen enthalten, die die Studienteilnehmer*innen eigentlich nicht beantworten wollten oder konnten. Wenn man also Missing Values in seinem frisch erhobenen Datensatz hat, bieten sich je nach Qualität der fehlenden Werte verschiedene Imputationsverfahren an. Was bedeutet in diesem Zusammenhang „Qualität“? Je zufälliger die fehlenden Werte verteilt sind, desto besser. Je weniger zufällig, also systematisch, desto schlechter. Um das festzustellen, gibt es verschiedene Testverfahren. Wenn die Missings zufällig verteilt sind, darf in der Regel imputiert werden, d.h. Sie können die fehlenden Werte mit plausiblen Schätzwerten ersetzen und ihren Datensatz so komplettieren. Falls sie das nicht sind, müssen Sie im schlimmsten Fall die betroffenen Fälle löschen.
Repräsentativität notfalls durch Gewichtung herstellen: Trotz aller Sorgfalt kann es vorkommen, dass Sie bei Analyse der ersten deskriptiven Ergebnisse feststellen: Meine Stichprobe ist nicht repräsentativ für die Grundgesamtheit!
Sollte man also alle aufwändig erhobenen Daten wegschmeißen und die Studie erneut durchführen? Au contraire, das Mittel der Gewichtung schafft Abhilfe! Stellen Sie sich vor, Sie wollen mit Ihrer Studie die Population Deutschlands abbilden, haben aber 55% Männer und 45% Frauen im Sample. Wir wissen ja aber, dass es eigentlich nur 49% Männer sind. Die Einführung einer simplen Gewichtungsvariable ermöglicht es, die Antworten der Frauen mit dem entsprechend wahren Gewichtungsfaktor 51% und der Männer mit 49% zu korrigieren.
ChatGPT 4.0: Die Datenbereinigung ist ein wesentlicher Bestandteil des Datenanalyseprozesses und es gibt mehrere potenzielle Fallstricke, die man vermeiden sollte:
-
Fehlende Werte: Es ist nicht ungewöhnlich, dass einige Daten fehlen, besonders wenn die Datenerhebung über Befragungen oder Experimente erfolgt. Fehlende Werte können die Ergebnisse der Studie verzerren und die statistische Analyse beeinflussen. Es ist wichtig zu entscheiden, wie man mit fehlenden Werten umgeht - ob man sie entfernt, ersetzt oder imputiert.
-
Ausreißer: Ausreißer sind Werte, die stark von anderen Werten abweichen. Sie können auf Fehler in der Datenerhebung hinweisen oder echte Anomalien darstellen. Es ist wichtig, Ausreißer zu identifizieren und zu entscheiden, wie man mit ihnen umgeht. Das Ignorieren von Ausreißern kann zu verzerrten Ergebnissen führen.
-
Konsistenz der Daten: Stellen Sie sicher, dass die Daten in allen Datensätzen konsistent sind. Dies kann die Überprüfung der Einheitlichkeit von Datentypen, Messskalen und Kategorien umfassen.
-
Duplikate: Überprüfen Sie die Daten auf Duplikate. Duplikate können das Ergebnis verzerren, insbesondere wenn sie das Produkt eines Fehlers in der Datenerfassung oder -verarbeitung sind.
-
Fehlerhafte Daten: Fehlerhafte Daten können aus Tippfehlern, technischen Fehlern bei der Datenerfassung oder Missverständnissen bei der Dateneingabe resultieren. Es ist wichtig, diese Fehler zu identifizieren und zu korrigieren.
-
Überprüfung der Plausibilität: Die übermittelten Werte sollten auf ihre Plausibilität hin überprüft werden. Unglaubwürdige Extremwerte oder unlogische Muster sollten genauer betrachtet werden.
-
Datenschutz und Ethik: Bei der Datenbereinigung muss immer darauf geachtet werden, dass Datenschutzbestimmungen eingehalten werden. Personenbezogene Daten sollten anonymisiert oder pseudonymisiert werden, um die Identifizierung der Teilnehmenden zu verhindern.
Letztendlich ist das Ziel der Datenbereinigung, die Datenqualität zu verbessern und dadurch die Genauigkeit und Zuverlässigkeit der nachfolgenden Analysen zu erhöhen. Jeder Schritt im Prozess der Datenbereinigung sollte gut dokumentiert werden, um die Nachvollziehbarkeit und Reproduzierbarkeit der Ergebnisse zu gewährleisten.
Google Bard: Nach der Feldphase lauern viele Fallstricke, die die Qualität der Daten beeinträchtigen können. Dazu gehören:
-
Fehlerhafte Datenerfassung: Die Daten können aufgrund von menschlichem Fehler, technischem Versagen oder anderen Faktoren fehlerhaft sein.
-
Unvollständige Daten: Die Datensätze können unvollständig sein, wenn einige Fragen nicht beantwortet wurden oder einige Datensätze verloren gegangen sind.
-
Dubletten: Die Datensätze können Duplikate enthalten, wenn dieselben Datensätze von mehreren Personen eingegeben wurden oder wenn die Datensätze nicht eindeutig identifiziert werden können.
-
Anomalien: Die Datensätze können Anomalien enthalten, wie z. B. extreme Werte, fehlende Werte oder unlogische Werte.
Im Schritt der Datenbereinigung muss man besonders auf folgende Punkte achten:
-
Identifizieren und Bereinigen von Fehlern: Die Daten müssen auf Fehler überprüft und berichtigt werden.
-
Komplettieren von fehlenden Daten: Die fehlenden Daten müssen so gut wie möglich ergänzt werden.
-
Entfernen von Duplikaten: Die Duplikate müssen aus den Datensätzen entfernt werden.
-
Beheben von Anomalien: Die Anomalien müssen aus den Datensätzen entfernt werden.
Die Datenbereinigung ist ein wichtiger Schritt in der Datenanalyse, um sicherzustellen, dass die Daten sauber, konsistent und vollständig sind. Gute Datenqualität ist Voraussetzung für verlässliche und aussagekräftige Ergebnisse.
Hier sind einige zusätzliche Tipps für die Datenbereinigung:
-
Verwenden Sie eine Datenbereinigungssoftware: Es gibt eine Reihe von Datenbereinigungssoftware-Tools, die die Datenbereinigung automatisieren und vereinfachen können.
-
Arbeiten Sie mit einem Experten zusammen: Wenn Sie nicht über die notwendigen Kenntnisse oder Erfahrung verfügen, sollten Sie mit einem Experten für Datenbereinigung zusammenarbeiten.
-
Dokumentieren Sie Ihre Schritte: Dokumentieren Sie Ihre Schritte bei der Datenbereinigung, damit Sie Ihre Arbeit nachvollziehen und wiederholen können.
Timeout
marktforschung.de: Das war’s für’s Erste!
Wer nach den ersten drei Runden in der Punktwertung die Nase vorn hat, überlassen wir Ihnen, liebe Lesende.
Wir hoffen jedenfalls, dass Ihnen unser Applied Science KI Special gefallen hat und Sie sich schon auf die nächsten und finalen drei Runden - Datenanalyse, Interpretation und Reporting – freuen!
Geben Sie jetzt Ihre Stimme ab, wer das Rennen für Sie gemacht hat:
Über die Personen
Prof. Dr. Jan-Paul Lüdtke ist Co-Gründer der smart impact GmbH sowie Professor und Studiengangsleiter für E-Commerce an der Fachhochschule Wedel.
Prof. Dr. Michael Fretschner ist Co-Gründer der smart impact GmbH und Professor für Marketing & E-Commerce an der NORDAKADEMIE Hochschule der Wirtschaft.
Kommentare (0)
Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden