Deprecated: __autoload() is deprecated, use spl_autoload_register() instead in /customers/d/c/f/dominikschauer.com/httpd.www/wp-includes/compat.php on line 502 Warning: Cannot modify header information - headers already sent by (output started at /customers/d/c/f/dominikschauer.com/httpd.www/wp-includes/compat.php:502) in /customers/d/c/f/dominikschauer.com/httpd.www/wp-content/plugins/wp-super-cache/wp-cache-phase2.php on line 62 Deprecated: Function create_function() is deprecated in /customers/d/c/f/dominikschauer.com/httpd.www/wp-includes/pomo/translations.php on line 208 Wie man eine Frage stellt – Dominik Schauer

Wie man eine Frage stellt

Dieser Beitrag wurde von zwei Büchern inspiriert, die ich während der letzten paar Tage gelesen habe  The Elements of Data Analytic Style und The Art of Data Science (bei beiden handelt es sich um Pay-What-You-Want-Büchern, welche über die von mir gesetzten Links verfügbar sind). Neben anderen Themen beschäftigen sich beide mit etwas, das der wichtigste Schritt im analytischen Prozess sein könnte: wie stellt man sicher, dass die Frage, die sich einem stellt, tatsächlich diejenige ist, die man beantworten möchte. An dieser Stelle gebe ich die Kernbotschaft der entsprechenden Kapitel wieder1. Dabei werden wir einen Blick auf die Arten datenanalytischer Fragen werfen; darauf, was eine gute Frage ausmacht, und darauf, wie man eine Frage in ein Datenproblem umwandelt.

Arten von Fragen

Ein nützliches Gedankengerüst zur Findung einer guten Fragen ist es, sich zuerst selbst bewusst zu machen, welche Arten von Fragen existieren und dann zu entscheiden, welcher Kategorie eine spezielle Frage angehört. Nach Jeff Leek, dem Autor von The Elements of Data Analytic Style, gibt es sechs Arten von datenanalytischen Fragen2. Diese unterscheiden sich nach ihrem Zweck und ihrer Interpreation. Hier sind sie:

fragen arten

Das Flussdiagramm der Arten datenanalytischer Fragen (angelehnt an die Arbeit von Jeff T. Leek und Roger D. Peng3)

  1. Deskriptive
  2. Explorative
  3. Inferentielle
  4. Prädikative
  5. Kausale
  6. Mechanistische

Das Diagramm auf der rechten Seite hilft einem auch dabei, die Kategorie einer Frage zu bestimmen. Das Diagramm, auf dem dieses jenes basiert, kann auch auf Seite 4 in Jeffs Buch gefunden werden. Nun werfen wir einen Blick auf die Konzepte hinter diesen Arten von Fragen.

Deskriptive Fragen verlangen, die Beschaffenheitl eines Datensatzes zusammenzufassen. Beispiele umfassen etwa den Mittelwert, den Median, den Modus, die Varianz, die Standardabweichung oder Schiefe eines Merkmals genauso wie die Häufigkeit eines Ereignisses und den Erwartungswert einer Variablen. Es existiert keine Interpretation des Ergebnisses an sich, denn es handelt sich um einen Fakt.

Eine Explorative Frage baut auf einer desktiptiven Analyse auf. Sie sucht nach Mustern, Trends oder Beziehungen zwischen mehreren Variablen. Deren Hauptabsicht liegt in der Generierung von Hypothesen. Diese können entweder von einer Idee stammen, die man schon vorher hatte, order inspiriert sein von den Beziehungen, die während der Analyse gefunden wurden. Im Gegensatz zu inferentiellen, prädikativen, kausalen und mechanistischen Fragen wird nicht getestet, ob die Hypothese sich als wahr herausstellt.

Eine Inferentielle Frage baut auf einer explorativen Analyse auf. Sie verwandelt die zuvor gefundene Hypothese in eine Frage und strebt an, diese mittels eines fremden Datensatzes zu beantworten. Im Kern dreht sich eine inferentielle Frage darum, zu verifizieren, dass die in einer explorativen Analyse gefundene Evidenz.für eine größere Grundgesamtheit generalisiert werden kann.

Eine Prädiaktive Frage baut auf einer explorativen Analyse auf. Sie strebt an, eine Vorhersage für die Werte für die Merkmale eines spezifischen Individuums zu generieren. Diese Art von Frage beschäftigt sich eher mit dem “was” als dem “warum” oder “wie“. An dieser Stelle ist es wichtiger herauszufinden, welche Faktoren nützlich dafür sind, zu einer richtigen Vorhersage zu gelangen als den Grund für zu ihre Nützlichkeit.

Eine Kausale Frage fragt, ob einen Faktor zu verändern, im Duchschnitt, zu einer Veränderung eines anderen Faktoren führt. Im Gegensatz zu einer prädikativen Fragen ist es wichtiger, harauszufinden, ob eine Veränderung eines Faktoren eine Veränderung eines anderen Faktoren verursacht. Um such selbst den Unterschied bewusst zu machen, ist es nützlich, an Störfaktoren zu denken. Mordraten und Eiscremekonsum in amerikanischen Städten mögen zwar gute Prädiktoren füreinander sein, da sie stark miteinander korrelieren, aber Stieleisverkäufe bewirken schwerlich, dass Mordraten in die Höhe schnellen (und für eine prädikative Frage wäre das in Ordnung). Eine kausale Frage hingegen würde sich mehr dafür interessieren, herauszufinden, dass höhere Temperaturen im Summer der eigentliche Grund für einen steigenden Eiscremekonsum sind (und für höhere Mordraten).

Eine Mechanistische Frage fragt danach, ob einen Faktor zu verändern, notwendigerweise, zu einer Veränderung eines anderen Faktors führt. Sie unterscheidet sich von einer kausalen Fragen darin, dass es nicht nur für das “warum” interessiert sondern auch für das “wie“. Zum Beispiel mögen steigende Temperaturen zwar der Grund hinter steigenden Eiscremeverkäufen sein, aber das zu wissen erklärt nicht, wie genau eines zum anderen führt. In vielen Fällen wird ein sehr spezifischer Versuchsaufbau benötigt, um eine mechanistische Frage zu beantworten. In vielen Fällen besteht der Unterschied zwischen kausalen und mechanistischen Fragen generell weniger in analytischen Techniken als im zur Generierung des Datensatzes verwendeten Versuchsaufbau..

Was macht eine gute Frage aus

Hat man erst einmal herausbekommen, welche Frage man vor sich hat, ist man dazu angehalten, sicherzustellen, dass es auch eine gute Frage ist, bevor man fortfährt. Roger D. Peng und Elizabeth Matsui, die Autoren von The Art of Data Science, schlagen sechs Kriterien vor um genau das zu erreichen. Ihre Kriterien besagen, dass eine Frage folgendermaßen sein sollte:

  • Interessant Bevor man irgendwelchen weiteren Aufwand für die Beantwortung einer Frage verwendet, sollte man sicherstellen, dass es jemanden gibt, der (potentiell) daran interessiert ist, die Antwort zu kennen. Das kann ein ausgedehntes Kriterium sein falls man akademische Forschung betreibt, aber falls man im Gewerbe arbeitet, ist es ratsam, mit seinem Vorgesetzten und/oder  seinen Kollegen zu bestätigen, dass jemand anders an der Antwort einer Frage interessiert ist.
  • Unbeantworted Viele Fragen können einfach durch eine kurze Google-Suche beantwortet werden. Zum Beispiel stellen Behörden wie das U.S. Census Bureau oder das Deutsche Statistische Bundesamt eine Menge öffentlich verfügbarer Daten und Analysen zur Verfügung.  Die Antwort könnte auch inmitten der tausenden wissenschaftlichen Artikel gefunden werden, die jedes Jahr veröffentlicht werden. Falls eine Frage bereits beantwortet ist, gibt es wahrscheinlich keinen Grund dazu, die Analyse zu wiederholen
  • Plausibel So wie mit dem Eiscreme/Verbrechen-Beispiel oben ist es angeraten, dass es ein plausibles Gedankengerüst um eine Frage gibt. Zum Beispiel kann es vor der Durchführung einer Analyse wertvoll sein, zu wissen, bis zu welchem Grad die mögliche Antwort mit Vernunft erklärt werden kann.
  • Beantwortbar Leider können einige der besten Fragen nicht beantwortet werden. Das kann an den Kosten oder Schwierigkeiten liegen, die mit der Sammlung der benötigten Daten verbunden sind, oder an ethischen Gründen. Dennoch sollte eine Frage, der es Wert ist, nachgegangen zu werden, selbstverständlich beantwortbar sein.
  • Spezifisch Eine spezifische statt eine generelle Frage zu haben macht es einfacher, die Art der Frage zu bestimmen und macht es daher auch einfacher, über den Versuchsaufbau und den analytischen Prozess nachzudenken. Auch garantiert es, dass die Frage, die gerade beantwort wird, auch die ist, die jemandens Hörerkreis wirklich beantwortet sehen will. Es ist es daher wert, mit anderen, wie etwa seinen Kollegen, zu überprüfen, ob eine Frage spezifisch ist. Als ein Beispiel kann statt der generellen Frage “Steigen die Gehälter von Fußballspielern?” eine spezifischen etwa:
    • “Werden die inflationsbereinigten festen saisonalen Gehälter von professionellen Football-Spielern in der NFL während der nächsten 12 Monate steifen?” lauten, oder
    • “Wie sehr haben sich die nominalen Gehälter der professionellen Fußballspieler in der 1. Bundesliga, gemssen in Euro, im Laufe der letzten 12 Monate verändert?

    Dieses Beispiel zeigt, dass in vernünftiger Weise die selbe generelle Frage als viele verschiedene spezifische Fragen gedeutet werden kann.  Unspezifische Fragen sind eine potentielle Quelle von Frustration und verschwendeten Ressourcen. Darum sollten Fragen spezifisch sein.

Fragen in Datenprobleme umwandeln

Natürlich ist der Zweck des Stellens einer Frage sie zu beantworten. Im Fall einer datenanalytischen Frage wird man sie durch die Analyse einer Datensatzes beantworten. Daher muss man einmal die Frage in ein Datenproblem übersetzen. Um das zu erreichen, muss man, die Frage in eine Datenanalyse operationalisieren, welche zu einem Ergebnis führt.

Roger D. Peng und Elizabeth Matsui haben darüber nachgedacht, wie man sicherstellen kann, dass eine Frage diese Kriterium erfüllt. Hier ist eine Zusammenfassung ihrer Gedanken in Gestalt einer Checkliste:

  • Stell sicher, dass der Datensatz ausreichend nahe Messwerte der interessierenden Faktoren bereitstellt. Grund dafür ist es, sicherzustellen, dass es nur eine Interpretation der Ergebnisse gibt. Wenn man Messwerte analysiert, die nur irgendwie mit denen verwandt sind, um die es einen tatsächlich geht, gibt es konkurrierende Erklärungen für die Ergebnisse. Zum Beispiel könnte man bestimmen wollen, ob Fußballergehälter gestiegen sind, aber der Meswert, den man verwendet, besteht darin, wieviel diese Fußballer im Vergleich zum Vorjahr ausgegeben haben. Falls man herausfindet, dass die Ausgaben gestiegen sind, gibt es noch immer konkurrierende Erklärungen wie etwa gestiegene Preise für vergleichbare Güter oder eine Veränderung der Präferenzen der Fußballer zwischen Geld ausgeben und Geld sparen. Um das zu vermeiden, muss man einen Messwert benutzen, der näher an den tatsächlichen Gehältern liegt, zum Beispiel die Personalausgaben, die von den Mannschaften angegeben wurden.
  • Denke an Sörfaktoren. Man mag zwar eine Korrelation zwischen zwei Faktoren finden und schlussfolgen, dass einer den anderen herbeiführt, aber man muss vorsichtig damit sein wie das Eiscremebeispiel oben gezeigt hat. Wenn man eine Frage stellt, stelle sicher, dass du Störfaktoren berücksichtigen kannst. Gibt es einen möglichen Störfaktor, der den Personalaufgaben eines Sportvereins steigen lässt, der auch die Gehälter seiner Spieler steigen lässt? Die Inflation könnte solch ein Störfaktor sein. Wenn man sich der Störfaktoren bewusst ist, kann man sie berücksichtigen (falls die erforderlichen Daten einem zur Verfügung stehen) und man kann möglicherweise die Frage ändern (nach den realen Gehaltserhöhungen fragen statt nach den nominalen).
  • Während der Operationalisierung einer Frage in eine Analyse, stelle sicher, dass die Art der Sammlung des Datensatzes nicht zu verzerrten Ergebnissen führt. Nach Peng und Matsui sind Recall Bias und Stichprobenverzerrung die zwei häufigsten Arten von Verzerrung. An dieser Stelle gibt es auch eine komplettere Liste von Stichprobenverzerrungen und eine Liste koginitiver Verzerrungen. Ich werde einen Folgeartikel zu Verzerrungen schreiben und dazu, wie man mit ihnen umgehen kann, da sie manchmal nicht vermieden werden können. Möglicherweise aber kann sowohl die Art, wie man eine Frage stellt, als auch wie man die Datenerhebung und die Analyse operationalisiert, in der Tat eine Verzerrung vermeiden. Also verwende ein paar Minuten dazu, darüber nachzudenken, welche Verzerrungen eine Methode produzieren könnte und ob es eine Möglichkeit gibt, sie zu vermeiden.

Fußnoten

1. Die entsprechenden Kapitel sind Chapter 2: The data analytic question in Jeff Leeks und Chapter 3. Stating and Refining the Question in Roger Pengs and Elizabeth Matsuis Buch.
2. Jeff T. Leek, The Elements of Data Analytic Style, 2015, S. 4-7
3. Jeff T. Leek and Roger D. Peng, What is the question? in Science,  20 March 2015: Vol. 347 no. 6228, S. 13141315, DOI: 10.1126/science.aaa6146
4. Roger D. Peng and Elizabeth Matsui, The Art of Data Science, 2015, S. 20-22

Leave a Reply

Your email address will not be published. Required fields are marked *