Dieses Repository ist Teil der Umfrage-Werkstattbox des Civic Data Labs. In der Werkstattbox findet ihr Infos und Hilfestellungen rund um das Thema Umfragen - von der Konzeption bis zur Auswertung.
Dieses Repository soll es Menschen mit Coding Vorerfahrung ermöglichen sich in Bayessche Statistik einzuarbeiten. Das notwendige mathematisches Vorwissen zu Wahrscheinlichkeitken wird wiederholt, kann hier aber nicht in vollem Umfang behandelt werden. Wir werden Beispiele aus dem Bereich Umfragen behandeln um die Konzepte zu erklären.
Die grundlegende Idee in der Bayesschen Statistik ist die eigenen Vermutungen über die Welt anhand von Daten zu aktualisieren (engl. Fachbegriff: Bayesian Updating). Zunächst müssen wir dazu unseren Wissensstand, bevor wir die Daten zu Gesicht bekommen, beschreiben um danach dann die Aktualisierung anhand der Daten vornehmen zu können. Der Wissensstand vor dem Sehen der Daten heißt Prior oder a priori Wahrscheinlichkeit. Der Wissensstand nach dem Sehen der Daten heißt Posterior oder a posteriori Wahrscheinlichkeit. Wie kann man einen (Un-)wissensstand mathematisch beschreiben? Mit Wahrscheinlichkeiten und Wahrscheinlichkeitsverteilungen.
Ein Beispiel: Bevor eine Münze geworfen wird, weiß man nicht ob sie Kopf oder Zahl zeigen wird. Bei einer typischen (fairen) Münze, kann man seinen Wissensstand also so ausdrücken:
Der eigene (Un-)wissensstand ist, "Die Wahrscheinlichkeit für Kopf ist 50%".
Wahrscheinlichkeitsverteilungen geben gleichzeitig die einzelnen Wahrscheinlichkeiten für mehrere Werte an. Bei einem typischen Würfel zum Beispiel so:
Wenn es um die Tendenz der Münze geht Kopf zu zeigen, also wie hoch der Anteil an Köpfen bei sehr vielen Münzwürfen typischerweise wäre, können wir das mit einer kontinuierlichen Verteilung darstellen. Diese muss Werten zwischen 0 und 1 Wahrscheinlichkeiten zuweisen. Denn der Anteil an Köpfen bei z.B. 1000 Würfen kann nur zwischen minimal
Werte um 0.5 werden hier als sehr viel wahrscheinlicher modeliert als extreme Werte in Richtung 0 oder 1. Mit anderen Worten wir halten es a priori für sehr wahrscheinlich, dass die Tendenz der Münze Kopf zu zeigen ungefähr bei 50% liegt. Wenn die Münze bei tausenden (oder millionen) von Würfen in 45% oder 55% der Fälle Kopf zeigt, wären wir auch nicht allzusehr überrascht. Wir vermuten a priori also, dass die Münze ungefähr fair (Tendenz 50%) ist.1
Wir haben diese Wahrscheinlichkeitsverteilung gerade genutzt um unsere Vermutung über eine Münze zusammen zu fassen bevor wir Daten über sie gesammelt haben. Nun stellen wir uns vor wir werfen die Münze 20 mal und schreiben auf wie oft sie Kopf oder Zahl zeigt. Mit diesen 20 Datenpunkten können wir uns nun an das Bayessche Aktualisieren unsere a priori Vermutung wagen und zu einem a posteriori Wissensstand gelangen.
Mal angenommen von den 20 Würfen zeigte die Münze 19 mal Kopf. Huch, vielleicht ist das doch gar keine faire Münze. Vielleicht ist sie auf Kopf gezinkt. Bayessche Statistik erlaubt es uns unsere initiale Vermutung über die Münze mathematisch exakt zu aktualisieren. Es gibt genau einen mathematisch-rationalen Weg die Daten über diese Münze und unsere Prior Vermutungen zusammen zu bringen und bei einer Posterior Verteilung zu landen. Diese beschreibt den (Un-)wissensstand, den ein mathematisch-rationaler Zuschauer hat, der mit unserem Prior gestartet ist und bei 19 von 20 Würfen Kopf gesehen hat.
Wir sehen, dass die Posterior Verteilung nun nicht mehr davon ausgeht, dass die Münze vermutlich fair ist. Mit unserem aktualisierten Wissensstand sehen wir Werte um 0.66 als wahrscheinlichste Werte für die Tendenz der Münze Kopf zu zeigen.
Wir haben 19/20 mal Kopf gesehen und dennoch ist die Wahrscheinlichkeit, für eine Tendenz um
Bayessches Updating erlaubt es sein eigenes Vorwissen mit in die Auswertung einzubringen. In unserem Beispiel, waren wir uns a priori recht sicher, dass die Münze fair ist. Im statistischen Kontext möchten wir allerdings meistens von einem neutralen a priori Wissensstand ausgehen, der nur völlig unplausible Werte ausschließt. Wir wollen schließlich einen unvoreingenommenen Blick auf die Daten werfen und nicht unsere eigenen Vermutungen im a priori Wissensstand einbauen.
Ein Beispiel: Wir wollen anhand von Daten herausfinden wie hoch der Anteil an Vereinsmitgliedern sein wird, die zum Sommerfest kommen.
Ein absolut neutraler Prior würde jedem Anteilsverhältnis zwischen 0 und 1 die gleiche Wahrscheinlichkeit geben bevor wir die Daten (zum Beispiel aus einer Umfrage) gesehen haben. Dass niemand kommt, dass genau
Footnotes
-
Wer genau hingeschaut hat, hat vielleicht gesehen, dass hier nicht die Wahrscheinlichkeit sondern die Wahrscheinlichkeitsdichte geplottet wurde. Bei kontinuerlichen Verteilungen ist das typischerweise der Fall. Jeder einzelne genaue Wert zwischen 0 und 1 ist extrem unwahrscheinlich. Was ist die Wahrscheinlichkeit, dass die Tendenz der Münze genau 0.44389209 ist? Genau 0. Sinnvolle Wahrscheinlichkeiten lassen sich bei kontinuierlichen Verteilungen nur für Intervalle angeben. Die Wahrscheinlichkeit, dass die Tendenz der Münze zwischen 0.4 und 0.6 liegt ist bei diesem Prior beispielsweise ca. 80%. Wahrscheinlichkeitsdichte lässt sich also gut plotten. Zu echten Wahrscheinlichkeiten kommt man wenn man die Dichte über ein Interval integriert. ↩

