Übungsaufgaben zu Datensätzen Sitemap Wahrscheinlichkeitsverteilungen

Statistik und Wahrscheinlichkeit

Statistische Untersuchungen erfolgen typischerweise in vier Phasen:

  1. In der ersten Phase wird das Forschungsvorhaben, z.B. eine bestimmte empirische Fragestellung operationalisiert, d.h. in eine quantifizierbare Form gebracht, die also das Bestimmen und Ermitteln von Häufigkeiten der einschlägigen Merkmale (also der Variablen der Untersuchung) ermöglicht.
  2. In der zweiten Phase werden Daten gesammelt, in der Korpuslinguistik z.B. durch Suchanfragen in einem Korpus oder in verschiedenen Korpora (oder Teilkorpora), und daraus ein Datensatz gebildet, der die statistischen Einheiten und ihre Merkmalsausprägungen enthalten (z.B. die Treffer der Suchanfrage sowie ihre Metadaten und evtl. andere Merkmale).
  3. In der dritten Phrase werden die Daten in Bezug auf die Merkmale von Interesse quantitativ beschrieben und beleuchtet, indem man u.a. verschiedene Häufigkeitsmaße berechnet und Häufigkeitsverteilungen bildet, tabellarisch und grafisch darstellt und ihre Lage- und Streuungsmaße berechnet.
  4. In der vierten Phrase versucht man schließlich aus der quantitativen Auswertung der vorliegenden Daten allgemeinere Schlussfolgerungen zu ziehen, in der Korpuslinguistik also Aussagen zu treffen, die nicht nur für die verwendeten Korpora gelten sondern auch für die gesamte Sprachdomäne oder sogar die Sprache an sich, aus der die Korpusdaten stammen.

Die Verfahren der dritten Phase gehören zur sogenannten deskriptiven Statistik (auch beschreibende oder empirische Statistik genannt). Sie ermöglichen Vergleiche zwischen verschiedenen Datenquellen, in der Korpuslinguistik z.B. zwischen verschiedenen Korpora oder Teilkorpora. Die Methoden der vierten Phase, welche Schlussfolgerungen und Verallgemeinerungen aus den untersuchten Daten ermöglichen, gehören zur sogenannten Inferenzstatistik (auch schließende, induktive oder analytische Statistik genannt). Diese Methoden basieren im Wesentlichen auf der mathematischen Wahrscheinlichkeitstheorie.

Um solche Methoden der Inferenzstatistik sinnvoll und korrekt anzuwenden, ist es zwar nicht erforderlich, die mathematischen Details der Wahrscheinlichkeitstheorie zu verstehen, aber es ist sinnvoll und hilfreich, die wichtigsten Grundbegriffe und Grundzüge dieser Theorie kennenzulernen, daher werden sie im Folgenden vorgestellt.

Grundgesamtheit und Stichprobe

Zunächst ist es wichtig, zwischen den tatsächlich untersuchten Daten und den existierenden aber nicht untersuchten Daten, auf die man Rückschlüsse ziehen will, zu unterscheiden:

Die Inferenzstatistik stellt also Methoden und Verfahren zur Verfügung, mit denen man aus den Ergebnissen einer Stichprobe (oder mehrerer Stichproben) Rückschlüsse auf die entsprechende Grundgesamtheit ziehen kann. Die Kennzahlen einer Grundgesamtheit, die den Statistiken einer Stichprobe entsprechen, heißen Parameter der Grundgesamtheit. Durch die Inferenzstatistik schließt man also von den Werten der ermittelten Statistiken der Stichproben auf die Werte der entsprechenden Parameter der Grundgesamtheit.

Stichprobenverteilung

Wenn man anhand einer gegegebenen Stichprobe eine Statistik ermittelt, weiß man natürlich nicht, ob der Wert der Statistik gleich dem Wert des entsprechenden Parameters der Grundgesamtheit ist. Zieht man weitere Stichproben aus derselben Grundgesamtheit und ermittelt jeweils dieselbe Statistik, sind die Werte in der Regel unterschiedlich, jedenfalls nicht alle identisch, weil die Stichproben ja auch nicht identisch sind (sonst würde es sich um eine einzige Stichprobe handeln). Die ermittelten Werte bilden also eine Verteilung der Statistik. Könnte man für alle möglichen Stichproben aus der Grundgesamtheit die Statistik ermitteln, hätte man eine Verteilung aller möglichen Werte des Parameters der Grundgesamtheit, die sogenannte Stichprobenverteilung der Statistik.

Einer der Werte einer Stichprobenverteilung ist also der eigentliche Wert des Parameters der Grundgesamtheit, man weiß aber nicht, welcher Wert es ist, weil man ja nicht alle Werte der Grundgesamtheit kennt, nur die Werte von Stichproben. Das beste, was man tun kann, ist zu ermitteln, wie wahrscheinlich es ist, dass ein gegebener Wert aus der Stichprobenverteilung der Wert des Parameters ist oder auch nicht. Mit Hilfe der Wahrscheinlichkeitstheorie kann man jedem Wert der Stichprobenverteilung eine Wahrscheinlichkeit zuordnen, dass er der Wert des Parameters der Grundgesamtheit ist. Damit ist stellt die Stichprobenverteilung auch eine Wahrscheinlichkeitsverteilung des Parameters dar.

Für realistische (zumal linguististische) Grundgesamtheiten ist es unmöglich, eine eigentliche Stichprobenverteilung zu bilden, weil man nicht alle möglichen Stichproben ziehen kann. Aber die Erfahrung aus vielen Beobachtungen und Experimenten zeigt, dass bei vielen natürlichen (darunter auch linguistischen) Phänomenen, die Wahrscheinlichkeitsverteilung der möglichen Ausprägungen eines Merkmals von Interesse (d.h. der möglichen Werte einer Variable) eine Gestalt hat, die durch eine (mehr oder weniger komplizierte) mathematische Formel annähernd charakterisiert werden kann. In solchen Fällen entfällt die Notwendigkeit, eine Stichprobenverteilung tatsächlich zu bilden, man verwendet stattdessen die Formel als Modell der Verteilung und zieht anhand dieses Modells Rückschlüsse auf die Grundgesamtheit (d.h. also unter der Annahme, dass das Modell die einschlägigen Parameter der Grundgesamtheit mit ausreichender Genauigkeit abbildet).

Zufallsexperiment und Zufallsvariable

Damit die Rückschlüsse auf die Grundgesamtheit, die man aus einer Stichprobe zieht, möglichst zuverlässig und überzeugend sind, sollte die Stichprobe bestimmten Eigenschaften genügen. In der Wahrscheinlichkeitstheorie heißt das Modell einer solchen Stichprobe ein Zufallsexperiment. Die wiederholte Durchführung eines Zufallsexperiments ergibt eine Wahrscheinlichkeitsverteilung (wobei man i.d.R. die tatsächliche Durchführung von Zufallsexperimenten durch mathematische – und meistens am Rechner durchgeführte – Simulationen ersetzt). Im Folgenden werden einige der Grundbegriffe von Zufallsexperimenten und Wahrscheinlichkeitsverteilungen skizziert; auf der nächsten Seite werden dann drei spezifische Wahrscheinlichkeitsverteilungen vorgestellt.

Übungsaufgaben zu Datensätzen Sitemap Wahrscheinlichkeitsverteilungen