Statistik und Wahrscheinlichkeit
Statistische Untersuchungen erfolgen typischerweise in vier Phasen:
- In der ersten Phase wird das Forschungsvorhaben, z.B. eine bestimmte
empirische Fragestellung operationalisiert, d.h. in eine
quantifizierbare Form gebracht, die also das Bestimmen und Ermitteln
von Häufigkeiten der einschlägigen Merkmale (also der Variablen der
Untersuchung) ermöglicht.
- In der zweiten Phase werden Daten gesammelt, in der Korpuslinguistik
z.B. durch Suchanfragen in einem Korpus oder in verschiedenen Korpora
(oder Teilkorpora), und daraus ein Datensatz gebildet, der die
statistischen Einheiten und ihre Merkmalsausprägungen enthalten
(z.B. die Treffer der Suchanfrage sowie ihre Metadaten und
evtl. andere Merkmale).
- In der dritten Phrase werden die Daten in Bezug auf die Merkmale von
Interesse quantitativ beschrieben und beleuchtet, indem man
u.a. verschiedene Häufigkeitsmaße berechnet und
Häufigkeitsverteilungen bildet, tabellarisch und grafisch darstellt
und ihre Lage- und Streuungsmaße berechnet.
- In der vierten Phrase versucht man schließlich aus der quantitativen
Auswertung der vorliegenden Daten allgemeinere Schlussfolgerungen zu
ziehen, in der Korpuslinguistik also Aussagen zu treffen, die nicht
nur für die verwendeten Korpora gelten sondern auch für die gesamte
Sprachdomäne oder sogar die Sprache an sich, aus der die Korpusdaten
stammen.
Die Verfahren der dritten Phase gehören zur sogenannten deskriptiven
Statistik (auch beschreibende oder empirische Statistik
genannt). Sie ermöglichen Vergleiche zwischen verschiedenen
Datenquellen, in der Korpuslinguistik z.B. zwischen verschiedenen
Korpora oder Teilkorpora. Die Methoden der vierten Phase, welche
Schlussfolgerungen und Verallgemeinerungen aus den untersuchten Daten
ermöglichen, gehören zur sogenannten Inferenzstatistik (auch
schließende, induktive oder analytische Statistik genannt).
Diese Methoden basieren im Wesentlichen auf der mathematischen
Wahrscheinlichkeitstheorie.
Um solche Methoden der Inferenzstatistik sinnvoll und korrekt
anzuwenden, ist es zwar nicht erforderlich, die mathematischen Details
der Wahrscheinlichkeitstheorie zu verstehen, aber es ist sinnvoll und
hilfreich, die wichtigsten Grundbegriffe und Grundzüge dieser Theorie
kennenzulernen, daher werden sie im Folgenden vorgestellt.
Grundgesamtheit und Stichprobe
Zunächst ist es wichtig, zwischen den tatsächlich untersuchten Daten
und den existierenden aber nicht untersuchten Daten, auf die man
Rückschlüsse ziehen will, zu unterscheiden:
- In einer statistischen Untersuchung heißt die Menge aller Einheiten,
welche die Ausprägungen der untersuchten Merkmale (d.h. die Werte der
Variablen) aufweisen können, die Grundgesamtheit der
Untersuchung (auch Population genannt). Eine Grundgesamtheit
könnte z.B. eine Sprachdomäne wie das Deutsch Goethes, das
geschriebene Deutsch des 20. Jhd., das gesprochene Deutsch von
Jugendlichen der Gegenwart mit Migrationshintergrund, usw., aber auch
die deutsche Sprache im Allgemeinen sein.
- In den allermeisten statistischen Untersuchungen kann man nicht alle
Einheiten der Grundgesamtheit berücksichtigen (befragen, messen,
zählen usw.), entweder aus praktischen, z.B. Kosten- oder Zeitgründen,
oder weil es prinzipiell unmöglich ist, was gerade in der Linguistik
die Regel ist (im Prinzip gibt es ja unendlich viele Sätze, Äußerungen
usw.). Die Menge der statistischen Einheiten aus einer
Grundgesamtheit, die im einzelnen tatsächlich berücksichtigt werden,
nennt man eine Stichprobe.
- In diesem Sinn ist ein Korpus eine Stichprobe aus der
Grundgesamtheit einer bestimmten Sprache oder Sprachdomäne. Aber
insbesondere bei großen Korpora ist es oft zu aufwändig, alle
Einheiten einer solchen Stichprobe in Betracht zu ziehen –
z.B. alle Treffer einer Suchanfrage im Einzelnen darauf zu
überprüfen, ob sie tatsächlich eine Ausprägung der untersuchten
Eigenschaft aufweisen; in solchen Fällen ist es durchaus üblich,
dass man auch Stichproben aus dem Korpus zieht, das dann als
„kleine“ Grundgesamtheit betrachtet wird.
Die Inferenzstatistik stellt also Methoden und Verfahren zur Verfügung,
mit denen man aus den Ergebnissen einer Stichprobe (oder mehrerer
Stichproben) Rückschlüsse auf die entsprechende Grundgesamtheit ziehen
kann. Die Kennzahlen einer Grundgesamtheit, die den Statistiken einer
Stichprobe entsprechen, heißen Parameter der Grundgesamtheit.
Durch die Inferenzstatistik schließt man also von den Werten der
ermittelten Statistiken der Stichproben auf die Werte der entsprechenden
Parameter der Grundgesamtheit.
Stichprobenverteilung
Wenn man anhand einer gegegebenen Stichprobe eine Statistik ermittelt,
weiß man natürlich nicht, ob der Wert der Statistik gleich dem Wert des
entsprechenden Parameters der Grundgesamtheit ist. Zieht man weitere
Stichproben aus derselben Grundgesamtheit und ermittelt jeweils dieselbe
Statistik, sind die Werte in der Regel unterschiedlich, jedenfalls nicht
alle identisch, weil die Stichproben ja auch nicht identisch sind (sonst
würde es sich um eine einzige Stichprobe handeln). Die ermittelten
Werte bilden also eine Verteilung der Statistik. Könnte man für alle
möglichen Stichproben aus der Grundgesamtheit die Statistik ermitteln,
hätte man eine Verteilung aller möglichen Werte des Parameters der
Grundgesamtheit, die sogenannte Stichprobenverteilung der
Statistik.
Einer der Werte einer Stichprobenverteilung ist also der eigentliche
Wert des Parameters der Grundgesamtheit, man weiß aber nicht, welcher
Wert es ist, weil man ja nicht alle Werte der Grundgesamtheit kennt, nur
die Werte von Stichproben. Das beste, was man tun kann, ist zu
ermitteln, wie wahrscheinlich es ist, dass ein gegebener Wert aus der
Stichprobenverteilung der Wert des Parameters ist oder auch nicht. Mit
Hilfe der Wahrscheinlichkeitstheorie kann man jedem Wert der
Stichprobenverteilung eine Wahrscheinlichkeit zuordnen, dass er der Wert
des Parameters der Grundgesamtheit ist. Damit ist stellt die
Stichprobenverteilung auch eine Wahrscheinlichkeitsverteilung des
Parameters dar.
Für realistische (zumal linguististische) Grundgesamtheiten ist es
unmöglich, eine eigentliche Stichprobenverteilung zu bilden, weil man
nicht alle möglichen Stichproben ziehen kann. Aber die Erfahrung aus
vielen Beobachtungen und Experimenten zeigt, dass bei vielen natürlichen
(darunter auch linguistischen) Phänomenen, die
Wahrscheinlichkeitsverteilung der möglichen Ausprägungen eines Merkmals
von Interesse (d.h. der möglichen Werte einer Variable) eine Gestalt
hat, die durch eine (mehr oder weniger komplizierte) mathematische
Formel annähernd charakterisiert werden kann. In solchen Fällen
entfällt die Notwendigkeit, eine Stichprobenverteilung tatsächlich zu
bilden, man verwendet stattdessen die Formel als Modell der Verteilung
und zieht anhand dieses Modells Rückschlüsse auf die Grundgesamtheit
(d.h. also unter der Annahme, dass das Modell die einschlägigen
Parameter der Grundgesamtheit mit ausreichender Genauigkeit
abbildet).
Zufallsexperiment und Zufallsvariable
Damit die Rückschlüsse auf die Grundgesamtheit, die man aus einer
Stichprobe zieht, möglichst zuverlässig und überzeugend sind, sollte die
Stichprobe bestimmten Eigenschaften genügen. In der
Wahrscheinlichkeitstheorie heißt das Modell einer solchen Stichprobe ein
Zufallsexperiment. Die wiederholte Durchführung eines
Zufallsexperiments ergibt eine Wahrscheinlichkeitsverteilung (wobei man
i.d.R. die tatsächliche Durchführung von Zufallsexperimenten durch
mathematische – und meistens am Rechner durchgeführte –
Simulationen ersetzt). Im Folgenden werden einige der Grundbegriffe von
Zufallsexperimenten und Wahrscheinlichkeitsverteilungen skizziert; auf
der nächsten Seite werden dann drei spezifische
Wahrscheinlichkeitsverteilungen vorgestellt.
- Zufallsexperiment: ein (tatsächliches oder simuliertes)
Experiment, von dem die möglichen Ergebnisse vor der Durchführung des
Experiments bekannt sind aber das nach der Durchführung vorliegende
Ergebnis nicht mit Sicherheit vorhergesagt werden kann. Das
klassische Beispiel ist ein Münzwurf, mit den möglichen Ergebnissen
Kopf und Zahl.
- Eine Stichprobe gilt als Zufallsexperiment nur dann, wenn jede
Einheit der Stichprobe mit derselben relativen Häufigkeit
vorkommt, mit der sie in der Grundgesamtheit vorkommt; dann heißt
sie eine Zufallsstichprobe. In der Korpuslinguistik haben
Referenzkorpora den Anspruch, eine Zufallsstichprobe für eine
gegebene Grundgesamtheit zu sein – so z.B. soll das
DWDS-Kernkorpus eine Zufallsstichprobe für das geschriebene
Deutsch des 20. Jhd. sein.
- Aus strenger mathematischer Sicht kann kein Korpus eine
Zufallsstichprobe aus einer Sprachdomäne sein, deren genauen
Umfang und Zusammensetzung nicht bekannt ist, was der Fall ist
für die meisten linguistischen Grundgesamtheiten (Ausnahmen
könnten z.B. die Gesamtwerke toter Autoren oder alle bekannten
Belege einer toten Sprache sein). Aber wenn die Auswertung
derselben Suchergebnisse in vielen Korpora aus einer
Sprachdomäne eine Tendenz (z.B. eine bestimmte relative
Häufigkeit eines gegebenen Merkmals) erkennen lässt, verstärkt
das die Zuversicht, das die Korpora repräsentativ für die
Sprachdomäne sind und somit als Zufallsstichproben daraus
gelten.
- Wenn man jedoch, wie oben erwähnt, ein Korpus als eine
Grundgesamtheit betrachtet, dann kann man aus dieser
Grundgesamtheit mathematisch echte Zufallsstichproben ziehen,
weil der Umfang und die Zusammensetzung des Korpus ja bekannt
sind.
- Zufallsexperimente können auch aus Kombinationen verschiedener
einfachen Zufallsexperimente oder Wiederholungen desselben
Zufallsexperiments bestehen; dann spricht man auch
von mehrstufigen Zufallsexperimenten: z.B. zehn Münzwürfe
nacheinander.
- Eine Kombination von möglichen Ergebnissen eines
Zufallsexperiments heißt ein Ereignis. Bei einem einzigen
Münzwurf ist z.B. die Kombination Kopf-oder-Zahl gleich der Menge
aller möglichen Ergebnisse {Kopf, Zahl} – also ein sicheres
Ereignis – während die Kombination Kopf-und-Zahl ein
unmögliches Ereignis ist (gleich der leeren Menge). Auch einzelne
Ergebnisse werden mit Ereignissen identifiziert, und zwar als
Einermengen: z.B. das Ergebnis Kopf und das Ereignis {Kopf}, oder
bei zwei Münzwürfen das Ereignis {⟨Kopf, Zahl⟩}
(d.h. zuerst Kopf, dann Zahl, eines von vier möglichen
Ergebnissen dieses Zufallsexperiments).
- Wahrscheinlichkeit: eine Zahl zwischen 0 und 1, die jedem
möglichen Ereignis eines gegebenen Zufallsexperiments zugeordnet wird,
um den Grad der Gewissheit oder Erwartung, dass das Ereignis bei der
Durchführung des Zufallsexperiments auftritt, als numerisches
Verhältnis (oft in Prozent) auszudrücken. Die Wahrscheinlichkeit
eines Ereignisses e wird oft symbolisiert
als P(e) (P für probability, englisch für
Wahrscheinlichkeit). Ein sicheres Ereignis hat die Wahrscheinlichkeit
1 (also 100%) und ein unmögliches Ereignis die Wahrscheinlichkeit 0
(also Null Prozent) . Beim Münzwurf (mit einer normalen fairen Münze)
gilt: P({Kopf}) = P({Zahl}) = 0,5 (also 50%).
- Multiplikationsregel: Bei einem mehrstufigen
Zufallsexperiment, in dem das Ergebnis jeder Stufe vom Ergebnis
jeder anderen Stufe unabhängig ist, ist die Wahrscheinlichkeit des
Gesamtergebnisses gleich dem Produkt der Wahrscheinlichkeiten der
Teilergebnisse; z.B. bei einem Zufallsexperiment aus zwei
Münzwürfen gilt: P(⟨Zahl, Zahl⟩) = 0,5 × 0,5 =
0,25 (25%); bei drei Münzwürfen gilt: P(⟨Zahl, Zahl,
Zahl⟩) = 0,5 × 0,5 × 0,5 = 0,125 (12,5%);
usw.
- Zufallsvariable: eine für den mathematischen Umgang mit
Wahrscheinlichkeiten nützliche Abbildung der Ergebnisse eines
Zufallsexperiments auf Zahlen. Zufallsvariablen werden meist mit
Großbuchstaben wie X, Y, Z und beliebige Werte von ihnen mit
Kleinbuchstaben wie x, y, z angegeben; die Wahrscheinlichkeit,
das die Zufallsvariable X den Wert x hat, schreibt man
als P(X = x).
- Es gibt zwei Arten von Zufallsvariable:
- Diskrete Zufallsvariablen haben nur Werte, die den
ganzen Zahlen entsprechen, z.B. die Häufigkeit einer Wortform
in einem Korpus, die Länge einer Wortform in Buchstaben usw.
Auch kategoriale Variablen können als diskrete
Zufallsvariablen behandelt werden, z.B. indem man die Dekaden
eines Jahrhunderts auf 0 bis 9 abbildet, oder die
grammatischen Genera Femininum, Maskulinum, Neutrum auf 0 bis
2, usw.
- Stetige (oder kontinuierliche)
Zufallsvariablen können prinzipiell beliebige reelle Zahlen
als Werte haben, z.B. die Dauer einer Äußerung oder Pause
(wobei die Genauigkeit der Messung immer begrenzt ist,
z.B. auf Millisekunden).
Aus mathematischen Gründen ist es in statistischen Untersuchungen
oft vorteilhaft, eigentlich diskrete Merkmale als stetige
Zufallsvariablen zu modellieren, weil dadurch z.B. Berechnungen
einfacher oder schneller durchgeführt werden können. Die
Ergebnisse sind dann zwar oft nicht exakt aber i.d.R. durchaus
gute Annäherungen, die praktisch genauso gültige
Schlussfolgerungen erlauben.
- Es gibt verschiedene mathematische Funktionen von
Zufallsvariablen, die u.a. Wahrscheinlichkeitsverteilungen
charakterisieren und in statistischen Auswertungen oft verwendet
werden; zu den gebräuchlichsten zählen die folgenden:
- Die Wahrscheinlichkeitsfunktion
bzw. Wahrscheinlichkeitsdichtefunktion bestimmt die
Wahrscheinlichkeitsverteilung einer Zufallsvariable je nach
Art der Zufallsvariable.
- Bei diskreten Wahrscheinlichkeitsverteilungen heißt sie
auch Zähldichte, sie weist jedem möglichen Wert der
Zufallsvariable eine Wahrscheinlichkeit
zu: f(x) = P(X = x). Dementsprechend
gilt, für alle Werte xi der
Zufallsvariable X: die Summe
Σf(xi) = ΣP(X =
xi) = 1.
- Bei stetigen Wahrscheinlichkeitsverteilungen heißt diese
Funktion meist Wahrscheinlichkeitsdichte; der Wert
dieser Funktion ist, anders als bei diskreten
Zufallsvariablen, nicht eine Wahrscheinlichkeit sondern
ein Punkt am Graphen der Wahrscheinlichkeitsverteilung.
Das hat mit den Eigenschaften von reellen Zahlen zu tun:
- Zwischen zwei beliebigen reellen Werten von X
gibt es unendlich viele andere reelle Werte, und wenn
sie eine Wahrscheinlichkeit > 0 hätten, wäre die
Gesamtwahrscheinlichkeit der Zufallsvariable unendlich
groß; aber die Gesamtwahrscheinlichkeit ist
definitionsgemäß = 1, folglich muss die
Wahrscheinlichkeit jedes einzelnen möglichen Werts
einer stetigen Zufallsvariable = 0 sein.
Daher werden Wahrscheinlichkeiten bei stetigen
Zufallsvariablen nicht für einzelne Werte sondern für
Intervalle von Werten der Wahrscheinlichkeitsdichte
berechnet. Für ein gegebenes Intervall entspricht der
Wahrscheinlichkeit also die Fläche unter dem Graphen der
Wahrscheinlichkeitsdichte, die durch das Intervall
bestimmt ist (die Fläche wird durch Integration der Dichte
über das Intervall berechnet). Gemäß der Definition von
Wahrscheinlichkeit gilt: Die Fläche unter dem gesamten
Graphen (dessen Intervall aus der Unendlichkeit der
reellen Zahlen besteht) = 1.
- Die Verteilungsfunktion (auch kumulative
Verteilungsfunktion genannt) gibt für einen gegebenen
Wert x einer Zufallsvariable X die
Wahrscheinlichkeit an, dass X einen Wert annimmt, der
nicht größer als x ist: F(x) = P(X ≤
x). Da X ≤ x ein Intervall bestimmt, gilt
diese Definition sowohl für stetige als auch für diskrete
Zufallsvariablen. Einige Folgen dieser Definition sind
z.B.:
- P(X > x) = 1 − F(x) (da die
Gesamtwahrscheinlichkeit = 1).
- Wenn xa < xb,
gilt: P(xa < X
≤ xb)
= F(xb)
− F(xa).
- Für eine diskrete Zufallsvariable X mit
Wahrscheinlichkeitsfunktion f gilt: F(x) =
Σf(xi), wo
jedes xi ≤ x.
- Wenn eine diskrete Zufallsvariable X nur ganze
Zahlen als Werte annimmt, gilt: f(x) = F(x)
− F(x − 1).
- Die Quantilfunktion ist die Umkehrfunktion der
Verteilungsfunktion: Sie nimmt eine
Wahrscheinlichkeit p und gibt den kleinsten
Wert x der Zufallsvariable X zurück, für den
gilt: p = P(X ≤ x) (d.h., p ist gleich
der Summe der Wahrscheinlichkeiten der Werte, die nicht größer
als x sind). Mit dieser Funktion werden die
Streuungsmaße der Quartile und anderer Quantile gebildet.
- Auch folgende Lage- bzw. Streuungsmaße werden als Funktionen von
Zufallsvariablen definiert:
- Der Erwartungswert E(X) entspricht dem
arithmetischen Mittel einer Häufigkeitsverteilung; er
ergibt sich aus den Produkten der Werte des
Zufallsvariablen und der entsprechenden Werte der
Wahrscheinlichkeits(dichte)funktion: Für diskrete
Zufallsvariablen ist der Erwartungswert die Summe dieser
Produkte (also E(X) =
Σxi
f(xi)) und für stetige
Zufallsvariablen ist der Erwartungswert das entsprechende
Integral.
- Die Varianz Var(X) wird definiert als der
Erwartungswert des Quadrats der Differenz der
Zufallsvariable und deren Erwartungswert:
Var(X) = E((X −
E(X))2). Diese Formel lässt sich
auch so umformulieren:
E(X2) −
(E(X))2, was für manuelle Berechnungen
vorteilhaft ist. Wie bei Häufigkeitsverteilungen ist die
Standardabweichung die positive Quadratwurzel aus der
Varianz.
Üblicherweise werden die Symbole μ,
σ2 und σ für den
Erwartungswert, die Varianz bzw. die Standardabweichung einer
Wahrscheinlichkeitsverteilung (d.h. der entsprechenden
Zufallsvariable) verwendet, insbesondere als Parameter der
Grundgesamtheit, während die
Symbole x,
s2 und s für die
entsprechenden Statistiken von Stichproben verwendet werden.