Stichproben aus Korpora Sitemap

Kollokationen

Eine klassische Anwendung der Korpusauswertung ist die Kollokationsanalyse (auch Kookkurrenzanalyse genannt). Eine Kollokation sind zwei oder mehrere Wörter (Kollokationspartner), die überzufällig häufig, d.h. „häufiger als man durch bloßen Zufall erwarten würde“ (Perkuhn et al., S. 101) benachbart sind, z.B. Hund mit Katze, oder mit Herrchen, oder mit spazieren, oder mit kleiner, oder mit angeleint usw. Die Kollokationsanalyse kann gewinnbringend sowohl rein quantitativ als auch quantitativ-qualitativ vorgenommen werden: „Kollokationen werden zum einen auf syntaktisch-semantischer Ebene und zum anderen auf statistischer Ebene untersucht. Kollokationen, die mit Hilfe von statistischen Methoden gefunden werden, umfassen beliebige Wortkombinationen ungeachtet ihrer grammatischen Wohlgeformtheit. … Die Kollokationen nach dem syntaktischen Ansatz beschränken sich auf die Kombination bestimmter Wortarten (z. B. Substantiv-Adjektiv-Kollokationen).“ (Zitat aus dem DH-Lexikon)

DWDS verfügt über zwei Werkzeuge für die Kollokationsanalyse, das relativ leicht zu bedienende DWDS-Wortprofil und das mächtigere aber auch komplexere DiaCollo. Beide berücksichtigen sowohl rein quantitative als auch syntaktische und semantische Faktoren bei der Bildung von Kollokationen. Leider würde eine Erläuterung der Verwendung und der dahinter steckenden Methoden dieser Werkzeuge (und erst recht, wie man Ähnliches in R umsetzen kann) den Rahmen dieses Seminars sprengen. Daher beschränken wir uns hier auf eine einfache quantitative Analyse, die als ersten Einstieg in die Kollokationsanalyse dient und zugleich einige Probleme aufwirft.

Der einfachste Typ von Kollokation sind sogenannte Bigramme, d.h. zwei direkt aufeinander folgenden Wortformen. Z.B. besteht der Satz Der kleine Hund bellt laut aus folgenden Bigrammen: "Der kleine", "kleine Hund", "Hund bellt" und "bellt laut". Aber nicht jedes Bigramm ist eine Kollokation: Es muss zumindest überzufällig häufig vorkommen (eigentlich in der Grundgesamtheit aber in der Praxis in Stichproben, d.h. in Korpora); außerdem haben Kollokationen meistens eine Bedeutung, die sich nicht nur aus den gewöhnlichen Bedeutungen der zwei Wortformen ergibt, z.B. das Weiße Haus. Der Aspekt der Bedeutung gehört zur qualitativen Analyse, aber die Signifikanz der Häufigkeit können wir mit einem Hypothesentest überprüfen. Zunächst aber ist es interessant, die Häufigkeitsverteilung der Bigramme eines Korpus zu untersuchen.

Häufigkeitsverteilung der Bigramme eines Korpus

Wie bei der Häufigkeitsverteilung des Vokabulars geht das allerdings nicht mit einem ganzen DWDS-Korpus sondern nur mit Zufallsstichproben und die Vorgehensweise ist teils ähnlich, teils anders:

Auffällig ist der extrem hohe Anteil an „Hapax legomena“ der Bigramme, der bei über 90% liegen kann. Das hängt zum Teil mit der Stichprobengröße zusammen aber auch damit, dass die häufigsten Wortformen wie die Artikel viele Unterschiedliche Bigramme mit Hapax legomena bilden.

Anhand der Häufigkeitsverteilung stellt man fest, dass die häufigsten Bigramme fast alle nur aus Wörtern von geschlossenen Klassen wie Präpositionen, Artikel, Konjunktionen, Pronomina bestehen. Als Kollokationen werden solche Bigramme nicht betrachtet, denn ihre Verwendung ist fast ausschließlich durch die Grammatik der Sprache bedingt, Kontext spielt also kaum eine Rolle.

Interessanter und für die Kollokationsanalyse bedeutender sind Bigramme wie z.B. Adjektiv-Substantiv, Substantiv-Verb oder Verb-Substantiv. Aber für die Erstellung einer Häufigkeitsverteilung aus nur solchen Bigramme wäre der Export von annotierten Korpusdaten oder die nachträgliche Annotation der Daten erforderlich. Beides steht uns aber nicht zur Verfügunge, deswegen können wir hier nur einzelne Beispiele in Betracht ziehen.

Ein Hypothesentest für Bigramme

Für ein gegebenes Bigramm aus einem Korpus kann man eine 2×2-Kontingenztafel erstellen. Dafür ermittelt man zunächst die absolute Häufigkeit des Bigramms sowie die der ersten und zweiten Wortformen des Bigramms und auch die Korpusgröße. Das ist etwas aufwändig mit einer Stichprobe aus einem Korpus; außerdem, weil die Stichproben in DWDS zwangläufig verhältnismäßig klein sind, treten in ihnen viele Bigramme gar nicht auf, die man sicher in einem umfangreichen großen Korpus finden würde.

Aber für einen Hypothesentest kann man die nötigen Zahlen sehr einfach direkt aus DWDS und zwar für ein ganzes Korpus durch Suchanfragen erhalten. Als Beispiel nehmen wir das Bigramm ‚Weiße Haus‘ im DWDS3-Kernkorpus (nicht ‚Weißes Haus‘, weil die eigentliche Kollokation normalerweise zusammen mit dem definiten Artikel vorkommt: ‚das Weiße Haus‘, aber das ist ein Trigramm und wir beschränken uns hier auf Bigramme). Die Beachtung von Groß-/Kleinschreibung ist hier wichtig, was übrigens für die obige Vorgehensweise mit Stichproben Probleme bereitet. Wir ermitteln folgende absolute Häufigkeiten:

Die Kontingenztafel enthält die absoluten Häufigkeiten des Bigramms, des ersten Wortes und des zweiten Wortes jeweils abzüglich der absoluten Häufigkeit des Bigramms, sowie die absolute Häufigkeit aller Wortformen im Korpus, die weder das erste noch das zweite Wort des Bigramms sind:

Jetzt können wir den Chi-Quadrat-Test durchführen. Die Nullhypothese ist, dass die Wortformen Weiße und Haus unabhängig voneinander auftreten, d.h., dass die Häufigkeit des Bigramms Weiße Haus nur von den Häufigkeiten der zwei Wortformen bestimmt sein soll.

Diese Warnung gibt R aus, wenn mindestens ein erwarteter Wert < 5 ist. Und in der Tat, die erwartete Häufigkeit des Bigramms Weiße Haus nach der Nullhypothese (= Weisse.kk3 * Haus.kk3 / kk3.gr) ist, abgerundet auf eine ganze Zahl, sogar gleich Null, wie wir mit folgender R-Engabe feststellen:

Aber diese Warnung gilt insbesondere bei kleinen Stichproben, während unsere Stichprobe sehr groß ist. Und die Testergebnisse sind eindeutig:

Der p-Wert hier ist zwar abgerundet von R aber praktisch nicht zu unterscheiden von Null und damit ist die Ablehnung der Nullhypothese gerechtfertigt, d.h., aus statistischer Sicht gilt das Bigramm als Kollokation. Das ist eine quantitative Bestätigung der qualitativen Feststellung, dass Weiße Haus eine Bedeutung über die Bedeutungen seiner Teile hinaus hat.

Fragen über diese Schlussfolgerung wirft allerdings der Vergleich mit den Ergebnissen des entsprechenden Hypothesentests für das Bigramm weiße Haus auf, das qualitativ wohl nicht als Kollokation einzustufen ist (N.B.: das Adjektiv ist hier kleingeschrieben!):

Dieser p-Wert wird von R zwar nicht mit Null gleichgesetzt, aber nach der konventionellen Deutung rechtfertigt er auf jeden Fall die Ablehnung der Nullhypothese und damit die Schlussfolgerung, dass auch das Bigramm weiße Haus quantitativ als Kollokation einzustufen ist, was allerdings der qualitativen Einstufung widerspricht.

Jedoch gibt es beim Vergleich der zwei Hypothesentests sehr auffällige Unterschiede sowohl zwischen den Chi-Quadrat-Statistiken als auch zwischen den Verhältnissen der beobachteten zu den erwarteten Häufigkeiten: Die Teststatistik beim Bigramm Weiße Haus ist über 600mal größer als die beim weiße Haus, und bei Weiße Haus ist die beobachtete Häufigkeit über 820mal größer als die erwartete Häufigkeit, während bei weiße Haus das Verhältnis „nur“ 17:1 beträgt.

Diese Unterschiede, und insbesondere die sehr kleinen p-Werte, haben mit den Verteilungen der Wortformen und der Bigramme bei sehr großen Korpora und den sich daraus ergebenden sehr kleinen relativen Häufigkeiten zu tun. Es gibt auch statistische Tests, die für solche Verhältnisse besser geeignet sind als der Chi-Quadrat-Test, aber darauf kann im Rahmen dieses Seminars nicht eingegangen werden. Aber man kann auch mit dem Begriff der statistischen Signifikanz anders umgehen als nach der traditionellen Auffassung:

Stichproben aus Korpora Sitemap