DWDS-Anfragesprache Sitemap Häufigkeitsmaße mit R

Häufigkeitsmaße für Korpora

Jede korpuslinguistische Recherche, die eine quantitative Auswertung von Korpussuchen vornimmt, beginnt mit dem Bestimmen der Häufigkeiten der Suchergebnisse (egal ob das einzelne Worttypes oder komplexere Ausdrücke sind). Diese Häufigkeiten heißen die Korpushäufigkeit oder Gebrauchshäufigkeit, oder auch die Korpusfrequenz oder Gebrauchsfrequenz oder einfach die Häufigkeit oder die Frequenz des Wortes bzw. Ausdrucks.

Es folgt eine Auswahl verschiedener Häufigkeitsmaße, die die Suchergebnisse quantitativ unterschiedlich darstellen und beleuchten. Die zwei geläufigsten Maße sind die absolute und die relative Häufigkeit.

Absolute Häufigkeit
Die absolute Häufigkeit ist die Anzahl der Treffer, d.h. der Vorkommen des gesuchten Wortes oder Ausdrucks im Korpus. Dieses ist das einfachste Häufigkeitsmaß und wird bei der Erstellung von Häufigkeitsverteilungen innerhalb eines einzigen Korpus verwendet (wie später ausführlich gezeigt wird), ist aber nicht nützlich für den Vergleich von Häufigkeiten zwischen Korpora unterschiedlicher Größe.

Relative Häufigkeit
Die relative Häufigkeit ist die Normierung der absoluten Häufigkeit bezüglich der Korpusgröße, indem Ersteres durch Letzteres geteilt wird; formaler ausgedrückt:

Damit eignet sich dieses Maß, um die Häufigkeiten der gleichen Einheiten (z.B. Wörter oder komplexerer Ausdrücke) zwischen verschiedenen Korpora (oder verschiedenen Teilen eines Korpus), die nicht gleich groß sind, zu vergleichen und daraus weitere statistische Schlussfolgerungen zu ziehen (womit wir uns später ausführlich beschäftigen werden).

In DWDS kann man relative Häufigkeiten anhand der obigen Formeln berechnen. Dafür benötigt man die Korpusgröße, also die Anzahl aller Tokens im Korpus; diese befinden sich für alle DWDS-Korpora auf dieser Seite (unter „Übersicht über die Korpora im DWDS“). (Achtung: Wenn Sie die Zahlen auf dieser Seite per Copy-&-Paste in ein Programm (z.B. R) eingeben, müssen Sie die Leerzeichen manuell entfernen, also nicht ‚121 397 601‘ sondern ‚121397601‘ eingeben.)

Die Trefferanzeige in DWDS enthält die keine Angabe von relativen – im Gegensatz zu absoluten – Häufigkeiten. Allerdings zeigt das Werkzeug für Wortverlaufskurven zwar relative Häufigkeiten in pMW, jedoch nicht für einzelne Korpora sondern nur für die zusammengefassten Suchergebnisse aus den Referenz- bzw. Zeitungskorpora (dafür aber sowohl insgesamt als auch nach Textklasse).

Für die folgenden Häufigkeitsmaße stellt das DWDS-Abfragesystem keine Anzeigen oder Werkzeuge zur Verfügung.

Proportionale Häufigkeit
Die proportionale Häufigkeit ist die Normierung der absoluten Häufigkeit eines Suchausdrucks bezüglich der Summe der absoluten Häufigkeiten einschlägig verwandter Suchausdrücke. Damit eignet sich dieses Maß, um z.B. die Verhältnisse der Häufigkeiten verschiedener Varianten eines Lemmas zwischen verschiedenen Korpora zu vergleichen. Hier ist eine formale Definition:

Da in typischen Verwendungen dieses Maßes die Zahlen nicht sehr weit auseinander liegen, ist die Darstellung als Prozent am sinnvollsten, also fp1 × 100 usw.

N.B.: Der Begriff „proportionale Häufigkeit“ ist kein gebräuchlicher Begriff in der Korpuslinguistik oder der Statistik: Es handelt sich formal um eine Variante der relativen Häufigkeit, bei der die Bezugsgröße nicht das ganze Korpus sondern nur die Vorkommen der zu vergleichenden Suchbegriffe darstellen. Aber aufgrund dieses Unterschieds ist es im Rahmen einer Darstellung von Korpushäufigkeitsmaßen sinnvoll, auch unterschiedliche Begriffe zu verwenden.

Differenzenkoeffizient
Dieses Häufigkeitsmaß gibt Auskunft darüber, ob die Anzahl der Treffer bei einer Suche in einem Teilkorpus so groß wie erwartet oder größer oder kleiner als erwartet ist (in Bezug auf das Gesamtkorpus). Es wird in der COSMAS II Online-Hilfe wie folgt beschrieben: Der Differenzenkoeffizient „normiert die jeweilige (absolute) Trefferhäufigkeit auf den Bereich -1 bis +1, indem er die tatsächlich auftretende mit der erwarteten Häufigkeit des zugehörigen Korpusquerschnitts vergleicht:

Hier ist eine formale Definition des Differenzenkoeffizienten:

Die erwartete Häufigkeit des Ausdrucks im Teilkorpus stellt also das Verhältnis der Teilkorpusgröße zur relativen Häufigkeit des Ausdrucks im Gesamtkorpus dar. Um diese Formel auf Suchergebnisse in DWDS anzuwenden, muss man wie folgt vorgehen:

Häufigkeitsklasse
Dieses Häufigkeitsmaß gibt den Klassen- oder Gruppenrang eines Types oder Lemmas im Vergleich zur Klasse des häufigsten Types oder Lemmas im Korpus an. Es wird in der COSMAS II Online-Hilfe wie folgt beschrieben: „Die Treffer werden durch Vergleich ihrer Häufigkeit mit der des häufigsten Wortes der deutschen Sprache "der" auf Häufigkeitsklassen abgebildet. Das häufigste Wort hat die Klasse 0. Treffer in der Häufigkeitsklasse 1, 2, etc. treten annähernd ½ ¼, etc. mal so oft wie das häufigste Wort auf. Mit jeder höheren Klasse N verringert sich die Trefferhäufigkeit auf 1/2N.“

Hier ist eine formale Definition (nach Perkuhn et al. S.80):

In dieser Formel berechnet log2 den Logarithmus zur Basis 2, ergibt also, wie oft 2 mit sich selbst multipliziert (potenziert) wird, z.B. gilt log2(8) = 3 und log2(16) = 4, weil 23 = 8 und 24 = 16. Da die Berechnung der Häufigkeitsklasse das Verhältnis der Häufigkeit des Referenzwortes fa(R) zur Häufigkeit eines anderen Wortes fa(W) (die definitionsgemäß nicht größer sein kann als fa(R)) beinhaltet, bedeutet das die Halbierung der Trefferhäufigkeit bei jeder Erhöhung der Klasse, und weil log2(fa(R) / fa(R)) = log2(1) = 0, ist die Häufigkeitsklasse 0 die Klasse des Referenzwortes.

Mit Hilfe der obigen Formel kann man auch eine Tabelle aller Häufigkeitsklassen eines Korpus erstellen, die für jede Klasse die Spanne (also den minimalen und maximalen Wert) der absoluten Häufigkeiten angibt:

Durch diese Tabelle gewinnt man einen ersten Eindruck über die Verteilung der Häufigkeiten im Korpus und damit über die numerische Gestalt des Korpus. (Wir werden sehen, wie man solche Tabellen mit R erstellen kann.)

In Perkuhn et al. wird auf folgende Eigenschaften von Häufigkeitsklassen hingewiesen:

In diesem Seminar werden wir die vorgestellten Häufigkeitsmaßen, wie auch alle anderen quantitativen Korpusauswertungen von Suchergebnissen in DWDS, mit dem Softwarepaket R ermitteln. Daher geben wir als nächstes eine kurze Einführung in den Umgang mit R.

DWDS-Anfragesprache Sitemap Häufigkeitsmaße mit R