Hypothesentests Sitemap Übungsaufgaben

Stichproben aus Korpora

Ein typisches Korpus ist eine Stichprobe aus einer sprachlichen Grundgesamtheit, und wenn das Korpus die Ansprüche der Repräsentivität für die Grundgesamtheit erfüllt, gilt es aus statistischer Sicht als Zufallsstichprobe. Meistens werden die Suchergebnisse einer Korpusanfrage in Bezug auf das gesamte Korpus ausgewertet (man kann aber auch Teile eines Korpus mit dem gesamten Korpus oder mit anderen Teilen des Korpus vergleichen, wie bei der Berechnung von Differenzenkoeffizienten oder anhand eines Chi-Quadrat-Tests). Manchmal aber ist eine Auswertung in Bezug auf das gesamte Korpus aus praktischen oder anderen Gründen nicht durchführbar:

In solchen Fällen bleibt einem nichts anderes übrig, als mit einem Teil der Korpusdaten zu arbeiten, also quasi mit Stichproben aus der Stichprobe, die natürlich auch Zufallsstichproben sein müssen. Im Folgenden zeigen wir am Beispiel einer typischen korpuslinguistischen Fragestellung, wie man mit solchen Hindernissen umgehen kann.

Häufigkeiten komplexer linguistischer Merkmale am Beispiel Passiv

Bei der Vorstellung von Hypothesentests haben wir die quantitative Operationalisierung einer qualitativen Hypothese an diesem Beispiel angedeutet: Man identifiziere den Grad der Formalilät des Schreibstils mit dem Anteil an Sätzen im Passiv. Jetzt wollen wir dieses Beispiel detaillierter ausarbeiten.

Die DWDS-Anfragesprache bietet keine direkte Möglichkeit (z.B. anhand von Annotationen), eine Anfrage nur für Sätze im Passiv zu formulieren. Man kann aber Wörter und Merkmale suchen, die in Passivsätzen vorkommen, z.B. eine Form des Lemmas werden (wir beschränken uns hier auf das Vorgangspassiv) und ein verbales Partizip Perfekt (Partizip II):

Das Problem mit dieser Anfrage ist aber, dass sie zwar alle Sätze im Passiv findet, aber unter den Treffern können auch Sätze sein, die nicht im Passiv sind, weil z.B. werden auch als Kopula und bei (auch nicht-passiven) Sätzen im Futur verwendet wird.

Eine Anfrage mit der DWDS-Anfragesprache zu formulieren, die alle und nur Sätze im Passiv findet, ist jedoch schwierig oder vielleicht unmöglich. Das bedeutet, man kommt praktisch nicht drum herum, die Treffer manuell darauf zu überprüfen, ob sie Sätze im Passiv sind oder nicht. Aber z.B. im DWDS-Kernkorpus findet die obige Anfrage 668062 anzeigbare Treffer, und sie alle so zu überprüfen ist praktisch unmöglich. Im Übrigen ergibt diese Anfrage im DWDS-Kernkorpus 733016 Treffer insgesamt, d.h. die anzeigbaren Treffer stellen ohnehin nur gut 91% aller Treffer dar.

Die einzige vernünftige Alternative ist, eine Zufallsstichprobe von Sätzen aus dem Korpus zu ziehen, die für eine manuelle Überprüfung klein genug aber für eine statistische Auswertung groß genug ist. Natürlich je mehr Sätze, umso besser, aber 100 Sätze ist hierfür eine vertretbare Größe.

Für dieses Beispiel sollen nicht nur Passivsätze gesucht sondern auch zwischen mehr und weniger formalen Schreibstilen unterschieden werden. Hier liegt es nahe, die Textklasse Belletristik als Stellvertreterin des literarischen (und daher vermutlich weniger formalen) Stils und die anderen Textklassen als Stellvertreter des informativen (und daher vermutlich formaleren) Stils zu betrachten – so jedenfalls lautet unsere qualitative Arbeitshypothese, die durch folgende Null- und Alternativhypothesen operationalisiert wird:

Wir gehen weiter wie folgt vor (evtl. nach dem bekannten source-Aufruf, um dwds.data.frame() usw. in R zu laden):

  1. Zwei Stichproben ziehen (je 100 beliebige und zufällig sortierte Sätze aus dem DWDS-Kernkorpus, eine Stichprobe nur aus der Textklasse Belletristik, die andere aus den übrigen Textklassen) und in R als Datensätze einlesen:

    > dwds.bel <- dwds.data.frame(Textklasse = "Belletristik", Zeilen = 100)
    > dwds.rest <- dwds.data.frame(Textklasse = c("Gebrauchsliteratur", "Wissenschaft", "Zeitung"), Zeilen = 100)

  2. Sätze aus den Datensätzen extrahieren, die eine Form von werden enthalten, und in zwei Vektoren speichern, einen für Belletristik, den anderen für die übrigen Textklassen:

    > werden <- "\\bw[aeiouü]rd(e([nt]|st)?)?\\b"    # regulärer Ausdruck für Formen von werden
    > werden.bel <- grep(werden, dwds.bel$Treffer, ignore.case=TRUE, value=TRUE)
    > werden.rest <- grep(werden, dwds.rest$Treffer, ignore.case=TRUE, value=TRUE)

    Erläuterungen:

  3. Die Sätze in den Vektoren werden.bel und werden.rest manuell überprüfen und Sätze, die nicht im Passiv sind, ausschließen. Ein Versuch hat 13 Sätze aus der Textklasse Belletristik und 18 Sätze aus den übrigen Textklassen mit einer Form von werden gefunden:

    > werden.bel
    [1] "Das völlige Verbot der Einfuhr von Manufakturen wird unerläßlich, ebenso der Ausfuhr solcher Rohstoffe, welche die einheimischen Gewerbe für die eigene Produktion benötigen."
    [2] "Kein Baum war ihr zu hoch, kein Graben zu breit, und wurde sie dafür gescholten, so brach sie jedesmal in schmerzliche Verwünschungen aus, daß sie kein Junge war."
    [3] "Und dennoch mußten die Termine von einer Woche auf die andere verschoben werden, die Nachfrage nach objektiven Schwierigkeiten stieg wieder an, und waren sie sogar echt, wurden sie übermäßig aufgebauscht."
    [4] "Ich werde unfreundlich."
    [5] "Die österreichischen und serbischen Studenten werden einberufen, einen Wiener Freund bringe ich zur Bahn."
    [6] "Und die Millionen dicker Schlangenarme umhalsen den eisernen Engel, so daß der schier erstickt wird."
    [7] "Aufs Land, bevor es dunkel wird."
    [8] "Nach menschlicher Art würde Schweden des Königs liebstes Kind geblieben sein, und er würde Deutschland, das Findelkind, ausgesogen haben, um jenes zu bereichern."
    [9] "Sanne-Wanne, wäre schön, wenn nicht in besseren Hotels in Italien die tollen Duschen wären, mit denen Freund Josef-Heinrich jetzt arbeitet, daß die Gischt von den Kacheln bis über die Alpen gleißt, ein böser Firn, gleich weiter also zu Sanne-Pfanne, viel ist das nicht, denn trautes Heim, und zirpt die Grille im Grill vor Pein, das wird wohl nicht, was wird überhaupt?"
    [10] "»Hoaßn brauchst es du gar nixn!« sagt er; »werd eahm neamd was Schlechts nachredn kinna, a da Hanni!« -"
    [11] "Wenn Sie erst die Diagnose stellen würden. ..."
    [12] "Er wollte Fox hinausbegleiten, seine Frau verhinderte es und er trat zurück, aus Angst, die spätere Szene, wenn sie allein waren, würde dann noch heftiger werden."
    [13] "Diese orientalischen Kinder vergaßen ihre Pläne meist schon vor der Ausführung, sie wurden von ihren kurzatmigen Einfällen, von ihrer dumpfen Triebhaftigkeit her."

    Von diesen 13 Sätzen sind nach meiner Beurteilung 5 im Passiv: 2, 3, 5, 6 und 13. (Zwei davon sind vielleicht diskussionswürdig: Satz 3 enthält zwei Teilsätze im Passiv, aber wir zählen hier nur volle Sätze. Und in Satz 13 scheint wurden schon als Hilfverb für Passiv zu agieren aber das Hauptverb fehlt; aber die maximale Anzeige des Treffers in DWDS wählt, dann sieht man den nächsten Satz: "Umgewirbelt wie Laub im Wind.", daher ist es m.E. vertretbar, den vorangehenden Satz als einen Beleg für Passiv zu betrachten.)

    > werden.rest
    [1] "Ich bin bereit, Ihnen eine Unterlage zu übergeben, aus der Sie die Haltung des Staatsdepartements erkennen werden."
    [2] "Die weltweite Rezession kann nur durch gemeinsame Anstrengungen der Industrieländer überwunden werden."
    [3] "Mit den vor dem Ost-Berliner Stadtgericht vom 30. 10. bis 5.11.1973 und vom 20. 1. bis 26.1.1976 durchgeführten Verfahren ( Schauprozesse) sollte der Nachweis geführt werden, daß Bundesregierung und Senat von Berlin (West) durch Duldung und sogar aktive Förderung der Fluchthelfergruppen sich einer völkerrechtswidrigen Verletzung des Transitabkommens schuldig machten."
    [4] "Wenn man die Handlung aus den Augen verliert, sieht es oft so aus, als ob die Antriebe vom Bewußtsein her modifiziert oder umgelenkt würden, und wir wären wieder in einer der dualistischen Denkformen; besonders dann, wenn das Bewußtsein als der eigentlich unverantwortliche Bereich flüssiger \"\"Vorstellungen gefaßt wird."
    [5] "Die Dialektik gar, die »scheinbare Kunst«, allen unsern Erkenntnissen die Form des Verstandes zu geben, wird - als wäre sie ein Organon - zum »Blendwerk« mißbraucht, ist eine Logik des Scheins."
    [6] "Letztere innervieren andere Bezirke der Mantelmuskulatur und steuern normalerweise graduierte Kontraktionen der Mantelmuskeln, wie sie für die Bewegung des Atemwassers in der Mantelhöhle und das langsame Schwimmen benötigt werden."
    [7] "Der Sekretär der Faschistischen Partei, Minister Achille Starace, empfing am 26. Juli die Verfasser des Dokuments über die Stellungnahme des Faschismus zum Rassenproblem (siehe 3638 G) und erklärte, daß diese rassischen Grundsätze in Italien nicht als eine akademische Formel angesehen werden dürfen, sondern im Gegenteil als eine Richtlinie für eine bestimmte politische Aktion."
    [8] "Die belgische Nationalbank senkte laut AP am 16. Februar den Diskontsatz von bisher 8 % (siebe 20701 D) angesichts der Stärkung des Franc und wegen der Notwendigkeit der Verbilligung kurzfristiger Kredite auf nunmehr 7 %; der Lombardsatz wurde um den gleichen Satz vermindert."
    [9] "Nur muß man sich der Setzung als solcher bewußt sein und erkennen, daß, wenn es für eine solche Naturwissenschaft keine andere Determination mehr geben »kann«, dies nur deswegen nicht sein kann, weil sie durch die Grundannahme von Anfang an per definitionem ausgeschlossen wurde."
    [10] "Nach einem Bestäubungsvorgang, der das Schmieren der Farbe verhindert, werden die Marken zu Rollen aufgerollt; daher der Name \"\"Rollenmarken\"\"."
    [11] "Ich bin von Reichspräsident Generalfeldmarschall von Hindenburg zum Chef der Marineleitung ernannt worden und dadurch nicht etwa in diese Gruppe eingetreten, sondern eben Chef der Marine geworden."
    [12] "Eine Frömmigkeit, die nur dann, verstaubt und verrostet, aus der Schublade geholt wird, wenn und weil der Träger im Dreck sitzt, ist keine."
    [13] "Die inhaltl. Aufgabenteilung und das daraus resultierende Oppositionsdenken - hier »Tracht«, da »Mode« - lagen im jeweiligen Fachverständnis begründet und wurden in der wissenschaftl. Volkskunde vor deren Hinwendung zu den Sozialwissenschaften seit den späten 1960er Jahren in der Regel als gegeben akzeptiert."
    [14] "Die Ruinenmassen von Inyanga bilden ein gewichtiges Glied in der Kette der südafrikanischen Denkmäler, worauf ich später zurückkommen werde."
    [15] "Im Winter oder Frühjahr, wenn sich die Bienen noch nicht gereinigt haben, muß alles Füttern unterbleiben, weil sie dadurch zu sehr in ihrer Ruhe gestört würden."
    [16] "Die ganze Art der späteren Steuer-, Fron- und Rekrutierungsumlegung knüpfte offensichtlich an diese Überlieferungen der Feudalzeit an: auch sie gingen in der älteren Zeit von Wagen- und Ritter-Gestellungen, erst später von der Gestellung der Rekruten für die Armee, Fronarbeitern und Natural-, dann Geldlieferungen aus, wie wir sehen werden."
    [17] "Ein dritter Tl., der erst vor wenigen Jahrzehnten hinzugekommen ist und daher in der Bibliogr. von Vollhardt (Bibliogr. der Musikwerke der Ratsschulbibl. zu Zwickau, Leipzig 1896) noch nicht erfaßt werden konnte, enthält Opernmusik aus der 1. Hälfte des 19. Jh. sowie zahlreiche Werke der Klassiker und Romantiker."
    [18] "Einmal ist das Interesse der Sammler im Winter größer, zum anderen wird der Wert der Marken nach dem neuen Katalog errechnet, der zumeist im August oder September erscheint."

    Von diesen 18 Sätze sind nach meiner Beurteilung 15 im Passiv: 2 bis 13, 15, 17 und 18. (Hier enhält Satz 4 zwei Teilsätze im Passiv aber wir zählen nur den vollen Satz.)

  4. Zwei-Stichproben-Hypothesentests durchführen. Da unsere Alternativhypothese gerichtet ist, sollen wir einen einseitigen Test machen, was in R nur mit prop.test() möglich ist. Wir testen mit und ohne die Korrektur für kleine Stichproben (in der Korpuslinguistik ist eine Stichprobengröße von 100 schon ziemlich klein, aber die Korrektur beim Chi-Quadrat-Test ist eigentlich für noch kleinere Stichprobengrößen, z.B. unter 30, gedacht):

    > prop.test(c(5,15),c(100,100), alternative = "less")$p.value
    [1] 0.01694743
    > prop.test(c(5,15),c(100,100), alternative = "less", correct = FALSE)$p.value
    [1] 0.009211063

Die Ergebnisse sind statistisch signifikant auf dem 5%-Signifikanzniveau, was die Ablehnung der Nullhypothese berechtigt. Sogar der konservativere zweiseitige Test wäre mit und ohne Korrektur auf dem 5%-Signifikanzniveau statistisch signifikant:

> prop.test(c(5,15),c(100,100))$p.value
[1] 0.03389485
> prop.test(c(5,15),c(100,100), correct = FALSE)$p.value
[1] 0.01842213

Hätte man sich für das 1%-Signifikanzniveau entschieden, was in der Korpuslinguistik wegen der typischerweise sehr großen Stichproben durchaus vertretbar ist, würde nur mehr der einseitige Test ohne Korrektur als statistisch signifikant gelten (und das nur knapp).

Der Effekt der Stichprobengröße

Allerdings können bei solchen relativ kleinen Stichproben kleine Unterschiede in den Daten zu einer Änderung bezüglich Signifikanz führen. Gäbe es in den obigen Stichproben zwei Sätze mehr im Passiv in der Textklasse Belletristik, wäre das Ergebnis des einseitigen Tests mit Korrektur nicht signifikant auf dem 5%-Signifikanzniveau, und gäbe es dazu einen Satz weniger im Passiv bei den übrigen Textklassen, wäre das Ergebnis auch ohne Korrektur nicht signifikant:

Gäbe es aber dieselben Verhältnisse bei zehnfach größeren Stichproben, wäre das Ergebnis sogar für ein extrem kleines Signifikanzniveau signifikant:

Und auch ein Verhältnis, das bei kleinen Stichproben überhaupt keine Gefahr für die Nullhypothese darstellt, würde bei zehnfach größeren Stichproben signifikant sein:

Den Effekt der Stichprobengröße (bei gleichen Verhältnissen) sieht man auch sehr deutlich an zweiseitigen (symmetrischen) Konfidenzintervallen, insbesondere bei der Darstellung in Prozent (bei einseitigen Konfidenzintervallen ist der Effekt nicht so deutlich, weil das Intervall alle Werte am unteren oder oberen Ende der Verteilung enthält, auch wenn die allermeisten extrem unwahrscheinlich sind). Hier z.B. sind 95%-Konfidenzintervalle für die Differenzen in den Verhältnissen von Sätzen im Passiv in den oben gezogenen Stichproben, sowie in simulierten jeweils zehnfach größeren Stichproben bis zu 1 Million, eine durchaus normale Stichprobengröße in der Korpuslinguistik:

Das Konfidenzintervall für die Stichprobengröße 100 hat eine Spannweite von 16,4%, der bei jeder Verzehnfachung der Stichprobengröße kleiner wird, bis bei der Stichprobengröße 1 Million die Spannweite nur noch 0,18% beträgt.

Den umgekehrten Effekt kann man natürlich auch simulieren. Wenn man ganze Korpora, die ja typerischerweise sehr groß sind, als Stichproben benutzt, sind die Konfidenzintervalle meistens sehr schmal und die p-Werte sehr klein, wie wir in den Beispielen der vorigen Seiten gesehen haben. Aber indem man sowohl die beobachtete absolute Häufigkeit als auch die Stichprobengröße um denselben Faktor verkleinert, simuliert man entsprechend kleinere Stichproben (hier wird round() verwendet, um nur ganze Zahlen zu erhalten):

Die letzten zwei Konfidenzintervalle weisen einen wichtigen Unterschied auf: Beim vorletzten sind beide Grenzen der Konfidenzintervalle > 0, was mit 95% Sicherheit schlussfolgern lässt, dass die relative Häufigkeit (Auftretenswahrscheinlichkeit) von Hund größer ist in der Grundgesamtheit, aus der die erste Stichprobe (DWDS-Kernkorpus) stammt, als in der Grundgesamtheit, aus der die zweite Stichprobe (Berliner Zeitung) stammt. Beim letzten Konfidenzintervall ist diese Schlussfolgerung nicht zulässig, weil die untere Grenze < 0 aber die obere Grenze > 0 ist. Mit anderen Worten: Eine Änderung der Stichprobengröße kann eine Änderung der statistischen Signifikanz zur Folge haben. Diesen Effekt kann man auch beim p-Wert von Hypothesentests sehen:

Der erste p-Wert, eine Wiederholung von einem der vorher durchgeführten Ein-Stichprobentests, liegt unter dem Signifikanzniveau von 5%, was die Ablehnung der Nullhypothese rechtfertigt. Aber der zweite p-Wert, der sich aus Daten im selben Verhältnis aber um ein Zehnfaches verkleinert ergibt, liegt bei über 27%, also viel zu groß, um die Nullhypothese abzulehnen.

Hypothesentests Sitemap Übungsaufgaben