↑ Sitemap

Allgemeine Begriffe der Korpuslinguistik

Ergänzende Literatur (nicht erforderlich für die Bearbeitung der Übungsaufgaben!):

Hirschmann, Hagen (2019): Korpuslinguistik. Eine Einführung. Berlin: J. B. Metzler.
Lemnitzer, Lothar und Zinsmeister, Heike (2015): Korpuslinguistik. Eine Einführung (3., überarbeitete und erweiterte Auflage). Tübingen: Narr.
Perkuhn, Rainer; Keibel, Holger; Kupietz, Marc (2012): Korpuslinguistik. Paderborn: Fink.
Scherer, Carmen (2006): Korpuslinguistik. Heidelberg: Universitätsverlag Winter. (2., aktual. Aufl. erschienen 2014.)

Korpus und Korpuslinguistik

Ein Korpus (Plural Korpora) ist, nach einer ganz allgemeinen Definition, eine „Sammlung von authentischen Sprachdaten“ (Scherer). Wobei authentisch meint „dass diese Daten im Rahmen linguistisch unreflektierter Kommunikationssituationen entstanden sein sollten“ (Lemnitzer/Zinsmeister), im Gegensatz etwa zu Beispielen, die sich Linguisten durch Introspektion selbst ausdenken, um ihre Theorien zu testen.

Korpora werden meistens aus Textquellen wie z.B. Romanen, Sach- und Fachliteratur, Zeitungen, Webseiten usw., aber auch aus Transkriptionen von Filmen, Interviews, spontanen Gesprächen usw. zusammengestellt.

Viele Korpora werden speziell für linguistische Recherchen erstellt und aufbereitet: „Die Bestandteile [solcher Korpora], die Texte, bestehen aus den Daten selber sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind“ (Lemnitzer/Zinsmeister).

Besonders nützlich für linguistische und sprachtechnologische Forschung sind sehr große Korpora, bei denen der Einsatz des Computers aber unumgänglich ist: „Die Daten des Korpus sind typischerweise digitalisiert, d.h. auf Rechnern gespeichert und maschinenlesbar“ (Lemnitzer/Zinsmeister).

Korpuslinguistik ist das Teilgebiet der Sprachwissenschaft, das sich mit ausschließlich „authentischen Sprachdaten“ – also mit Korpora – beschäftigt. Diese Beschäftigung kann zwei Formen annehmen:

Die Erstellung von Korpora (sowie von Systemen für die Suche in und Auswertung von Korpora, s.u.): Diese erfordert oft nicht nur linguistische sondern auch Informatik- und Programmierkenntisse, denn insbesondere große linguistisch annotierte Korpora können nur mit Hilfe extra für diesen Zweck entwickelter Computerprogramme erstellt werden.
Die Verwendung von Korpora als Datenquelle: Dabei werden bestimmte (Typen von) Daten in den Korpora (meist mit spezialisierten Suchmaschinen) gesucht und anschließend nach verschiedenen Verfahren zur Unterstützung linguistischer oder sprachtechnologischer Analyse oder Anwendung ausgewertet. Hierin zeigt sich die Korpuslinguistik als Methodologie, die sowohl in der theoretischen Linguistik als auch in vielen Anwendungsgebieten der Sprachwissenchaft, z.B. maschinelle Sprachverarbeitung und Übersetzung, Lexikographie (die Erstellung von Wörterbüchern), Sprachunterricht, die Erforschung von Sprachstörungen usw. eingesetzt werden kann.

Sowohl bei der Erstellung eines Korpus als auch bei der Wahl eines existierenden Korpus als Datenquelle für linguistische Recherchen gibt es eine Reihe von Kriterien zu berücksichtigen; diese Kriterien bestimmen die Eigenschaften des Korpus und bilden somit eine Korpustypologie. In diesem Seminar werden wir ausschließlich schon bestehende Korpora als Datenquelle für verschiedene Auswertungen verwenden; dafür sind die wichtigsten Kriterien der Korpustypologie die Repräsentativät und die linguistische Aufbereitung.

Korpussuche

Eine linguistische Suchmaschine funktioniert im Grunde wie Internet-Suchmaschinen: Man gibt eine Suchanfrage ein und bekommt die Ergebnisse angezeigt. Damit man die Belege, die die gesuchten Merkmale aufweisen, im Korpus auch finden kann, müssen die Anfragen (auch Abfragen genannt) nach bestimmten Regeln formuliert werden; diese Regeln definieren die so genannte Anfragesprache (oder Abfragesprache) der Suchmaschine.

Eine Standard-Anzeige bei linguistischen Suchmaschinen, welche die Suchergebnisse (auch Treffer genannt) schnell erkennen lässt, ist die Konkordanz: eine Liste, die die Treffer jeweils zentriert in einem einzeiligen Kontext innerhalb des verwendeten Korpus zeigt. Diese Art von Anzeige wird auch KWIC-Index oder KWIC-Liste genannt (KWIC = key word in context). Darüber hinaus haben die meisten linguistischen Suchmaschinen auch eine Volltext-Anzeige des ganzen Satzes (oder des Korpusausschnitts), in dem der Treffer vorkommt. (Bei Baumbanken enthält die Anzeige sinnvollerweise eine geparste syntaktische Struktur ist, denn so erkennt man am leichtesten die im Korpus annotierten syntaktischen Beziehungen.)

Abfragesysteme

Zusammen bilden eine Suchmaschine und ihre Anfragesprache den Kern eines Abfragesystems. Meistens enthält ein Abfragesystem auch Werkzeuge, um die Eingabe der Anfragen zu erleichtern (z.B. durch Eingabe-Assistenten oder graphische Eingabe) und die Anzeige der Suchergebnisse zu gestalten (z.B. nach bestimmten Kriterien sortieren). Darüber hinaus gibt es oft zusätzliche Werkzeuge für die Verarbeitung der Suchergebnisse (z.B. ein Teilkorpus daraus bilden und diese Suchergebnisse in eine Datei exportieren, evtl. auch mit Metadaten und Annotationen) oder auch einige statistische Auswertungen. In der Regel verfügt ein Abfragesystem über eigens für das System linguistisch aufbereitete Korpora.

Für die Recherche mit deutschsprachigen Korpora sind die Internet-basierten Abfragesysteme DWDS und COSMAS II die wohl bekanntesten und meist verwendeten Abfragesysteme. Das länger etablierte COSMAS II verfügt zwar über mehr Korpora als DWDS und die von COSMAS II verwendete Anfragesprache bietet einige Möglichkeiten, die es in der DWDS-Anfragesprache nicht gibt (dennoch sind die beiden Anfragesprachen in ihren wesentlichen Eigenschaften sehr ähnlich). Andererseits ist COSMAS II meist umständlicher in der Verwendung und langsamer in der Verarbeitung als DWDS. Außerdem verfügt DWDS mit dem Kernkorpus über ein Referenzkorpus, das den Anspruch der Repräsentativät (für das geschriebene Deutsch des 20. Jahrhunderts) erhebt, was für statistiche Auswertungen besonders interessant ist. Aus diesen Gründen ist DWDS für den Einstieg in die korpuslinguistische Recherche gut geeignet und daher werden wir uns in diesem Seminar ausschließlich mit diesem Abfragesystem befassen.

Korpusauswertung

Für die linguistische Auswertung von Korpusdaten gibt es drei Ansätze:

Bei quantitativen Auswertungen geht es um „das Bestimmen von Häufigkeiten im Korpus und die sich daraus ergebende Möglichkeit, Ergebnisse unmittelbar miteinander zu vergleichen“ (Scherer). Bei einem rein quantitativen Ansatz werden solche Daten „von rohen, also nicht linguistisch annotierten, Korpora mit Hilfe statistischer Verfahren extrahiert und ausgewertet“ (Lemnitzer/Zinsmeister).
Bei qualitativen Auswertungen geht es um „die Ermittlung, die Klassifizierung, die Einordnung und Interpretation von bestimmten Phänomenen“ (Scherer). Demnach „berücksichtigen [Linguisten] Korpusdaten als zusätzliche Quelle der Evidenz. [...] Es wird in [Korpora] gezielt nach relevanten (meist syntaktischen) Konstruktionen gesucht, um Voraussagen einer Theorie zu bestätigen oder widerlegen.“ (Lemnitzer/Zinsmeister). Dabei können die linguistische Aufbereitung des Korpus und die Möglichkeiten der Anfragesprache eine entscheidende Rolle spielen.
Quantitativ-qualitative Auswertungen kombinieren Methoden beider Ansätze: statistische Verfahren werden angewandt aber „die Daten, die aus Korpora abgeleitet sind, [bleiben] nicht uninterpretiert“ (Lemnitzer/Zinsmeister), z.B. können Annotationen wie Wortart, syntaktische Funktion usw. berücksichtigt werden.

Bei der Auswertung von Suchergebnissen muss man berücksichtigen, dass es unter den Treffern auch sogenannte falsche Treffer geben kann, also Treffer, welche die gesuchten Merkmale nicht aufweisen. Diese können aus zwei Gründen vorkommen: (1.) weil die Anfrage nicht „gut“ (d.h. nicht präzise) genug formuliert worden ist, oder (2.) weil die Aufbereitung des Korpus Fehler enthält (was bei großen mit Hilfe von Computerprogrammen erstellten Korpora im Grunde unvermeidlich ist).

Im ersten Fall kann man immer versuchen – im Rahmen der Möglichkeiten der Anfragesprache – die Anfrage zu optimieren, wobei der dafür erforderliche zeitliche Aufwand auch eine Rolle spielt.
Im zweiten Fall bleibt einem grundsätzlich nichts anderes übrig als die Suchergebnisse im einzelnen zu überprüfen und die falschen Treffer manuell herauszufiltern.
In beiden Fällen spielen die Größe des Korpus und die Art der Anfrage eine Rolle: Wenn die Anfrage viele Tausende Treffer ergibt (bei großen Korpora keine Seltenheit), ist es praktisch unmöglich, sie im einzelnen zu überprüfen. Die einzige vernünftige Alternative – insbesondere im Rahmen einer quantitativen Auswertung – ist, eine überschaubare Zufallsstichprobe aus den Treffer zu ziehen (damit beschäftigen wir uns im letzten Themenblock dieses Seminars).

In diesem Seminar geht es in erster Linie um die Grundlagen der quantitativen Korpusanalyse. Wir werden lernen, wie man die Ergebnisse von Suchanfragen in verschiedener Weise quantitativ erfassen kann; wie man Verteilungen der Ergebnisse von Suchanfragen in mehreren Korpora sowie in mehreren Teilen eines Korpus bilden, grafisch darstellen und auch in verschiedener Weise quantitativ beschreiben kann; und wie man von solchen Ergebnissen Rückschlüsse auf die Sprache im Allgemeinen, aus der die Korpusdaten stammen, ziehen kann, und wie zuverlässig (oder statistisch signifikant) solche Rückschlüsse sind.

Die Berechnungen und Grafiken kann man bis zu einem gewissen Umfang mit Programmen zur Tabellenkalkulation wie z.B. Microsoft Excel, LibreOffice Calc, Gnumeric usw. erstellen. Aber für komplexere und tiefergehende Analysen sind meistens spezielle Statistik-Programme erforderlich; besonders erwähnenswert darunter ist R, ein sehr mächtiges und frei verfügbares Computersystem für die Verarbeitung und statistische Analyse von Daten, sowie für die (insbesondere grafische) Darstellung der Daten und der Analysen. Daher verwenden wir R in diesem Seminar, auch wenn wir uns dabei auf einfachere statistische Auswertungen beschränken.

Um quantitative Korpusanalysen durchzuführen, müssen wir die Ergebnisse von Suchanfragen aus dem Abfragesystem in R eingeben. Bevor wir uns damit beschäftigen, müssen wir also zunächst den Umgang mit dem DWDS-Abfragesystem und der DWDS-Anfragesprache kennenlernen.

← Startseite

↑ Sitemap

Das DWDS-Abfragesystem →