Ergänzende Literatur (nicht erforderlich für die Bearbeitung der Übungsaufgaben!):
Ein Korpus (Plural Korpora) ist, nach einer ganz allgemeinen Definition, eine „Sammlung von authentischen Sprachdaten“ (Scherer). Wobei authentisch meint „dass diese Daten im Rahmen linguistisch unreflektierter Kommunikationssituationen entstanden sein sollten“ (Lemnitzer/Zinsmeister), im Gegensatz etwa zu Beispielen, die sich Linguisten durch Introspektion selbst ausdenken, um ihre Theorien zu testen.
Korpora werden meistens aus Textquellen wie z.B. Romanen, Sach- und Fachliteratur, Zeitungen, Webseiten usw., aber auch aus Transkriptionen von Filmen, Interviews, spontanen Gesprächen usw. zusammengestellt.
Viele Korpora werden speziell für linguistische Recherchen erstellt und aufbereitet: „Die Bestandteile [solcher Korpora], die Texte, bestehen aus den Daten selber sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind“ (Lemnitzer/Zinsmeister).
Besonders nützlich für linguistische und sprachtechnologische Forschung sind sehr große Korpora, bei denen der Einsatz des Computers aber unumgänglich ist: „Die Daten des Korpus sind typischerweise digitalisiert, d.h. auf Rechnern gespeichert und maschinenlesbar“ (Lemnitzer/Zinsmeister).
Korpuslinguistik ist das Teilgebiet der Sprachwissenschaft, das sich mit ausschließlich „authentischen Sprachdaten“ – also mit Korpora – beschäftigt. Diese Beschäftigung kann zwei Formen annehmen:
Sowohl bei der Erstellung eines Korpus als auch bei der Wahl eines existierenden Korpus als Datenquelle für linguistische Recherchen gibt es eine Reihe von Kriterien zu berücksichtigen; diese Kriterien bestimmen die Eigenschaften des Korpus und bilden somit eine Korpustypologie. In diesem Seminar werden wir ausschließlich schon bestehende Korpora als Datenquelle für verschiedene Auswertungen verwenden; dafür sind die wichtigsten Kriterien der Korpustypologie die Repräsentativät und die linguistische Aufbereitung.
Eine linguistische Suchmaschine funktioniert im Grunde wie Internet-Suchmaschinen: Man gibt eine Suchanfrage ein und bekommt die Ergebnisse angezeigt. Damit man die Belege, die die gesuchten Merkmale aufweisen, im Korpus auch finden kann, müssen die Anfragen (auch Abfragen genannt) nach bestimmten Regeln formuliert werden; diese Regeln definieren die so genannte Anfragesprache (oder Abfragesprache) der Suchmaschine.
Eine Standard-Anzeige bei linguistischen Suchmaschinen, welche die Suchergebnisse (auch Treffer genannt) schnell erkennen lässt, ist die Konkordanz: eine Liste, die die Treffer jeweils zentriert in einem einzeiligen Kontext innerhalb des verwendeten Korpus zeigt. Diese Art von Anzeige wird auch KWIC-Index oder KWIC-Liste genannt (KWIC = key word in context). Darüber hinaus haben die meisten linguistischen Suchmaschinen auch eine Volltext-Anzeige des ganzen Satzes (oder des Korpusausschnitts), in dem der Treffer vorkommt. (Bei Baumbanken enthält die Anzeige sinnvollerweise eine geparste syntaktische Struktur ist, denn so erkennt man am leichtesten die im Korpus annotierten syntaktischen Beziehungen.)
Zusammen bilden eine Suchmaschine und ihre Anfragesprache den Kern eines Abfragesystems. Meistens enthält ein Abfragesystem auch Werkzeuge, um die Eingabe der Anfragen zu erleichtern (z.B. durch Eingabe-Assistenten oder graphische Eingabe) und die Anzeige der Suchergebnisse zu gestalten (z.B. nach bestimmten Kriterien sortieren). Darüber hinaus gibt es oft zusätzliche Werkzeuge für die Verarbeitung der Suchergebnisse (z.B. ein Teilkorpus daraus bilden und diese Suchergebnisse in eine Datei exportieren, evtl. auch mit Metadaten und Annotationen) oder auch einige statistische Auswertungen. In der Regel verfügt ein Abfragesystem über eigens für das System linguistisch aufbereitete Korpora.
Für die Recherche mit deutschsprachigen Korpora sind die Internet-basierten Abfragesysteme DWDS und COSMAS II die wohl bekanntesten und meist verwendeten Abfragesysteme. Das länger etablierte COSMAS II verfügt zwar über mehr Korpora als DWDS und die von COSMAS II verwendete Anfragesprache bietet einige Möglichkeiten, die es in der DWDS-Anfragesprache nicht gibt (dennoch sind die beiden Anfragesprachen in ihren wesentlichen Eigenschaften sehr ähnlich). Andererseits ist COSMAS II meist umständlicher in der Verwendung und langsamer in der Verarbeitung als DWDS. Außerdem verfügt DWDS mit dem Kernkorpus über ein Referenzkorpus, das den Anspruch der Repräsentativät (für das geschriebene Deutsch des 20. Jahrhunderts) erhebt, was für statistiche Auswertungen besonders interessant ist. Aus diesen Gründen ist DWDS für den Einstieg in die korpuslinguistische Recherche gut geeignet und daher werden wir uns in diesem Seminar ausschließlich mit diesem Abfragesystem befassen.
Für die linguistische Auswertung von Korpusdaten gibt es drei Ansätze:
Bei der Auswertung von Suchergebnissen muss man berücksichtigen, dass es unter den Treffern auch sogenannte falsche Treffer geben kann, also Treffer, welche die gesuchten Merkmale nicht aufweisen. Diese können aus zwei Gründen vorkommen: (1.) weil die Anfrage nicht „gut“ (d.h. nicht präzise) genug formuliert worden ist, oder (2.) weil die Aufbereitung des Korpus Fehler enthält (was bei großen mit Hilfe von Computerprogrammen erstellten Korpora im Grunde unvermeidlich ist).
In diesem Seminar geht es in erster Linie um die Grundlagen der quantitativen Korpusanalyse. Wir werden lernen, wie man die Ergebnisse von Suchanfragen in verschiedener Weise quantitativ erfassen kann; wie man Verteilungen der Ergebnisse von Suchanfragen in mehreren Korpora sowie in mehreren Teilen eines Korpus bilden, grafisch darstellen und auch in verschiedener Weise quantitativ beschreiben kann; und wie man von solchen Ergebnissen Rückschlüsse auf die Sprache im Allgemeinen, aus der die Korpusdaten stammen, ziehen kann, und wie zuverlässig (oder statistisch signifikant) solche Rückschlüsse sind.
Die Berechnungen und Grafiken kann man bis zu einem gewissen Umfang mit Programmen zur Tabellenkalkulation wie z.B. Microsoft Excel, LibreOffice Calc, Gnumeric usw. erstellen. Aber für komplexere und tiefergehende Analysen sind meistens spezielle Statistik-Programme erforderlich; besonders erwähnenswert darunter ist R, ein sehr mächtiges und frei verfügbares Computersystem für die Verarbeitung und statistische Analyse von Daten, sowie für die (insbesondere grafische) Darstellung der Daten und der Analysen. Daher verwenden wir R in diesem Seminar, auch wenn wir uns dabei auf einfachere statistische Auswertungen beschränken.
Um quantitative Korpusanalysen durchzuführen, müssen wir die Ergebnisse von Suchanfragen aus dem Abfragesystem in R eingeben. Bevor wir uns damit beschäftigen, müssen wir also zunächst den Umgang mit dem DWDS-Abfragesystem und der DWDS-Anfragesprache kennenlernen.