Korpustypologie
Kriterien für die Erstellung eines Korpus oder für die Wahl eines
Korpus als Datenquelle für linguistische Recherchen (nach
Lemnitzer/Zinsmeister, mit einigen Ergänzungen):
- Funktionalität: Zweck (für den Aufbau bzw. die Verwendung)
des Korpus; ausschlaggebend für die anderen Kriterien
- Sprachenauswahl
- monolingual
- bi-/multilingual
- Parallelkorpus: möglichst wörtliche Übersetzungen
- Vergleichskorpus: Texte mehrerer Sprachen zu vergleichbaren
Diskursbereichen, aber keine wörtlichen Übersetzungen in den
jeweiligen Sprachen
Medium
- geschrieben
- gesprochen: Transkriptionen
- multimodal/multimedial: Audio-, Videoaufnahmen
Größe in einschlägigen Einheiten
Beispiele (Textkorpora):
- Dortmunder Chat-Korpus: 0,6 Mio Tokens
- DWDS-Kernkorpus: 100 Mio Tokens
- Europarl: 11 x 28 Mio Tokens (parallel)
- Goethe-Korpus: 1,4 Mio Tokens (aus 29 Texten aus Goethes Werken)
- HGC (Huge German Corpus, IMS Stuttgart: 204,5 Mio Tokens aus
versch. Zeitungen)
- IDS-Korpora (DeReKo – Deutsches Referenzkorpus): > 25 Mrd
Tokens
Persistenz/Beständigkeit
- statisch: festgelegte Größe, festgelegter Zeitraum (es kann aber
Ergänzungen bzw. Änderungen geben: Version)
- Monitorkorpus: wächst kontinuierlich oder Datenbestand ständig
ausgetauscht
Sprachbezug/Repräsentativität: Sprachliche
Daten sind im Prinzip unendlich, aber die Daten aus Korpora sind
endlich, daher stellt sich die Frage, ob und inwiefern ein Korpus für
eine Sprache oder sprachliche Domäne repräsentativ sein kann. Hier
kann man zwei Typen von Korpora unterscheiden:
- Referenzkorpus: balancierte Mischung verschiedener Genres und
Varietäten, soll die Sprache in einer bestimmten Periode möglichst
gut abdecken
- Spezialkorpus, oft opportunistisch gesammelt aus verfügbaren
Quellen
Verfügbarkeit
- digital verfügbar
- nur auf Papier bzw. Video usw.
- frei verfügbar, z.B. zum Herunterladen im Web
- per Lizenz, mit oder ohne Gebühr
- eingeschränkt auf eine bestimmte Forschungseinrichtung
Metadaten: Informationen über den Aufbau und Inhalt des
Korpus (z.B. Quellen, Entstehungszeit usw.)
Linguistische Aufbereitung: hinzugefügte
linguistisch relevante Markierungen im Korpus
- keine: rohe sprachliche Daten
- Tokenisierung: Trennung der Korpusdaten in eindeutige
Einheiten, genannt Tokens (Wortformen, Kürzel, Ziffern, auch
Interpunktion).
- Lemmatisierung: Markierung von Tokens, die
Flexionsvarianten ein und desselben Wortstammes sind; die
Markierung heißt das Lemma (Plural Lemmata) der Flexionsvarianten.
Z.B. gehören die Wortformen Hund, Hunde, Hund(e)s, Hunden
alle zum Lemma ‚Hund‘ (aber die abgeleitete
Wortform Hündin gehört zu einem anderen Lemma, nämlich
‚Hündin‘).
- Annotation: Markierung von (morpho)syntaktischen,
semantischen u.a. Eigenschaften. Die häufigsten und für uns
wichtigsten Typen von Annotationen sind Tagging und Parsing.
Beispiele:
- Morphosyntax (Tagging): Wortart, Flexionsmerkmale
(Genus, Numerus, Kasus), auch Verbmerkale wie Tempus. Die
Annotationen für solche Merkmale heißen Tags und die
Gesamtheit der zum Tagging eines Korpus verwendeten Tags
heißt Tagset; es gibt viele verschiedene Tagsets.
- Syntax (Parsing): Konstituenten, syntaktische
Funktionen, topologische Felder. Syntaktisch annotierte
Korpora heißen auch
Baumbanken (von ‚Syntaxbaum‘ +
‚Datenbank‘). Die dabei verwendeten syntaktischen
Strukturen werden sowohl aus linguistisch-theoretischen
Überlegungen als auch aus Effizienzgründen (um die Suchzeit
möglichst kurz zu halten) gewählt.
- Semantik: Eigennamen (aber oft als Tag markiert), Lesarten
(Ambiguitäten), thematische Rollen
- Pragmatik: Koreferenzauflösung, Topik/Fokus
- Textstruktur: Kapitel, Vorspann, Paragraph, Fußnote usw.
- Phonetik/Prosodie/Intonation
- Gestik (multimodal)
- Fehler: evtl. auf allen Ebenen, z.B. Ausprache, Rechtschreibung,
Kongruenz, Wortstellung, Tempus usw. Dienlich für
Sprachunterrichts- sowie Spracherwerbsforschung