Das DWDS-Abfragesystem
Das DWDS-Abfragesystem ist im Rahmen des Projekts „Digitales
Wörtebuch der deutschen Sprache des 20. Jh.“ der
Berlin-Brandenburgischen Akademie der Wissenschaften entstanden. Das
internetbasierte Abfragesystem besteht aktuell in der 3. Version. Die
Korpus-Sammlung umfasst Referenzkorpora, Zeitungskorpora und mehrere
Spezialkorpora. Aktuell verfügt DWDS über mehr als
zwanzig öffentlich recherchierbare
Textkorpora mit einem Gesamtumfang von mehr als 23 Milliarden Tokens,
wobei rund die Hälfte der Korpora nur mit Registrierung bei DWDS und
Anmeldung zugänglich ist, der Rest ist auch ohne Anmeldung
zugänglich.
Das DWDS-Kernkorpus ist das Hauptreferenzkorpus: Es besteht aus einer
ausgewogenen Auswahl an Texten aus verschiedenen Bereichen, geschrieben
zwischen den Jahren 1900 bis 1999 und hat einen Umfang von gut 100
Millionen Wörtern (Tokens ohne Satzzeichen). Ein zweites Referenzkorpus
mit Texten des 21. Jahrhunderts ist im Aufbau. Die Zeitungskorpora
enthalten auch viele Texte aus den Jahren seit 2000. Die DWDS-Korpora
sind alle lemmatisiert und mit
dem Stuttgart-Tübingen Tagset getaggt
(morphosyntaktisch annotiert).
Arbeitsablauf mit DWDS
Es gibt in DWDS drei Recherchebereiche oder Ressourcen, wie es auf der
DWDS Website heißt: Wörterbücher, Korpora und statistische Auswertungen.
- Den Zugang zu diesen Ressourcen kann man über Links auf
der Startseite bekommen. (Eine
Anmeldung im System nach vorheriger Registrierung ist möglich aber
nicht notwendig für die Benutzung von DWDS. Mit einer Anmeldung stehen
mehr Korpora zur Verfügung als ohne eine Anmeldung aber alle
Funktionen des Systems können auch ohne Anmeldung benutzt
werden.)
- Man kann eine Recherche auch direkt auf der Startseite anstoßen,
indem man eine Anfrage in die einzeilige Textbox eintippt und auf das
Lupe-Icon klickt.
- Entspricht die Eingabe einem Eintrag im DWDS-Wortauskunftssystem
(z.B. Hund), werden als Suchergebnisse die dazugehörigen
Wörterbuch-Informationen angezeigt. Auf der Webseite kann man über
Links auch Trefferlisten für die Anfrage aus den DWDS-Korpora
aufrufen.
- Entspricht die Eingabe keinem Eintrag im
DWDS-Wortauskunftssystem (weil sie aus mehreren Worten besteht
oder Sonderzeichen der Anfragesprache enthält, z.B. @Hund),
wird eine Suche gemäß der Eingabe im DWDS-Kernkorpus durchgeführt
und die Ergebnisse werden angezeigt:
- Auf dieser Seite kann man weitere Korpussuchen durchführen und
dabei folgende Eigenschaften einstellen:
- Auswahl des Korpus
- Zeitraum der Suche in Jahren
- Auswahl der Textklassen, die bei der Suche berücksichtigt
werden (nur bei den Referenzkorpora verfügbar)
- Format der Anzeige: KWIC-Liste, voll (der ganze Satz, der
den Suchbegriff enthält) oder maximal (der Satz sowie der
vorangehende und der nachfolgende Satz im Korpus)
- Sortierung, jeweils auf- oder absteigend
nach folgenden Kriterien:
- Datum
- links: Sortierung nach dem Token, das unmittelbar links
des Suchbegriffs steht.
- Fundwort: Sortierung nach dem ersten Token im Treffer.
- rechts: das Spiegelbild von links
- Beleglänge: Sortierung nach Länge in Tokens des Satzes,
der den Suchbegriff enthält.
- zufällig
N.B.: Die Sortierung nach Tokens ist nicht gemäß der deutschen
Alphabet sondern gemäß der sogenannten
ASCII-Zeichensatzkodierung: Z.B. kommen Satz- und
Anführungszeichen vor den Buchstaben, alle Großbuchstaben vor
allen Kleinbuchstaben und die Umlaute nach Z bzw. z.
- Anzahl der angezeigten Treffer pro Seite
- Oberhalb der Trefferliste steht ein Button „Treffer
exportieren“: Klickt man darauf, können bis zu 5000 Treffern
in verschiedenen Formaten als Liste entweder direkt im Browser
angezeigt oder als Datei heruntergeladen werden, um die Treffer
mit anderen Programmen zu verarbeiten (wir werden diese Funktion
benutzen, um Daten aus DWDS in R einzulesen).
- Zur Eingangsseite
der statistischen
Auswertungen kommt man über den gleichnamigen Link unterhalb der
Textbox auf der DWDS-Startseite (den Link gibt es auch im unteren
Bereich jeder DWDS-Seite). Von dort gibt es Links zu drei
statistischen Werkzeugen im DWDS-Abfragesystem: Die Wortverlaufskurven
zeigen die zusammengefassten Häufigkeiten in den Referenz- und
Zeitungskorpora der Treffer einer Anfrage im Zeitraum von 1600 bis
heute; das DWDS-Wortprofil zeigt Kollokationen in verschieden
syntaktischen Konstruktionen; und DiaCollo gibt Auskunkt über das
diachronische (zeitliche) Auftreten von Kollokationen. Wir werden uns
später mit Varianten der Wortverlaufskurven beschäftigen; eine
Behandlung von Kollokationen würde den Rahmen des Seminars
sprengen.
- Über den Link
„Textkorpora“ auf der
Startseite kommt man zu einer Seite mit einem quantitativen Überblick
über alle DWDS-Korpora. Von dort gibt es einen weiteren Link zu
einer separaten Seite, wo für
einzelne Korpora die Anzahl der Tokens, der Sätze oder der Dokumente
auch noch nach Dekaden, nach Textklassen oder nach Tags gruppiert
angezeigt werden können.
- Über
den Fragezeichen-Button
rechts der Textbox für die Eingabe von Suchanfragen auf der Startseite
kommt man zu einer Seite mit einer Erläuterung der Eingabe. Von dort
gibt es auch einen Link
„Korpussuche -
Suchmaschine und Suchabfragesprache“ zu einer Seite mit
umfangreichen Informationen über die von DWDS verwendeten
Anfragesprache (zu dieser Seite kommt man auch über den
Fragezeichen-Button rechts der Textbox für die Eingabe von
Suchanfragen auf
der Überblicksseite der
Textkorpora sowie auf der Ergebnisseite nach
Durchführung einer Suchanfrage).
- Diese Informationen sind teilweise ziemlich technisch oder
beziehen sich auf besondere Anwendungen, die für dieses Seminar
nicht sinnvoll sind. Am nützlichsten ist
die Schnellübersicht,
der aber auch einige nützliche Fälle fehlen. Daher wird auf den
folgenden Seiten der Seminar-Website versucht, die für dieses
Seminar sinnvollsten Eigenschaften der DWDS-Anfragesprache
systematisch darzustellen. Sie können diese Seiten teils als eine
Verdichtung, teils als Ergänzung der Informationen auf der
DWDS-Website betrachten.
- Dabei sei auf Folgendes hingewiesen: Um die Grundlagen der
quantitativen Korpusanalyse kennenzulernen, genügen zwar die
Ergebnisse von sehr einfachen Suchanfragen. Aber auch
linguistisch komplexe Daten will man quantitativ analysieren, und
solche Daten gehören zum korpuslinguistischen Alltag. Daher ist
es auch im Rahmen dieses Seminars sinnvoll, Eigenschaften der
DWDS-Anfragesprache kennenzulernen, die komplexe Anfragen
ermöglichen, und anhand von Übungsaufgaben, auch Beispiele solcher
Anfragen selber zu formulieren und durchzuführen.