Auswertungen von Datensätzen Sitemap Statistik und Wahrscheinlichkeit

Übungsaufgaben zu Datensätzen

Abgabefrist: Freitag, 18.12.2020

  1. Führen Sie die vorgestellten grafischen und quantitativen Auswertungen von Datensätzen an einem eigenen Datensatz durch; gehen Sie dabei wie folgt vor:
    1. Führen Sie unter Verwendung der Funktion dwds.data.frame() (nicht read.table()!) mit passenden Argumenten eine Suchanfrage Ihrer Wahl (außer ‚Automobil‘) im DWDS-Kernkorpus durch und weisen Sie den Rückgabewert (d.h. den erstellten Datensatz) einer Variable zu.
      • Achtung: Falls Ihr Suchbegriff mehr als 5000 Treffer findet, können nicht alle exportiert werden, daher soll die Sortierung unbedingt zufällig sein (was ja die voreingestellte Sortierung bei dwds.data.frame() ist).
      Erstellen Sie dann, auch unter Verwendung von dwds.data.frame() mit passenden Argumenten, drei unterschiedliche Anzeigen Ihres Datensatzes.
    2. Fügen Sie Ihrem Datensatz eine neue Spalte „Dekade“ wie hier beschrieben hinzu und zeigen Sie einen Ausschnitt aus dem geänderten Datensatz.
    3. Erstellen Sie unter Verwendung der Funktion table() eine Kontingenztafel der Häufigkeiten aller Kombinationen der Textklassen und Dekaden für Ihren Datensatz.
    4. Erstellen Sie unter Verwendung der Funktion dwds.wortverlauf() (nicht anhand einzelner Aufrufe von barplot() und plot()!) die drei Varianten der Wortverlaufsdiagramme für Ihren Datensatz.
    5. Ermitteln Sie ob Ihr Datensatz Wiederholungen von Treffersätzen enthält. Wenn ja, geben Sie die Anzahl der Wiederholungen an. Überprüfen Sie, ob die Anzahl der Treffer ohne Wiederholungen identisch ist mit der Anzahl der Datensatzzeilen ohne Wiederholungen. Dann entfernen Sie die Wiederholungen aus dem Datensatz mit der passenden R-Eingabe.
    6. Berechnen Sie – nach der Entfernung evtl. vorhandener Treffer-Wiederholungen – die Lage- und Streuungsmaße der Häufigkeitsverteilung der Trefferlängen in Ihrem Datensatz und erstellen Sie mit plot() und boxplot() entsprechende grafische Darstellungen. Falls die Häufigkeitsverteilung einen oder mehr extreme Ausreißer enthält, entfernen Sie diese(n) und berechnen Sie dann erneut die Lage- und Streuungsmaße ohne den/die Ausreißer.
    7. Handelt es sich um eine bi- oder multimodale Verteilung? Begründen Sie Ihre Antwort mit Bezug auf die einschlägigen Berechnungen aus der vorangehenden Teilaufgabe.
    8. Berechnen Sie unter Verwendung von Indizierung den Median und das arithmetische Mittel der Trefferlängen gruppiert nach Textklasse.
    9. Berechnen Sie unter Verwendung von tapply() den Median und das arithmetische Mittel der Trefferlängen gruppiert (i) nach Textklasse, (ii) nach Dekade sowie (iii) nach beiden Gruppen gleichzeitig.
  2. Beantworten Sie folgende Fragen in Bezug auf Ihren Datensatz, indem Sie R-Eingaben unter passender Verwendung von logischen Index-Vektoren, den $-Operator oder den Funktionen with(), which(), which.max(), which.min() formulieren.
    1. Wie viele Treffer gibt es in der Textklasse Gebrauchsliteratur aus den 1920er Jahren?
    2. Wie viele Treffer gibt es in der Textklasse Belletristik ab 1980?
    3. Wie viele Treffer gibt es insgesamt in allen Textklassen und allen Dekaden außer Wissenschaft der 1960er Jahre?
    4. Wie lang ist (d.h. aus wie vielen Zeichen besteht) der längste Treffer im Datensatz?
    5. Wie lang ist der längste Treffer in jeder Textklasse?
    6. Wie lang ist der kürzeste Treffer in jeder Dekade?
    7. Wie viele Treffer im ganzen Datensatz bestehen aus mindestens 113 Zeichen?
    8. Wie viele Treffer im ganzen Datensatz sind weniger als halb so lang wie der längste Treffer?
    9. Wie viele Treffer im ganzen Datensatz sind mehr als doppelt so lang wie der kürzeste Treffer?

Auswertungen von Datensätzen Sitemap Statistik und Wahrscheinlichkeit