Appearance
Folgende Inhalte werden im Kurs "Data Wrangling" behandelt:
1. Prozessmodell des Data Wrangling
Hier wird zunächst ein Modell des Prozesses des Data Wrangling präsentiert, an dem die Teilnehmenden sich im Laufe des Moduls immer wieder orientieren und die einzelnen Schritte verorten können.
2. Die Datenmaske
Es wurden Daten erhoben, um die Motivation Studierender in einer Vorlesung genauer zu untersuchen. Dieser Datensatz wird zur Verfügung gestellt, um die Vorbereitung von Daten und alle Schritte des Data Wrangling einzuüben, bzw. selbst einmal auszuprobieren. In diesem Kursabschnitt wird der Datensatz vorgestellt, mit dem gearbeitet werden soll. Um einordnen zu können, was hinter diesen Daten steckt und zu welchem Zweck Sie erhoben wurden, gibt es zunächst eine kleine Einführung in die der Datenerhebung zugrundeliegenden Annahmen. Zusätzlich wird ein erster Blick auf den Datensatz geworfen. Wenn Daten erhoben werden, liegt (nach Eingabe der Daten in eine Datenmaske) zunächst ein Datensatz vor, mit dem noch nicht viel anzufangen ist. Die Daten sind wahrscheinlich auch noch nicht sortiert, nicht verständlich benannt und die Eigenschaften der verschiedenen Datentypen sind noch nicht festgelegt. In diesem Abschnitt geht es darum, einen ersten Blick auf die Daten zu werfen und ein wenig Ordnung zu schaffen. Es wird gezeigt, wie ein Datensatz in SPSS erstellt wird und was ein Codebuch ist.
3. Skalenniveaus
Im Folgenden soll das Konzept der Skalenniveaus näher betrachtet werden. Was sind Skalenniveaus? Was kann ich mit welchen Daten berechnen? Was bedeutet das für die Analysemethoden? Und was hat das mit Data Wrangling zu tun?
4. Daten bereinigen und anreichern
Es kommt immer wieder vor, dass Daten im Datensatz fehlen. Vielleicht hat eine Teilnehmerin eine Frage übersehen und deshalb nicht angekreuzt oder ein Teilnehmer hat eine Frage nicht beantwortet, weil er sie nicht verstanden hat. Es kann auch vorkommen, dass einzelne Daten stark von den anderen abweichen. Zum Beispiel kann es sein, dass eine Person in der Stichprobe deutlich älter ist als die anderen. Je nach Fragestellung können diese Ausreißer die Analyse beeinflussen. In diesem Abschnitt wird erläutert, wie fehlende Daten und Ausreißer behandelt und identifiziert werden.
5. Maße zentraler Tendenz
In diesem Abschnitt werden verschiedene Maße der zentralen Tendenz vorgestellt. Sie sagen etwas darüber aus, wie die Daten verteilt sind und wie man sie in SPSS berechnet.
6. Verteilungen
In dieser Einheit werden ausgewählte, wichtige Häufigkeitsverteilungen erlernt bzw. aufgefrischt, um einen ersten Eindruck von den Daten zu erhalten und die Plausibilität der bisherigen Bearbeitung zu überprüfen.
7. Skalenbildung
Häufig müssen mehrere Datenpunkte (z.B. Antworten auf Fragen) zusammengefasst werden, um sinnvolle Analysen durchführen zu können. In diesem Abschnitt wird gezeigt, wie Skalen in Fragebögen zusammengefasst werden und wie dies in SPSS umgesetzt werden kann.
8. Reliabilität
Reliabilität ist ein Maß für die Genauigkeit und Verlässlichkeit von Messungen. Im Prozess des Data Wrangling wird die Reliabilität der Instrumente überprüft. Welche Arten von Reliabilitäten es gibt, wie sie berechnet werden und wie die Berechnungen in SPSS umgesetzt werden können, ist Gegenstand dieses Kursabschnitts.
9. Standardisierung
In diesem Abschnitt wird vermittelt, wie Daten, die ursprünglich vielleicht weniger vergleichbar waren, so umgewandelt werden können, dass sie vergleichbar sind. Außerdem werden Verfahren zur Standardisierung von Daten und deren Nutzen vorgestellt.
10. Dokumentation und Zusammenfassung
Der gesamte Prozess des Data Wrangling muss sorgfältig dokumentiert werden, damit auch nach der Datenaufbereitung nachvollzogen werden kann, was an den Daten verändert wurde. Wenn die Daten für andere Analysen nachgenutzt werden, ist es wichtig zu wissen, was mit den Daten seit der Erhebung geschehen ist.