Ordnung ins Daten-Chaos bringen

Daten aus der realen Welt sind oft unübersichtlich und unstrukturiert. Wie sie mit der freien Programmiersprache R aufgeräumt und für die statistische Analyse vorbereitet werden können, zeigt Hansjörg Neth in seinem Open-Access-Lehrbuch „Data Science for Psychologists“.
© Hansjörg Neth

Wer sich in Kursen an der Universität oder im Selbststudium mit Statistik beschäftigt, muss sich über Eines üblicherweise wenig Gedanken machen: die Vorbereitung der zu analysierenden Daten. Meist werden diese für Übungen in aufbereiteter Form mitgeliefert. Umso größer ist häufig die Ernüchterung beim ersten Versuch, das Erlernte auf eigene Fragestellungen anzuwenden. Denn Echtwelt-Daten sind oft alles andere als „ordentlich“ und müssen für die Auswertung meist erst noch aufbereitet und strukturiert werden.

Wie Daten mithilfe der freien Programmiersprache R in die richtige Form gebracht werden, um wissenschaftliche Fragen zu beantworten, erklärt der Konstanzer Psychologe Hansjörg Neth in seinem Open-Access-Buch „Data Science for Psychologists“. Anhand zahlreicher Beispiele werden darin Strategien und Werkzeuge zur Umgestaltung, Zusammenfassung und Visualisierung unterschiedlichster Daten und Datentypen vermittelt. Unterstützt wird das Buch – das sich nicht nur für Psychologen als Einführung in die Datenwissenschaft eignet – durch ein eigenes R-Paket (ds4psy), das die in den Beispielen verwendeten Datensätze und Funktionen bereitstellt.


Das Lehrbuch „Data Science for Psychologists“ wird durch den Autoren kostenlos auf Bookdown.org zur Verfügung gestellt.


Das R-Paket „ds4psy“ (doi: 10.5281/zenodo.7229812) mit Beispieldatensätzen und Funktionen, die im Buch Verwendung finden, können von CRAN oder im Github-Verzeichnis des Autoren heruntergeladen werden.

Daniel Schmidtke

Von Daniel Schmidtke - 28.02.2024