Kennlernen der Datengrundlagen
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Beschreiben, was Daten sind
- Beschreiben der verschiedenen Typen von Datenquellen
Einleitung
Datenkompetenz ist, wie Sie wissen, die Fähigkeit, Daten zu erkunden, zu verstehen und mit ihnen zu kommunizieren. Was aber sind "Daten" genau?
Daten sind einzelne Fakten, Statistiken oder Informationen. Eine Sammlung von Daten ist eine Sammlung von Fakten. Dabei sollte insbesondere die folgende erweiterte Definition beachtet werden. Jeffrey Leek, ein Data Scientist, der als Professor an der Johns Hopkins Bloomberg School of Public Health arbeitet, hat die Definition von Daten von Wikipedia übernommen und sie für seine eigene Definition ergänzt:
Daten sind eine Zusammenstellung von Werten mit qualitativen oder quantitativen Variablen, die zu einem Satz von Elementen gehören.
Lassen Sie uns das kurz aufschlüsseln und die Begriffe definieren.
Begriff |
Definition |
---|---|
Satz von Elementen |
Mitunter als Grundgesamtheit bezeichnet, ist dies die Gruppe von Objekten, an denen Sie interessiert sind. |
Variable |
Eine Messgröße, Eigenschaft oder ein Merkmal eines Elements, die bzw. das variieren oder sich ändern kann (im Gegensatz zu einer konstanten Messgröße wie Pi, die nicht variiert). |
Qualitative Variable |
Eine qualitative Variable beschreibt Eigenschaften oder Merkmale wie Herkunftsland, Geschlecht, Name oder Haarfarbe. |
Quantitative Variable |
Eine quantitative Variable steht für messbare Merkmale wie Höhe, Gewicht oder Temperatur. |
Sind Sie bereit, Ihr Verständnis zu testen? In der folgenden Aufgabe bestimmen Sie, ob es sich beim jeweiligen Merkmal um eine qualitative oder quantitative Variable handelt.
Hinweis: In diesem Modul wird der Begriff "Daten" durchgehend im Plural verwendet.
Wie werden Daten erfasst?
Wir verfügen über verschiedene Tools und Techniken zur Erfassung von Daten, wie z. B. Fragebögen, Interviews, Beobachtungen, Dokumentanalysen, Web Scraping und Gerätemessungen. Abgerufene oder erfasste Daten werden als Rohdaten bezeichnet. Rohdaten, die auch als Quell- oder Primärdaten bezeichnet werden, wurden noch in keiner Weise verarbeitet. Das bedeutet, dass die Daten weder eine Software durchlaufen haben, noch wurden Variablen verändert, Daten entfernt oder in irgendeiner Weise zusammengefasst. Rohdaten ermöglichen die umfassendste Datenanalyse, da Daten noch nicht entfernt oder zusammengefasst wurden.
Es folgen Beispiele für Rohdaten:
- Eine unter dem Mikroskop betrachtete Bakterienprobe
- Von Messgeräten erzeugte Binärdateien
- Unformatierte Kalkulationstabellendateien
- Von der X-API ausgelesene JSON-Daten
- Manuell erfasste und aufgezeichnete Zahlen
Typen von Datenquellen
Eine Datenquelle enthält die Daten, die untersucht, analysiert und kommuniziert werden sollen. In Tableau ist beispielsweise jedes Diagramm mit einer Datenquelle verbunden, die die zugrunde liegenden Daten liefert. Nutzen Sie diese interaktiven Lernkarten, um sich über einige gängige Datenquellen zu informieren.
Lesen Sie den Begriff auf jeder Karte und klicken Sie dann auf die Karte, um die Beschreibung des Begriffs einzublenden. Klicken Sie auf den nach rechts zeigenden Pfeil, um zu nächsten Karte zu gelangen, bzw. den nach links zeigenden Pfeil, um zur vorherigen Karte zurückzukehren.
Ressourcen
- Tableau-Blog: Gewinnen Sie neue Erkenntnisse aus Ihren Daten: Fragen Sie immer wieder nach dem "Warum"
- Buch: Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (2. Ausgabe). Analytics Press, 29-32.
- Website: Perceptual Edge, die berufliche Website von Stephen Few
- Coursera. The Data Scientist’s Toolbox (Kursregistrierung erforderlich)
- Tableau: Wir machen Daten sichtbar und verständlich
Sie wissen jetzt, was Datenkompetenz bedeutet, wie wichtig Fragen sind und welche Fähigkeiten für die effektive Arbeit mit Daten nützlich sind. Außerdem haben Sie erfahren, wie Daten definiert und erfasst und wo sie gespeichert werden.