Bestimmen von Datenmerkmalen
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Bestimmen der Merkmale nützlicher Daten
- Erkennen der Merkmale nützlicher Daten in Beispieldaten
Einleitung
Daten werden oft zur Entscheidungsfindung analysiert. Wissen Sie, woran Sie erkennen, wann Ihre Daten für eine Analyse bereit sind? In diesem Modul erfahren Sie, was gut strukturierte Daten sind und wie Daten bei Bedarf neustrukturiert werden können.
In dieser Lektion erfahren Sie, wie Sie die Merkmale hochwertiger, nützlicher Daten erkennen. Daten mit diesen Merkmalen ermöglichen Ihnen eine effiziente und produktive Analyse.
Im Modul Datenkompetenz – Grundlagen werden die Merkmale erörtert, die der bekannte IT-Experte Stephen Few als erforderliche Eigenschaften für effektives Arbeiten mit Daten benannt hat. So wie die Menschen, die effektiv mit Daten arbeiten, bestimmte Eigenschaften haben, zeichnen sich auch effektive Daten durch spezifische Merkmale aus. Laut Stephen Few ist das Arbeiten mit qualitativ hochwertigen Daten ein wesentlicher Bestandteil von Datenanalysen, die zu wichtigen Erkenntnissen führen.
Stephen Few gilt als einer der führenden Experten auf dem Gebiet der Datenvisualisierung. Die genannten Merkmale wurden mit seiner Erlaubnis seinem Buch Now You See It: An Introduction to Visual Data Sensemaking.
Merkmale nützlicher Daten
Few hat auch eine Liste von Merkmalen zusammengestellt, die nützliche Daten auszeichnen. Während Sie diese Merkmale durchgehen, besinnen Sie sich auf Ihre eigenen Erfahrungen. Haben Sie schon einmal mit Daten zu tun gehabt, die Ihnen im Rahmen Ihres Privat- oder Berufslebens weitergeholfen haben? Welche Merkmale hatten diese Daten? Haben Sie schon einmal mit Daten zu tun gehabt, die Ihnen im Rahmen Ihres Privat- oder Berufslebens keine Hilfe waren? Welche Mängel hatten diese Daten?
Es folgen nun einige der Merkmale hochwertiger Daten.
Merkmale |
Beschreibung |
---|---|
Großvolumig |
Ein großes Volumen relevanter, verfügbarer Daten bedeutet eine größere Chance, dass Sie alles Nötige zur Beantwortung Ihrer Fragen haben. Hinweis: Es ist nicht nötig, Daten einfach um ihrer selbst willen zu beschaffen, denn es kommt auf Relevanz an. |
Historisch |
Anhand von Daten, die in die Vergangenheit zurückreichen, können Sie erkennen, wie die gegenwärtige Situation aufgrund von Mustern entstanden ist, die sich im Laufe der Zeit herausgebildet haben. So können Sie z. B. anhand der Umsatztrends der letzten 10 Jahre Steigerungen oder Rückgänge erkennen. |
Konsistent |
Wenn sich die Sachlage ändert, müssen Daten aus Konsistenzgründen angepasst werden. Die Anpassung von Lohn- und Preisdaten an die Inflation ist dafür ein gutes Beispiel. |
Mehrdimensional |
Daten sollten sowohl quantitative, also numerisch messbare Variablen, als auch qualitative, also merkmalsspezifische, nicht messbare Variablen enthalten. Je mehr Variablen in den Daten vorhanden sind, desto höher ist der potenzielle Erkenntnisgewinn. |
Atomisch |
Je höher der Detailgrad der Daten ist, desto eher können Sie diese auf unterschiedlichen Detailebenen untersuchen. Wenn Sie z. B. die Trends beim Radfahren in Ihrem Bundesland verstehen möchten, wäre es hilfreich, diese Trends nach Landkreisen, Städten und Stadtteilen sortiert zu sehen. |
Bereinigt |
Damit Daten nützlich sind, sollten sie genau, vollständig und fehlerfrei sein. |
Klar |
Daten sollten in leicht verständlichen Begriffen geschrieben werden, nicht als Kürzel. Beispielsweise sind für den Haustyp Begriffe wie "Einfamilienhaus", "Mehrfamilienhaus" und "Reihenhaus" sehr viel aussagekräftiger als Kürzel wie 1Fam, 2Fam und ReiHa. |
Dimensional strukturiert |
Eine gute Möglichkeit zur Strukturierung von Daten ist deren Unterteilung in zwei Typen: Dimensionen (qualitative Werte) und Kennzahlen (quantitative Werte). Dies ist die Organisationsstruktur, mit der Daten in Tableau interpretiert werden. |
Umfassend segmentiert |
Daten sollten zur Vereinfachung der Analyse auf Basis gleicher Merkmale gruppiert werden. Beispielsweise können Daten über Filme nach Genre (Action, Science Fiction, Liebesfilm, Komödie usw.) gruppiert werden. |
Mit bekannter Herkunft |
Um den Daten vertrauen zu können, sollten Sie ihren Hintergrund kennen, d. h. woher sie stammen und wie sie seitdem verändert wurden. |
Prüfen einiger Beispieldaten
Angenommen, Sie haben eine Excel-Datei namens "January-reactors-operating", die von Data.gov heruntergeladen wurde, einer Website, die Zugriff auf öffentlich zugängliche Daten der US-Regierung bietet. Die Datei enthält Informationen über Standorte und Leistungskapazitäten von Kernreaktoren in den USA. Die folgende Abbildung zeigt eine Momentaufnahme der ersten 16 Datenzeilen.
Denken Sie an die Merkmale nützlicher Daten. Sie wissen, dass dieses Datenset von Data.gov stammt, einer Website, auf der Sie Zugriff auf öffentlich zugängliche Daten der US-Regierung haben, und Sie sehen, dass es Daten für die Jahre 2003 bis 2018 enthält. Lassen Sie uns testen, was Sie gerade gelernt haben. Welche beiden Merkmale nützlicher Daten sind hier abgebildet? Füllen Sie in der folgenden Aufgabe die Lücken in den einzelnen Sätzen aus.
Sie kennen nun einige Merkmale effektiver Daten. In der nächsten Lektion erfahren Sie, wie Daten organisiert werden, und lernen den Unterschied zwischen gut strukturierten und schlecht formatierten Daten kennen.
Ressourcen
- Buch: Few, S. (2021). Now You See It: An Introduction to Visual Data Sensemaking (2. Ausgabe). Analytics Press.
- Website: Perceptual Edge, die berufliche Website von Stephen Few