Daten und ihre Bedeutung
Lernziele
Nachdem Sie diese Lektion abgeschlossen haben, sind Sie in der Lage, die folgenden Aufgaben auszuführen:
- Erläutern von Datenarten und -formaten wie Tabellen, Text, Bilder, Audio- und Videodaten
- Anwenden von Verfahren, um Typen von Datenquellen und Datenerfassungsmethoden zu identifizieren
- Erläutern, wie sich schlechte Daten auf die Entscheidungsfindung auswirken
Datenklassifizierung und Datenarten
Da Daten heute ein wesentlicher Bestandteil in allen Branchen sind, ist es wichtig, die verschiedenen Arten von Daten, Datenquellen und Erfassungsmethoden sowie die Bedeutung von Daten für die KI-Nutzung zu verstehen.
Datenklassifizierung
Daten können in drei Hauptkategorien eingeordnet werden: strukturiert, unstrukturiert und halbstrukturiert.
- Strukturierte Daten sind auf eine bestimmte Art und Weise organisiert und formatiert, z. B. in Tabellen oder Tabellenblättern. Sie haben ein genau definiertes Format und lassen sich leicht durchsuchen und analysieren. Beispiele für strukturierte Daten sind Tabellenblätter, Datenbanken, Data Lakes und Data Warehouses.
- Unstrukturierte Daten sind dagegen nicht auf eine bestimmte Weise formatiert und können Textdokumente, Bilder sowie Audio- und Videodaten umfassen. Unstrukturierte Daten sind schwieriger zu analysieren, können aber wertvolle Einblicke in das Kundenverhalten und Marktentwicklungen liefern. Beispiele für unstrukturierte Daten sind Posts in sozialen Medien, Kundenbewertungen und E-Mail-Nachrichten.
- Semi-strukturierte Daten sind eine Kombination aus strukturierten und unstrukturierten Daten. Sie haben eine definierte Struktur, können aber auch unstrukturierte Elemente enthalten. Beispiele für halbstrukturierte Daten sind XML- (Extensible Markup Language) oder JSON-Dateien (JavaScript Object Notation).
Datenformat
Daten können auch anhand ihres Formats klassifiziert werden.
- Tabellarische Daten sind strukturierte Daten, die in Zeilen und Spalten organisiert sind, wie z. B. in einem Tabellenblatt.
- Textdaten umfassen unstrukturierte Daten in Form von Textdokumenten, wie etwa E-Mails oder Berichte.
- Bilddaten können visuelle Informationen in Form eines Markenlogos, Diagrammen und Infografiken enthalten.
- Geodaten beinhalten geografische Koordinaten und die Form von Landkarten, die wichtige Informationen über die Erdoberfläche darstellen.
- Zeitreihendaten sind Daten, die Informationen über einen bestimmten Zeitraum enthalten können, z. B. die täglichen Aktienkurse des letzten Jahres.
Arten von Daten
Eine weitere Möglichkeit der Datenklassifizierung ist ihre Einstufung als quantitativ oder qualitativ.
- Quantitative Daten sind numerisch und können gemessen und statistisch analysiert werden. Beispiele für quantitative Daten sind Verkaufszahlen, Kundenzahlen nach geografischem Standort und Website-Verkehr.
- Qualitative Daten hingegen sind nicht numerisch und umfassen Texte, Bilder und Videos. In vielen Fällen sind qualitative Daten schwieriger zu analysieren, können aber wertvolle Einblicke in die Vorlieben und Meinungen von Kunden liefern. Beispiele für qualitative Daten sind Kundenbewertungen, Posts in sozialen Medien und Umfrageantworten.
Sowohl quantitative als auch qualitative Daten sind für die Datenanalyse in einer Vielzahl von Branchen von Bedeutung. Weitere Einzelheiten zu diesem Thema finden Sie im Trailhead-Modul Variablen und Feldtypen.
Für eine effektive Datenanalyse ist es wichtig, die verschiedenen Datentypen und -klassifizierungen zu verstehen. Wenn Unternehmen Daten als strukturiert, unstrukturiert und halbstrukturiert kategorisieren und zwischen quantitativen und qualitativen Daten unterscheiden, können sie effektiver den richtigen Analyseansatz wählen, um Erkenntnisse aus den Daten zu gewinnen. Durch den Einsatz verschiedener Formate wie Tabellen, Texte und Bilder wird die Datenanalyse und -interpretation effektiver:
Methoden zur Datenerfassung
Das Identifizieren von Datenquellen ist ein wichtiger Schritt bei der Datenanalyse. Daten können aus verschiedenen Quellen erfasst werden, unter anderem aus internen, externen und öffentlichen Datensets. Zu internen Datenquellen gehören Daten, die innerhalb eines Unternehmens generiert werden, wie etwa Verkaufs- und Kundendaten. Zu externen Datenquellen zählen Daten, die von außerhalb des Unternehmens stammen, z. B. Marktforschungsdaten und Daten aus sozialen Medien. Bei öffentlichen Daten handelt es sich um frei verfügbare Datensets, die für Analysen und Forschungszwecke verwendet werden dürfen.
Wichtige Schritte bei der Datenanalyse sind die Datenerfassung, -kennzeichnung und -bereinigung.
- Bei der Datenerfassung werden Daten aus verschiedenen Quellen gesammelt.
- Bei der Datenkennzeichnung werden Daten Tags oder Kennzeichnungen zugewiesen, damit sie leichter durchsucht und analysiert werden können. Dabei können den Daten auch Kategorien zugewiesen werden, wie etwa Altersgruppen oder Produktkategorien.
- Bei der Datenbereinigung werden Fehler und Inkonsistenzen in den Daten entfernt oder korrigiert, um die Qualität und Genauigkeit der Daten zu verbessern. Die Datenbereinigung kann das Entfernen doppelter Daten, das Korrigieren von Schreibfehlern und das Ergänzen fehlender Daten umfassen.
Für die Datenerfassung können verschiedene Methoden eingesetzt werden, z. B. Umfragen, Interviews, Beobachtung und Web Scraping.
- Bei Umfragen werden anhand einer Reihe von Fragen Daten von einer Gruppe von Personen gesammelt. Sie können online oder persönlich durchgeführt werden und werden häufig genutzt, um Daten über Kundenvorlieben und -meinungen zu sammeln.
- Bei Interviews werden Daten zu Einzelpersonen in persönlichen Gesprächen gesammelt. Sie können detailliertere Daten liefern als Umfragen, sind aber auch zeitaufwändiger.
- Beim Beobachten werden Daten gesammelt, indem man Personen oder Ereignisse beobachtet bzw. ihnen zuhört. Dies kann wertvolle Daten über Kundenverhalten und Produktinteraktionen liefern.
- Beim Web Scraping werden mithilfe von Software-Tools Daten von Websites gesammelt. So können Daten über Wettbewerber, Marktentwicklungen und Kundenbewertungen gesammelt werden.
Die explorative Datenanalyse (EDA) ist normalerweise der erste Schritt in einem Datenprojekt. Ziel der EDA ist es, allgemeine Muster in den Daten festzustellen und die Erkenntnisse und Schlüsseleigenschaften der Daten zu verstehen.
Die Bedeutung von Daten für die KI-Nutzung
Daten sind ein wesentlicher Bestandteil von KI, und die Qualität und Gültigkeit der Daten sind für den Erfolg von KI-Anwendungen entscheidend. Hinsichtlich der Datenqualität und -gültigkeit muss sichergestellt werden, dass die Daten genau, vollständig und für die untersuchte Zielgruppe repräsentativ sind. Schlechte Daten können sich ganz erheblich auf die Entscheidungsfindung und KI auswirken und zu ungenauen oder verzerrten Ergebnissen führen.
Die Datenqualität ist von Beginn eines KI-Projekts an wichtig. Im Folgenden führen wir einige Bereiche auf, die die Bedeutung von Daten und Datenqualität für die KI-Nutzung unterstreichen.
- Training und Leistung: Die Qualität der zum Trainieren von KI-Modellen verwendeten Daten hat direkten Einfluss auf deren Leistung. Hochwertige Daten stellen sicher, dass das Modell richtige und repräsentative Muster lernt, was zu zuverlässigeren Vorhersagen und besseren Entscheidungen führt.
- Genauigkeit und Bias: Die Datenqualität ist von entscheidender Bedeutung für die Minimierung von Bias in KI-Systemen. Durch Bias verzerrte oder ungenaue Daten können zu verzerrten Ergebnissen führen, die bestehende Ungleichheiten verstärken oder ungerechte Praktiken weiterführen. Wenn Unternehmen auf Datenqualität achten, können sie Gerechtigkeit fördern und diskriminierende Ergebnisse minimieren.
- Verallgemeinerung und Robustheit: KI-Modelle sollten effektiv mit neuen und unbekannten Daten umgehen können und in verschiedenen Situationen konstant gute Leistungen erbringen. Qualitativ hochwertige Daten stellen sicher, dass das Modell relevante und vielfältige Muster lernt und dadurch genaue Vorhersagen treffen und neue Situationen effektiv bewältigen kann.
- Vertrauen und Transparenz: Es besteht ein enger Zusammenhang zwischen der Datenqualität und der Vertrauenswürdigkeit und Transparenz von KI-Systemen. Die Beteiligten müssen Vertrauen in die verwendeten Daten und die beteiligten Prozesse haben können. Transparente Datenpraktiken und Maßnahmen zur Sicherung der Datenqualität tragen dazu bei, Vertrauen aufzubauen und die Verantwortlichkeit zu stärken.
- Data Governance und Compliance: Angemessene Datenqualitätsmaßnahmen sind für Data Governance und die Erfüllung von Compliance-Vorschriften unerlässlich. Unternehmen müssen sicherstellen, dass die in KI-Systemen verwendeten Daten Datenschutz-, Sicherheits- und gesetzliche Standards erfüllen.
Um eine hohe Datenqualität für die KI-Nutzung zu erreichen, ist ein robuster Datenlebenszyklus erforderlich, bei dem der Fokus auf diversen und repräsentativen Daten sowie der Reduzierung von Bias liegt. Der Datenlebenszyklus umfasst verschiedene Phasen, und Datenqualität ist in allen Phasen wichtig. Der Datenlebenszyklus besteht aus der Erfassung, Speicherung, Verarbeitung, Analyse, Freigabe, Aufbewahrung und Vernichtung. Weitere Einzelheiten zum Datenlebenszyklus finden Sie in der nächsten Lektion.
In dieser Lektion haben Sie verschiedene Arten von Daten, Datenquellen und Erfassungsmethoden sowie die Bedeutung von Daten für die KI-Nutzung gelernt. Als Nächstes befassen wir uns mit den Grundlagen des maschinellen Lernens und damit, wie es sich von der herkömmlichen Programmierung unterscheidet. Außerdem lernen Sie KI-Techniken und ihre Anwendungsmöglichkeiten in der Praxis kennen.
Ressourcen
- GitHub: Datenkompetenz (auf Englisch)
- Externe Website: Wie wichtig ist maschinelles Lernen? (auf Englisch)
- Trailhead: Datenqualität
- Trailhead: Variablen und Feldtypen
- Trailhead: Gut strukturierte Daten