Comprendere i dati e il loro valore
Obiettivi di apprendimento
Al completamento di questa unità, sarai in grado di:
- Spiegare i tipi di dati e i loro formati, ad esempio tabulare, testo, immagini, audio e video.
- Usare tecniche per identificare i tipi di origini dei dati e i metodi utilizzabili per la loro raccolta.
- Comprendere l'impatto dei dati errati sui processi decisionali.
Categorie e tipi di dati
Poiché oggi i dati sono una componente essenziale in tutti i settori, è importante comprendere i diversi tipi, fonti e metodi di raccolta dei dati, nonché la loro importanza per l'IA.
Classificazione dei dati
I dati possono essere classificati in tre categorie principali: strutturati, non strutturati e semi-strutturati.
- I dati strutturati sono organizzati e formattati in un modo specifico, ad esempio in tabelle o fogli di calcolo. Hanno un formato ben definito e si possono facilmente sottoporre a ricerca e analisi. Alcuni esempi di dati strutturati sono i fogli di calcolo, i database, i data lake e i data warehouse.
- I dati non strutturati, invece, non sono formattati in modo specifico e possono includere documenti di testo, immagini, audio e video. I dati non strutturati sono più difficili da analizzare, ma possono fornire preziose indicazioni sul comportamento dei clienti e sulle tendenze del mercato. Esempi di dati non strutturati sono i post sui social media, le recensioni dei clienti e i messaggi email.
- I dati semi-strutturati sono una combinazione di dati strutturati e dati non strutturati. Hanno una struttura piuttosto definita ma possono contenere anche elementi non strutturati. Alcuni esempi di dati semi-strutturati sono i file XML (Extensible Markup Language) o JSON (JavaScript Object Notation).
Formato dei dati
I dati si possono classificare anche in base al formato.
- I dati tabulari sono dati organizzati in righe e colonne, come in un foglio di calcolo.
- I dati di testo includono dati non strutturati sotto forma di documenti di testo, come email o relazioni.
- I dati grafici possono includere informazioni visive sotto forma del logo di un brand, grafici e infografiche.
- I dati geospaziali si riferiscono alle coordinate geografiche e alla forma delle mappe dei paesi, che rappresentano informazioni essenziali sulla superficie terrestre.
- I dati di serie temporali si riferiscono a dati che possono contenere informazioni su un periodo di tempo, ad esempio i prezzi giornalieri delle azioni nell'ultimo anno.
Tipi di dati
Un altro modo per classificare i dati è la loro tipologia, che può essere quantitativa o qualitativa.
- I dati quantitativi sono numerici e possono essere misurati e analizzati statisticamente. Esempi di dati quantitativi sono i dati sulle vendite, il numero dei clienti in base alla posizione geografica e il traffico di un sito web.
- I dati qualitativi, invece, non sono numerici e comprendono testo, immagini e video. In molti casi, i dati qualitativi sono più difficili da analizzare, ma possono fornire preziose indicazioni sulle preferenze e le opinioni dei clienti. Alcuni esempi di dati qualitativi sono le recensioni dei clienti, i post sui social media e le risposte ai sondaggi.
I dati sia quantitativi che qualitativi sono importanti nel campo dell'analisi dei dati in un'ampia gamma di settori. Per maggiori dettagli su questo argomento, consulta il modulo Trailhead Variabili e tipi di campi.
Comprendere i diversi tipi di dati e le relative categorie è importante per analizzarli in modo efficace. Classificando i dati come strutturati, non strutturati e semi-strutturati e distinguendo tra dati quantitativi e qualitativi, le organizzazioni possono scegliere in modo più efficace l'approccio all'analisi più adatto per ottenere informazioni utili. L'esplorazione dei diversi formati, come tabelle, testo e immagini, rende più efficaci l'analisi e l'interpretazione dei dati.
Metodi di raccolta dei dati
Identificare le origini dei dati è un passaggio importante della loro analisi. I dati possono essere ottenuti da varie fonti, tra cui set di dati interni, esterni e pubblici. Le fonti di dati interne comprendono i dati generati all'interno di un'organizzazione, ad esempio i dati di vendita e i dati dei clienti. Le fonti di dati esterne comprendono i dati ottenuti dall'esterno dell'organizzazione, ad esempio le ricerche di mercato e i dati dei social media. I set di dati pubblici sono liberamente accessibili e possono essere utilizzati per l'analisi e la ricerca.
La raccolta, l'etichettatura e la pulizia dei dati sono fasi importanti dell'analisi dei dati.
- La raccolta dei dati è il processo con cui si raccolgono i dati provenienti da varie fonti.
- Quando si etichettano i dati si assegnano tag o etichette ai dati per facilitarne la ricerca e l'analisi. Questo può includere l'assegnazione di categorie ai dati, come gruppi di età o categorie di prodotto.
- La pulizia dei dati è il processo di rimozione o correzione di errori e incongruenze nei dati per migliorarne la qualità e l'accuratezza. La pulizia dei dati può comprendere la rimozione dei duplicati, la correzione degli errori di ortografia e l'inserimento di dati mancanti.
Per la raccolta dei dati si possono utilizzare diverse tecniche, ad esempio sondaggi, interviste, osservazioni e web scraping.
- I sondaggi permettono di raccogliere dati da un gruppo di persone utilizzando un insieme di domande. Si possono condurre online o di persona e sono spesso utilizzati per raccogliere dati sulle preferenze e le opinioni dei clienti.
- Le interviste raccolgono dati dalle persone attraverso colloqui individuali. Possono fornire dati più dettagliati rispetto ai sondaggi, ma possono anche richiedere molto tempo.
- Con l'osservazione i dati vengono raccolti osservando e ascoltando persone o eventi. Può fornire dati preziosi sul comportamento dei clienti e sulle loro interazioni con i prodotti.
- Con web scraping si intende la raccolta di dati dai siti web usando strumenti software. Può essere utilizzato per raccogliere dati sulla concorrenza, sulle tendenze del mercato e sulle recensioni dei clienti.
L'analisi esplorativa dei dati di solito è la prima fase di qualsiasi progetto relativo ai dati. L'obiettivo dell'analisi è conoscere gli pattern generali dei dati e comprenderne gli approfondimenti e le caratteristiche principali.
L'importanza dei dati nell'IA
I dati sono una componente essenziale dell'IA e la loro qualità e validità sono fondamentali per il successo delle applicazioni di IA. Le considerazioni relative alla qualità e alla validità dei dati includono assicurare che i dati siano accurati, completi e rappresentativi della popolazione studiata. I dati errati possono avere un notevole impatto sui processi decisionali e sull'IA, portando a risultati imprecisi o caratterizzati da bias.
La qualità dei dati è importante fin dall'inizio di un progetto di IA. Ecco alcune considerazioni su aspetti che evidenziano l'importanza dei dati e della loro qualità nell'IA.
- Addestramento e prestazioni: la qualità dei dati utilizzati per l'addestramento dei modelli di IA influisce direttamente sulle loro prestazioni. Dati di alta qualità assicurano che il modello apprenda pattern accurati e rappresentativi, il che conduce a previsioni più affidabili e un migliore processo decisionale.
- Accuratezza e bias: la qualità dei dati è essenziale per la limitazione del bias nei sistemi di IA. Dati non accurati o caratterizzati da bias possono portare a risultati falsati, rafforzando le disuguaglianze esistenti o perpetuando pratiche inique. Assicurando la qualità dei dati, le organizzazioni possono puntare all'equità e ridurre al minimo gli esiti discriminatori.
- Generalizzazione e affidabilità: i modelli di IA devono essere in grado di gestire efficacemente dati nuovi e sconosciuti e di offrire livelli di prestazioni costanti in situazioni diverse. La qualità elevata dei dati assicura che il modello apprenda pattern pertinenti e diversificati, riuscendo a elaborare previsioni accurate e a gestire efficacemente le nuove situazioni.
- Fiducia e trasparenza: la qualità dei dati è strettamente legata all'attendibilità e alla trasparenza dei sistemi di IA. Gli stakeholder devono avere fiducia nei dati utilizzati e nei processi coinvolti. Pratiche trasparenti in materia di dati, insieme alla garanzia di qualità dei dati, contribuiscono a creare fiducia e a favorire la trasparenza.
- Data governance e conformità: adottare misure adeguate per la qualità dei dati è essenziale per assicurare che la data governance e la conformità siano allineate ai requisiti normativi. Le organizzazioni devono garantire che i dati utilizzati nei sistemi di IA siano conformi agli standard normativi e relativi alla privacy e alla sicurezza.
Per ottenere un'elevata qualità dei dati nell'IA, è necessario un ciclo di vita dei dati affidabile incentrato sulla diversificazione e rappresentatività dei dati e sulla rimozione di potenziali bias. Il ciclo di vita dei dati si articola in varie fasi e la qualità dei dati è importante in ognuna di esse, ovvero: la loro raccolta, archiviazione, elaborazione, analisi, condivisione, conservazione ed eliminazione. Troverai una descrizione più dettagliata del ciclo di vita dei dati nella prossima unità.
In questa unità hai imparato quali sono i diversi tipi, origini e metodi di raccolta dei dati e la loro importanza per l'IA. Successivamente, passeremo alle nozioni di base sul machine learning e su come si differenzia dalla programmazione tradizionale e scoprirai le tecniche di IA e le relative applicazioni nel mondo reale.
Risorse
- GitHub: Data Literacy
- Sito esterno: How Important Is Data in Machine Learning? (Quanto sono importanti i dati nel machine learning?)
- Trailhead: Qualità dei dati
- Trailhead: Variabili e tipi di campi
- Trailhead: Dati ben strutturati