Skip to main content

Comprendere i dati e il loro valore

Obiettivi di apprendimento

Al completamento di questa unità, sarai in grado di:

  • Spiegare i tipi di dati e i loro formati, ad esempio tabulare, testo, immagini, audio e video.
  • Usare tecniche per identificare i tipi di origini dei dati e i metodi utilizzabili per la loro raccolta.
  • Comprendere l'impatto dei dati errati sui processi decisionali.

Categorie e tipi di dati

Poiché oggi i dati sono una componente essenziale in tutti i settori, è importante comprendere i diversi tipi, fonti e metodi di raccolta dei dati, nonché la loro importanza per l'IA.

Classificazione dei dati

I dati possono essere classificati in tre categorie principali: strutturati, non strutturati e semi-strutturati. 

  • I dati strutturati sono organizzati e formattati in un modo specifico, ad esempio in tabelle o fogli di calcolo. Hanno un formato ben definito e si possono facilmente sottoporre a ricerca e analisi. Alcuni esempi di dati strutturati sono i fogli di calcolo, i database, i data lake e i data warehouse.
  • I dati non strutturati, invece, non sono formattati in modo specifico e possono includere documenti di testo, immagini, audio e video. I dati non strutturati sono più difficili da analizzare, ma possono fornire preziose indicazioni sul comportamento dei clienti e sulle tendenze del mercato. Esempi di dati non strutturati sono i post sui social media, le recensioni dei clienti e i messaggi email.
  • I dati semi-strutturati sono una combinazione di dati strutturati e dati non strutturati. Hanno una struttura piuttosto definita ma possono contenere anche elementi non strutturati. Alcuni esempi di dati semi-strutturati sono i file XML (Extensible Markup Language) o JSON (JavaScript Object Notation).

Formato dei dati

I dati si possono classificare anche in base al formato. 

  • I dati tabulari sono dati organizzati in righe e colonne, come in un foglio di calcolo.
  • I dati di testo includono dati non strutturati sotto forma di documenti di testo, come email o relazioni.
  • I dati grafici possono includere informazioni visive sotto forma del logo di un brand, grafici e infografiche.
  • I dati geospaziali si riferiscono alle coordinate geografiche e alla forma delle mappe dei paesi, che rappresentano informazioni essenziali sulla superficie terrestre.
  • I dati di serie temporali si riferiscono a dati che possono contenere informazioni su un periodo di tempo, ad esempio i prezzi giornalieri delle azioni nell'ultimo anno.

Tipi di dati

Un altro modo per classificare i dati è la loro tipologia, che può essere quantitativa o qualitativa. 

  • I dati quantitativi sono numerici e possono essere misurati e analizzati statisticamente. Esempi di dati quantitativi sono i dati sulle vendite, il numero dei clienti in base alla posizione geografica e il traffico di un sito web.
  • I dati qualitativi, invece, non sono numerici e comprendono testo, immagini e video. In molti casi, i dati qualitativi sono più difficili da analizzare, ma possono fornire preziose indicazioni sulle preferenze e le opinioni dei clienti. Alcuni esempi di dati qualitativi sono le recensioni dei clienti, i post sui social media e le risposte ai sondaggi.

I dati sia quantitativi che qualitativi sono importanti nel campo dell'analisi dei dati in un'ampia gamma di settori. Per maggiori dettagli su questo argomento, consulta il modulo Trailhead Variabili e tipi di campi.

Comprendere i diversi tipi di dati e le relative categorie è importante per analizzarli in modo efficace. Classificando i dati come strutturati, non strutturati e semi-strutturati e distinguendo tra dati quantitativi e qualitativi, le organizzazioni possono scegliere in modo più efficace l'approccio all'analisi più adatto per ottenere informazioni utili. L'esplorazione dei diversi formati, come tabelle, testo e immagini, rende più efficaci l'analisi e l'interpretazione dei dati.

Metodi di raccolta dei dati

Identificare le origini dei dati è un passaggio importante della loro analisi. I dati possono essere ottenuti da varie fonti, tra cui set di dati interni, esterni e pubblici. Le fonti di dati interne comprendono i dati generati all'interno di un'organizzazione, ad esempio i dati di vendita e i dati dei clienti. Le fonti di dati esterne comprendono i dati ottenuti dall'esterno dell'organizzazione, ad esempio le ricerche di mercato e i dati dei social media. I set di dati pubblici sono liberamente accessibili e possono essere utilizzati per l'analisi e la ricerca.

La raccolta, l'etichettatura e la pulizia dei dati sono fasi importanti dell'analisi dei dati. 

  • La raccolta dei dati è il processo con cui si raccolgono i dati provenienti da varie fonti.
  • Quando si etichettano i dati si assegnano tag o etichette ai dati per facilitarne la ricerca e l'analisi. Questo può includere l'assegnazione di categorie ai dati, come gruppi di età o categorie di prodotto.
  • La pulizia dei dati è il processo di rimozione o correzione di errori e incongruenze nei dati per migliorarne la qualità e l'accuratezza. La pulizia dei dati può comprendere la rimozione dei duplicati, la correzione degli errori di ortografia e l'inserimento di dati mancanti.

Per la raccolta dei dati si possono utilizzare diverse tecniche, ad esempio sondaggi, interviste, osservazioni e web scraping. 

  • I sondaggi permettono di raccogliere dati da un gruppo di persone utilizzando un insieme di domande. Si possono condurre online o di persona e sono spesso utilizzati per raccogliere dati sulle preferenze e le opinioni dei clienti.
  • Le interviste raccolgono dati dalle persone attraverso colloqui individuali. Possono fornire dati più dettagliati rispetto ai sondaggi, ma possono anche richiedere molto tempo.
  • Con l'osservazione i dati vengono raccolti osservando e ascoltando persone o eventi. Può fornire dati preziosi sul comportamento dei clienti e sulle loro interazioni con i prodotti.
  • Con web scraping si intende la raccolta di dati dai siti web usando strumenti software. Può essere utilizzato per raccogliere dati sulla concorrenza, sulle tendenze del mercato e sulle recensioni dei clienti.

L'analisi esplorativa dei dati di solito è la prima fase di qualsiasi progetto relativo ai dati. L'obiettivo dell'analisi è conoscere gli pattern generali dei dati e comprenderne gli approfondimenti e le caratteristiche principali.

L'importanza dei dati nell'IA

I dati sono una componente essenziale dell'IA e la loro qualità e validità sono fondamentali per il successo delle applicazioni di IA. Le considerazioni relative alla qualità e alla validità dei dati includono assicurare che i dati siano accurati, completi e rappresentativi della popolazione studiata. I dati errati possono avere un notevole impatto sui processi decisionali e sull'IA, portando a risultati imprecisi o caratterizzati da bias.

La qualità dei dati è importante fin dall'inizio di un progetto di IA. Ecco alcune considerazioni su aspetti che evidenziano l'importanza dei dati e della loro qualità nell'IA.

  • Addestramento e prestazioni: la qualità dei dati utilizzati per l'addestramento dei modelli di IA influisce direttamente sulle loro prestazioni. Dati di alta qualità assicurano che il modello apprenda pattern accurati e rappresentativi, il che conduce a previsioni più affidabili e un migliore processo decisionale.
  • Accuratezza e bias: la qualità dei dati è essenziale per la limitazione del bias nei sistemi di IA. Dati non accurati o caratterizzati da bias possono portare a risultati falsati, rafforzando le disuguaglianze esistenti o perpetuando pratiche inique. Assicurando la qualità dei dati, le organizzazioni possono puntare all'equità e ridurre al minimo gli esiti discriminatori.
  • Generalizzazione e affidabilità: i modelli di IA devono essere in grado di generalizzare correttamente per interpretare dati che non hanno visto prima e offrire prestazioni coerenti in diversi scenari. La qualità elevata dei dati assicura che il modello apprenda pattern pertinenti e diversificati, riuscendo a elaborare previsioni accurate e a gestire efficacemente le nuove situazioni.
  • Fiducia e trasparenza: la qualità dei dati è strettamente legata all'attendibilità e alla trasparenza dei sistemi di IA. Gli stakeholder devono avere fiducia nei dati utilizzati e nei processi coinvolti. Pratiche trasparenti in materia di dati, insieme alla garanzia di qualità dei dati, contribuiscono a creare fiducia e a favorire la trasparenza.
  • Data governance e conformità: adottare misure adeguate per la qualità dei dati è essenziale per assicurare che la data governance e la conformità siano allineate ai requisiti normativi. Le organizzazioni devono garantire che i dati utilizzati nei sistemi di IA siano conformi agli standard normativi e relativi alla privacy e alla sicurezza.

Per ottenere un'elevata qualità dei dati nell'IA, è necessario un ciclo di vita dei dati affidabile incentrato sulla diversificazione e rappresentatività dei dati e sulla rimozione di potenziali bias. Il ciclo di vita dei dati si articola in varie fasi e la qualità dei dati è importante in ognuna di esse, ovvero: la loro raccolta, archiviazione, elaborazione, analisi, condivisione, conservazione ed eliminazione. Troverai una descrizione più dettagliata del ciclo di vita dei dati nella prossima unità. 

In questa unità hai imparato quali sono i diversi tipi, origini e metodi di raccolta dei dati e la loro importanza per l'IA. Successivamente, passeremo alle nozioni di base sul machine learning e su come si differenzia dalla programmazione tradizionale e scoprirai le tecniche di IA e le relative applicazioni nel mondo reale.

Risorse 

Continua a imparare gratuitamente!
Registra un account per continuare.
Cosa troverai?
  • Ottieni consigli personalizzati per i tuoi obiettivi di carriera
  • Metti in pratica le tue competenze con sfide pratiche e quiz
  • Monitora e condividi i tuoi progressi con i datori di lavoro
  • Accedi a risorse di tutoraggio e opportunità di carriera