データとその重要性を理解する
学習の目的
この単元を完了すると、次のことができるようになります。
- データの種別と形式 (表、テキスト、画像、音声、動画など) について説明する。
- テクニックを駆使してデータソースの種別とデータ収集方法を特定する。
- 低品質のデータが意思決定に与える影響を理解する。
データの分類と種別
今の各業界ではデータが不可欠であるため、いろいろなデータ、データソース、そして収集方法に加えて、AI におけるデータの重要性を理解することが大切です。
データの分類
データは、構造化、非構造化、準構造化の 3 つのカテゴリに分類できます。
- 構造化データは、表やスプレッドシートなど、特定の方法で整理され、書式設定されたデータです。きちんと定義された形式を持っているため、検索や分析が容易です。構造化データの例としては、スプレッドシート、データベース、データレーク、ウェアハウスなどです。
- 非構造化データは、テキスト文書、画像、音声、動画など、特定の形式では整理されていないデータです。非構造化データは構造化データよりも分析が困難ですが、顧客の行動や市場のトレンドに関する貴重なインサイトを得られることがあります。非構造化データの例としては、ソーシャルメディアへの投稿、顧客のレビュー、メールメッセージなどがあります。
- 準構造化データは、構造化データと非構造化データを組み合わせたものです。ある程度の構造が定義されていながら、非構造化要素も含まれています。準構造化データの例としては、XML (Extensible Markup Language) や JSON (JavaScript Object Notation) ファイルがあります。
データの形式
データは、形式で分類することもできます。
- 表形式データは、スプレッドシートのように行と列で整理されたデータです。
- テキストデータは、メールやレポートのようなテキスト文書として保存された非構造化データです。
- 画像データは、ブランドのロゴ、グラフ、インフォグラフィックといった視覚的な情報です。
- 地理空間データは、地理的な座標や国の地図の形状など、地球の表面に関する基本的な情報を表します。
- 時系列データは、過去 1 年の日々の株価の変動といった、一定期間における情報を表します。
データの種別
さらにデータは定量的と定性的という種別でも分類できます。
- 定量的データは、統計的に測定して分析できる数値です。定量的データの例としては、売上金額、地域別の顧客数、Web サイトのトラフィックなどがあります。
- 定性的データは、テキスト、画像、動画などの非数値です。多くの場合、定性的データは定量的データよりも分析が困難ですが、顧客の好みや意見に関する貴重なインサイトを得られることがあります。定性的データの例としては、顧客レビュー、ソーシャルメディアへの投稿、アンケートの回答などがあります。
幅広い業種におけるデータ分析では、定量的データと定性的データの両方が重要です。このトピックの詳細については、Trailhead モジュールの「変数と項目の型」を参照してください。
効果的なデータ分析を行うためには、いろいろなデータの種別や分類を理解しておくことが重要です。データを構造化、非構造化、準構造化のカテゴリに分類し、定量的データと定性的データを区別することで、インサイトを得るための適切な分析アプローチを効果的に選択できるようになります。また、表形式、テキスト、画像など、いろいろな形式を調べることで、データをより効果的に分析して解釈できます。
データの収集方法
データソースを特定することは、データの分析における重要なステップです。データは、内部や外部のデータソース、あるいは公開データセットなど、いろいろなソースから取得できます。内部データソースには、売上データや顧客データなど、組織内で生成されたデータが含まれます。外部データソースには、市場リサーチやソーシャルメディアのデータなど、組織外から取得されたデータが含まれます。公開データセットとは、分析やリサーチに無料で利用できるデータセットです。
データの収集、ラベル付け、クリーニングは、データ分析の重要なステップです。
- データの収集は、さまざまなソースからデータを集めるプロセスです。
- データのラベル付けは、データにタグやラベルを付けることで、検索や分析を容易にするプロセスです。たとえば、年齢グループや商品カテゴリなどのカテゴリをデータに割り当てます。
- データのクリーニングは、データに含まれるエラーや矛盾を除去したり訂正したりすることで、品質と正確さを改善するプロセスです。データのクリーニングでは、重複するデータの削除、スペルミスの訂正、欠落しているデータの補充などを行います。
データの収集には、アンケート、面談、観察、Web スクレイピングなどの方法があります。
- アンケートは、一連の質問を使用して、特定のグループの人々からデータを収集します。アンケートは、オンラインや対面で実施し、多くの場合は顧客の好みや意見を集めるために使用されます。
- 面談は、1 対 1 の対話を通して個人からデータを収集します。アンケートよりも詳細なデータを集めることができますが、時間がかかります。
- 観察は、人々やイベントをよく観察して声に耳を傾けることでデータを集めます。顧客の行動や商品の扱いに関する貴重なデータを得ることができます。
- Web スクレイピングは、ソフトウェアツールを利用して Web サイトからデータを集めます。競合他社、市場のトレンド、顧客のレビューなどのデータを集めることができます。
どのようなデータプロジェクトでも、通常は最初に探索的データ解析 (EDA) を実施します。EDA の目的は、データに含まれる全般的なパターンを特定して、そこから得られるインサイトやその主要な特性について理解することです。
AI でのデータの重要性
データは AI における重要な要素であり、データの品質と妥当性が AI アプリケーションの成功を左右します。データの品質と妥当性を保証するためには、データが正確かつ完全で、調査対象を代表していることを確認する必要があります。品質の低いデータは意思決定や AI に重大な影響を及ぼし、不正確な結果やバイアスのかかった結果をもたらします。
データ品質は、AI プロジェクトの最初から重要なのです。AI においてデータとデータ品質を重視すべき理由を要素別にいくつか示します。
- トレーニングとパフォーマンス: AI モデルのトレーニングに使用するデータの品質は、パフォーマンスに直接影響します。高品質のデータを使用することで、モデルは正確で代表的なパターンを学習し、より信頼できる予測や、より的確な意思決定が行えるようになります。
- 精度とバイアス: データの品質は、AI システムのバイアスを軽減するためにも重要です。バイアスがかかった不正確なデータは、バイアスのかかった結果をもたらし、現存する不平等を増強したり、不公正な現状を存続させることに繋がります。データの品質を保証することで、公正さを追求して、差別的な結果を最小限に抑えることができます。
- 一般化と堅牢性: AI モデルは新しいデータや馴染みのないデータを効果的に処理し、さまざまな状況で一貫して優れたパフォーマンスを発揮できる必要があります。高品質のデータを使用することで、モデルは関連性の高い多様なパターンを学習し、正確な予測を行って、新しい状況でも効果的に処理できるようになります。
- 信頼と透明性: データの品質は AI システムの信頼性と透明性に密接に関連しています。関係者は、使用するデータと関与するプロセスに自信を持っている必要があります。透明性のあるデータを利用してデータの品質を保証することで、信頼が構築され、説明責任が助長されます。
- データのガバナンスとコンプライアンス: データのガバナンスと規制要件へのコンプライアンスを保証するためには、適切なデータ品質基準を設けることが不可欠です。組織は、AI システムで使用するデータがプライバシー、セキュリティ、そして法的な標準に準拠していることを保証する必要があります。
AI で高いデータ品質を実現するためには、データの多様性、代表性、そして潜在的バイアスへの対応に焦点を当てた堅牢なデータライフサイクルが必要です。データライフサイクルにはさまざまなフェーズがあり、データの品質はすべてのフェーズで重要です。データライフサイクルには、収集、保管、処理、分析、共有、維持、廃棄のフェーズがあります。データライフサイクルの詳細は、次の単元で学習します。
この単元では、いろいろなデータ種別、データソース、収集方法、AI でのデータの重要性について学習しました。次は、機械学習の基礎と、従来のプログラミングとの違いについて学習します。また、AI テクニックと現実世界での応用についても学習します。
リソース
- GitHub: Data Literacy (データリテラシー)
- 外部サイト: How Important Is Data in Machine Learning? (機械学習でのデータの重要性)
- Trailhead: データ品質
- Trailhead: 変数と項目の型
- Trailhead: 適切に構造化されたデータ