了确数据及其意义

学习目标

完成本单元后，您将能够：

现如今，随着数据成为行业的重要组成部分，了解不同类型的数据、数据源和收集方法，以及数据在 AI 中的重要性就变得至关重要。

数据分类

数据可以分为三个主要类别：结构化、非结构化和半结构化。

结构化数据具有特定的组织和格式方式。这类数据具有明确定义的格式，容易进行搜索和分析。结构化数据的示例包括电子表格和数据库。
另一方面，非结构化数据没有特定的格式，可以包含文本文档、图像、录音和视频。分析非结构化数据更加困难，但它可以为客户行为和市场趋势提供有价值的见解。非结构化数据的示例包括社交媒体帖子、客户评论，以及像电子邮件消息或 Slack 帖子等对话类数据。
半结构化数据是结构化和非结构化数据的组合。这类数据具有一些定义的结构，但也可能包含非结构化元素。半结构化数据的示例包括 XML（可扩展标记语言）或 JSON（JavaScript 对象表示法）文件。

数据格式

数据还可以按其格式进行分类。

数据类型

根据类型进行分类是另一种数据分类方法，它可以是定量或定性的。

定量数据是数值数据，可以通过统计方法进行测量和分析。定量数据的示例包括销售数字、基于地理位置的客户数量以及网站流量。
而定性数据是非数值数据，包括文本、图像和视频。在许多情况下，分析定性数据更加困难，但它可以为客户偏好和意见提供有价值的见解。定性数据的示例包括客户评论、社交媒体帖子和调查回复。

定量和定性数据在各行各业的数据分析领域都非常重要。有关此主题的更多详细信息，请查看变量和字段类型 Trailhead 模块。

了解不同的数据类型和分类对于有效的数据分析至关重要。通过将数据按结构化、非结构化和半结构化进行分类，并区分定量和定性数据，组织可以更有效地选择适当的分析方法来获取见解。探索不同的格式，如表格、文本和图像，可以使数据分析和解释更加有效。

识别数据源是数据分析中的重要步骤。数据可以从各种来源获得，包括内部、外部和公共数据集。内部数据源包括组织内部生成的数据，如销售数据和客户数据。外部数据源包括从组织外部获取的数据，如市场研究和社交媒体数据。公共数据集是可用于分析和研究的免费数据集。

数据收集、标注和清理是数据分析中的重要步骤。

可以使用各种技术来收集数据，例如调查、访谈、观察和网络爬虫。

对任何数据项目而言，探索性数据分析 (EDA) 通常都是第一步。EDA 的目标是了解数据中的通用模式并获悉与之相关的见解和关键特征。

数据是 AI 的重要组成部分，数据的质量和有效性对 AI 应用能否成功至关重要。数据质量和有效性的考虑因素包括确保数据最新、准确且完整，并能代表所研究的人群。不完整、过时或含有错误的数据会对决策和 AI 产生重大影响，导致结果不准确或存在偏差。

从 AI 项目启动之时起，数据质量就发挥着重要作用。以下是一些需要考虑的领域，它们凸显了数据和数据质量在 AI 中的重要性。

训练和性能：用于训练 AI 模型的数据的质量直接影响其性能。高质量的数据可确保模型学习准确且具有代表性的模式，从而实现更可靠的预测和更佳的决策。
准确性和偏差：数据质量对于消除 AI 系统内部的偏差至关重要。有偏差或不准确的数据会导致结果存在偏差，加剧现有的不平等或使不公平做法长期存在。通过确保数据质量，组织可以努力追求公平性，最大限度地减少歧视性结果。
泛化和稳健性：人工智能模型应该能够有效地处理新的和不熟悉的数据，并在不同情况下始终表现良好。高质量的数据可确保模型学习相关且多样化的模式，使其能够做出准确的预测并有效处理新情况。
信任和透明度：数据质量与 AI 系统的可信度和透明度密切相关。利益相关者必须对所用数据和涉及的过程充满信心。透明的数据实践，加上数据质量保证，有助于建立信任和提高责任感。
数据治理和合规性：适当的数据质量措施对于维持数据治理和遵守法规要求至关重要。组织必须确保在 AI 系统中使用的数据符合隐私、安全和法律标准。

为了将高质量的数据用于 AI，需要维持一个稳健的数据生命周期，将重点放在数据的多样性、代表性和清除潜在偏差上。数据生命周期分为不同的阶段，而数据质量在所有阶段都至关重要。数据生命周期包括数据的收集、存储、处理、分析、分享、保留和处置等各个阶段。在下一单元中，您将了解有关数据生命周期的更多详细信息。

在本单元中，您了解了不同类型的数据、数据源和收集方法，以及数据在 AI 中的重要性。接下来，学习关于机器学习的基础知识，以及它与传统编程的区别。同时学习 AI 技术及其在现实世界中的应用。