了确数据及其意义
学习目标
完成本单元后,您将能够:
- 解释数据的类型和格式,例如表格、文本、图像、音频和视频。
- 使用技术来识别数据源类型和数据收集方法。
- 了解不正确的数据对决策的影响。
数据分类和类型
现如今,随着数据成为行业的重要组成部分,了解不同类型的数据、数据源和收集方法,以及数据在 AI 中的重要性就变得至关重要。
数据分类
数据可以分为三个主要类别:结构化、非结构化和半结构化。
- 结构化数据具有特定的组织和格式方式,例如以表格或电子表格的形式。这类数据具有明确定义的格式,容易进行搜索和分析。结构化数据的示例包括电子表格、数据库、数据湖和数据仓库。
- 另一方面,非结构化数据没有特定的格式,可以包含文本文档、图像、音频和视频。分析非结构化数据更加困难,但它可以为客户行为和市场趋势提供有价值的见解。非结构化数据的示例包括社交媒体帖子、客户评论和电子邮件消息。
- 半结构化数据是结构化和非结构化数据的组合。这类数据具有一些定义的结构,但也可能包含非结构化元素。半结构化数据的示例包括 XML(可扩展标记语言)或 JSON(JavaScript 对象表示法)文件。
数据格式
数据还可以按其格式进行分类。
- 表格数据是以行和列的形式组织的结构化数据,例如电子表格中的数据。
- 文本数据包括以文本文档形式呈现的非结构化数据,如电子邮件或报告。
- 图像数据可以包括以品牌标志、图表和信息图形式呈现的可视化信息。
- 地理空间数据指的是地理坐标和国家地图的形状,代表关于地球表面的重要信息。
- 时间序列数据指的是包含一段时间内的信息的数据,例如过去一年的每日股价。
数据类型
根据类型进行分类是另一种数据分类方法,它可以是定量或定性的。
- 定量数据是数值数据,可以通过统计方法进行测量和分析。定量数据的示例包括销售数字、基于地理位置的客户数量以及网站流量。
- 而定性数据是非数值数据,包括文本、图像和视频。在许多情况下,分析定性数据更加困难,但它可以为客户偏好和意见提供有价值的见解。定性数据的示例包括客户评论、社交媒体帖子和调查回复。
定量和定性数据在各行各业的数据分析领域都非常重要。有关此主题的更多详细信息,请查看变量和字段类型 Trailhead 模块。
了解不同的数据类型和分类对于有效的数据分析至关重要。通过将数据按结构化、非结构化和半结构化进行分类,并区分定量和定性数据,组织可以更有效地选择适当的分析方法来获取见解。探索不同的格式,如表格、文本和图像,可以使数据分析和解释更加有效。
数据收集方法
识别数据源是数据分析中的重要步骤。数据可以从各种来源获得,包括内部、外部和公共数据集。内部数据源包括组织内部生成的数据,如销售数据和客户数据。外部数据源包括从组织外部获取的数据,如市场研究和社交媒体数据。公共数据集是可用于分析和研究的免费数据集。
数据收集、标注和清理是数据分析中的重要步骤。
- 数据收集是从各种来源收集数据的过程。
- 数据标注指的是为数据分配标签或标记,使其更易于搜索和分析。这可以包括为数据分配类别,如年龄组或产品类别。
- 数据清理是删除或更正数据中的错误和不一致之处,以提高其质量和准确性的过程。数据清理可以包括删除重复数据、更正拼写错误和填充缺失数据。
可以使用各种技术来收集数据,例如调查、访谈、观察和网络爬虫。
- 调查通过询问一组问题从一群人那里收集数据。调查可以在线或面对面进行,通常用于收集客户偏好和意见方面的数据。
- 访谈通过一对一的谈话来收集个人数据。这种方法可以提供比调查更详细的数据,但可能会很耗时。
- 观察通过观察和倾听人或事件来收集数据。这可以提供关于客户行为和产品交互的有价值的数据。
- 网络爬虫使用软件工具从网站收集数据。这种方法用于收集有关竞争对手、市场趋势和客户评论的数据。
对任何数据项目而言,探索性数据分析 (EDA) 通常都是第一步。EDA 的目标是了解数据中的通用模式并获悉与之相关的见解和关键特征。
数据在 AI 中的重要性
数据是 AI 的重要组成部分,数据的质量和有效性对 AI 应用能否成功至关重要。数据质量和有效性的考虑因素包括确保数据准确、完整,并能代表所研究的人群。不正确的数据会对决策和 AI 产生重大影响,导致结果不准确或存在偏差。
从 AI 项目启动之时起,数据质量就发挥着重要作用。以下是一些需要考虑的领域,它们凸显了数据和数据质量在 AI 中的重要性。
- 训练和性能:用于训练 AI 模型的数据的质量直接影响其性能。高质量的数据可确保模型学习准确且具有代表性的模式,从而实现更可靠的预测和更佳的决策。
- 准确性和偏差:数据质量对于消除 AI 系统内部的偏差至关重要。有偏差或不准确的数据会导致结果存在偏差,加剧现有的不平等或使不公平做法长期存在。通过确保数据质量,组织可以努力追求公平性,最大限度地减少歧视性结果。
- 泛化和稳健性:人工智能模型应该能够有效地处理新的和不熟悉的数据,并在不同情况下始终表现良好。高质量的数据可确保模型学习相关且多样化的模式,使其能够做出准确的预测并有效处理新情况。
- 信任和透明度:数据质量与 AI 系统的可信度和透明度密切相关。利益相关者必须对所用数据和涉及的过程充满信心。透明的数据实践,加上数据质量保证,有助于建立信任和提高责任感。
- 数据治理和合规性:适当的数据质量措施对于维持数据治理和遵守法规要求至关重要。组织必须确保在 AI 系统中使用的数据符合隐私、安全和法律标准。
为了将高质量的数据用于 AI,需要维持一个稳健的数据生命周期,将重点放在数据的多样性、代表性和清除潜在偏差上。数据生命周期分为不同的阶段,而数据质量在所有阶段都至关重要。数据生命周期包括数据的收集、存储、处理、分析、分享、保留和处置等各个阶段。在下一单元中,您将了解有关数据生命周期的更多详细信息。
在本单元中,您了解了不同类型的数据、数据源和收集方法,以及数据在 AI 中的重要性。接下来,学习关于机器学习的基础知识,以及它与传统编程的区别。同时学习 AI 技术及其在现实世界中的应用。
资源