Skip to main content
From 16:00 UTC on January 17, 2026, to 20:00 UTC on January 17, 2026, we will perform planned maintenance on the Trailhead, myTrailhead, and Trailblazer Community sites. During the maintenance, these sites will be unavailable, and users won't be able to access them. Please plan your activities around this required maintenance.

了确数据及其意义

学习目标

完成本单元后,您将能够:

  • 解释数据的类型和格式,例如表格、文本、图像、音频和视频。
  • 使用技术来识别数据源类型和数据收集方法。
  • 了解不正确的数据对决策的影响。

Trailcast

如果您想收听本模块的录音,请使用以下播放器。听完这段录音后,记得返回每个单元,查看资源,然后完成相关评估。

数据分类和类型

现如今,随着数据成为行业的重要组成部分,了解不同类型的数据、数据源和收集方法,以及数据在 AI 中的重要性就变得至关重要。

数据分类

数据可以分为三个主要类别:结构化、非结构化和半结构化。

  • 结构化数据具有特定的组织和格式方式。这类数据具有明确定义的格式,容易进行搜索和分析。结构化数据的示例包括电子表格和数据库。
  • 另一方面,非结构化数据没有特定的格式,可以包含文本文档、图像、录音和视频。分析非结构化数据更加困难,但它可以为客户行为和市场趋势提供有价值的见解。非结构化数据的示例包括社交媒体帖子、客户评论,以及像电子邮件消息或 Slack 帖子等对话类数据。
  • 半结构化数据是结构化和非结构化数据的组合。这类数据具有一些定义的结构,但也可能包含非结构化元素。半结构化数据的示例包括 XML(可扩展标记语言)或 JSON(JavaScript 对象表示法)文件。

数据格式

数据还可以按其格式进行分类。

  • 表格数据是以行和列的形式组织的结构化数据,例如电子表格中的数据。
  • 文本数据包括以文本文档形式呈现的非结构化数据,如电子邮件或报告。
  • 图像数据可以包括以品牌标志、图表和信息图形式呈现的可视化信息。
  • 地理空间数据指的是地理坐标和国家地图的形状,代表关于地球表面的重要信息。
  • 时间序列数据指的是包含一段时间内的信息的数据,例如过去一年的每日股价。

数据类型

根据类型进行分类是另一种数据分类方法,它可以是定量或定性的。

  • 定量数据是数值数据,可以通过统计方法进行测量和分析。定量数据的示例包括销售数字、基于地理位置的客户数量以及网站流量。
  • 定性数据是非数值数据,包括文本、图像和视频。在许多情况下,分析定性数据更加困难,但它可以为客户偏好和意见提供有价值的见解。定性数据的示例包括客户评论、社交媒体帖子和调查回复。

定量和定性数据在各行各业的数据分析领域都非常重要。有关此主题的更多详细信息,请查看变量和字段类型 Trailhead 模块。

了解不同的数据类型和分类对于有效的数据分析至关重要。通过将数据按结构化、非结构化和半结构化进行分类,并区分定量和定性数据,组织可以更有效地选择适当的分析方法来获取见解。探索不同的格式,如表格、文本和图像,可以使数据分析和解释更加有效。

数据收集方法

识别数据源是数据分析中的重要步骤。数据可以从各种来源获得,包括内部、外部和公共数据集。内部数据源包括组织内部生成的数据,如销售数据和客户数据。外部数据源包括从组织外部获取的数据,如市场研究和社交媒体数据。公共数据集是可用于分析和研究的免费数据集。

数据收集、标注和清理是数据分析中的重要步骤。

  • 数据收集是从各种来源收集数据的过程。
  • 数据标注指的是为数据分配标签或标记,使其更易于搜索和分析。这可以包括为数据分配类别,如年龄组或产品类别。
  • 数据清理是删除或更正数据中的错误和不一致之处,以提高其质量和准确性的过程。数据清理可以包括删除重复数据、更正拼写错误和填充缺失数据。

可以使用各种技术来收集数据,例如调查、访谈、观察和网络爬虫。

  • 调查通过询问一组问题从一群人那里收集数据。调查可以在线或面对面进行,通常用于收集客户偏好和意见方面的数据。
  • 访谈通过一对一的谈话来收集个人数据。这种方法可以提供比调查更详细的数据,但可能会很耗时。
  • 观察通过观察和倾听人或事件来收集数据。这可以提供关于客户行为和产品交互的有价值的数据。
  • 网络爬虫使用软件工具从网站收集数据。这种方法用于收集有关竞争对手、市场趋势和客户评论的数据。

对任何数据项目而言,探索性数据分析 (EDA) 通常都是第一步。EDA 的目标是了解数据中的通用模式并获悉与之相关的见解和关键特征。

数据在 AI 中的重要性

数据是 AI 的重要组成部分,数据的质量和有效性对 AI 应用能否成功至关重要。数据质量和有效性的考虑因素包括确保数据最新、准确且完整,并能代表所研究的人群。不完整、过时或含有错误的数据会对决策和 AI 产生重大影响,导致结果不准确或存在偏差。

从 AI 项目启动之时起,数据质量就发挥着重要作用。以下是一些需要考虑的领域,它们凸显了数据和数据质量在 AI 中的重要性。

  • 训练和性能:用于训练 AI 模型的数据的质量直接影响其性能。高质量的数据可确保模型学习准确且具有代表性的模式,从而实现更可靠的预测和更佳的决策。
  • 准确性和偏差:数据质量对于消除 AI 系统内部的偏差至关重要。有偏差或不准确的数据会导致结果存在偏差,加剧现有的不平等或使不公平做法长期存在。通过确保数据质量,组织可以努力追求公平性,最大限度地减少歧视性结果。
  • 泛化和稳健性:人工智能模型应该能够有效地处理新的和不熟悉的数据,并在不同情况下始终表现良好。高质量的数据可确保模型学习相关且多样化的模式,使其能够做出准确的预测并有效处理新情况。
  • 信任和透明度:数据质量与 AI 系统的可信度和透明度密切相关。利益相关者必须对所用数据和涉及的过程充满信心。透明的数据实践,加上数据质量保证,有助于建立信任和提高责任感。
  • 数据治理和合规性:适当的数据质量措施对于维持数据治理和遵守法规要求至关重要。组织必须确保在 AI 系统中使用的数据符合隐私、安全和法律标准。

为了将高质量的数据用于 AI,需要维持一个稳健的数据生命周期,将重点放在数据的多样性、代表性和清除潜在偏差上。数据生命周期分为不同的阶段,而数据质量在所有阶段都至关重要。数据生命周期包括数据的收集、存储、处理、分析、分享、保留和处置等各个阶段。在下一单元中,您将了解有关数据生命周期的更多详细信息。

在本单元中,您了解了不同类型的数据、数据源和收集方法,以及数据在 AI 中的重要性。接下来,学习关于机器学习的基础知识,以及它与传统编程的区别。同时学习 AI 技术及其在现实世界中的应用。

资源 

在 Salesforce 帮助中分享 Trailhead 反馈

我们很想听听您使用 Trailhead 的经验——您现在可以随时从 Salesforce 帮助网站访问新的反馈表单。

了解更多 继续分享反馈