Skip to main content

学习数据基础知识

学习目标

完成本单元后,您将能够:

  • 描述数据是什么。
  • 描述不同类型数据源。

简介

您知道数据素养是指探索、了解并传播数据的能力。但是数据到底是什么?

数据是逐个的事实、统计信息或信息项目。一个数据的集合就是一个事实的集合。更具体地说,请思考这个扩展定义。约翰·霍普金斯大学布隆博格公共卫生学院数据科学家 Jeffrey Leek 教授以维基百科对数据的定义为基础,对它进行扩展,形成了他自己的定义:

数据由属于一组项目的定性定量变量的 [sic] 值组成。 

我们把它进行分解,定义它的术语。

术语
定义

一组项目

有时候称作人群,这是您感兴趣的一组对象。

变量

可能不同或变化的某个项目的计量、属性或特征(与不会变的恒定计量如 pi 相对)。

定性变量

定性变量描述品质或特征,比如原籍国、性别、姓名或发色。

定量变量

定量变量描述可以计量的特征,比如高度、重量或温度。

您是否准备好了检查您的理解程度?在下面的活动中,您需要确定每个特征是定性变量还是定量变量。

备注:在本模块中,我们把 data(数据)这个词按单数而不是复数来处理。不过,关于这个词到底是单数还是复数一直存在争议。比如《剑桥词典》指定 data 既是单数也是复数。

如何收集数据?

有各种工具和方法可用来收集数据,比如调查问卷、采访、观察、文档分析、网络爬虫以及机器测量。收到或采集的数据称作原始数据。原始数据也叫源数据或初始数据,没有经过任何处理。这表示数据没有用任何软件运行过,没有修改过任何变量,没有删除过任何数据,也没有进行过任何形式的汇总。原始数据可用于最全面的数据分析,因为没有删除或汇总过任何数据。

原始数据的部分例子包括:

  • 通过显微镜观察的细菌标本
  • 测量仪器生成的二进制文件
  • 未经格式化的电子表格文件
  • 从 X API 抓取的 JSON 数据
  • 人工采集并记录的数字

数据源类型

一个数据源包含探索、了解和传播用到的数据。比如在 Tableau 中,您看到的每一张图都连接一个提供数据的数据源。通过这些交互式抽认卡可以认识一些常见的数据源。 

阅读每张卡片上的术语,然后单击卡片以显示该术语的描述。单击向右箭头可移至下一张卡,单击向左箭头可返回上一张卡。 

资源

现在您已经知道数据素养的含义是什么、问题有多么重要,以及哪些特质对于有效地处理数据是有用的。您还知道如何定义数据、如何收集数据,以及数据在哪里。

继续免费学习!
注册帐户以继续。
有什么适合您的内容?
  • 为您的职业目标获取个性化推荐
  • 通过实践挑战和测验练习您的技能
  • 跟踪并与雇主分享您的进度
  • 与人联系以获取指导和就业机会