认识数据的特点
学习目标
完成本单元后,您将能够:
- 认识有用数据的特点。
- 辨别实例数据中有用数据的特点。
简介
人们往往通过分析数据来辅助决策。您知道如何判断您的数据何时准备好接受分析吗?在本模块中,您将学习如何辨别“好”数据,如何在需要时重组数据。
在本单元中,您将学习如何辨别优质、有用的数据的特点。具备这些特点的数据使您可以执行高效、富有成果的分析。
数据素养基础模块讨论的特点是被著名信息技术专家 Stephen Few 认定有助于人们高效运用数据的特点。正如高效运用数据的人具有某些特点一样,有效的数据也有一些使其有用的具体特点。据 Stephen Few 所言,采用优质的数据是能够产生重要洞察的数据分析的基本组成部分。
Stephen Few 是公认的数据可视化领域的领袖,这些特点经许可改编自他的著作 Now You See It: An Introduction to Visual Data Sensemaking。
有用数据的特点
很少有人列举过有用数据呈现的特点。在浏览这些特点的同时可以反思您个人的经验。您有没有遇到过对您的个人生活或工作有用的数据?那些数据具有其中哪些特点?您有没有遇到过对您的个人生活或工作没有用的数据?那些数据缺乏其中哪些特点?
这些是优质数据的部分特点。
特点 |
描述 |
---|---|
海量 |
大量相关、可得的数据意味着有更大的几率拥有解答您的问题所需的东西。 备注:不要为了获得数据而获得数据;相关性很重要。 |
历史 |
从历史数据中,您可以看出现状是如何因为随着时间出现的规律而产生的,比如看一下过去十年的销售趋势可以看出增长或下降。 |
一致 |
随着事物发生变化,也应该调整数据以保持一致性。视通胀作出调整的薪资和物价数据是一个很好的例子。 |
多变量 |
数据应该包含定量(可数)和定性(特征,不可数)变量。数据中的变量越多,您可以从中发现越多东西。 |
细微 |
数据越精细化,您就越能以不同的详细程度挖掘数据。比如,如果您想了解您所在州骑自行车的趋势,看一下这些趋势受县、城市和社区的影响会对您有帮助。 |
干净 |
数据要想有用,必须准确、完整、无误。 |
清晰 |
数据应该用简单易懂的词汇编写,而不是代码。比如,户型值独栋别墅、双拼别墅和联排别墅比 1Fam、2fmCon 和 TwnhsE 更容易理解。 |
多维结构 |
数据结构化的一种简单方法是把它分成两类:维度(定性值)和度量(定量值)。这是解释数据时 Tableau 用到的组织结构。 |
丰富细分 |
为了更容易分析,应该根据类似特征将分组融入数据。比如,关于电影的数据可以按体裁(动作、科幻、爱情、喜剧等等)分组。 |
已知来源 |
您应该知道数据的背景才能信任它——它来自哪里,之后经过了怎样的改动。 |
考虑一些实例数据
试想您有一份文件名是“一月-反应堆-运行”的 Excel 文件,是从 Data.gov 下载的,这是一个您可以访问美国政府公开数据的网站。该文件包含美国核反应堆地点和发电量的信息。这张图是数据前 16 行的快照。
思考有用数据的特点。您知道这个数据集来自您可以访问美国政府公开数据的网站 Data.gov,并且您看到它包含 2003 到 2018 年间的数据。我们来测试您刚刚学过的内容。体现了哪两个有用数据的特点?在下面的活动中,请给每个句子填空。
现在您对有效数据的一些特点有了一定了解。下一个单元,继续学习数据的组织方式以及结构严谨和格式糟糕的数据的区别。
资源
- 书籍:Few, S. (2021)。Now You See It: An Introduction to Visual Data Sensemaking(第二版)。Analytics Press。
- 网站:Perceptual Edge, Stephen Few 的专业网站