Skip to main content

将数据分析带到云端

学习目标

完成本单元后,您将能够:

  • 解释本地数据收集和分析工具方面存在的挑战。
  • 列出基于云计算的数据分析具备的优势。

在云端构建您的数据分析解决方案

随着时间的推移,业务变得越来越复杂,为了使组织能够跟上,工具和服务也变得越来越强大。数据分析从昂贵的本地硬件到基于云的架构的演变便是一个典型的例子。在下面的视频中,Raf 强调了这两种方法之间的差异。

查看脚本

[Raf] 你可能已经知道,云更加灵活、可扩展、安全、呈分布式且有弹性。但我想提供一种与数据更加相关的方法来解释为什么云计算与数据分析相关。在本节中,我将解释为什么云是当今执行数据分析的最佳方式,以及为什么它对于处理大数据工作负载来说是可靠的。那么,让我们开始吧。

在我们讨论云之前,请允许我回顾一下过去,也许是十年前,给你讲一个小故事。回顾之后,你自然就会理解为什么每个人都喜欢在云中进行数据分析。准备好了吗?带好你喜欢的饮料,系好安全带!

(杯子掉到地上)

(嗡嗡声)

多年前,公司拥有计算基础设施(包括大数据)的最常见方法是购买服务器并将其安装到数据中心。这通常称为组合。问题是,用于数据操作的服务器并不便宜,因为它们需要大量存储空间,消耗大量电力并且需要仔细维护数据持久性。

因此,需要整个专门的基础设施团队。相信我,我一直是那些与数据中心合作的基础设施分析师之一。这样既昂贵又令人无措。

这种情况下只有大公司才能使用大数据。因此数据分析以前并不流行。这些服务器通常有一个跨磁盘复制数据的 RAID 存储控制器,这进一步增加了成本,维护要更频繁。

21 世纪初期,大数据操作与底层硬件密切相关,例如大型机和服务器集群。虽然这对销售硬件的人来说非常有利可图,但对消费者来说既昂贵又不灵活。然后奇妙的事情发生了。这个奇妙的东西就是 Apache Hadoop。

Hadoop 的主要工作是用安装在操作系统中的软件替换所有花哨的硬件。没错。利用 Hadoop 和计算框架,可以通过使用分布式系统跨多个服务器分布和复制数据,无需那些昂贵的数据复制硬件即可开始处理大数据。

你所需要的只是高效的网络设备,并且通过网络将数据同步到其他服务器。通过接受故障而不是试图避免故障,Hadoop 可以帮助降低硬件复杂性。如果可以降低硬件复杂性,就可以降低成本。

通过降低成本,你开始让大数据变得大众化,因为小公司也可以开始利用大数据。欢迎来到大数据热潮。

我最初提到 Hadoop 是因为 Hadoop 是最流行的开源大数据生态系统。还有其他类似的生态系统。在此我想强调的是概念而并非特定的框架或供应商。

最重要的是,通过将硬件设定为基础水平并将所有大数据概念应用于软件(例如数据复制),我们可以开始考虑通过能够提供虚拟机存储和附加网卡的供应商运行大数据操作。我们可以开始考虑使用云来构建整个数据湖、数据仓库和数据分析解决方案。

从那时起,云计算已成为一种有吸引力的替代方案,因为这正是它的用处。你可以获得虚拟机,安装处理数据复制、分布式文件系统和整个大数据生态系统的软件,并且无需在硬件上花费大量资金。云的优势不止于此。

许多云供应商,如 Amazon Web Services,开始看到客户正在启动虚拟机来安装大数据工具和框架。然后在此基础上,Amazon 开始创建一切都已安装就绪、配置完成并可供使用的产品。这就是你拥有 AWS 服务的原因,例如 Amazon EMR、Amazon S3、Amazon RDS、Amazon Athena 等。我们将这些称之为托管式服务。所有这些都是在数据范围内运行的 AWS 服务。在后面的课程中,我将详细介绍构建基本数据分析解决方案所需的一些服务。

在云中运行数据分析的另一大优势是能够在不再需要基础设施资源时停止为其付费。这在数据分析中很常见,因为由于大数据操作的性质,你可能需要偶尔运行报告。你可以在云中轻松做到这一点,只需启动服务器或服务,使用它们,获取所需的报告,保存报告并关闭所有内容。

此外,你可以临时启用更多服务器以加快作业速度并在完成后关闭。而且由于你主要为所需的时间和资源付费,因此 10 台服务器运行 1 小时的价格往往与 1 台服务器运行 10 小时的价格相同。基本上,使用云,你可以访问硬件而无需担心进行数据中心操作所涉及的所有负担。这是两全其美的结果。

看完视频了吗?

记住,这一测验是围绕本单元中的视频展开的。如果您还没有看,现在就回去看吧。然后您就可以参加测验了。

在 Salesforce 帮助中分享 Trailhead 反馈

我们很想听听您使用 Trailhead 的经验——您现在可以随时从 Salesforce 帮助网站访问新的反馈表单。

了解更多 继续分享反馈