当前位置: 新豪天地登录网址 > www.3559.com > 正文

云数据仓库是什么样子的,提升云计算数据分析

时间:2019-11-12 18:33来源:www.3559.com
数据管理服务负责消化多种不同形态的原始数据,并且管理数据清理、执行失败和backpressure等任务,还能通过自动索引和压缩机制快速处理数据。而Engine服务则是负责处理输入的原始数

数据管理服务负责消化多种不同形态的原始数据,并且管理数据清理、执行失败和backpressure等任务,还能通过自动索引和压缩机制快速处理数据。而Engine服务则是负责处理输入的原始数据和用户的查询,通过自动扩展(Auto Scaling)和数据分割(data sharding)来达到高性能的目标。

3月30日到4月1日的Build2016 微软开发者大会的内容引爆了整个.NET开发社区,大家的热情都被Xamarin免费开源、Bash on Windows等点燃了。不过在这些热点背后,我还是比较关注和自己最近研究的大数据领域相关的Session。下面我就整理一些我个人认为值得关注的:

现代数据仓库汇集了任何规模的数据,通过分析仪表板、运营报告或高级分析提供洞察力。

[2]Apache Kylin

而Data Explorer是一个快速且具有高扩展性的完全托管数据分析服务,能够针对大量的串流数据进行即时分析,在不需要修改数据结构的情况下,一秒内能够查询10亿笔记录,此外,该服务能与微软云计算其他服务相连,像是Data Lake Storage、SQL Data Warehouse、Power BI。为了提升速度和简化操作,Data Explorer由两个分别的服务组成:Engine服务和数据管理服务,这两项服务都在Azure中,以运算节点的集群形式布署。

9,Intelligent Systems: Advanced Analytics in Action for Retail, Healthcare and Manufacturing

再高级的数据分析技术,最终都要回到实际应用场景中,那么这个Session会给你展示在零售业、医疗卫生和制造业方面的实际商业智能系统的案例分享。

回放地址:

Azure DW适用于处理策划数据的数据工程师。这可能是来自SQL Server数据库的数据,但它也可能是来自这些数据工程师使用Databricks或Spark和.NET从Azure HDInsight等源准备数据的管道构建的数据。

Alluxio 可以通过使用其透明的命名和挂载 API,跨不同存储系统有效管理数据。采用 Alluxio 后,KAP 可以在云端,在性能、成本和管理之间实现良好的平衡。

图片来源:微软

1,Building Big Data Applications using Spark and Hadoop

Spark现在在大数据方面的应用已经在抢占Hadoop的风头了,国内的互联网公司也已经有很多这方面的案例和分享。或许你正为快速搭建Spark集群伤脑筋,不过我们知道微软很早就在Azure中提供了Hadoop的服务——HDInsight,这不为了让大家也能轻易的使用Spark,HDInsight服务也开始支持Spark了。这个Session就讲述了如何利用Azure的Spark服务来快速搭建自己的大数据应用。

回放地址在:

Azure数据工厂是数据工程师进行数据ETL的另一项服务。组织可以将其视为云计算层级ETL工具,组织可以通过拖放界面(实际上是Logic Apps)或使用Python、Java或.NET SDK(如果组织更喜欢编写代码来执行)来使用数据转换和管理数据管道的不同步骤,通过Databricks或HDInsight、Azure Data Lake或Power BI。

图 3. 云端 KAP

最后,微软这次的更新还推出混合数据集成服务Data Factory预览版,Data Factory服务是用来将数据移动和转换工作自动化的服务,内置超过80个与结构化、半结构化和非结构化数据源的链接器。除此之外,该服务还提供数据工作流程可视化工具Mapping Data Flow,提供用户在设计、构建和管理数据转换的过程有可视化的体验,不需要学习Spark或是对分布式基础架构有深入的了解。

7,Advanced Analytics with R and SQL

在微软收购R开发商之后,R语言就被融入到SQL Server当中,所以把R和SQL配合使用也就是自然而然的事情了。这个Session讲述了如何充分发挥这两个语言各自的优势,来实现高级数据分析的场景。

回放地址在:

更复杂的客户希望分析他们自己的Office Graph数据(组织可以使用Azure Data Factory将其复制到Azure Data Lake)或利用Microsoft、Adobe和SAP(基于Azure Data构建的)之间的开放数据计划数据湖并将最终整合来自更多软件供应商的数据。White说,“Azure Data Lake与Azure数据仓库紧密结合,客户正在使用Azure数据仓库获取更多见解,并在其上构建现代数据仓库。”

云端面临的挑战

微软云计算平台Azure最近宣布针对3项数据服务的更新,包含推出正式版的数据湖存储服务Data Lake Storage Gen2和数据完全托管服务Data Explorer,此外,还推出预览版的混合数据集成服务Data Factory,期望提供用户性价比高又安全的云计算数据分析服务。

6,A Lap Around R Tools for Visual Studio

作为宇宙最强IDE,在微软收购R语言的开发商之后,自然也提供了R语言的开发工具。通过使用R Tools for Visual Studio,让你在喜爱的VS里面同样可以对数据进行分析,创建预测模型,快速、交互式的、酷炫的可视化数据,还可以利用统计学和机器学习领域的一些函数库。这个Session就对这一工具进行了一个完整的讲解。

回放地址在:

通过数据湖,组织可以获取多个数据存储,包括结构化和非结构化数据存储,并以其本机格式或接近该格式的方式存储它们,因此组织可以拥有多个数据模型和多个数据模式,并且能够灵活地从同一数据中问出新问题(用于Azure Data Lake查询的SQL变体称为U-SQL,不仅仅因为它是T-SQL之后的下一个版本,而且因为组织可能需要一个U-boat进入数据湖,并找出隐藏在黑暗深处的东西。)

背景

微软指出,自家数据湖存储服务其中一项主要目标,即是要与Apache生态系统统兼容,为了做到这点,微软开发Azure Blob文件系统驱动程序,该驱动程序正式成为Apache Hadoop和Spark的一部分,并且附于许多Hadoop的商业版本中。

5,A Developers Guide to Azure SQL Data Warehouse

这个Session其实是一个关于Data Warehouse的入门介绍了。介绍了数据分布、表设计和查询优化的基础知识,从而为商业智能解决方案提供最佳的性能。

回放地址在:

微软公司拥有一系列看起来有点像数据仓库的云计算服务,最明显的是Azure SQL数据仓库或微软经常称之为的“DW”,但也有Azure数据工厂、Azure数据湖、Azure数据库、Power BI和Azure机器学习,以及更多打包服务,如Dynamics 365中的人工智能销售工具。

图 4. Alluxio

图片 1

2,Building Analytics for the Modern Business

随着大数据技术的发展,商业智能分析也进入了新阶段:数据实时的创建出来、这些数据由多种类型组成、数据量巨大、用户期望更高、希望硬件和存储成本更低、能够移动化访问。从而如何构建这样的数据解决方案就成为挑战。Azure通过提供数据仓库服务(Data Warehouse as a Service)来帮助大家开发快速和低成本的开发这样的解决方案。

Session回放地址在:

微软公司没有为所有这些服务提供单一服务。组织可以使用各种Azure服务执行不同的部分,这意味着组织可以选择所需的部分,但这也意味着组织需要拥有数据专业知识来构建自己的特定系统。

图 9. WASB vs HDFS vs Alluxio

为了进一步提升Data Lake Storage Gen2的分析性能,微软用阶层式命名空间,收集文件集整合整理成阶层式目录和嵌套子目录,此种命名空间对巨量资量分析架构相当重要,由于Hive或是Spark等工具经常将输出写入暂时位置,并在作业结束时重命名该位置,若没有阶层式命名空间,重命名所花费的时间通常会比分析流程本身更长,因此,阶层式命名空间因为需要较少的运算执行,能够加速job执行并减低成本。

(此文章同时发表在本人微信公众号“dotNET每日精华文章”,欢迎右边二维码来关注。)

采用哪种数据服务?

[1]Kyligence

图片 2

4,Azure Data Lake and Azure Data Warehouse: Applying Modern Practices to Your App

这个Session是关于Azure新数据服务Azure Data Lake和Azure Data Warehouse的概览介绍。两个服务都可用来存储、处理和分析巨量数据。本Session会深入讲解每个服务,并带领大家了解集成大规模数据分析服务到应用的常见模式。

回放地址在:

Power BI还可以使用Dataflows进行数据转换,但这是为业务分析师提供的自助服务功能。数据工程师或全职商业智能分析师可能会使业务用户使用这些语义模型,而微软公司正在将更多与Azure DW的集成添加到Power BI中。

KAP 如何利用 Alluxio

图片来源:微软

8,Data Integration in the Cloud and Building Data Analytics Pipelines

上面提到了这么多关于数据的服务(Azure Data Factory, Azure Data Lake Store and Azure Data Lake Analytics, SQL Data Warehouse),那么如何把这些东西乃至本地部署的Hadoop集群集成起来,形成一个数据分析的管道呢?这个Session就能为你解开答案。

回放地址:

数据湖附近的仓库

[4]SSB-Kylin

数据湖存储服务Data Lake Storage Gen2适用于巨量数据分析,结合了Azure非结构化存储服务Blob Storage的可扩展性、安全模型和丰富的功能于一身,再加上为分析所设计的高性能的文件系统,还能与Hadoop分布式文件系统兼容,让用户选择云计算数据湖服务时,不需要在成本和性能中取舍。

3,U-SQL: 0-60 for Big Data with .NET

U-SQL是微软在Azure Data Lake(数据湖)中引入的一种基于SQL的新语言,它可以使用C#语言的语法来扩展大家熟悉的SQL语法,从而让大数据处理更加容易和有意思。这个Session会讲述U-SQL背后的概念,并通过一些例子来展示如何使用它查询非结构化、半结构化和结构化数据。

回放地址在:

Power BI的普及也推动了更多的微软客户进行云计算分析。White说,“当他们有了这些强大的数据可视化功能后,他们开始质疑自己的分析能力——‘我想知道数据可视化背后发生了什么:我喜欢Power BI,我希望我的分析更有趣。”

Apache Kylin [2] 是一个开源 OLAP 引擎,可为 Hadoop 上的 PB 级数据场景提供交互式分析(Apache Hadoop 是对大型数据集进行分布式存储和处理的开源软件框架)。Apache Kylin 使用 Hadoop 的并行计算技术,将超大数据集构建到 OLAP Cube 中,通过 ANSI-SQL 查询接口提供亚秒级低延迟响应。

图片 3

题记:Build2016开完很久了,现在才来回顾下,就说说那些和大数据相关的Session,也因为笔者最近在深入研究这方面的东西。

越来越多的组织在云中实现这一目标,以实现更高的速度和更低的成本。微软Azure公司副总裁Julia White指出,越来越多的数据可能已经存在于云中,以及组织想要使用这些数据的服务。White说,“随着数据越来越多地迁移到云端,无论是来自SaaS应用程序还是只迁移到云端的应用程序;运营数据就在云端,客户在询问‘为什么我要将运营数据从云端迁回到内部部署数据中心进行分析?它没有意义。’”他指出,尽管组织内部仍然有大量的数据,而且随着边缘计算的发展,还会有更多的数据,但许多客户还是会将部分或全部数据转移到云平台上,这取决于法规遵从性问题。

在本地部署的集群中,HDFS 是 Hadoop 和 Spark 最广泛采用的文件系统。由于数据存储在本地磁盘,且操作系统会对文件块做缓存,因此 HDFS 的访问性能很出色;另外,HDFS的文件副本默认为 3,提供了相当高的可靠性。

图片 4

(来源:企业网D1net)

图 5. 采用 Alluxio 后的 KAP

传统上,数据仓库收集来自组织业务的所有结构化数据,因此组织可以将其集成到单个数据模型中,运行分析并获取商业智能,无论是用于开发新产品还是向客户营销现有服务。这曾经被称为“大数据”,但现在所有组织都拥有来自电子商务网站、物联网设备和传感器等来源的大量数据,因此现代数据仓库需要处理结构化、非结构化和流媒体数据,并提供实时数据分析以及商业智能和报告。

Kyligence 的旗舰产品是 Kyligence Analytics Platform (KAP)。该产品基于 Apache Kylin,并提供了多种高级企业级功能。采用 KAP 后,用户可使用行业标准的数据仓库和商务智能 (BI) 运维方法,访问 Hadoop 上的商业智能功能。在此过程中,KAP 可以简化分析,提供自助式服务,与常用 BI 工具无缝交互。所有这一切无需编程即可实现。

图片 5

总结

这些来源不必是结构化的关系数据:SQL Server和Azure DW中的PolyBase和JSON支持意味着组织可以连接来自非关系存储的数据,如HDFS、Cosmos DB、MySQL、MongoDB以及Oracle、Teradata、PostgreSQL。这意味着数据仓库(甚至SQL Server)看起来更像数据湖。

然而在云端,HDFS 并不是最佳选择。云上的Hadoop集群按需创建,根据工作量指标等动态增加或减小节点数。当节点停止时,虚拟机的本地磁盘将被擦除,这样可能导致数据丢失。在这种情况下,AWS S3 和 Azure Blob Store 等云存储服务,因其近乎无限的容量和大于 99.999% 的 SLA,成为最佳替代品。AWS EMR 和 Azure HDInsight 等 Hadoop 产品为这些存储服务提供原生支持。用户可通过 MapReduce、Spark 或定制应用进行透明访问,就像在常用分布式文件系统上一样。

如果组织有问题需要反复询问(例如销售分析或监控仪表板的交付时间),组织可以从数据的相关部分创建数据仓库。但如果问题随着时间的推移而发生变化,或者组织需要提出新问题,可以返回数据湖,在那里保存原始数据,并创建另一个数据仓库来回答这些问题。

从上图可以看出,Alluxio 上的平均查询延迟为 0.4 秒,在 S3 上为 1.8 秒。KAP 在 Alluxio 上的性能比在 S3 上的性能快 4 倍之多。

这两者的结合是微软公司通过现代数据仓库基础设施的意义。组织可以从不同的地方获取各种数据,在数据湖中使用它来进行实时分析,或者使用机器学习来发现模式,告诉组织可以从数据中获得哪些见解,并将其与熟悉的数据相结合数据仓库工具有效地回答这些问题。

借助 Alluxio,KAP不需要进行代码或架构更改。将 Alluxio 安装在 Spark 运行的每个节点上,将 S3 存储桶或 Azure Blob Store 映射为Alluxio的底层文件系统。然后,配置 KAP 通过 Alluxio 来读取S3 或 Blob Store 中的 KyStorage 文件。首次加载时会有点慢,因为 Alluxio 需要将数据读取到内存中。但此后的访问速度会快很多,因为 Alluxio 会智能地从 Spark executor 运行的本地工作机中返回数据块。

转载于 原创: Mary Branscombe 云计算D1net

测试信息:

这些场景的复杂性就是数据仓库和数据湖之间的界限开始在云中看起来有些混乱的原因。传统的数据仓库允许企业从多个来源获取数据,并使用ETL转换将该数据放入单个模式和单个数据模型中,该软件旨在回答组织计划一遍又一遍地提出的问题。

图 8. SSB 查询延迟比较

理解它们的方法不仅仅是关注它们提供的工具,还要关注它们所服务的用户以及它们如何协同工作。这是因为企业通常拥有的数据在多个数据存储中分散,创建现代数据仓库的第一步是整合所有这些孤岛。微软Azure上的这些不同数据存储越多,连接就越容易——这也是微软Azure提供如此多不同数据服务的原因之一。White表示,“另一方面,客户并不是在寻找可以做任何事情的单一工具,有一系列细微差别的选择,如果真的要挑选,并优化自己的场景使用的工具。”

Azure Blob Store 测试

White指出,“每个企业都在研究人工智能。他们很快意识到分析是其基础,他们开始问‘我的分析和我的数据仓库的状态是什么?’,而且往往不够好。”

样例查询如下:

Power BI用户可以在其可视化和报告中添加人工智能。其中一些可能是使用微软公司预先构建的认知服务来进行图像识别和情感分析。但他们也可能正在使用数据工程师在Azure机器学习服务中为他们构建的自定义人工智能模型,并使用所有企业数据。

Apache JMeter 在 KAP 上运行 SSB 查询,并禁用查询缓存,因此每次需要从文件系统中读取 KyStorage。我们分别在 S3 和 Alluxio上收集查询性能。下面是在 S3 和 Alluxio 上运行 SSB 的统计信息。

KAP 利用 Hadoop MapReduce 和 Spark 将源数据构建到 OLAP Cube 中;OLAP Cube 存储在 KyStorage 中。KyStorage 是基于分布式文件系统的并针对OLAP场景进行优化的列式存储引擎。在收到 SQL 查询时,KAP 将查询转换成对 KyStorage 的执行计划,并通过 Spark executor 来执行。

此外,Alluxio 提供分层存储,不仅可以管理内存,还可管理 SSD 和 HDD,让更大的数据集存储在 Alluxio 上。数据在不同层之间自动进行管理,确保热数据在更快的存储层上。

AWS S3 测试

在对比所有查询的平均查询延迟后,我们得到以下结果:

图 2. Kyligence Analytics Platform

测试信息:

Kyligence 公司 [1] 成立于 2016 年,是一家专注于大数据分析领域的科技公司。 Kyligence 的产品基于 Apache Kylin 的开源技术。

编辑:Sammi

由于热数据缓存在 Alluxio 中,从而改进了读取 KyStorage 的性能,极大提升了KAP查询引擎的性能和吞吐量。我们在 AWS 和 Azure 上分别进行了基准测试,所获得的结果验证了这一推断。

以下是三个存储系统的平均查询时间。

Alluxio [3] 原名 Tachyon,是世界上第一个以内存为中心的虚拟分布式存储系统。它统一了数据访问方式,为上层计算框架和底层存储系统构建了桥梁。应用程序只需连接 Alluxio 即可访问存储在任意底层存储系统中的数据。此外,Alluxio 以内存为中心的架构使得数据访问速度比现有方案快几个数量级。

作者:史少锋 (shaofeng@kyligence.io),Kyligence 高级架构师

下面是引入 Alluxio 后的架构:

自上世纪以来,联机分析处理 (OLAP) 技术已被企业广泛采用;企业运用 OLAP 分析其业务数据,生成报表,从而帮助业务人员制定商务决策。在当今的大数据时代,OLAP 越来越重要,且面临诸多挑战;而云计算使这种情况更加复杂化。本文介绍了大数据智能科技公司 Kyligence 如何在云上利用 Alluxio 提升其OLAP引擎的性能。

尽管云存储服务的扩展性和持续性好于 HDFS,但其性能受到所租用的虚拟机网络带宽的限制。此外,S3 等云存储服务不是一个真正意义上的文件系统;其元数据操作如 ‘list’ 会比较耗时,’rename’ 操作实际上是 ‘copy’,对于大数据场景来说难以接受。所有这些都使其整体性能差于 HDFS。

图 6. 在 S3上运行SSB

为了克服云端的存储限制问题,我们决定在存储服务上为 KyStorage 添加一个缓存层,而Alluxio很好地满足了这个需求。

图 7. 在 Alluxio 上运行 SSB

从上图可以看出,本地 HDFS 在 5 个场景中,有 4 个场景的性能是最佳的。Azure Blob Store 的执行时间在所有场景中是最长的。Alluxio 的性能介于 HDFS 和 Blob Store 之间,但与 HDFS 非常接近。平均而言,与直接读取 Azure Blob Store 相比,Alluxio 可助力 KAP 提升 3 至 4 倍的性能。

KAP 作为一个低延迟的 OLAP 引擎,其性能在很大程度上依赖于分布式文件系统的性能。在引入 Alluxio 之前,移至云端时,用户不得不忍受性能降级,或者切换至HDFS并在 S3 与 HDFS 之间进行备份和恢复,以在性能与持久性之间获得平衡,这使得部署和维护变得复杂,且容易出错。

图 1. Apache Kylin 架构

为了深入了解 Alluxio 在 Windows Azure Storage Blob (WASB) 上的性能,我们进行了另一项测试。这次,我们选择真实场景(用户画像分析)并添加了使用HDFS的场景,从 Web 应用程序中收集查询样例。在运行多次后,取其平均值。

在大数据生态系统中,Alluxio 介于计算框架或任务(如 Apache Spark、Apache MapReduce、Apache HBase、Apache Hive 或 Apache Flink)与各种存储系统(如Amazon S3、Google Cloud Storage、OpenStack Swift、GlusterFS、HDFS、MaprFS、Ceph、NFS 和 Alibaba OSS)之间。Alluxio 显著提升了大数据生态系统的性能。Alluxio 与 Hadoop 兼容。现有数据分析应用程序,如 Spark 和 MapReduce 程序,可以不修改任何代码,直接在 Alluxio 上运行。

[3]Alluxio

参考文献:

编辑:www.3559.com 本文来源:云数据仓库是什么样子的,提升云计算数据分析

关键词: www.3559.com