1. 今日日报首页
  2. 今日话题

Databrick推动接近弥合数据湖与仓库之间的鸿沟

继续努力使自由格式数据湖成为高度结构化数据仓库的可行替代方案,Databricks Inc.今天推出了一种引擎,该引擎能够使以前针对数据仓库的许多工作负载改为在数据湖上执行。

Databrick推动接近弥合数据湖与仓库之间的鸿沟

据说SQL Analytics将数据仓库性能与数据湖经济性相结合,使数据湖的SQL查询执行速度比数据仓库快9倍。这是公司所谓的“湖水库”构建中的另一个构建块,该架构将两种类型的工作负载结合在一起,而无需创建用于仓库目的的提取数据库。

数据仓库是高度结构化的数据库,在单个存储库中组合了来自多个源的信息,可以查询这些信息以发现数据元素之间的新关系。数据湖是将结构化,非结构化和半结构化数据结合在一起的集中存储库,通常用于机器学习和数据科学应用程序。

传统观点认为,这两种架构从根本上是不兼容的,但是Databricks认为它可以找到共同点。

“这不仅是为机器学习和数据科学提供一流的数据科学平台,而且还以高性能,低延迟和高用户并发的方式提供查询,” Databricks营销副总裁Joel Minnick说。 。“我们认为数据湖是重心,因为它擅长处理非结构化信息,而数据科学和机器学习创新正是源于此。数据仓库并不是为此而建的。”

湖边小屋通过单一架构即可同时支持两种工作负载。SQL Analytics基于Delta Lake构建,Delta Lake是由Databricks创建并在一年前发布给开源的开源表存储层。它提供了数据湖通常缺乏的某些数据可靠性和质量功能。

Minnick说:“ Delta Lake通过使数据湖以事务方式运行来提供可靠性。” 它通过将事务日志添加到取代数据本身的数据湖来实现。

“所以现在我要查询事务日志以获取真相的唯一来源,而不管湖泊本身的数据如何,” Minnick说。“通过直接在数据湖上运行SQL工作负载,我可以大大减少我必须维护的ETL [提取/传输/负载]管道的数量。” 这意味着更少的数据副本和更少的冲突风险。

数据质量很重要

Minnick说,SQL Analytics不会消除对数据进行一致性检查或将数据移动到其他地方进行ETL的需要。他说:“如果数据很混乱,那么数据就很混乱,但不必将其推销对我们的许多客户来说是一个优势。” “通过在数据湖上进行转换,每个人都使用相同的数据集,并且只有一个事实来源。”

尽管长期以来有各种工具可以在数据湖上执行SQL查询,但是性能通常是不利的。Databricks说,它已经提出了两种提高响应速度的方法。第一种是通过创建自动扩展端点,以在高用户负载下将查询延迟始终保持在较低水平。第二个是Delta Engine,它表示可以对任何大小的数据集快速完成查询。

Minnick说:“借助Delta Engine,我们能够解决吞吐量问题。” “借助SQL Analytics,客户可以根据查询该数据湖的用户数量来创建SQL调优的集群,这些集群可以站起来还是下来。” 这意味着客户可以在不离开数据湖环境的情况下获得数据仓库的并发优势。

Databricks说,SQL Analytics不会消除对数据仓库的需求,但可以处理大多数不需要编写更新或驱动操作流程的类似仓库的应用程序。Minnick说:“目前,我们主要专注于商业智能分析和报告,”而不是写密集型流程。

私营的Databricks表示,到2020年第三季度,其收入运行率超过3.5亿美元,高于去年同期的2亿美元。

SQL Analytics将于11月18日公开预览。

原创文章,作者:rmrbwx,如若转载,请注明出处:https://www.rmrbwx.cn/rmrbwx/35864.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注