1. 今日日报首页
  2. 今日话题

Dremio说它的查询引擎消除了对云数据仓库的需求

自助分析公司Dremio Corp. 今天宣布了一项新技术,该技术声称可以在数千个并发用户和查询的云数据湖上提供亚秒级的查询响应时间。

Dremio说它的查询引擎消除了对云数据仓库的需求

该初创公司还将推出与Microsoft Corp.的Power BI和Tableau Software Inc.的Tableau可视化软件的新集成,该工具可通过Dremio内部的实时连接启动这些工具。

新版本使生产商业智能工作负载可以直接在Amazon Web Services Inc. S3和Microsoft Corp. Azure Data Lake Storage上运行,而无需将数据预加载到数据仓库,聚合表或数据提取中。这个过程称为提取/转换/加载或ETL,可能需要数周的时间。

联合创始人兼首席产品官Tomer Shiran(右图与联合创始人Jacques Nadeau一起)说:“目标是消除对数据仓库的需求。” “我们可以执行数据仓库可以在云中完成的工作,而无需ETL。” 该公司表示,结果是可以在云数据湖上直接运行多个高并发,低延迟的SQL工作负载(例如BI仪表板)。

Shiran说,云对象存储被设计为可以远程访问。他说:“查询引擎种类繁多,但都不是为低延迟访问而设计的。” “它们是为批量处理而设计的,并且由于S3处于远程状态,因此存在“嘈杂的邻居”问题,可能会导致性能问题。”

S3特定缓存

Dremio的方法使用专门为S3格式构建的内存缓存。它没有将每个查询解压缩和反序列化,而是将数据拉入内存以加快访问速度。该软件通过不断分析最常访问的数据来确定要保留在内存中的数据。Shiran说:“一次很少访问数据。” “用户倾向于与相同的仪表板和数据进行交互。”

Dremio基于Apache Arrow,这是一种用于分析框架的加速引擎,该引擎使用列式内存处理通过处理同一字段中的数据列而不是将单个记录读入内存来提高性能。Apache Arrow的拥护者说,这项技术可以使性能提高多达100倍。

新版本现在可以以Apache Arrow格式缓存数据反射,这些反射是物理上优化的数据表示形式,可以直接加载到内存中,从而消除了在运行时进行解码和解压缩的需要。对多个协调器节点的支持使由数千个同时用户和查询组成的工作负载得以快速运行。

Dremio还从维度表中添加了运行时智能,以减少必须从事实表读取的数据量,事实表 是数据仓库通用的星型模式逻辑数据结构的中心。该公司声称,这将性能提高了100倍以上。

运行时筛选根据执行查询所需的最少数据量在运行时解释事实表。“数据仓库使用类似的技术,但是您需要将数据加载到仓库中,” Shiran说。“从对象存储中执行此操作要困难得多,因为我们还没有看到数据。”

数据湖在历史上一直被认为是数据仓库的一种不受限制的版本,因为它们可以将数据存储在结构化的行和列中,也可以存储非结构化的数据,如电子邮件和文字处理文档。但是,Shiran表示,他认为数据湖正在朝着使用大量结构化和半结构化数据(例如日志文件)的方向发展。

新产品功能在AWS Marketplace的社区和企业版本中可用。

原创文章,作者:rmrbwx,如若转载,请注明出处:https://www.rmrbwx.cn/rmrbwx/35872.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

==========================
Warning: file_get_contents(https://www.chinapeace.org.cn/baoxian/201.html): failed to open stream: HTTP request failed! HTTP/1.1 404 Not Found in /www/wwwroot/www.rmrbwx.cn/wp-content/plugins/wp-autopost-pro/wp-autopost-function.php on line 3431

Warning: file_get_contents(https://www.chinapeace.org.cn/baoxian/201.html): failed to open stream: HTTP request failed! HTTP/1.1 404 Not Found in /www/wwwroot/www.rmrbwx.cn/wp-content/plugins/wp-autopost-pro/wp-autopost-function.php on line 3431