aws与ibm netezza都已支持iceberg表格式-凯发官网首页
云巨头aws已经选择通过表格式apache iceberg将自家redshift数据仓库向数据湖延伸,ibm旗下的netezza上周也做出了相同的决定。
aws透露称正对netflix几年前推出的iceberg表格式提供支持预览,允许用户通过redshift对外部数据湖中的apache iceberg表执行分析查询。
“您现在可以使用amazon redshift查询aws glue数据目录中的apache iceberg表,而其他用户或应用程序可以使用amazon emr、amazon athena和aws glue等符合acid原则的服务,以安全方式对表进行数据操作。”
但随附的用户指南在细则部分也提出了相关警告,称“仅限新的iceberg表——不支持对由apache parquet表转换为apache iceberg表的分区进行查询,也不支持在查询中包含分区列。”
aws随后又对如何使用该系统查询其云平台以外的数据做了进一步澄清。
“amazon redshift允许从aws(包括amazon s3)中的数据湖对指向apache iceberg的查询提供事务一致性。要对外部数据源(包括google bigquery或google cloud stoarge等)运行分析,aws客户可以使用amazon athena的预构建数据源连接器。”
aws还表示,相关价格将根据redshift spectrum或redshift serverless的具体使用量而定。
iceberg阵营迎来的另一位新成员是ibm netezza,这是一款最初基于postgresql且几乎已经被市场遗忘的数据仓库。我们最后一次听到netezza的消息,还是在ibm于2010年收购netezza并将该系统迁移至云端的时候。
ibm软件工程师mike deroy在本周的博文中表示,用户可以使用ibm的watsonx.data智能湖仓技术创建apache iceberg格式的表,“允许任何兼容的引擎访问该数据,能够防止您对任何特定引擎产生供应商锁定”。
“ibm正将一流智能湖仓集成引入netezza引擎,使您能够通过watsonx.data平台及其他数据湖平台查询iceberg。”
科技行业在表格式上分裂出两大阵营
目前,各大主流科技厂商似乎在支持哪种表格式方面存在严重分歧。面对将分析引擎引入任意位置数据这个共同的目标,snowflake、cloudera、谷歌,以及如今的aws和netezza明显站在了iceberg一边。而微软、sap和databricks则选择了由databricks创建,linux基金会负责管理的开源表格式项目。
各家厂商都坚称,自己选择的格式更能反映客户的核心需求,借此证明其决定的合理性。他们还表示,将在未来时机成熟时支持更多格式选项,包括apache hudi。
唯一没有明确表态的就只剩下甲骨文了。本月早些时候,甲骨文方面表示正扩展其mysql heatwave以查询对象存储中保存的数据。当然,这里指的还是甲骨文自己的对象存储方案。但甲骨文也提到,有计划在未来支持更多开放表格式,可能会从iceberg和delta lake起步。
- 2023/7/28
- 2023/7/12
- 2023/7/12