首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google云计算推出可用Hive访问BigQuery数据的开源连接器

Google云计算发布可以连接Apache Hive与BigQuery的连接器,使得Hive工作负载现在也可以读取和写入BigQuery与BigLake表格,也就是说,Hive-BigQuery连接器提供了另一个Hive搬迁到BigQuery的解决方案,即便用户已经将数据搬迁到BigQuery或BigLake,仍然可以利用HiveQL方言和Hive执行引擎执行查询。

Apache Hive是一个开源的分布式数据仓库系统,用于处理存储在Hadoop中的结构化数据,开发人员不需要了解和编写复杂的MapReduce任务,可以使用类似SQL语言的HiveQL查询数据。而之所以Google要开发Hive-BigQuery连接器,是因为部分用户在搬迁Hive到BigQuery数据仓库时遭遇障碍,而Hive-BigQuery连接器则可提供更灵活的搬迁选择。

Hive-BigQuery连接器实例了Hive StorageHandler API,可集成Hive工作负载和BigQuery、BigLake表格,Hive的执行引擎会处理聚合和整合等数据操作,而与BigQuery的数据层的所有互动,则是由连接器管理。

Google提到,Hive原本就是热门的开源数据仓库之一,过去使用本地HDFS当作专有数据存储层,而现在逐渐发展到了云计算存储服务。这个新的连接器,可以将Hive和原生云计算存储BigQuery集成在一起,进而简化搬迁工作。

利用Hive-BigQuery连接器,用户可以在批次搬迁的过程,维持操作的连续性。在过程中,原始的Hive查询能够通过连接器访问数据,而用户也可以逐渐转换使用BigQuery的SQL方言,待转换完成后,用户便可以完全停用Hive。

此外,用户还可以同时使用Hive和BigQuery,主要以Hive处理工作负载,并仅将BigQuery用于特定任务,或是也可以继续使用Hive,并且在云计算存储采用Avro、Parquet或ORC等开源软件格式,用户可以使用Hive的SQL方言执行和处理查询,以连接器使用BigLake和BigQuery的特有功能,像是缓存查询性能的元数据、应用栏级访问控制,甚至是数据遗失防护(DLP)等安全和治理功能。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OvEzFNdyEjR0uuhpSudHWG4g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com