返回

在这个数据爆炸的时代,每天都有新的数据概念涌现,从数据库到数据仓库、数据湖,每个概念都自带“热搜体质”,但是你真的搞懂它们了吗?

随着数据的增长和数据结构的变化,我们的数据存储从数据库发展到数据仓库。多元异构数据爆发给数据存储带来的挑战,让数据湖成为了新的焦点。

 

一、数据湖
 
(1)数据湖是什么?

业界对数据湖的定义也存在多种不同的声音,总结来说,数据湖是一个以原始格式存储数据的大型仓库。它按原样存储数据,而无需对数据进行结构化处理。

不管是结构化、半结构化、非结构化数据,又或者二进制等类型数据,都可以统统收进湖中,数据孤岛不再。数据湖可以根据企业需求弹性扩张,具有强大的扩展性和灵活性,降低了存储成本。同时,通过数据湖可以对原始数据快速调用,跳跃了数据加工的漫长周期,降低了数据差异的产生,对数据分析的及时性和真实性给予了强有力的支撑。

数据湖可以分为逻辑湖和物理湖两类。

逻辑湖支持多组件混合存储,对存储层逻辑统管,同时逻辑抽象引擎屏蔽组件差异,提供一致的检索、计算能力。

物理湖则是采用基于开源组件(hudi, iceberg, delta等)+OSS的搭建方式,做到彻底的存算分离、独立扩展;同时以单一OSS为基础,开展围绕着存储规划、存储管理、计算、查询的底层强化与优化。

逻辑湖投入较少,更适用于具备成熟IP层的企业。物理湖技术门槛高,但可以形成企业的核心技术资产,上限更大,并且在轻量化部署上更有优势。

(2)数据湖建设

无论是逻辑湖还是物理湖,最关键的还是要把设计理念落地到实际建设及功能实现中。

数据湖的建设实际上可以对标到企业不同的治理阶段,初期可以提供数据湖配套的管理工具,实现数据的快速入湖,并构建元数据,实现数据的快速开放使用。很多企业对于数据湖的应用与理解也就到此戛然而止,并没有发挥数据湖真正的潜力与功能。

图片

数据湖基本能力示意


数据湖虽有强大的汇聚、融合、存储能力,但如果忽视了对数据质量的提升、数据安全的管控、数据价值的挖掘,数据湖就会变成难以自拔的数据沼泽。

基于此,数据湖的进一步开发与应用,不仅要发挥数据湖的优势与特色,更要补足短板,避免数据沼泽与数据安全问题发生。可以把数据质量、数据仓库建设、数据服务、数据运营、数据安全等工具都引入到数据湖,共同打造一个完整的数据治理体系。

二、“天基”大数据治理平台
 
在美亚柏科的QKOS中,“天基”大数据治理平台就是基于数据湖技术建设的一个集数据迁移入湖、数据探索、数据开发、数据质量检测、元数据管理、数据服务等功能为一体的治理体系。
 

图片

(1)在技术集成方面

天基从初始产品设计阶段就考虑了数据湖技术,可以支持市面上主流的数据湖技术集成,包括hdfs、oss、iceberg、hudi等;支持一湖多云的方式,通过统一的元数据,实现了数据湖数据的统一开放;

(2)在湖仓一体方面

天基利用数据湖技术解决了各种类型原始数据的存储、实时性、一致性问题,同时实现了“湖上建仓”,支持在数据湖的基础上,分层构建数据组织,满足不同业务层面的需求;

(3)在数据治理方面

天基实现了从数据入湖、出湖、出仓、入仓的全生命周期管理,通过天基能够保证存储在数据湖、数据仓库数据的安全、开放、质量等,同时利用了数据预处理的技术,可以实现数据湖数据的提质、升维与增效,有效规避了数据沼泽的风险,为数据湖的长期、良好发展打下坚实基础。

(4)在数据安全方面

天基结合天盾零信任平台,联合打造数据的动态权限控制,基于零信任理念,确保数据使用的安全可信合规。
 
让数据更智能、更安全,我们一直在路上。选择“乾坤”,一览乾坤!