湖仓一体是一种新兴的数据架构,被称为Data Lakehouse。它综合了数据仓库和数据湖的优点,为数据分析师和数据科学家提供了一个集中化的数据存储平台,并为公司的数据治理带来更多便利。
在过去,我们通常使用数据仓库和数据湖这两种不同的数据存储方式:
数据仓库:数据仓库主要储结构化数据,通过转换、整合和清理等过程将数据存储到目标表中,并与预定义的schema匹配。
数据湖:数据湖可以存储任何类型的数据,包括非结构化数据如图片和文档。数据湖通常拥有更大的规模和更低的存储成本,数据不需要满足特定schema,而是在读取数据时解析schema。
现在许多公司同时使用数据仓库和湖这两种存储架构,一个大型数据仓库和多个小型数据湖。这种方式导致数据在存储中存在冗余。
湖仓一体的出现旨在融合数据仓库和数据湖的优势,通过在数据湖上构建数据仓库,实现存储成本更低、更具弹性性,并提高数据质量,减少数据冗余。在湖仓一体的构建中,ETL(抽取、转换、加载)起关键作用,将未规整的数据湖中的数据转换为结构化的数据存储在数据仓库中。
星环科技湖仓一体解决方案
星环科技湖仓集一体架构,打破数据湖、数据仓库、数据集市的边界,基于湖仓集一体平台,所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据,如业务分析师可以直接访问 原始的数据,数据工程师可以更高效地建模,数据科学家可以横跨不同的数据源进行数据分析和挖掘。通过统一SQL引擎和统一计算引擎,实现湖仓集数据的统一处理、查询、加工,支撑多种应用场景,配合统一的运维、审计、权限、告警等功能实现平台的统一管理,避免重复建设。
相比于开源湖仓,TDH湖仓集一体具有支持四种事务隔离级别,支持小文件灵活自动合并、实时数据快速读写、无需流转,湖仓集一体化存储等优势,帮助用户降低开发运维成本,提高开发分析效率,提升数据处理分析性能。
