ArgoDB 支持丰富的数据导入方法,既支持批量数据入库以满足处理大量数据的场景,也支持流式数据写入以满足实时分析场景,本章节将介绍主要的数据写入方法。
实时数据写入: 适用于对实时性要求极高的场景,如实时大屏和监控系统,可基于业务需求选择:
-
基于 SlipStream 实现:结合 Transwarp Slipstream 流计算引擎,实现高吞吐、低延迟的数据实时写入能力。
-
基于 API 实现:通过 API 直接操作物理文件的方式,结合微批处理的逻辑,为复杂的实时数据流和第三方数据源接入提供了高性能和灵活的数据写入方案。
批量数据写入:适用于数据仓库和需要处理大量数据的批处理场景,可基于业务需求选择:
-
基于内置工具实现:ArgoDB 内置 Impexp 工具,可实现多线程/并行的高效写入,满足用户大规模数据写入需求。
-
基于 HDFS 文件入库:通过将源数据文件上传至 HDFS 上,并通过外表实现数据文件的批量入库。
-
基于 SQL 语句实现:通过执行标准的 SQL 插入语句将数据写入到 ArgoDB 中,该方法操作简单,但在处理大规模数据时性能较低。
文档反馈