产品简介
产品描述
分布式搜索引擎是PB级别的高速全文检索服务,提供高并发支持,以及字段精确、模糊检索和快速统计功能,支持用SQL做内容检索。
产品功能
-
全文搜索
支持全文检索,提供精确和模糊的字段查询功能。可跨越数据源、数据格式实现检索,结果返回文件路径和关键词出现的片段,高亮显示查询内容,检索结果按照关联度排序。
-
利用SQL做检索与分析
支持SQL2003语法及全文检索相关扩展,支持检索语义,同API编程相比,采用SQL不仅可以利用编译器的优化能力提供优秀的执行性能,而且可以避免底层存储升级引入的兼容性问题。同时,用SQL对检索结果进行复杂分析处理,实现比单纯数据检索更高级的信息探索能力。
-
混合存储
采用冷热数据存储分层的模式,将热数据置于SSD,利用SSD的高IOPS满足大量热数据随机访问,而冷数据置于SATA,满足历史数据查询,从而降低硬件成本,大大提升性能。
-
标准化的服务接口
方便内部IT应用快捷完成数据接入和数据访问,有利于整合不同信息系统,便于数据搜索,获取所需信息。
-
SQL自动优化
执行引擎内置SQL优化器,对语句实现自动优化,加速查询于业务实现。同时利用存储层做预处理,支持算子下沉,提高查询效率。
-
高稳定性
采用堆外内存管理技术,提高服务稳定性。将索引移到堆外,解决了因持久化索引在堆内积压,引起Full GC导致稳定性的问题。充分利用系统内存资源,提升单机存储上限。
-
适应超大规模数据集
通过支持分区表满足超大规模数据集的构建需求,同时采用精细的内存管理模型,提升海量数据检索稳定性,轻松应对PB级数据量搜索,保证检索的可用可靠。
产品架构
组件描述
Transporter |
设计创建ETL任务的可视化工具,支持从RDBMS到TDC的近实时数据同步。提供完整的数据整合功能,可实现从抽取、转换到加载的全过程,支持多种格式的数据源和丰富的导出格式和多种常用的数据转换操作 |
默认不开启HA,可以手工配置 |
HDFS |
用于查询HDFS的基本信息,提供所有HDFS datanode的基本信息,以及当前服务的运行统计数据。此外,对于具有权限的用户,它还支持浏览HDFS的所有文件。该入口可以帮助清楚了解HDFS的状态,有助于实现有效的HDFS运维 |
默认三个节点起 |
YARN |
Hadoop的资源管理器,是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,提升集群的利用率,帮助进行资源的统一管理和数据共享 |
默认三个节点起 默认不开启HA,可以手工配置 |
Metastore |
分布式元信息管理服务 |
|
DBAService |
数据库服务管理运维工具 |
默认不开启HA,可以手工配置 |
Inceptor |
执行任务的监控页面,通过对信息的抽取与整理,提供可视化以及统计化的信息,帮助您了解Inceptor中任务的运行情况,从而对运行资源以及数据分布进行更有效的控制 |
默认三个节点起 |
Zookeeper |
Kafka依赖,用于Kafka元数据的管理 |
|
Terminal |
集成的组件命令行交互界面。支持Linux命令,还可以通过命令行的方式对Inceptor、Hyperbase、HDFS、Zookeeper等云产品内的组件进行维护管理 |
默认不开启HA,可以手工配置 |
Search |
大数据搜索引擎 |
默认三个节点起 默认不开启HA,可以手工配置 |
TxSQL |
关系数据库 |
产品实例部署和配置管理
参考数据湖章节 |