联 系 我 们
售前咨询
售后咨询
微信关注:星环科技服务号
更多联系方式 >
8 工具箱
更新时间:2/24/2025, 9:13:44 AM

Aquila Insight 平台集成了强大的工具箱,包含 Quark 服务滚动重启,库表监控、分析报告等丰富能力,帮助您简化日常运维任务,提升运维便利性。

image

Quark 滚动重启

document image rId42

在 Gateway + Quark 的高可用方案中,通过该功能可以在不影响业务的前提下通过滚动重启的方式变更 Quark 服务,使用该功能时,需满足下述条件:

  • Aquila Insight 为 9.3.1 及以上版本

  • Quark Gateway 为 5.2.1 及以上版本,且已安装最新的补丁

  • 在 Quark Gateway 的 servers.data 配置文件中,设置了关联的 Quark Server 连接信息,具体配置流程,见 Quark Gateway 使用手册

对于符合上述条件的 Gateway 将会显示其所关联的 Quark Server信息,并提供上下线按钮,执行滚动重启的流程如下:

  1. 从 Gateway 服务中将 Quark 服务下线,等待Quark中的所有查询执行完毕。

  2. 执行 Quark 服务的变更操作,例如重启服务。

  3. 完成变更后,重新将Quark服务上线。

  4. 依次对集群中的每个 Quark 服务执行上述流程即可完成滚动重启。

HDFS 库表

可展示存储在 HDFS 上的库表信息,包含 HBase、ORC、TORC 和 TEXT 格式的表,数据来自 Manager 平台上的巡检报告。

document image rId43

  • 数据库概览:展示当前系统中的库表数量、表大小、小文件数量、分桶键等信息。

  • 数据库列表:展示每个数据库的名称,点击可查看该数据库下所有表的具体信息。

    同样展示了表性能和健康度相关的统计指标,如小文件数、分桶数、表增量文件数等信息。

  • 表列表:显示每个表的详细属性,包括表名、分桶键信息、分桶数、分区数量、范围分区数、存储位置和创建时间等。

  • 主机列表:对于分布式环境下的存储节点,这里会列出每台主机的存储资源状况,包括空闲容量及其所占百分比,以及列存储所占容量和百分比等。

JVM监控

展示 Pod 内的 JVM 进程信息,包括 jstack、jmapstat 以及 jinfo信息,可通过该功能对 GC(垃圾回收)行为进行监控和告警,无需手动通过命令分析,进一步简化操作流程。

document image rId44

document image rId45

Scope 索引表

Scope 是星环科技自主研发的可扩展的分布式搜索和分析引擎,通过该功能可查看 Scope 索引表信息。

document image rId47

HDFS/TDDMS 快照管理

支持 HDFS 目录 或 TDDMS 集群的快照的查看、创建、删除。

document image rId49

集群管理

document image rId50

集群管理负责管理和维护多个集群间的同步规则,通过对集群信息和同步规则的持久化存储以及实时的集群元数据获取,实现动态调整同步范围和内容。同时,通过定时任务确保同步状态与配置始终保持一致。

负载分析报告

在业务运行过程中,集群负载压力的波动可能会导致服务不稳定甚至故障,通过该功能,可以通过分析 CPU、内存、磁盘以及网络的负载情况,从而洞察集群的繁忙程度及其变化趋势,为是否需要扩容集群提供数据依据,目前支持从集群以及节点两个角度分析。

document image rId58

负载分析报告将采用频率分布饼图和小时粒度的趋势图来展示各项指标在过去一段时间内的分布情况和变化趋势,通过实时统计和记录每小时的资源使用频率分布信息以及平均值、最大值和最小值。

对于过去一段时间(如1天、N天、1周、N周)的频率分布信息,系统将根据小时粒度进行聚合计算,小时粒度的平均值趋势图则直接展示这段时间内各小时的平均值变化情况。

二维码

自动生成二维码以供扫描识别和分享,包含了前一天集群中系统和业务的指标统计数据,包含集群基本信息、节点指标(如 CPU 使用率、内存使用率等)、服务指标(如吞吐量)、告警记录等信息。

image

除此以外,您还可以根据需要选择任意一天的关键指标统计数据,生成对应的二维码用于分享或下载;也可以选定一个时间范围(如过去一周、一个月或自定义时间段)后,一次性打包下载该时段内的所有关键指标数据和报告。

库表统一监控

库表的数据统计收集与监控,目前仅针对 Holodesk、Scope、TEXT、ORC 和 TORC表。

document image rId60

默认情况下,表的相关指标统计更新时间为每周六的 18 点,您也可以通过配置系统参数,调整 UNIFY_TABLE_TS_METRICS_JOB_CRON 的值,例如集群在周三和周日的凌晨4 点相对空闲,可以将其值设置为 0 4 * * 3,7

  • 库表统计概览:汇总统计整个集群中所有类型表的数量、存储表总大小、分区数、文件数、小文件数等关键信息。

  • 引擎维度统计:针对不同的存储引擎和计算引擎,展示各类型表的详细统计信息,如表数量、大小、文件数、分区数、分桶数等。

  • 表详情页面:提供单个表的详细监控指标,如表大小、文件数、分区信息、分桶信息、delta 文件数、节点数等,并支持实时查询表的最新数据以及按照预设规则进行异常检测。

Prometheus 指标清单

查看 Aquila Insight 平台支持的所有 Prometheus 指标,单击具体的指标名称可跳转至 Prometheus 页面进行查询。

document image rId61

历史异常查询

document image rId62

  • 规则配置:用户可定制异常规则,如 SQL 执行失败告警,系统自动监测并记录异常详情,助力定位问题,优化 SQL,提升数据库稳定性。

  • 趋势分析:对历史异常数据进行时间趋势分析,揭示异常频率变化及模式,如报错、超时等关键指标增长趋势,有助于识别性能瓶颈,指导查询优化与资源调度。

  • 统计信息:精细化统计各数据库引擎异常情况,横向比较多个引擎性能,发现异常率偏高的引擎节点,促使针对性优化,并依据全局统计结果调整数据库集群资源布局和管理策略,保障系统高效稳健运行。