联 系 我 们
售前咨询
售后咨询
微信关注:星环科技服务号
更多联系方式 >
3.5 运维诊断
更新时间:8/7/2024, 2:57:40 AM

集群操作日志

可以根据操作时间、状态、资源、用户名等条件筛选集群的操作日志。

manager opera

审计日志

可以根据操作时间、操作类型、目标名称、用户、目标类型、状态等条件筛选审计日志。

manager opera 1

服务日志

  • 可以根据日志时间、服务筛选、节点筛选、最低日志级别、关键字等条件筛选服务的日志。

manager opera 2
  • 最低日志级别选择info时,必须指定3个字符以上的关键字才能进行搜索。

manager opera 3

巡检工具介绍

除了在集群页面监控集群状态外,您还可以使用Transwarp Manager提供的巡检工具。通过巡检工具,来定制集群状态的检查项,可以对集群的整体情况、各个服务的运行状态、资源使用情况进行分析,并生成excel和html两种格式的报告提供查看,其中excel格式报告为检查的详细信息,html格式报告为检查结果的汇总,及时发现潜在的问题。

巡检工具获取和检查内容

检查项分为5大类:

  1. 基础环境检查

  2. 集群稳定性检查

  3. 文件分布式系统检查

  4. 集群合理性检查

  5. 数据表检查

巡检获取和检查具体内容说明

  • 集群告警信息: 默认检查项,提取集群manager页面上的告警信息

  • 版本号: 对应值为version,内容为提取集群版本号,以及各个节点的操作系统、JDK版本号

  • 角色列表: 对应值为roleMap,内如为获取并解析集群中各个服务角色的分布以及各个服务角色分配的内存和core的分配情况,并对部分角色的分布进行分析,对存在不合理性的角色提出告警。

  • 节点信息: 对应值为nodeInfo,内容为列出集群各个节点基本信息、系统参数配置,以及ntp情况等。

  • 磁盘信息: 对应值为disk和diskmount,配置了disk的情况下该sheet会显示,disk对应内容为各个节点的磁盘挂载情况,包括了挂载点、文件系统路径、已用/未用大小等,diskmount对应内容为磁盘挂载检查,包括了/etc/fstab文件内容的格式检查,以及实际挂载情况与/etc/fstab文件内容的比对。

  • HDFS基本信息: 对应值为hdfsInfo,内容为HDFS的各个数据节点使用情况、文件块使用情况,并对各个datanode的使用率以及总使用率标黄提示。若有两个datanode的使用率相差超过10%,则建议对datanode节点间做balance。

  • 端口检查: 对应值为portInfo,内容为集群各个节点部分端口的连接数,检查的端口可以在config/nodeCheck/portCheck.xml进行配置。

  • 进程信息: 对应值为process,内容为Quark server服务角色进程的jstack、jmap、jinfo、jstat信息

  • 对HDFS上小文件检查: 对应值为hdfsSpace,内容为HDFS各级目录(除Quark、hyperbase表数据存放路径)大小以及该目录下小文件个数及占比,仅列出根目录和小文件个数超过1000个的路径情况

  • 获取license信息: 对应值为license,内容为获取集群license信息。包括集群的服务、规模、到期时间等信息。

  • 获取节点负载指标: 对应值为metric,内容为各个节点在过去24小时内的负载指标信息,获取的指标有:cpu/内存占用率、网络接收/发送速率、磁盘占用率、swap使用情况

  • Quark、slipstream服务的text表检查: 对应值为ddl_text,内容为各个Quark、slipstream服务中text表的表总数、每个text表中小文件个数,以及表数据文件大小分布。

  • Quark、slipstream服务的orc表检查: 对应值为ddl_orc,内容为各个Quark、slipstream服务中orc表的表总数,以及每个orc表是否为事务表、事务表delta文件夹个数、分桶字段以及类型,分桶和分区的数据分布情况。

  • Hyperbase服务的hbase表检查:对应值为ddl_hbase,内容为各个hyperbase服务中各个节点region总数、hyperbase服务对region大小的设置参数,以及hbase表region分布情况和hbase表在Quark服务中映射表的库名、表名(若没有Quark依赖则这两列为空)等

  • Search服务的es表检查:对应值为ddl_es,内容为各个search服务中es表的shard分布以及es表在Quark中映射表的库名、表名。

  • Quark、slipstream服务的holodesk表检查:对应值为ddl_holodesk,内容为Quark、slipstream服务中holodesk表的数据分布(目前只能检查元数据在zookeeper上的holodesk,对于存放在shiva上的holodesk无法进行检查)

  • Search服务的部分参数检查:对应值为serviceCheck_es, 内容为search服务的node status、thread pool、indices等信息

  • Event Store 服务的topic情况检查:对应值为serviceCheck_kafka,内容为kafka服务的topic情况

巡检报告文件获取方式

巡检生成的各类报告文件获取方式是登录Manager节点机器,到巡检工具所配置的报告输出路径对应的目录去下载报告文件即可。

巡检工具使用

点击运维诊断 > 巡检工具可以进入巡检工具页面:

inspection info

您还可以根据需要自定义输出报告中的检查项,以及巡检周期等参数。

  1. 点击编辑,可以对它进行修改。

    inspection info 1
  2. 配置好参数后,点击立刻巡检,系统将会生成一份新的巡检报告。

    inspection info 2
  3. 点击任意一个报告链接,可以查看报告:

    inspection info 3

在巡检工具页面右上方,默认列出当月的巡检报告链接,如要查看历史巡检报告,在右上角选择要查看的月份即可。

巡检总结报告查看

点击当前时间巡检报告的链接查看当前集群巡检总结报告。

综述里总览集群的检查指标状态统计

inspection info 3

异常指标概述对问题进行具体描述以供处理参考。详细说明问题是属于什么类型问题,该问题是什么等级,对问题有详细的描述,并给出了最佳实践参考和整改方法

inspector err
常见巡检问题处理方法说明
基础环境检查

cpu检查之超线程开启检查

  • 超线程开启检查: 建议服务器开启超线程

  • CPU节能模式开启检查:建议服务器关闭节能模式

集群稳定性检查告警处理

集群磁盘配置检查

  • 有多个角色或服务在同一磁盘。namenode,journalnode,ganglia,tos master的etcd,txsql,guardian ApacheDS,zk,search server两两不在同一磁盘,建议迁移角色。

分布式文件系统检查告警处理

HDFS基础信息检查项对应的问题处理方法

  • 若有两个datanode的使用率相差超过10%。建议对datanode节点间做balance

  • 若数据节点间使用率最大值高于75%。请尝试扩容节点和磁盘

  • namenode节点的dfs.namenode.handler.count参数不合标准。需要修改hdfs-site.xml中的dfs.namenode.handler.count

  • hdfs文件空间小文件个数检查,表空间目录下小文件过多。建议减少表空间的目录下小文件个数。

集群合理性检查告警处理

服务角色分布合理性检查

  • 服务角色分布不合理性。有些角色之间有亲和关系最好运行在同一节点,需要迁移角色保证相互亲和的角色运行在相同节点上。

数据表检查告警处理

orc表告警信息以及处理方法

  • bucket over size: 分桶过大,指表内最大的桶大小超过了设定的值,默认为200M。建议增加分桶数,减少单个桶文件大小。

  • Bucket data skew: 分桶倾斜,默认是指同一个分区下(非分区表则指表下)最大桶大于50M的情况下,所有分桶文件按照从大到小排列,前20%文件平均大小大于剩余文件平均大小的3倍。建议重新设计DDL,选择合适的分桶键重新分桶

  • Partition data skew: 分区倾斜,判断逻辑和分桶倾斜相同

  • Monodrome partition too many: 单值分区过多,当单值分区个数超过200个时告警

  • Delta dir too many: delta文件夹个数过多,判断为orc表下delta文件夹数超过100个时告警

  • Bucket column type is warning: 分桶字段类型告警,默认当分桶字段类型为decimal时告警(这种情况会影响到数据入表的效率)

hyperbase表告警信息以及处理方法

  • replication is one: 表下存在副本数为1的数据文件

服务补丁

  1. 为服务提供补丁的形式更新,该功能仅为服务使用,此处不支持Manager补丁。

    server 1
  2. 上传补丁。提供从服务器选择文件从本地选择文件两种方式上传补丁。上传补丁会耗费一些时间,并且不能离开当前页面。

    server patch 2
    server patch 3
    server patch 4
    server patch 5
  3. 应用补丁。应用补丁之前,一定要确认补丁MD5值以及应用服务的版本号,确认无误之后再应用补丁。

    server patch 6
  4. 点击确认之后,开始应用补丁。

    server patch 7
    server patch 8
  5. 重启受影响的服务,至此补丁应用完成。

    server patch 9

诊断数据收集

当系统发生问题时,可导出诊断数据文件,并发送给技术支持做后续分析。

  • 选择集群,设定超时时间,选择导出诊断数据文件。之后可点击下载 删除,可对文件进行下载或删除。

diagnosis data 1
diagnosis data 2
  • 点击导出记录,可查看导出诊断文件的记录。

diagnosis data 3