联 系 我 们
售前咨询
售后咨询
微信关注:星环科技服务号
更多联系方式 >
7.5 配置集群过程中可能遇到的问题
更新时间:9/5/2024, 3:36:02 AM

添加节点过程中报错显示“主机名或IP为xxx的节点不存在”

【报错信息】
configure cluster 1
configure cluster 2
【核心原因】

出现此类报错,请优先检查hostname以及/etc/hosts文件中的主机名是否一致。

下面将介绍两个因为同一个原因导致报错的用户示例,出现报错的核心原因是搞混了 hostname 和带domain的hostname。

注意,hostname和全域名(FQDN)是不一样的,FQDN包含两个部分,hostname和域名,hostname就是FQDN的第一个点前面的部分,所以hostname是不包含点的。

如果您也遇到了类似的问题,可参考下述方法进行解决。

用户现象1

用户设置的hostname如下图所示,此时ping进行解析的时候实际上解析的是前半部分,比如tdh2而不是tdh2.openstacklocal

configure cluster 3
【解决方法】

修改hostname后修改hosts文件即可解决(修改为不带后缀“.”),需要注意,修改完之后需要用systemctl restart transwarp-manager-agent重启agent。

用户现象2

用户的hostname设置为了xx-4.bigdata.cn,但是host文件设置的内容是:

10.xxxx.2  bigdata-6
10.xxxx.3  bigdata-4
10.xxxx.4  bigdata-5
复制

不一致导致报错

【解决方法】

使用下述指令修改hostname:

hostnamectl set-hostname bigdata-4
复制

其他节点同理,请务必确保hostname以及/etc/hosts文件中的主机名一致

安装集群xx中的3个节点失败,日志报错显示:error.nodeHostNotFound

【报错信息】
configure cluster 4
【核心原因】
  • Host文件配置有问题

    用户的3个节点名称为别为tdh1,tdh2,tdh3,但是/etc/hosts 文件的第一行必须为127.0.0.1的记录,不能将此行注释掉。

    configure cluster 5
【解决方法】

需要参考下方黄色框里的内容,与其基本一致,部署时不要修改这部分的内容,不能把当前主机名写在该行中。

configure cluster 6

添加节点步骤报错显示“节点无法加入,原因:error.nodeGetHostnameFail”

【报错信息】
configure cluster 7
【核心原因】

非root用户,必须使用无密码的sudo用户

configure cluster 8

添加节点时,访问节点身份使用sudo用户,报错显示“节点无法加入,sudo:需要密码”

configure cluster 9
【用户描述】
  • 在安装社区版的时候,用的是非root用户,但是有sudo权限,这里提示需要sudo密码,这个应该在哪儿设置?

【解决方法】
  • 需要配置下,使sudo用户无需输入密码。具体执行命令如下:

    1. root用户登录,执行 vim /etc/sudoers

    2. 修改 /etc/sudoers文件

      %admin ALL=(ALL)改为  %%admin ALL=(ALL) NOPASSWD: ALL
      复制
    3. 保存并退出

      重新进行添加节点操作即可。

社区开发版安装过程中初始化License失败,报错步骤’安装License Node',查看失败日志发现报错内容’UnknownHostException: xx: Name or service not known'

【问题描述】

installlicense error
  • 查看报错步骤的右侧查看日志按钮,发现如下报错

    errorlog license

【解决办法】

  • 请仔细查看manager上配置的主机名是否与服务器主机名一致,以及是否按照安装文档做好了 安装前系统配置改动 。服务器检查内容如下:

    hostname error