-
Notifications
You must be signed in to change notification settings - Fork 75
Description
Describe the bug
A clear and concise description of what the bug is.
可以使用中文。
场景一:
先决条件:
三台服务器搭建3节点,k8s 已部署v1.27.6,k8s已通过helm方式安装 metrics-server
同时三节点通过cephadm方式部署ceph存储集群,正常运行
操作
通过helm 方式安装kubecube
1、发现kubecube-monitoring-prometheus-node-exporter-XXX
9100端口与ceph自带节点监控服务冲突无法启动
通过修改ceph默认端口,让kubecube可以使用9100,解决
2、发现prometheus-kubecube-monitoring-prometheus-0
服务没有启动,也没拉取镜像等动作,监控服务相关如下
helm list -A
查询发现部分服务安装失败
kubecube-monitoring kubecube-monitoring 1 2024-02-29 08:48:09.902374875 +0000 UTC failed kubecube-monitoring-15.4.12 0.47.0
kubecube-thanos kubecube-monitoring 1 2024-02-29 08:48:58.754995455 +0000 UTC failed thanos-3.18.0 0.21.1
场景二
基于场景一无法正常使用kubecube情况,调整如下
三台服务器搭建3节点,k8s 已部署v1.27.6,k8s已通过helm方式安装 metrics-server
cephadm集群卸载不启动
操作
1、通过helm 方式安装kubecube ,kubecube正常安装所有组件,并正常运行
2、使用cephadm安装ceph存储集群,初始化集群,并修改ceph自带节点监控服务端口为9111避免冲突。观察kubecube正常运行
3、使用ceph对每一台机进行存储硬盘初始化,启动OSD服务。此时对应主机上kubecube相关的pod出现crashoff/error,崩溃并且无法自动重启,而在这台机的其他pod,例如kube-proxy,kube-controller-manager等是正常的。
4、针对第3步,将问题服务器节点重启,则kubecube相关的pod,恢复正常,而ceph服务也是正常,OSD服务正常。
5、三个节点均是这种情况,ceph执行初始化OSD服务,对应的主机上的kubecube的pod就崩溃无法自动重启。然后整台服务器重启后,kubecube恢复正常,ceph正常,运行1天,暂时没有异常。
server(please complete the following information):
- OS: kylinV10
- k8s version:v1.27.6
- kubecube version:v1.8.2