[Bug]跟ceph存储集群混合部署会无法正常运行kubecube

**Describe the bug**
A clear and concise description of what the bug is.
可以使用中文。
场景一：
先决条件：
三台服务器搭建3节点，k8s 已部署v1.27.6，k8s已通过helm方式安装 metrics-server
同时三节点通过cephadm方式部署ceph存储集群，正常运行

操作
通过helm 方式安装kubecube
1、发现kubecube-monitoring-prometheus-node-exporter-XXX
9100端口与ceph自带节点监控服务冲突无法启动
通过修改ceph默认端口，让kubecube可以使用9100，解决

2、发现prometheus-kubecube-monitoring-prometheus-0
服务没有启动，也没拉取镜像等动作，监控服务相关如下
<img width="521" alt="20240301095939" src="https://github.com/kubecube-io/KubeCube/assets/27667422/c9a321f8-3511-40ba-9e1f-0f838fb266fd">

helm list -A
查询发现部分服务安装失败
kubecube-monitoring     kubecube-monitoring     1               2024-02-29 08:48:09.902374875 +0000 UTC failed        kubecube-monitoring-15.4.12     0.47.0     
kubecube-thanos         kubecube-monitoring     1               2024-02-29 08:48:58.754995455 +0000 UTC failed        thanos-3.18.0                   0.21.1   

场景二
基于场景一无法正常使用kubecube情况，调整如下
三台服务器搭建3节点，k8s 已部署v1.27.6，k8s已通过helm方式安装 metrics-server
cephadm集群卸载不启动

操作
1、通过helm 方式安装kubecube ，kubecube正常安装所有组件，并正常运行
2、使用cephadm安装ceph存储集群，初始化集群，并修改ceph自带节点监控服务端口为9111避免冲突。观察kubecube正常运行
3、使用ceph对每一台机进行存储硬盘初始化，启动OSD服务。此时对应主机上kubecube相关的pod出现crashoff/error，崩溃并且无法自动重启，而在这台机的其他pod，例如kube-proxy，kube-controller-manager等是正常的。
4、针对第3步，将问题服务器节点重启，则kubecube相关的pod，恢复正常，而ceph服务也是正常，OSD服务正常。
5、三个节点均是这种情况，ceph执行初始化OSD服务，对应的主机上的kubecube的pod就崩溃无法自动重启。然后整台服务器重启后，kubecube恢复正常，ceph正常，运行1天，暂时没有异常。



**server(please complete the following information):**
 - OS: kylinV10
 - k8s version：v1.27.6
 - kubecube version：v1.8.2



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Bug]跟ceph存储集群混合部署会无法正常运行kubecube #370

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Bug]跟ceph存储集群混合部署会无法正常运行kubecube #370

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions