-
Notifications
You must be signed in to change notification settings - Fork 637
替换组件
开源版本中使用istio 1.15,可以在start.sh里面禁掉对istio的部署
注意事项,
1、isito作为平台的统一入口,需要暴露ip,并开放80,8080端口,会代理cube 的web界面,notebook,pipeline,nni,内部服务,推理服务,监控服务。
2、配置istio的监控指标对接到prometheus,并且默认不启动sidecar,通过label启动自动注入,同时流量的复制,分流,域名代理等功能可用
cube-studio对prometheus生态需求部分。(不需要下面的需求可以不使用prometheus)
- pipeline编排界面查看任务的资源使用grafana看板。(需要配置pod的资源使用情况)
- 整体资源界面有机器的,pod的,gpu的grafana资源采集看板,和pod的资源利用率。(需要配置机器的,pod的,gpu的资源使用情况)
- 推理服务界面查看istio服务的吞吐和使用使用grafana看板(需要配置istio的指标采集)
- 推理服务可以配置metric接口 (需要prometheus 支持通过annotations自动发现被注册的服务入口点)
- 推理服务可以配置gpu弹性伸缩 (需要配置prometheus_adapter组件,将prometheus指标转化为弹性伸缩自定义指标)
- pod资源,node资源,服务负载的grafana看板需要能接收变量,变量参考现有cube-studio的grafana看板
修改方法:
- 1、注释掉start.sh平台“部署prometheus”部分,可以将cube-studio中的grafana看板部署到目标grafana组件上
- 2、将config.py中的PROMETHEUS变量更改为目标prometheus服务地址
- 3、将config.py中的GRAFANA_TASK_PATH,GRAFANA_SERVICE_PATH,GRAFANA_CLUSTER_PATH,GRAFANA_NODE_PATH,GRAFANA_GPU_PATH修改为对应的grafana看板地址
- 4、将config.py中的ALL_LINKS中grafana中的地址 修改为真实的地址
在config.py文件中替换 K8S_DASHBOARD_CLUSTER 变量
在config.py文件中替换 MINIO_HOST 变量
替换infra命名空间kubeflow-dashboard-*的deployment的环境变量
替换infra命名空间kubeflow-dashboard-*的deployment的环境变量
替换kubeflow命名空间labelstudio的deployment的环境变量
myapp/install/kubernetes中部署的组件,可替换为源镜像名的新tag
模板镜像:,需要在myapp/init/init-job-template.json 中的image_name
notebook镜像:config.py中的NOTEBOOK_IMAGES变量配置
超参搜索镜像:config.py中NNI_IMAGES,WAIT_POD_IMAGES变量,myapp/init/init-automl.json中的job_worker_image
内部服务镜像:
- myapp/init/init-service.json中image_name
推理服务镜像:
- config.py中ML_SERVER_IMAGE,TFSERVING_IMAGES,TORCHSERVER_IMAGES,ONNXRUNTIME_IMAGES,TRITONSERVER_IMAGES
- myapp/init/init-inference.json 中image_name
gpu镜像:
- myapp/init/init-job-template.json中ccr.ccs.tencentyun.com/cube-studio开头的镜像
镜像管理:修改myapp/init/init-image.json中name
aihub镜像:myapp/init/init-aihub.json中的images
搜索替换myapp/views/下 ccr.ccs.tencentyun.com/cube-studio 开头的镜像,替换为自己的镜像重新打包后台镜像