Skip to content

使用集群部署时,注册的模型无法加载,报Model not found。 #3485

@sivagaga

Description

@sivagaga

System Info / 系統信息

1、两台Mac Studio,其中一台运行supervisor及worker,另一台只运行worker
2、模型:mlx-community--QwQ-32B-bf16

Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?

  • docker / docker
  • pip install / 通过 pip install 安装
  • installation from source / 从源码安装

Version info / 版本信息

源码版本:v1.6.0.post1
Python版本:Python 3.12.9

The command used to start Xinference / 用以启动 xinference 的命令

Mac A:
XINFERENCE_HOME=./server_data xinference-supervisor --host 192.168.1.62 --port 9997
XINFERENCE_HOME=./worker_data xinference-worker --endpoint http://192.168.1.62:9997 --host 192.168.1.62 --worker-port 9999

Mac B:
XINFERENCE_HOME=./worker_data xinference-worker --endpoint http://192.168.1.62:9997 --host 192.168.1.63 --worker-port 9999

Reproduction / 复现过程

1、登录http://192.168.1.62:9997/ui
2、注册模型,正常填写注册信息,mlx模型指定目录路径
3、启动模型,选择自定义模型,引擎选择MLX,启动
4、界面弹出红色提示:Server error: 400 - [address=192.168.1.62:9999, pid=91512] Model not found, name: QwQ-32B-bf16, format: mlx, size: 32, quantization: bf16

log.txt

Expected behavior / 期待表现

期待正常启动该模型。当使用xinference-local --host 0.0.0.0 --port 9997单机使用时,是可以正常加载的,因此可以排除模型或路径本身的问题。两台mac上都有完整的模型文件,且存储路径一致。

Metadata

Metadata

Labels

No labels
No labels

Type

No type

Projects

No projects

Relationships

None yet

Development

No branches or pull requests

Issue actions