该模型是 Grounding DINO 的 paddle 实现。
#Multi-scale deformable attention custom OP compilation
cd paddlemix/models/groundingdino/csrc/
python setup_ms_deformable_attn_op.py install
python run_predict.py \
--input_image image_you_want_to_detect.jpg \
--prompt "cat"