OneEmbedding的推理方案是什么？ #9849

dechaoliu · 2023-02-09T07:48:59Z

dechaoliu
Feb 9, 2023

在文档里看到了OneEmbedding的分布式训练方案，是实现了显存-内存-ssd的多级缓存能力。

但是文档里只介绍了分布式训练方案，而没有介绍推理方案。

在文档的“模型部署”里，提到是需要将模型转为onnx，由Triton加载实现推理。那Triton能够读取OneEmbedding的多级缓存吗？具体的实现案例有吗？

yuanms2 · 2023-02-09T08:53:09Z

yuanms2
Feb 9, 2023
Maintainer

这里有一个例子可以参考，使用NVIDIA Triton

https://mp.weixin.qq.com/s/ZySjcEv8KCC4xxRJEh_lIQ

4 replies

mosout Feb 9, 2023
Collaborator

这里有一个例子可以参考，使用NVIDIA Triton

https://mp.weixin.qq.com/s/ZySjcEv8KCC4xxRJEh_lIQ

我们已经为Triton提供了OneFlow的backend，Triton可以直接部署OneFlow的模型，所以对于OneEmbedding相关的模型就可以不转onnx，直接使用 serving 来部署。

大概的流程可以参考上述的这篇文章，文章中使用了serving 的docker镜像，文章中的内容可能有些过时，主要有以下几点：

文章中提到的对OneEmbedding的推理支持需要自己编译分支，这个现在已经合并进主分支，所以只需要安装nigthly版本的oneflow即可
保存模型可以直接用flow.save，只要是用了OneEmbedding的模型就可以直接保存OneEmbedding相关的信息

保存的模型可能需要更改持久化表的路径，这个上述文章中有提到。

另外目前的serving对OneEmbedding的支持只有单机单卡，多机多卡是不可用的。

dechaoliu Feb 9, 2023
Author

有没有Triton + OneEmbedding的Benchmark？平均耗时、长尾耗时、吞吐等等。

计算整个过程是这样吗？

input(CPU) -> input(GPU) -> embedding_lookup(GPU) -> embedding_lookup(CPU) -> forword(GPU)。数据和计算，需要在CPU和GPU之间来回切换。比较关心对耗时和吞吐影响。

例如：在embedding_lookup的时候，假设请求batchsize 100，其中部分id未命中GPU Cache，下沉到CPU Cache，会不会导致长尾耗时比较高？

liujuncheng Feb 9, 2023
Maintainer

当时用GPU+CPU两级的时候，一般可以因为 GPU 上未命中的会比命中的id数量小一个量级，同时CPU上的带宽性能小于GPU一个量级，那么在CPU和GPU上的执行时间大概是接近的，而embedding查询只占整个执行时间的一小部分，所以一般不会因为 cache miss 导致时间显著变长，这里可以看我们之前的一个实验 https://www.jiqizhixin.com/articles/2022-08-04-2

这是训练的吞吐，每个iter的命中率基本稳定在85%的水平，纯GPU和GPU+CPU耗时差距很小。

dechaoliu Feb 10, 2023
Author

但是训练和推理，对于延迟的容忍度是不一样的。

例如训练的时候，10ms的延迟根本无所谓；但是作为在线服务的时候，10ms的延迟就会比较大。

因此，请问有没有在线推理场景的相关benchmark？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

OneEmbedding的推理方案是什么？ #9849

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 4 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

OneEmbedding的推理方案是什么？ #9849

Uh oh!

dechaoliu Feb 9, 2023

Replies: 1 comment · 4 replies

Uh oh!

yuanms2 Feb 9, 2023 Maintainer

Uh oh!

Uh oh!

mosout Feb 9, 2023 Collaborator

Uh oh!

dechaoliu Feb 9, 2023 Author

Uh oh!

liujuncheng Feb 9, 2023 Maintainer

Uh oh!

dechaoliu Feb 10, 2023 Author

dechaoliu
Feb 9, 2023

Replies: 1 comment 4 replies

yuanms2
Feb 9, 2023
Maintainer

mosout Feb 9, 2023
Collaborator

dechaoliu Feb 9, 2023
Author

liujuncheng Feb 9, 2023
Maintainer

dechaoliu Feb 10, 2023
Author