-
Notifications
You must be signed in to change notification settings - Fork 97
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
embedding、rerank模型加速推理 #70
Comments
感谢您的反馈~
|
感谢!这部分代码已经跑起来了,我发现推理的结果是不一样的,是因为模型转换丢失精度吗? |
1、你的onnx模型是自己转的,还是直接下载我们开源的onnx模型? |
感谢指导,已经定位到原因了,应该是是cuda libcublasLt.so.11的问题,导致只使用了CPU |
余弦相似度: 0.9999987920724557 |
请问 QAnything 最新的放出来的是指 docker 版本的(triton)还是python 版本的?还是两个都是最新,只不过一个是 triton 推理,一个是 onnxruntime-gpu 推理? |
这两个高效推理方案有无单独可部署的应用?甚至是支持动态批次的推理加速服务软件? |
bce-embedding高效推理:https://github.com/netease-youdao/QAnything/blob/qanything-python/qanything_kernel/connector/embedding/embedding_onnx_backend.py bce-reranker高效推理(包含我们长passages精排方案,被一些其他开源项目采用):https://github.com/netease-youdao/QAnything/blob/qanything-python/qanything_kernel/connector/rerank/rerank_onnx_backend.py现成的高效推理代码,直接抄过去就行了 |
我抄过去之后,rerank 本地测试没比sentence_transformer快啊,本地卡是3060,环境是windows 10/wsl2。 修正:换到服务器环境 2080ti + cuda 12.4下,并发到2确实会快(3060上只快一点),不过并发4没太多提升了,可能更好的显卡高并发会更明显。
|
确认一下你用onnx推理是用的onnxruntime-gpu,而不是cpu版本,看一下providers参数 |
推理时我观察到 nvidia-smi 显示的gpu usage是99%,没注意cpu占用。 另外sentence_transformer是用torch.float_16 模式加载的,缺省模式会慢一倍多。 |
安装onnxruntime-gpu,仍未gpu运行。 [E:onnxruntime:Default, provider_bridge_ort.cc:1480 TryGetProviderInfo_CUDA] /onnxruntime_src/onnxruntime/core/session/provider_bridge_ort.cc:1193 onnxruntime::Provider& onnxruntime::ProviderLibrary::Get() [ONNXRuntimeError] : 1 : FAIL : Failed to load library libonnxruntime_providers_cuda.so with error: libcublasLt.so.11: cannot open shared object file: No such file or directory [W:onnxruntime:Default, onnxruntime_pybind_state.cc:747 CreateExecutionProviderInstance] Failed to create CUDAExecutionProvider. Please reference https://onnxruntime.ai/docs/execution-providers/CUDA-ExecutionProvider.html#requirements to ensure all dependencies are met. 缺少cudatoolkit |
你好,我在qanything上没找到开源的onnx模型,但在huggingface上发现了一个6个月前上传的,可以使用吗 |
您好,我在进行压测的时候发现onnx模型显存会不断增加不会释放,这种情况请问如何解决啊 |
能否再将onnx模型转换为TensorRT再进一步加速呢? |
不建议用TensorRT了,兼容性问题较多,性能提示不是很明显,建议等这个vLLM-encoder分支合并(目前没有合并只支持单线程推理,性能非常好),使用kv cache,性能比onnx好很多 |
已解决 |
您好,求教如何解决的,我好像也有类似的问题 |
增加一个运行时缓存处理策略,microsoft/onnxruntime#19445 |
使用了BCE很长时间,但是希望有更好的性能,看了此项目的Issues,发现有很多加速框架,但是没有这方面基础
不知道有没有这方面的教程,非常想学习一下
#9 (comment)
The text was updated successfully, but these errors were encountered: