开启批处理会引起输出token不稳定 #2625
Unanswered
zhuchen1109
asked this question in
Q&A
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
模型:InternVL2-8B
prompt:可以看到图中有3张以上的床,或者是有双层床,请直接给出是或者否,然后给出详细的解释。
测试方法:使用lmdeploy部署完成后,通过openai接口批量调用,openai参数是"max_tokens": 1,"temperature": 1,"top_k": 1。
启动服务设置--max-batch-size=1时,结果是符合预期的,生成的结果为:’是‘、’否‘。
当--max-batch-size>1,如设置--max-batch-size=5时,会有一定概率生成结果不是期望的’是‘、‘否’,而是生成’以及‘、’”‘这样不相关的结果。
想请教这个可能是什么原因导致的
Beta Was this translation helpful? Give feedback.
All reactions