网站排名优化方案,蚌埠网站建设专业的公司4000-262-,中国建设银行官网站代发工资,网站浏览器兼容性问题吗这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。 值得注意的是#xff0c;这个问题很有可能是因为安装不正确#xff0c;所以 GPTQ 无法正确使用 GPU 进行推理#xff0c;也就是说无法进行加速#xff0c;即便 print(model.device) 显… 这里解决的是使用 Auto-GPTQ 或者 Transformers 导入 GPTQ 模型后推理速度很慢的问题。 值得注意的是这个问题很有可能是因为安装不正确所以 GPTQ 无法正确使用 GPU 进行推理也就是说无法进行加速即便 print(model.device) 显示为 “cuda”。类似的问题见 Is This Inference Speed Slow? #130/ CUDA extension not installed #694。
这个问题是普遍存在的当你直接使用 pip install auto-gptq 进行安装时可能就会出现。
你可以通过以下命令检查已安装的版本
pip list | grep auto-gptq如果发现之前安装的版本不带 cuda 标识卸载它从源码重新进行安装推理速度将提升为原来的 15 倍以上。
如果存在 cuda 标识那么应该去检查代码的参数是否正确。
pip uninstall auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ.git cd AutoGPTQ# 以下两种方式任选一种进行安装经测试均有效
pip install -vvv --no-build-isolation -e .
# Successfully installed auto-gptq-0.8.0.dev0cu121python setup.py install
# Finished processing dependencies for auto-gptq0.8.0.dev0cu121