国外二手表网站,做影视网站需要多少钱,贵州贵阳网站开发,百度网站v2升级到v3怎么做1.机器配置及实验说明
基于前期搭建的双卡机器装机教程#xff0c;配置如下#xff1a;
硬件名称参数备注CPUE5-2680V42 *2#xff08;线程28个#xff09;无GPU2080TI-22G 双卡魔改卡系统WSL Unbuntu 22.04.5 LTS虚拟机
本轮实验目的#xff1a;基于VLLM/Ollama/ktran…1.机器配置及实验说明
基于前期搭建的双卡机器装机教程配置如下
硬件名称参数备注CPUE5-2680V42 *2线程28个无GPU2080TI-22G 双卡魔改卡系统WSL Unbuntu 22.04.5 LTS虚拟机
本轮实验目的基于VLLM/Ollama/ktransformers框架完成Deepseek大模型私有化部署了解如何搭建大模型推理服务。
2.大模型推理框架介绍及实战
2.1 推理框架介绍
目前大模型推理框架主要包含VLLM/SGLang/ollama/ktransformer等框架如下是各个框架的介绍 VLLM是UC Berkeley大佬Ion Stoica组开源的大模型推理引擎。其在2023.6.20首次发布,为了实现快速推理经过特别优化具有高服务吞吐量使用pagedAttention的有效注意力内存管理。连续批处理和优化的CUDA内核此外还支持各种解码算法、张量并行和流式输出支持huggingface模型格式提供兼容OpenAI的API接口官网链接 SGLang是一个对标vLLM的大语言模型推理框架 系统的整体架构如下图分为前端和后端。 前端是对调用大语言模型的一些常用操作的抽象提供一系列原语。 后端是具体的对推理过程的优化。 SGLang的两点主要的优化是RadixAttention和Structured output。在此基础之上作为大模型推理的基础框架 后续也有很多其他的系统优化工作是在SGLang框架上的。官网链接 ollama:是一个简明易用的本地大模型运行框架,只需一条命令即可在本地跑大模型。开源项目专注于开发和部署先进的大型语言模型LLM官网链接,支持guff模型格式 KTransfomers:是一个由清华大学KVAV.AI团队开发的开源项目旨在优化大语言模型LLM的推理性能特别是在有限显存资源下运行大型模型。支持huggingface模型格式和guff的格式。
2.2 VLLM部署Deepseek大模型
为了方便快速部署本轮实验采用Deepseek蒸馏模型DeepSeek-R1-Distill-Qwen-1.5B可以从huggingface社区或者modelscope进行下载 步骤一模型下载
国外下载链接https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/tree/main国内下载链接https://hf-mirror.com/deepseek-aigit方式下载
git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B步骤二安装VLLM 需要注意的是安装vllm有比较多的依赖例如torch环境、cuda版本等 1nvcc -V 版本和nvidia-smi版本保持一致 驱动报错 cmake报错
2torch版本依赖安装vllm之前虚拟环境中一定要有pytorch环境否则会报错这里建议部署的时候新建环境python和torch都安装最新版本出错概率会小一些否则会报如下错误
pythonPreparing metadata (setup.py) ... errorerror: subprocess-exited-with-error× python setup.py egg_info did not run successfully.│ exit code: 1╰─ [6 lines of output]Traceback (most recent call last):File string, line 2, in moduleFile pip-setuptools-caller, line 34, in moduleFile /tmp/pip-install-sa81j1_y/xformers_5701c77d28094ba6bffdabe8c9ba5779/setup.py, line 24, in moduleimport torchModuleNotFoundError: No module named torch【错误分析】环境中未安装pytorch按照驱动版本安装相应pytorch版本即可 有时候还会遇到如下错误
Please install it with pip install transformers[torch]【错误解析】python的版本较老对于一些新的模型不兼容建议重建虚拟环境进行最新版本安装 3Xformer版本的依赖
ERROR: pips dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchvision 0.20.1cu124 requires torch2.5.1, but you have torch 2.6.0 which is incompatible.【错误解析】Xformer版本与torch有强烈依赖关系安装之前需要下载对应版本 对应关系可以参考xfomers官网链接 4安装VLLM 步骤三配置模型启动服务 1配置启动模型及配置sh 脚本
#启动时需要将注释内容删除且对空格比较敏感
python -m vllm.entrypoints.openai.api_server \
--model /mnt/e/NLP/deepseek/DeepSeek-R1-Distill-Qwen-1.5B \ #模型存放绝对路径
--served-model-name deepseek-qwen-1.5b \ # 配置的服务名称
--dtypehalf \ #精度
--tensor-parallel-size 1 \ # 并行tensor
--max-model-len 1000 \ #最大模型长度
--trust-remote-code \
--gpu-memory-utilization 0.9 #gpu的利用率2启动脚本 sh start.sh 模型占用显存:
(3)调用模型服务
curl -X POST http://localhost:8000/v1/chat/completions -H Content-Type: application/json --data {model: deepseek-qwen-1.5b,messages: [{role: user,content: 你是谁}]}返回结果
2.3 ollama部署Deepseek大模型
步骤一下载ollama 1网络下载 curl -fsSL https://ollama.com/install.sh -o ollama_install.sh 2安装ollama 步骤二下载Deepseek模型
ollama run deepseek-r1:1.5b步骤三模型测试
2.4 Ktransformer部署Deepseek大模型
步骤一克隆仓库
git clone https://github.com/kvcache-ai/ktransformers.git步骤二安装ktransfomers库 pip install KTransformers -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simplesome-package步骤三启动模型
ktransformers --type transformers --model_path /mnt/e/NLP/deepseek/DeepSeek-R1-Distill-Qwen-1.5B步骤四测试模型接口
curl -X POST http://localhost:10002/v1/chat/completions -H Content-Type: application/json --data {model: deepseek-qwen-1.5b,messages: [{role: user,content: 你是谁}]}返回结果