当前位置：首页 > news >正文

舟山市规划建设局网站广州建网站模板

news 2025/12/27 6:37:36

舟山市规划建设局网站,广州建网站模板,网站设计的七个原则,如何制作营销网站模板下载以下是 vllm serve 的常见参数说明以及它们的作用#xff1a; 1. 基本参数 model_tag 说明#xff1a;用于指定要加载的模型#xff0c;可以是 Hugging Face 模型仓库中的模型名称#xff0c;也可以是本地路径。示例#xff1a;vllm serve gpt-neo-2.7B--co…以下是 vllm serve 的常见参数说明以及它们的作用 1. 基本参数 model_tag 说明用于指定要加载的模型可以是 Hugging Face 模型仓库中的模型名称也可以是本地路径。示例vllm serve gpt-neo-2.7B--config CONFIG 说明允许从 YAML 配置文件加载参数。适合复杂配置。示例vllm serve gpt-neo-2.7B --config /path/to/config.yaml--host HOST 和 --port PORT 说明设置服务运行的主机地址和端口。默认值host127.0.0.1port8000示例vllm serve gpt-neo-2.7B --host 0.0.0.0 --port 80802. 模型加载与优化 --tensor-parallel-size 说明设置 Tensor 并行的数量多 GPU 分布式推理。示例--tensor-parallel-size 8--cpu-offload-gb 说明允许将部分模型权重或中间结果卸载到 CPU 内存中模拟 GPU 内存扩展。默认值0禁用 CPU 卸载。示例--cpu-offload-gb 128--gpu-memory-utilization 说明指定 GPU 内存利用率值为 0-1 的小数。默认值0.9示例--gpu-memory-utilization 0.8--max-model-len 说明模型的最大上下文长度序列长度。示例--max-model-len 16384--max-num-batched-tokens 说明每批次处理的最大 token 数量。适用于优化吞吐量。示例--max-num-batched-tokens 60000--dtype 说明设置数据类型通常用于控制权重和激活值的精度。 float3232位浮点数精确但消耗内存。float1616位浮点数推荐。bfloat1616位浮点数适合 NVIDIA A100 等设备。示例--dtype float163. 日志与调试 --uvicorn-log-level 说明控制 uvicorn Web 服务器的日志级别。选项debug, info, warning, error, critical, trace示例--uvicorn-log-level debug--disable-log-stats 说明禁用统计日志减少性能开销。示例--disable-log-stats--disable-log-requests 说明禁用请求的日志记录。示例--disable-log-requests4. 分布式设置 --distributed-executor-backend 说明设置分布式推理的执行后端。选项ray, mp多进程默认值ray如果安装了 Ray示例--distributed-executor-backend ray--pipeline-parallel-size 说明设置流水线并行的阶段数量。示例--pipeline-parallel-size 45. 前端与安全 --api-key 说明启用 API 访问控制客户端需提供此密钥。示例--api-key my_secure_api_key--ssl-keyfile 和 --ssl-certfile 说明配置 HTTPS 证书启用安全通信。示例--ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem--disable-fastapi-docs 说明禁用 FastAPI 的 OpenAPI 文档Swagger UI。示例--disable-fastapi-docs6. 调度与优化 --swap-space 说明每个 GPU 的 CPU 换页空间GiB。示例--swap-space 8--max-num-seqs 说明每次迭代的最大序列数量适合控制吞吐量。示例--max-num-seqs 16--enable-prefix-caching 说明启用前缀缓存以减少重复计算。示例--enable-prefix-caching7. 特殊用途参数 --quantization 说明设置量化方法减少内存占用。选项 bitsandbytes8位量化推荐。fp8FP8需要支持 FP8 的设备。示例--quantization bitsandbytes--enable-lora 说明启用 LoRA低秩适配器功能。示例--enable-lora示例命令结合以上参数的一个完整示例 vllm serve defog/sqlcoder-70b-alpha \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug如需进一步调整请参阅 vLLM 官方文档。

查看全文

http://www.w-s-a.com/news/97835/