当前位置: 首页 > news >正文

舟山市规划建设局网站广州建网站模板

舟山市规划建设局网站,广州建网站模板,网站设计的七个原则,如何制作营销网站模板下载以下是 vllm serve 的常见参数说明以及它们的作用#xff1a; 1. 基本参数 model_tag 说明#xff1a;用于指定要加载的模型#xff0c;可以是 Hugging Face 模型仓库中的模型名称#xff0c;也可以是本地路径。示例#xff1a;vllm serve gpt-neo-2.7B--co…以下是 vllm serve 的常见参数说明以及它们的作用 1. 基本参数 model_tag 说明用于指定要加载的模型可以是 Hugging Face 模型仓库中的模型名称也可以是本地路径。示例vllm serve gpt-neo-2.7B--config CONFIG 说明允许从 YAML 配置文件加载参数。适合复杂配置。示例vllm serve gpt-neo-2.7B --config /path/to/config.yaml--host HOST 和 --port PORT 说明设置服务运行的主机地址和端口。默认值host127.0.0.1port8000示例vllm serve gpt-neo-2.7B --host 0.0.0.0 --port 80802. 模型加载与优化 --tensor-parallel-size 说明设置 Tensor 并行的数量多 GPU 分布式推理。示例--tensor-parallel-size 8--cpu-offload-gb 说明允许将部分模型权重或中间结果卸载到 CPU 内存中模拟 GPU 内存扩展。默认值0禁用 CPU 卸载。示例--cpu-offload-gb 128--gpu-memory-utilization 说明指定 GPU 内存利用率值为 0-1 的小数。默认值0.9示例--gpu-memory-utilization 0.8--max-model-len 说明模型的最大上下文长度序列长度。示例--max-model-len 16384--max-num-batched-tokens 说明每批次处理的最大 token 数量。适用于优化吞吐量。示例--max-num-batched-tokens 60000--dtype 说明设置数据类型通常用于控制权重和激活值的精度。 float3232位浮点数精确但消耗内存。float1616位浮点数推荐。bfloat1616位浮点数适合 NVIDIA A100 等设备。 示例--dtype float163. 日志与调试 --uvicorn-log-level 说明控制 uvicorn Web 服务器的日志级别。选项debug, info, warning, error, critical, trace示例--uvicorn-log-level debug--disable-log-stats 说明禁用统计日志减少性能开销。示例--disable-log-stats--disable-log-requests 说明禁用请求的日志记录。示例--disable-log-requests4. 分布式设置 --distributed-executor-backend 说明设置分布式推理的执行后端。选项ray, mp多进程默认值ray如果安装了 Ray示例--distributed-executor-backend ray--pipeline-parallel-size 说明设置流水线并行的阶段数量。示例--pipeline-parallel-size 45. 前端与安全 --api-key 说明启用 API 访问控制客户端需提供此密钥。示例--api-key my_secure_api_key--ssl-keyfile 和 --ssl-certfile 说明配置 HTTPS 证书启用安全通信。示例--ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem--disable-fastapi-docs 说明禁用 FastAPI 的 OpenAPI 文档Swagger UI。示例--disable-fastapi-docs6. 调度与优化 --swap-space 说明每个 GPU 的 CPU 换页空间GiB。示例--swap-space 8--max-num-seqs 说明每次迭代的最大序列数量适合控制吞吐量。示例--max-num-seqs 16--enable-prefix-caching 说明启用前缀缓存以减少重复计算。示例--enable-prefix-caching7. 特殊用途参数 --quantization 说明设置量化方法减少内存占用。选项 bitsandbytes8位量化推荐。fp8FP8需要支持 FP8 的设备。 示例--quantization bitsandbytes--enable-lora 说明启用 LoRA低秩适配器功能。示例--enable-lora示例命令 结合以上参数的一个完整示例 vllm serve defog/sqlcoder-70b-alpha \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug如需进一步调整请参阅 vLLM 官方文档。
http://www.w-s-a.com/news/97835/

相关文章:

  • 哪家做网站性价比高wordpress最新文章链接插件
  • 维修网站怎么做移动互联网应用程序指的是什么
  • 张家界建设网站门户网站的建设原理
  • 企业通用网站模板湖南网站建设企业
  • 能看网站的视频app如何运行asp网站
  • 公司做网站还是做阿里好呢国外的旅游网站做的如何
  • 怎么做wep网站长沙seo排名公司
  • 海南网站网络推广做转运网站
  • 门户网站方案用户等待网站速度
  • 哈尔滨专业建网站方案深圳生活免费信息网
  • 检测网站是否被挂黑链wordpress 网址分享
  • 网站建设贵阳东莞网站建设策划
  • 网站5建设需要学什么桃城网站建设公司
  • 杭州外贸网站企业门户网站的安全性
  • 建设论坛网站需要做什么水果电商网站建设相关文献
  • 群晖 nas 做网站建设网站的报价
  • 白山做网站网站建设 app 优化
  • 畜牧业网站建设官方网站下载拼多多app
  • 网站规划和布局备案网站地址
  • 站长工具流量统计招工信息发布平台
  • 上海网站建设公司排行建设无障碍网站
  • phpcms网站打不开网页制作网站设计稿
  • 博客网站开发环境wordpress 中英文双语
  • 做网站报价表群辉装wordpress
  • 请人做游戏的网站视觉设计师的工作内容
  • 昆明网站建设知名企业博客网站开发
  • 如何做网站网页免费thinkphp网站后台模板
  • 怎么自己做优惠券网站济南小程序开发
  • 南昌网站专业制作做仿站如何获取网站源码
  • qq钓鱼网站wordpress 企业站模板