当前位置: 首页 > news >正文

青海省建设厅备案网站html怎么做网页动态背景

青海省建设厅备案网站,html怎么做网页动态背景,开发app开发公司,网站站点管理在哪里一、目录 作用TensorRT-llm 为什么快#xff1f;流程TensorRT-LLM 环境配置大模型 转换、编译与推理如何选择量化类型#xff1f;lora 大模型如何合并#xff1f;lora 大模型如何编译#xff0c;使用#xff1f;推理加速模型 tensorrRT-LLM、Vllm、fasterTransformer、Be…一、目录 作用TensorRT-llm 为什么快流程TensorRT-LLM 环境配置大模型 转换、编译与推理如何选择量化类型lora 大模型如何合并lora 大模型如何编译使用推理加速模型 tensorrRT-LLM、Vllm、fasterTransformer、BetterTransformer 的对比如何优化 LLM 模型推理中的访存密集问题 二、实现 作用 NVIDIA提出 TensorRT-LLM 默认采用 FP16/BF16 的精度推理并且可以利用业界的量化方法使用硬件吞吐更高的低精度推理进一步推升推理性能。TensorRT-llm 为什么快 1. 模型预编译并优化内核 2. 模型进行量化 3. In-flight批处理 4. page attention 以及高效缓存K、V.流程 1. huggingface 模型—tensorRT-llm模型(模型转换)----转为trt引擎-----trt引擎推理。TensorRT-LLM 环境配置 1. 下载tensorRT-LLM 项目注意下载0.8.0 其中0.9.0问题较多 git clone -b v0.8.0 https://github.com/NVIDIA/TensorRT-LLM.git cd TensorRT-LLM 创建容器(cuda 最好是大于12.2), 也可以是其他容器该容器包含tritonserver服务。 docker pull nvcr.io/nvidia/tritonserver:24.02-trtllm-python-py3 docker run --gpus all –name trt_llm -d –ipchost –ulimit memlock-1 –restartalways –ulimit stack67108864 -p 8000:8000 -p 7860:7860 -v ${PWD}/examples:/app/tensorrt_llm/examples nvcr.io/nvidia/tritonserver:24.02-trtllm-python-py3 sleep 8640000 安装tensorRT-LLM pip install tensorrt_llm0.8.0 --extra-index-url https://pypi.nvidia.com --extra-index-url https://download.pytorch.org/whl/cu121检查安装 python3 -c “import tensorrt_llm” 生成版本号。安装大模型本身需要的环境。 参考https://github.com/Tlntin/Qwen-TensorRT-LLM 4.大模型 转换、编译与推理 cd TensorRT-LLM/examples/bloom 文件1. convert_checkpoint.py 将hf 模型转为tensorRT-LLM格式模型。 文件2. …/run.py 推理文件 根据需求进行相应的修改 文件3. …/summarize.py 在cnn_dailymail 数据集中的测试文本。生成rouge 结果 文件4 benchmark.py 测试吞吐量 方式一、含有build.py 文件 1. 编译 参考https://github.com/Tlntin/Qwen-TensorRT-LLM python3 build.py --添加参数 2. 使用 python3 run.py 方式二、不含有build.py 文件 1. 模型量化 参考https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/qwen # Build the Qwen-7B-Chat model using a single GPU and FP16. python convert_checkpoint.py --model_dir ./tmp/Qwen/7B/ –output_dir ./tllm_checkpoint_1gpu_fp16 –dtype float16 2. 创建引擎 trtllm-build --checkpoint_dir ./tllm_checkpoint_1gpu_fp16 –output_dir ./tmp/qwen/7B/trt_engines/fp16/1-gpu –gemm_plugin float16 使用 python3 …/run.py --input_text “你好请问你叫什么” –max_output_len50 –tokenizer_dir ./tmp/Qwen/7B/ –engine_dir./tmp/Qwen/7B/trt_engines/fp16/1-gpu/ 方式三、自己修改写build.py 文件 1. 官网下载benchmarks/python下的build.py 文件, 进行修改同时需要进一步修改模型后续… 生成文件 文件1config.json 配置文件 文件2rank0.engine 驱动引擎 5.如何选择量化类型 训练后 量化类型1. fp16、int8(weight only)、int4(weight only) 2. smooth quant量化SmoothQuant 通过平滑激活层和权重后再使用per-tensor或per-token量化实现W8A8。根据量化方式不同作者提出三种策略 O1、O2、O3计算延迟依次降低。 与其他量化方法相比该方法可以保持较高的精度同时具有更低的延迟。 3. int8-kv-cache量化: KV Cache 量化是指将逐 TokenDecoding生成过程中的上下文 K 和 V 中间结果进行 INT8 量化计算时再反量化以降低生成过程中的显存占用。 4. int4-gptq 量化:所有权重压缩到4位量化中通过最小化与该权重的均方误差来实现。在推理过程中它将动态地将权重解量化为float16以提高性能同时保持内存较低。 5. int4-awq 量化:激活感知的权重量化。 在量化过程中有一小部分权重将被跳过这有助于减少量化损失。 模型越大对仅权重和KV缓存量化的容忍度越高而对激活量化的容忍度较低。 对于大多数NLP任务将大多数LLM家族量化为W4、W4A8、KV4和W8KV4性能损失可以忽略不计2%。在一定的内存预算下使用量化到W3的较大模型可以获得更优性能。 在四种突出能力即上下文学习、指令遵循、多步推理和自校准中自校准和多步推理能力对量化更敏感。对于小于13B的LLMs推荐使用W8、W8A8和KV8量化。 对于伦理任务小型模型对量化的敏感性更高。仅权重量化会增强模型对敏感信息的判断而KV缓存量化则有相反的效果。 LLMs在处理长文本4k时对仅权重和KV缓存量化的敏感性高于短文本4k尤其是对KV缓存量化。在大多数情况下W4、W4A8和KV8可以在长上下文任务中保持性能。 最先进的量化方法如SmoothQuant和AWQ在量化造成的性能损失适中时可以有效提升性能。然而当使用极低位宽时AWQ和SmoothQuant无法恢复完全损坏的性能。 参考https://zhuanlan.zhihu.com/p/695144724 lora 大模型如何合并 https://blog.csdn.net/BIT_666/article/details/132065177
http://www.w-s-a.com/news/759841/

相关文章:

  • phpstorm网站开发产品logo设计
  • 电子商务网站建设与运营什么是单页面网站
  • 西安优化网站公司南阳微信网站
  • 购物网站线下推广方案佛山快速建站哪家服务专业
  • 临沂网站排名外贸网站推广方法之一
  • 手机网站百度关键词排名查询吕梁网站制作吕梁安全
  • 做网站媒体wordpress管理员账号数据库添加
  • php如何自己做网站wordpress怎么修改编辑代码
  • 网站建网站建设公司WordPress互联
  • 泊头市网站建设价格wordpress导航菜单位置
  • 怎么设立网站赚广告费网页制作素材模板图片
  • 做班级网站的目的网站设计制作公司需要什么资质
  • 济南做网站哪家好财政网站平台建设不足
  • php网站建设招聘网站开发与设计论文
  • 上海 网站建设平台 补贴网站开发招标文件范本
  • 延安网站建设公司电话手机上那个网站做农产品推广比较好
  • 增城哪家网站建设好如何做网站实名认证
  • 常州地区做网站个人购物网站需要备案吗
  • 网站建设公司 跨界鱼科技专业做服务器的网站都有哪些
  • 欧洲网站服务器网站建设费用计入什么科目
  • 网站的色调苏州策划网站模板建站公司
  • 怎么看网站用的什么后台公路建设项目可行性研究报告编制办法哪个网站查最新版
  • 可以看的网站的浏览器有哪些专业APP客户端做网站
  • 如何做网站推广自己的产品推荐个网站好吗
  • 网站经营范围wordpress注入点
  • 学校网站开发协议夫妻网络网站建设
  • 福州网站seo推广优化微信商家小程序怎么弄
  • 免费网站推广工具在游戏网站做中介合法
  • 网站建设前的规划网站建设公司六安
  • 公司注册网站开发的行业表述南宁在百度上建网站