物流网站建设实例,网站icp 备案查询,wordpress主题更换字体教程 hu,信仰类型的企业网站模型加载
在day2, 我们尝试了对于llama8B进行转换和推理#xff0c;可惜最后因为OOM而失败#xff0c;在day4,我们详细的过了一遍tinyllama的推理#xff0c;值得注意的是#xff0c;这两个模型的推理走的是不同的流程。llama8b需要显式的进行模型的转换#xff0c;引擎的…
模型加载
在day2, 我们尝试了对于llama8B进行转换和推理可惜最后因为OOM而失败在day4,我们详细的过了一遍tinyllama的推理值得注意的是这两个模型的推理走的是不同的流程。llama8b需要显式的进行模型的转换引擎的生成而tinyllama则进行了隐式的执行。
如果参考[1]也有明确的说明。目前模型的推理确实支持多种形式。 量化及调参
接下里我们的关注点来到: 如何进行各种量化方法的调用,在[2]中提供了对应的实例/。
可以看到的是他是在LLM的加载和隐式的转换过程中执行的量化。 llm LLM(modelTinyLlama/TinyLlama-1.1B-Chat-v1.0,# define the quantization config to trigger built-in end-to-end quantization.quant_configquant_config)
而在生成结果的过程中还涉及到很多参数但这些参数就与模型的engine无关而更像是“调参”在推理的时候指定即可。如下 # Create a sampling params.sampling_params SamplingParams(temperature0.8, top_p0.95)for output in llm.generate(prompts, sampling_params):print(fPrompt: {output.prompt!r}, Generated text: {output.outputs[0].text!r})显存占用
对于LLM来说显存的有效利用是一个非常务实的话题在文档[3]中提到了模型权重激活值和I/O tensor会占用显存大小这里的I/O tensor概念感觉很很隐晦按我的理解这是通过一个类似page的形式进行显存管理其中也包含了kv cache,.
另外文档中还提到了memory pool, 这个的概念我也不太理解其对应的实现。 今天就先到这吧。 [1] LLM Examples Introduction — tensorrt_llm documentation
[2] LLM Quantization — tensorrt_llm documentation
[3] Memory Usage of TensorRT-LLM — tensorrt_llm documentation