网站组网图,怎么拥有网站的所有权,深圳响应式网站开发,iis找出网站死循环定位性能瓶颈
trtexec --loadEngineIFNetxx.trt --dumpProfile–dumpProfile会定位出每一层的执行时间#xff08;总耗时、平均耗时、占比#xff09;
重写算子
经过第一部分的定位性能瓶颈#xff0c;发现算子GridSample(计算光流)的耗时占比为40%#xff0c;而且这个G…定位性能瓶颈
trtexec --loadEngineIFNetxx.trt --dumpProfile–dumpProfile会定位出每一层的执行时间总耗时、平均耗时、占比
重写算子
经过第一部分的定位性能瓶颈发现算子GridSample(计算光流)的耗时占比为40%而且这个GridSample并不是官方的算子因此需要重写 具体步骤
理解GridSample
编写Plugin C/CUDA核心代码
C文件结构示例: GridSamplePlugin.h GridSamplePlugin.cpp GridSampleKernel.cu GridSampleCreator.cpp CMakeLists.txt
实现TensorRT plugin 接口
编译.so并注册
替换ONNX中节点可选
构建TensorRT引擎
验证精度性能