波莱网站开发,wordpress站点登陆,30岁做网站编辑,软件制作下载更多面试题#xff0c;请看 https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md 目前处理多模态多分辨率输入时#xff0c;主要有两种策略#xff1a;一种是切片#xff08;Tiling#xff09;方法#xff0c;另一种是组合#xff08;Packing…更多面试题请看 https://gitee.com/lilitom/ai_interview_questions/blob/master/README.md 目前处理多模态多分辨率输入时主要有两种策略一种是切片Tiling方法另一种是组合Packing方法。
切片方法的核心是确定一个基准分辨率称为“切片单元”tile。接着将图像分割成多个子块每个子块的形状与切片单元的形状相匹配并在批量维度上进行组合。此外切片方法还会将原始图像调整到与切片单元相同的形状并将其与子块组合以保留全局信息。这种方法通过固定形状的视觉变换器ViT以一种较为直接的方式实现了动态分辨率的推理。
组合方法的灵感来源于自然语言处理中的序列组合技术sequence packing见论文《Efficient Sequence Packing without Cross-contamination: Accelerating Large Language Models without Impacting Performance》。其核心思路是将不同分辨率的图像特征在经过分割patchify后在序列维度上进行组合。同时通过引入块对角掩码block diagonal mask来避免不同图像的token之间进行注意力计算从而实现并行处理。