wordpress 破解主题,江西网站搜索引擎优化,集团公司成立条件,企业网站如何seo写在前面#xff0c;最近一阵在做视频分类相关的工作#xff0c;趁有时间来记录一下。本文更注重项目实战与落地#xff0c;而非重点探讨多模/视频模型结构的魔改
零、背景
目标#xff1a;通过多模态内容理解技术#xff0c;构建视频层级分类体系原技术方案#xff1a…写在前面最近一阵在做视频分类相关的工作趁有时间来记录一下。本文更注重项目实战与落地而非重点探讨多模/视频模型结构的魔改
零、背景
目标通过多模态内容理解技术构建视频层级分类体系原技术方案 a. 分别用 inception-Resnetv2/bert/vggish处理视觉/文本/音频特征再用 netvlad 处理时序特征再用 AFM/self-attention融合各模态信息 b. 方案缺点很明显1模块太多维护成本太高2各模块独立训练用每个模块最优的模型组合起来未必效果最好如何选择各合适的模块不好确定新技术方案 a. attenion 一把梭各种模态的信息直接送入类 bert 去处理利用对比学习模型 cn-clip 提升视觉与文本对齐能力采用 mlm、itc 、itm、mmm等多种预训练任务增强模态间交互结合 rdrop、fgm等训练算法提升泛化性能使用知识蒸馏与难例挖掘等手段提升样本标出率借助 class balance 与 label smoothing 改善类别不均衡问题 b. 新方案效果提升明显模块也少维护起来成本也低 c. 新方案为 2022 某视频分类比赛第 8 名
一、技术手段
1、模型方面 1单流模型 结构模型一 文本过embedding层视频过zn_clip的vit然后拼接起来送入bert最后mean pooing后接分类层 优点 架构简单、预训练好做参数少 服务性能a10卡vit bert 的 qps 9 左右
2双流模型
结构 模型二文本过bert视频过clip然后将视频向量和文本向量拼接起来再过一个transformermean pooing后接分类层模型三文本过bert视频过clip得到视频向量和文本向量然后做cross attention,即对于视频向量用文本向量作为Q进行注意力加权而对于文本向量用视频向量作为Q进行注意力加权最后mean pooing后接分类层 优点 相当于一种后融合先让每个模态单独学更好的特征再去做融合效果理论上也会更好
3训练 tricks 训练手段 1r-drop acc 上升 71%—71.7% 2swa平均最高 3 个 checkpoints权重模型准确率略有提升71.7%-71.8% 4emaacc 71.879% - 71.975% 5fgm对抗训练acc 71.975% - 72.206% 6word-baseacc 72.206% - 72.4% 7ensemblemodel172.638% model272.785%— acc 73.601% 8训练帧数增加帧数从 10—30acc 67.308 - 67.782 9图片尺寸resize224x224 — centercropacc 72.4—73 loss 改进 类别不均衡问题label smoothing 和 class balanced loss 融合acc 71.750% - 71.879%层级分类问题细粒度分类粗粒度分类、细粒度分类映射、hmc los
4预训练
mlm、mfm、itm、itc、mmm、mma
2、数据方面
1数据准备
类别关系映射 大量人标注累计积累了 103 w 数据基于初版模型根据top1top2 的预测分数捞取边界数据提升标出率
2数据清洗
N 折交叉验证训练早停筛选 diff 数据
3伪数据构造
知识蒸馏 标注数据上使用更多帧、更大模型clip-large、不同模型架构训练n 个模型使用 i 得到的 n 个模型ensemble 为无标注数据打伪标签在 ii 的伪标签数据上做预训练预训练任务及伪标签分类预训练时随机使用10/30帧的视频以缓解预训练和微调过程不一致重复 ii、iii用最后得到的模型做微调初始化在有标注数据上进行微调 基于检索的伪标签 标注数据上训练 DML 模型并提取特征无标记数据检索有标记数据对 top10 样本进行类别投票生成伪标签
3、后处理方面
不同类别给予不同的缩放系数大类为 1效率大于 1使用粒子群优化算法pso搜一个也行模型能力总归是有限的根据业务需要结合人审制定合适的送审策略也是重要的
4、外部信号
1结合先验特征比如作者主垂类信息、作者兴趣点、作者认证信息、同作者发布内容等
2结合后验信号视频评论点赞、完播率等