承装承修承试材料在哪个网站做,wordpress忘记了密码忘记,实惠福步外贸论坛,天津狐臭在哪里做津门网站I一、简要介绍视觉信息提取#xff08;VIE#xff09;近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别#xff08;OCR#xff09;结果组织成纯文本#xff0c;然后利用标记级实体注释作为监督来训练序列标记模型。但是#xff0c;它花费大量的注释成本VIE近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别OCR结果组织成纯文本然后利用标记级实体注释作为监督来训练序列标记模型。但是它花费大量的注释成本可能导致标签混淆OCR错误也会显著影响最终性能。在本文中作者提出了一个统一的弱监督学习框架称为TCPN标签、复制或预测网络它引入了1)一种有效的编码器可以同时对二维OCR结果中的语义和布局信息进行建模2)仅利用关键信息序列作为监督的弱监督训练策略和3)一个灵活和可转换的解码器其中包含两种推理模式一种复制或预测模式是通过复制输入或预测一个标记来输出不同类别的关键信息序列另一种标记模式是直接标记输入序列。本方法在几个公共基准上显示了最新的性能充分证明了其有效性。 二、研究背景随着信息交互的快速发展文档智能处理引起了相当多的关注。视觉信息提取VIE技术作为其中的一个重要组成部分已经被集成到许多实际应用程序中。现有的VIE方法通常首先根据阅读顺序将文本块文本边界框和字符串由ground truth提供或由OCR系统解析组织成纯文本并利用有效的编码结构从多个模态文本版面视觉等中为每个输入字符提取出最有效的特征表示。然而字符级别的类别监督花费了巨大的注释成本并可能导致标签歧义。给定一个如图1 (a)所示的文档图像最广泛使用的注释方案是对每个话语的边界框和字符串进行标记并进一步指出每个字符/框属于哪个类别如图1 (b).所示这样需要一个启发式的标签分配过程来训练上述标记模型其核心思想是将检测到的边框和识别的转录与给定的注释进行匹配然后为OCR结果的每个字符/边框分配标签。然而这一过程可能主要会遇到两个方面的问题。首先错误的识别结果会给匹配操作带来麻烦特别是对关键信息序列。第二重复的内容会带来标签的歧义。如图1(a)和(b)所示三个内容相同的值可以作为关键总量的答案。在大多数情况下很难建立一个统一的注释规范来确定哪一个应该被视为ground truth。为了解决上述局限性本文提出了一种端到端弱监督学习框架该框架可以直接利用目标密钥信息序列来监督解码过程。它带来的好处主要是两方面一是大大节省了注释成本如图1 (c)所示通过跳过OCR结果与ground truth的匹配缩短了训练过程其次作者的方法通过自动学习OCR结果与ground truth的对齐来解决标签模糊问题可以自适应地区分重复内容中最可能的结果。此外作者还提出了一种灵活的解码器它与作者的弱监督训练策略相结合有两种可切换的模式——复制或预测模式TCPN-CP和标签模式TCPN-T以平衡其有效性和效率。在TCPN-CP中作者的解码器可以通过从输入中复制一个标记或在每个时间步中预测一个标记来生成关键信息序列这既可以保留输入中的新内容也可以纠正OCR错误。在TCPN-T中解码器可以在一次正向传递中直接将每个字符的表示标记为一个特定的类别从而保持快速的速度。值得注意的是作者的解码器只需要训练一次就可以在不同的模式下工作。此外作者提出了一种二维文档表示方法TextLattice以及相应的轻量级编码器结构来同时建模二维OCR结果中的语义和布局信息。 三、方法介绍首先作者描述了生成TextLattice的方法以及如何编码更高级别的特征。接下来介绍可切换解码器和弱监督训练策略的细节。最后作者解释了何时以及如何在不同的模式下进行推理。图2给出了作者的方法的概述。3.1文档表示将OCR结果重新组织为作者的2D文档表示——TextLattice的整个过程总结为首先对检测框的y坐标归一化处理将检测框按照从左上到右下的顺序排列并划分为多行接着将文本段级别的框切分成字符级别的框并微调x坐标避免重叠最后初始化一个全0矩阵并在相应位置填入字符级映射向量。具体步骤见附录。3.2 特征编码作者使用ResNet结合U-Net结构作为特征编码器部分以捕获更全面的特征。同时为了更好的感知整体版面信息本文借鉴CoordConv[4]的思想额外将x和y方向上的相对位置坐标信息拼接到TextLattice中。特征编码的整个过程可以表述为3.3弱监督训练如图2所示首先提出了实体类别映射向量的概念来控制解码器输出的信息类别而其本身也是从一个预定义好的可训练的查找表矩阵中随用随取。给定该向量解码器可以在每个时间步考虑当前需要生成的实体类别并迭代预测得到信息序列。这种新颖的设计避免了特定于类的解码器缓解了单一类语料库的不足并将传统序列标记模型中不同类别之间的序列相关性解耦为并行。在生成序列时作者需要模型能够在从输入中复制字符或直接预测字符之间进行切换。复制操作使模型能够再现准确的信息并保留新词而预测操作则引入了纠正OCR错误的能力。 然后计算固定字典中字符的概率分布生成一个复制分数作为软开关在每个时间步t的不同操作之间进行选择 这样论文的方法就获得了产生词汇表外OOV字符的能力并能够自适应地执行最优操作。到目前为止作者的方法可以看作是一个经过序列级监督训练的序列生成模型。但是值得注意的是由于给出了实体类别c的映射向量当模型决定每一步从输入中复制一个字符ki时F中的ki特征向量也应该被线性分类器归类为实体类别c。更一般地说作者的方法可以首先学习对齐关系然后使用匹配的字符训练分类器。这个创新的想法使作者的方法能够监督序列标记模型。作者采用线性层对实体概率分布进行建模可以表述为 值得注意的是方程11-13并不训练不属于任何关键信息序列的标记。忽略负样本可能会导致严重的缺陷即所有的输入字符都将被归类为正样本。因此作者构造了一个额外的辅助损失函数用于负样本压制负样本被预测为正样本的数量 该损失函数的主要目的是限制分类为c的输入字符的数量小于或等于实际数量。这种简单而有效的设计大大提高了模型在标签模式下的性能。综上所述最终的综合损失函数是上述多个分量的加权和 3.4推理值得注意的是由于映射向量以批的形式发送到解码器中因此可以根据实体特定的语义特征在不同的模式下生成同一文档中不同类别的关键信息序列。在大多数现实场景中OCR的结果不可能是完美的。在这方面用户可以将作者的解码器切换到公式(3) - (9)中所述的复制或预测模式以补充缺失或错误的标记。该模式更适合于具有较强语义相关性的类别序列。由于所提出的弱监督训练策略的自动对齐特性解码器还可以使用公式14在标记模式中直接进行序列标记。它更倾向于极少的OCR错误或相邻内容之间语义相关性较弱的类别四、实验4.1消融实验Ablation Study作者首先将本文提出的文档编码方式和之前的主流方法进行对比比较结果见表1。BiLSTM能很好地感知序列线索但它不能有效地模拟一维形式的位置空间GAT可以利用注意机制自适应地融合有用的特征。然而捕获位置线索的能力很大程度上取决于特征嵌入的方式BERT-like可以并行进行前向计算由于加载了预训练的权值取得了令人满意的性能Chargrid采用更直接的方式建立输入矩阵不能保证鲁棒性和效率。值得注意的是TextLattice作者的取得了优越的性能和保持最快的速度这充分证明了它的效率。比起位置嵌入GAT或BERT-like方法作者的方法对位置线索的感知更直接和敏感并确保了比Chargrid更高程度的信息集中度。作者同样对编码器中的不同结构进行了消融实验。从表2中可以看出每个设计对最终的性能都有重要的贡献。虽然CNN可以捕捉到相对位置关系但CoordConv可以进一步提供相对于整个布局的全局位置线索从而带来更高的分辨性作者也尝试只在删除所有步幅和U-Net结构时使用ResNet来执行特征编码。但性能明显下降说明了语义特征融合在不同接受域下的重要性残差连接给了模型直接接收字符级语义嵌入的机会进一步提高了性能。4.2 与SOTA的比较结果如表3所示论文的方法在字符级全监督的情况下在SROIE和EPHOIE上都表现出了优越的性能这完全证明了作者的特征编码方法的有效性。此外在序列级弱监督设置下的结果取得了竞争性能。这完全证实了作者的学习策略的优越性它可以模拟输入字符和输出序列之间的对应关系。与SROIE相比EPHOIE通常内容更少字符类型更多这减少了学习对齐的难度。相对而言由于SROIE中的收据通常包含丰富的字符而相同的字符可能会重复出现这可能会导致对齐混淆因此完全监督和弱监督之间的差距进一步扩大。本文也在End-to-End Setting设置下进行了实验结果如表4。作者的方法在每种模式下都显示了最先进的新性能。可以推断选择TCPN-CP或TCPN-T模式的一个重要基础是语义和相应语料库的丰富性。在SROIE上TCPN-CP的性能明显优于TCPN-T这主要有利于纠错能力然而在EPHOIE上尽管两种模式都优于TCPN-CP的TCPN-CP主要原因应该是中文字符的多样性和由此导致的语料库的缺乏。为了进一步探索作者的框架在现实世界的应用程序中的有效性作者收集了一个内部的营业执照数据集。它包含了2331张由手机或相机拍摄的真实用户需求的照片而且大部分图像都是倾斜、扭曲或亮度变化剧烈的。作者随机选择1863张图像进行训练468张图像进行测试其中有13种实体需要提取。此外图片是由移动设备产生的由于图像质量较差它肯定包含OCR错误。具体结果见表5。作者的端到端弱监督学习框架大大优于传统的基于规则的匹配方法这也大大降低了标注成本。与TCPN-T相比TCPN-CP学习到的内隐语义相关性可以通过纠正OCR错误来进一步提高最终性能。一些定性的结果显示在附录中。 可视化结果如图 五、总结与讨论论文提出了一个统一的弱监督学习框架TCPN用于视觉信息提取它引入了一种有效的编码器、一种新的训练策略和一种可切换的解码器。该方法在EPHOIE数据集上显示出了显著的提高和在SROIE数据集上的竞争性能充分验证了其有效性。视觉信息提取任务处于自然语言处理和计算机视觉的跨领域作者的方法旨在缓解对完整注释的过度依赖和OCR错误造成的负面影响。对于未来的研究作者将通过大规模的无监督数据来探索作者的框架的潜力。这样就可以进一步提高编码器的泛化、解码器的对齐能力和作者的TCPN-CP的性能。