网站开发常见方法,企业免费自助建站平台,苏州专业网站建设开发,404免费模板下载前处理#xff1a;
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction
#xff08;1#xff09;几何矫正
给定一张存在几何和光照畸变的文档图像#xff0c;我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取#xf…
前处理
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction
1几何矫正
给定一张存在几何和光照畸变的文档图像我们首先用一个包含六个卷积模块的特征提取器对其进行特征提取并降低特征图分辨率至输入图像的1/8尺度以保证网络的推理效率。然后我们将提取的特征图展平后输入至Transformer编码器解码器以及我们设计的可学习的上采样模块得到坐标位移矩阵。最后我们用对坐标位移矩阵对输入的图像进行几何矫正即基于双线性插值的在输入图像上按坐标进行像素重采样。
2光照恢复
给定一张几何矫正输出的高分辨率图像我们首先将其切分成相互之间有1/8重叠的图像块。然后我们将每一个图像块输入至卷积特征提取器Transformer编码器解码器以及卷积输出头从而输出光照恢复的图像块。最后我们将每一个恢复的图像块进行空间上的拼接完成文档图像的光照恢复。 1、版面分析
使用轻量模型PP-PicoDet检测模型实现版面各种类别的检测。
数据集
英文publaynet数据集的训练集合中包含35万张图像验证集合中包含1.1万张图像。总共包含5个类别。
中文CDLA据集的训练集合中包含5000张图像验证集合中包含1000张图像
2、文本分析
文本检测改进了基于分割的DBNet (Differentiable Binarization)
数据集ICDAR 2015 数据集包含1000张训练图像和500张测试图像。 文本识别SVTR_LCNet将基于Transformer的SVTR网络和轻量级CNN网络PP-LCNet 融合的一种轻量级文本识别网络
数据集 3、表格
1. 文字检测模型用于检测表格里的文本
2. 文字识别模型用于对检测到的文本进行识别
3. SLANet模型用于预测表格结构的HTML信息和表格单元格坐标 数据集
PubTabNet数据集的训练集合中包含50万张图像验证集合中包含0.9万张图像
好未来表格识别竞赛数据集的训练集合中包含1.6万张图像。验证集未给出可训练的标注。 参考来源 GitHub - PaddlePaddle/PaddleOCRhttps://github.com/PaddlePaddle/PaddleOCR