潍坊电商网站建设,英文网站备案,有没有在线做动图的网站,企业黄页软件首先说明下#xff0c;PDF需要是电子版本的#xff0c;不能是图片或者无法选中的那种。
需求1#xff1a;假如我有一批数量比较多的同样格式的PDF电子文档#xff0c;需要把特定多个区域的数字或者文字提取出来
需求2#xff1a;我有一批PDF文档#xff0c;但是文件的名…首先说明下PDF需要是电子版本的不能是图片或者无法选中的那种。
需求1假如我有一批数量比较多的同样格式的PDF电子文档需要把特定多个区域的数字或者文字提取出来
需求2我有一批PDF文档但是文件的名称都是一些乱码我需要根据PDF文件里面第一页内容的标题来批量重命名这些文件 需求1思路我们任意选一个PDF文件作为样本然后用代码把要提取的区域用方框标注出来再然后把这些区域的坐标保存下来后续批量处理每个PDF的时候就根据保存的这些区域坐标来提取对应位置的文字或者数字
思路示意图 最后的结果示意图 这种思路的缺陷和需要注意的点
1 需要每个批量处理的文件要提取的数据的位置都是一样的比如第一个PDF文件需要提取的数字位于【100100】这个坐标那么后续每个文件需要提取的数字都要位于这个位置如有变动就会导致提取不到需要的数据
2 如果提取的文字不齐全说明可能框选的方框略微小了一点我代码里面设置了一个单独增大某个区域的功能 需求2思路一批PDF文档的名称都是一些乱码我需要根据PDF文件里面第一页内容的标题来批量重命名这些文件实际上很简单就是解析PDF文件然后获取第一行的内容然后重命名该文件即可这个代码不复杂就没放在本页了。 欢迎试用~
下载链接https://pan.baidu.com/s/1WQQ8kaDilaagjoK5IrYZzA
提取码1111