当前位置: 首页 > news >正文

莒县建设局门户网站制作企业网站首页怎么做

莒县建设局门户网站,制作企业网站首页怎么做,心理 网站策划,软文推广发布平台文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf#xff0c;如果是图片格式的pdf需要用到ocr包#xff0c;以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- … 文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf如果是图片格式的pdf需要用到ocr包以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- coding: utf-8 -*- import json import osfrom pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParamsdef batch_process(src_dir, tgt_dir):批处理:return:for pdf_name in os.listdir(src_dir):pdf_path os.path.join(src_dir, pdf_name)text_path os.path.join(tgt_dir, f{os.path.splitext(pdf_name)[0]}.txt)json_path os.path.join(tgt_dir, f{os.path.splitext(pdf_name)[0]}.json)pdf_utils PDFUtils()pdf_list pdf_utils.pdf2list(pdf_path)# pdf2txtwith open(text_path, modew, encodingutf-8) as f:f.write(.join([.join(page) for page in pdf_list]))# pdf2jsonwith open(json_path, modew, encodingutf-8) as f:f.write(json.dumps(pdf_list, ensure_asciiFalse))class PDFUtils():def __init__(self):passdef pdf2list(self, path):pdf_list [] # 二维数组一维放页二维放行with open(path, rb) as f:praser PDFParser(f)doc PDFDocument(praser)if not doc.is_extractable:raise PDFTextExtractionNotAllowedpdfrm PDFResourceManager()laparams LAParams()device PDFPageAggregator(pdfrm, laparamslaparams)interpreter PDFPageInterpreter(pdfrm, device)for page_idx, page in enumerate(PDFPage.create_pages(doc)):line_list [] # 保存每行数据# print(page_idx)interpreter.process_page(page)layout device.get_result()for line_idx, line in enumerate(layout):# print(line_idx)if hasattr(line, get_text):content line.get_text()# print(content)# output StringIO()# output.write(content)# content output.getvalue()# output.close()# print(content)if content and content.replace( , ) ! \n:line_list.append(content)# print(content)pdf_list.append(line_list)# output.close()return pdf_listif __name__ __main__:# pdf目录src_dir ./pdf# 生成的txt和json文件的保存目录tgt_dir ./text_and_json# 批量转换batch_process(src_dir, tgt_dir)
http://www.w-s-a.com/news/416597/

相关文章:

  • 如何把动态图发网站做头像网页设计实训报告小结
  • 做简历用的网站wordpress版权说明
  • 网站关键词有哪些网站新闻前置审批
  • 怎么自己注册网站义乌做公司网站
  • 做哪种网站赚钱苏州住房城乡建设部网站
  • 镇江做网站学编程学哪一种比较好
  • 华美天一建筑公司网站赚钱做任务的网站有哪些
  • asp网站打开速度慢家乡网页设计教程
  • 网站 设计 深圳书店网站的建设
  • 北京网络营销推广培训哪家好南宁软件优化网站建设
  • flash网站引导页仓库管理系统源码
  • 济南网站制作公司排名营销型网站管理系统
  • 公司网站设计要多少钱用什么做网站的访问量统计
  • 湖北省住房和城乡建设厅门户网站沈阳网络平台推广公司
  • 河南平台网站建设公司网站如何提高转化率
  • 网站及推广wordpress 分享主题
  • 房产网站有哪些如何自己建一个微网站
  • 青岛市黄岛区城市建设局网站手机域名访问网站怎么进入
  • 网站模板 双语河南省建设人才信息网官网
  • 网站建设备案优化之看邹城网站开发
  • 网站方案书图书馆网站建设公司
  • 公司取名网免费版在线网站优化公司
  • dw怎么做秋季运动会网站九江集团网站建设
  • 响应式网站建设服务商wordpress 非小工具形式 微博秀
  • 网站安全检测漏洞扫描风险等级分布建设一个网站步骤
  • 摄影网站的意义开发企业小程序公司
  • 龙岩网站设计招聘信息网上免费logo设计
  • 高端定制网站开发建站教程详解网站共享备案可以申请支付接口
  • 做房产网站接不到电话企业推广宣传方式
  • 网站建设费用不用摊销下一页p30