当前位置: 首页 > news >正文

台州临海市建设局网站互联网医院网站建设

台州临海市建设局网站,互联网医院网站建设,站长seo推广,中山市建设局安全监督站网站目录 工具与设置 Python 识别图片中的文字 Python 识别图片中的文字及其坐标位置 Python 识别扫描PDF中的文字 注意事项 在处理扫描的PDF和图片时#xff0c;文字信息往往无法直接编辑、搜索或复制#xff0c;这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费…目录 工具与设置 Python 识别图片中的文字 Python 识别图片中的文字及其坐标位置 Python 识别扫描PDF中的文字 注意事项 在处理扫描的PDF和图片时文字信息往往无法直接编辑、搜索或复制这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费力还容易出错。光学字符识别OCR技术能够将图片中的文字转换为可编辑文本使信息提取和处理更加高效。如今OCR已广泛应用于扫描文件的转换、数字化文档的整理、以及自动化数据输入等领域。本文将介绍如何使用Python及相关OCR库实现对图片和扫描PDF中文字的识别。 工具与设置 要在Python中实现从图片和扫描PDF中提取文本我们需要选择一个适当的OCR库。本文所选择的库是Spire.OCR for Python。该库支持多种语言包括英语、法语、德语、简体中文、繁体中文、日语、韩语等。在使用该库之前我们需要完成以下两个步骤 步骤1安装Spire.OCR for Python 在终端中运行以下命令安装Spire.OCR for Python pip install Spire.OCR 步骤2下载OCR模型 Spire.OCR for Python提供了支持Windows64位、Linux64位和MacOS10.15及以上操作系统的三种模型。我们需要根据自己的系统下载适合的模型 Win x64Linux x64Mac 10.15及以上 下载完成后将它解压并保存到特定的目录下。 完成以上两个步骤后我们就可以使用该库实现识别图片和扫描PDF中的文字。 Python 识别图片中的文字 从图片中提取文本的过程比较简单。首先需要配置 OCR 扫描器的相关设置例如文本识别语言和OCR模型的路径然后对图片进行扫描最后将识别的文字保存为文本文件。 以下是从图片中提取文本的关键步骤 初始化 OCR 扫描器创建 OcrScanner 对象。配置 OCR 设置通过 OcrScanner 对象的 ConfigureDependencies 方法设置 OCR 模型的路径和文本识别语言。扫描图片使用 OcrScanner 对象的 Scan() 方法从图片中识别文本。保存文本获取识别出的文本并保存为文本文件。 实现代码 from spire.ocr import *# 初始化OcrScanner对象 scanner OcrScanner()# 配置OCR设置文本识别语言和OCR模型路径 # 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等 configureOptions ConfigureOptions() configureOptions.ModelPath rD:\OCR\win-x64 configureOptions.Language Chinese scanner.ConfigureDependencies(configureOptions)# 扫描图片 scanner.Scan(r测试.png)# 获取识别的文本 text scanner.Text.ToString() \n# 将文本保存到文本文件 with open(输出.txt, a, encodingutf-8) as file: file.write(text \n)原始图片和识别结果 Python 识别图片中的文字及其坐标位置 有时除了识别文本外还需要获取文本在图片中的坐标位置。Spire.OCR也支持提取这些信息。 以下是从图片中识别文本并获取其坐标位置的关键步骤 初始化OCR扫描器创建OcrScanner对象。配置OCR设置通过OcrScanner对象的ConfigureDependencies方法设置OCR模型的路径和文本识别语言。扫描图片使用OcrScanner 对象的Scan() 方法从图片中识别文本。获取边框坐标遍历识别的文本中的文本块获取每个文本块的边框信息x, y坐标及其宽度和高度。保存文本和坐标将文本及其坐标保存到文本文件中。 实现代码 from spire.ocr import *# 初始化OcrScanner对象 scanner OcrScanner()# 配置OCR设置文本识别语言和OCR模型路径 # 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等 configureOptions ConfigureOptions() configureOptions.ModelPath rD:\OCR\win-x64 configureOptions.Language Chinese scanner.ConfigureDependencies(configureOptions)# 扫描图片 scanner.Scan(r测试.png)# 遍历识别的文本中的文本块提取每个文本块的文本和坐标位置等信息 text for block in scanner.Text.Blocks:rectangle block.Boxpositions f{block.Text} - x: {rectangle.X}, y: {rectangle.Y}, w: {rectangle.Width}, h: {rectangle.Height}text positions \n# 将文本和坐标保存到文本文件 with open(图片文字及坐标.txt, a, encodingutf-8) as file:file.write(text \n)Python 识别扫描PDF中的文字 对于扫描的PDF文档需先将每一页转换为图片格式。可以借助Spire.PDF for Python库来实现这一点。将PDF页面转换为图片后即可对每张图片执行 OCR 处理。 在使用以下代码之前请先通过以下命令安装Spire.PDF pip install Spire.PDF 以下是从扫描PDF中提取文本的关键步骤 将PDF页面转换为图片使用Spire.PDF加载扫描的PDF文档然后使用PdfDocument.SaveAsImage()方法将文档的每一页保存为图片。执行OCR使用Spire.OCR识别每张图片中的文本。保存识别的文本将识别的文本保存到文本文件中。 实现代码 from spire.pdf import * from spire.ocr import * import io# 将PDF页面转换为图片 def convert_pdf_page_to_image(pdf, page_index):return pdf.SaveAsImage(page_index)# 从图片中识别文本 def recognize_text_from_image(imgName, language, model_path):# 初始化OCR扫描器并配置OCR模型的路径和文本识别语言scanner OcrScanner()configure_options ConfigureOptions()configure_options.Language languageconfigure_options.ModelPath model_pathscanner.ConfigureDependencies(configure_options)# 执行OCR并返回识别的文本scanner.Scan(imgName)data scanner.Text.ToString()return data# 加载扫描PDF文档 pdf PdfDocument() pdf.LoadFromFile(扫描.pdf)# 创建文本文件以保存提取的文本 with open(扫描PDF.txt, a, encodingutf-8) as writer:for page_index in range(pdf.Pages.Count):# 将PDF页面转换为图片image convert_pdf_page_to_image(pdf, page_index)imgNametoImage_str(page_index).pngimage.Save(imgName)# 从图片中识别文本recognized_text recognize_text_from_image(imgName, Chinese, rD:\OCR\win-x64)# 将识别的文本写入文本文件writer.write(fPage {page_index 1}:\n)writer.write(recognized_text)writer.write(\n\n) # 在页面之间添加两个换行符print(文本已成功保存到扫描PDF.txt。)注意事项 OCR的准确性很大程度上受到图片质量的影响。使用清晰、对比度良好不模糊、倾斜的图片可以提高识别结果的准确性。不同OCR库可能对不同语言和字体的支持程度不同一些特定语言或字体可能识别效果较差。因此在识别完成后最好再人工校对一遍。 以上就是使用Python识别图片和扫描PDF中的文字的全部内容。感谢阅读
http://www.w-s-a.com/news/972241/

相关文章:

  • 建站平台 绑定域名怎么在手机上做网站
  • 做电影网站违法吗莱芜 网站
  • 品牌咨询公司泉州seo不到首页不扣费
  • 做网站做一个什么主题的怎样搭建一个企业网站
  • 做设计的有什么网站桂林论坛网站有哪些
  • 做的网站不能放视频开发公司春联
  • 重庆装修房子可以提取公积金吗长沙优化官网公司
  • 做外贸的网站都有哪些带后台的html网站源码
  • 厦门百度快速优化排名手机系统优化工具
  • 宁波网站制作公司推荐公司建站多少钱
  • 网络营销薪酬公司温州网站优化定制
  • 橙色在网站中的应用淘宝客绑定网站备案号
  • 杭州视频网站建设成都设计院排行
  • 慈溪建设网站盘丝洞app破解无限盘币
  • 关于服装店网站建设的策划方案seo关键词优化软件官网
  • 丰台高端网站建设土巴兔装修贵吗
  • 宽屏网站mysqli pdo wordpress
  • 2022年没封网站直接进入赣州网吧
  • 河南省建设厅证件证件查询网站硬件开发是什么意思
  • tp5做企业网站宿迁房产网租房信息
  • php高级网站开发wordpress不能添加文章
  • 小学校园网站建设付费阅读下载网站开发
  • 如何做招聘网站网站建设中 敬请期待
  • 雅安工程交易建设网站做vip电影网站
  • 网站建设方维网站标题title为什么不能频繁的改
  • 网站建设如何上传文件wordpress列表自定义数据表
  • 摄影课程自学网站科技项目的类型有
  • 未来最紧缺的十大专业长春seo顾问
  • 为什么点不开网站公关公司是做什么的
  • wordpress主要菜单如何对网站页面进行优化