当前位置: 首页 > news >正文

大作业网站建设方案株洲市住房和城乡建设局网站

大作业网站建设方案,株洲市住房和城乡建设局网站,有口碑的南通网站建设,版面设计网站有哪些大家好#xff0c;今天给大家分享的是一个开源的快速准确地将 PDF 转换为 markdown工具。 Marker是一款功能强大的PDF转换工具#xff0c;它能够将PDF文件快速、准确地转换为Markdown格式。这款工具特别适合处理书籍和科学论文#xff0c;支持所有语言的转换#xff0c;并…大家好今天给大家分享的是一个开源的快速准确地将 PDF 转换为 markdown工具。 Marker是一款功能强大的PDF转换工具它能够将PDF文件快速、准确地转换为Markdown格式。这款工具特别适合处理书籍和科学论文支持所有语言的转换并且能够去除页眉、页脚等干扰元素格式化表格和代码块提取并保存图像和Markdown文件并将大部分方程式转换为LaTeX格式。 功能简介 Marker重新定义 PDF 到 Markdown 的转换效率。 •Marker 满足了将复杂的 PDF 文档转换为 markdown 以便于管理的日益增长的需求。 •传统的文本转换器难以维持原始布局、格式和内容的准确性。 •Marker 擅长准确地保存表格、代码块和数学方程式等复杂元素。 •自动去除文档中的非主要元素如页眉和页脚。 •它能够以优化的处理速度和资源使用率有效地处理大量数据。 •Marker 的定制方法减少了数字 PDF 对 OCR 的依赖从而实现了更快、更精确的转换。 •可以在GPU、CPU或MPS上运行。 实现原理 Marker的工作原理基于深度学习模型。它首先通过OCR技术如果需要的话提取文本采用启发式算法和 tesseract 工具然后检测页面布局并确定阅读顺序使用 布局分割器[1] 和 列检测器[2]。接下来Marker会对每个文本块进行清洁和格式化处理运用启发式算法和 nougat[3]最后将所有块合并并进行后处理生成完整的Markdown文本利用启发式算法和 pdf后处理器[4]。Marker只在必要时使用模型从而提高了转换速度和准确性。 性能表现 通过查找具有 pdf 版本和 latex 源的书籍和科学论文创建了一个测试集。将 latex 转换为文本并将参考与文本提取方法的输出进行比较。 基准测试表明 marker 比 nougat 快 4 倍而且在 arXiv 之外更准确nougat 是在 arXiv 数据上训练的 速度 MethodAverage ScoreTime per pageTime per documentmarker0.6137210.63199158.1432nougat0.4066032.59702238.926 准确性 前 3 篇是非 arXiv 书籍后 3 篇是 arXiv 论文。 Methodmulticolcnn.pdfswitch_trans.pdfthinkpython.pdfthinkos.pdfthinkdsp.pdfcrowd.pdfmarker0.5361760.5168330.705150.7106570.6900420.523467nougat0.440090.5889730.3227060.4013420.1608420.525663 基准测试期间nougat的 GPU 内存使用峰值为 4.2GB而marker的 GPU 内存使用峰值为 4.1GB。 基准测试在 A6000 Ada 上运行。 使用 安装 您需要 Python 3.9 和 PyTorch。如果您使用的不是 Mac 或 GPU 机器则可能需要先安装 CPU 版本的 torch。请参阅此处[5]了解更多详细信息。 安装方式 pip install marker-pdf 转换单个文件 marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English •--batch_multiplier是如果您有额外的 VRAM默认批处理大小要乘以的数值。数字越大占用的 VRAM 越多但处理速度越快。默认设置为 2。默认批处理大小将占用约 3GB 的 VRAM。 •--max_pages是要处理的最大页数。忽略此项可转换整个文档。 •--langs是文档中用于 OCR 的语言的逗号分隔列表 转换多个文件 marker /path/to/input/folder /path/to/output/folder --workers 10 --max 10 --metadata_file /path/to/metadata.json --min_length 10000 •--workers是一次要转换的 PDF 数量。默认情况下此值设置为 1但您可以增加此值以增加吞吐量但代价是增加 CPU/GPU 使用率。INFERENCE_RAM / VRAM_PER_TASK如果您使用 GPU则并行度不会增加。 •--max是要转换的 PDF 的最大数量。省略此项可转换文件夹中的所有 PDF。 •--min_length是需要从 PDF 中提取的最少字符数然后才会考虑进行处理。如果您要处理大量 PDF我建议设置此项以避免对大部分是图像的 PDF 进行 OCR。这会减慢一切速度 •--metadata_file是包含有关 pdf 元数据的 json 文件的可选路径。如果您提供它它将用于设置每个 pdf 的语言。如果没有DEFAULT_LANG将使用。格式为 { pdf1.pdf: {languages: [English]}, pdf2.pdf: {languages: [Spanish, Russian]}, ...} 在多个 GPU 上转换多个文件 MIN_LENGTH10000 METADATA_FILE../pdf_meta.json NUM_DEVICES4 NUM_WORKERS15 marker_chunk_convert ../pdf_in ../md_out •METADATA_FILE是包含 pdf 元数据的 json 文件的可选路径。请参阅上文了解格式。 •NUM_DEVICES是要使用的 GPU 数量。应大于2或等于。 •NUM_WORKERS是每个 GPU 上运行的并行进程数。每个 GPU 的并行度不会超过INFERENCE_RAM / VRAM_PER_TASK。 •MIN_LENGTH是需要从 PDF 中提取的最少字符数然后才会考虑进行处理。如果您要处理大量 PDF我建议设置此项以避免对大部分是图像的 PDF 进行 OCR。这会减慢一切速度 项目地址 https://github.com/VikParuchuri/marker References [1] 布局分割器: https://huggingface.co/vikp/layout_segmenter[2] 列检测器: https://huggingface.co/vikp/column_detector[3] nougat: https://huggingface.co/facebook/nougat-base[4] pdf后处理器: https://huggingface.co/vikp/pdf_postprocessor_t5[5] 此处: https://pytorch.org/get-started/locally/
http://www.w-s-a.com/news/737677/

相关文章:

  • wordpress theme sage网站seo优化加推广
  • 建设一个大型电影网站公司网站建设工作总结
  • 传奇网站一般怎么做的宇泽佛山网站建设
  • google网站入口电商运营十大基础知识
  • 建设公司网站的细节中国建设网网站
  • 重庆美邦建网站宝安网页设计
  • 建网站的地址十堰做网站
  • 怎么评判一个网站做的好与坏专做情侣装网站
  • 网站管理助手v3历史上的今天 网站如何做
  • 网站建设与管理的就业方向网站开发前端模板
  • 对网站建设的维护深圳网络推广推荐
  • wordpress多站共享授权码wordpress数据库缓存插件
  • 建一个购物网站多少钱上海商标注册
  • 琪觅公司网站开发面点培训学校哪里有
  • 北京建设工程信息网站江苏企业网站建设
  • php电子商务网站建设wordpress新建的页面如何加xml
  • 去百度建网站外贸业务推广
  • 百度seo 站长工具网络营销课程个人总结3000字
  • 设计品牌网站wordpress商城 中文站
  • 公司网站要备案吗百度售后电话人工服务
  • 北京移动网站建设制作一个购物网站
  • 网站优化排名如何做网络开发工程师
  • 域名已有服务器也有怎么做网站pc 手机网站 微站
  • 鞍山网站设计制作网站最好的外贸网站建设
  • 百度手机模板网站新变更营业执照注册号查了发现之前有备案过网站了
  • 群晖个人网站建设建设网站主机免费版
  • 下载好了网站模板怎么开始做网站阿克苏网站建设价格
  • 有谁做彩票网站学会了vue 能搭建一个网站平台
  • 描述对于营销型网站建设很重要飘红效果更佳教育培训排行榜前十名
  • 国外网站有哪些推荐的网站按关键词显示广告图片