当前位置: 首页 > news >正文

做软件营销网站怎么样交换友链平台

做软件营销网站怎么样,交换友链平台,电商平台官网,免费咨询心理情感专家前言 在私域知识问答和企业知识工程领域#xff0c;结合Retrieval-Augmented Generation#xff08;RAG#xff09;模型和大型语言模型#xff08;LLM#xff09;已成为主流方法。然而#xff0c;企业中存在着大量的PDF文件#xff0c;PDF解析的低准确性显著影响了基于…前言 在私域知识问答和企业知识工程领域结合Retrieval-Augmented GenerationRAG模型和大型语言模型LLM已成为主流方法。然而企业中存在着大量的PDF文件PDF解析的低准确性显著影响了基于专业知识的问答效果因此这些文件的有效解析对RAG模型的构建至关重要。上篇文章【文档智能 RAG】RAG增强之路增强PDF解析并结构化技术路线方案及思路主要讨论了开源的PDF解析技术而本文将先探讨下RAG落地时常见的问题及文档解析在RAG的重要性、智能文档解析关键技术然后重点介绍闭源的PDF文件解析服务——PDFlux。 一、RAG系统落地时的常见问题 文档内容解析错误在解析PDF文件时可能会遇到内容错误识别或格式错误的问题导致信息丢失或错误。 分块Chunking丢失语义信息在将文档分割成小块以适应模型输入时可能会破坏原文的语义连贯性影响信息的完整性。 目标内容召回问题在检索阶段有时难以准确地找到与查询相关的文档部分导致召回率不高。 召回结果排序困难即使成功召回相关内容如何根据相关性对结果进行排序也是一个挑战。 答案生成幻觉在生成答案时模型可能会产生与原始文档不完全一致或偏离主题的回答这种现象被称为“幻觉”。 在RAG的预处理阶段文档解析的准确性是至关重要的。如果文档解析不准确这将直接影响到后续的检索和生成阶段导致整个RAG系统的性能下降。以下是文档解析不准确可能带来的具体问题及其影响 内容识别错误如果文档中的文本、图像或格式被错误识别将导致原始信息的丢失或错误。例如1表格数据可能被错误地解析为普通文本表格的行列关系混乱等导致表格数值类问题无法进行精准的回答。2图像中的文字OCR被错误识别。 格式丢失PDF文件中可能包含各种格式如加粗、斜体、下划线等这些格式在解析过程中可能会丢失影响对文档结构和重要性的理解。 布局信息丢失PDF文件的布局信息如页面布局、段落、标题层级等在解析过程中可能会丢失这会影响对文档结构的把握进而影响分块chunks。为了适应模型的输入要求文档需要被分割成小块。如果分块策略不当可能会导致语义信息的丢失影响模型对文档内容的理解。 编码问题PDF文件可能包含多种字符编码、水印等一些pdf解析工具不能正确处理这些编码可能会导致乱码或字符显示不正确。 文档复杂性复杂的文档结构如多栏布局、阅读顺序恢复、混合文本和图像等可能会给解析带来额外的挑战增加解析错误的风险。 因此对于C端文档问答的RAG系统应用产品迫切的需要对文档进行精准解析。理想情况下PDF 解析器应具备以下关键特征 文档结构识别能够灵活地将页面划分为不同类型的内容块如段落、表格和图表。这确保了划分的文本块是完整和独立的语义单元。在复杂文档布局中保持鲁棒性即使是在文档页面布局复杂的情况下也能保证解析效果如多列页面、无边框表格甚至合并单元格的表格。 二、智能文档解析关键技术难点 在介绍PDFlux之前再次简要介绍下智能文档解析中的关键技术核心难点 2.1 文档版式分析 版面分析指的是对图片形式的文档扫描件进行区域划分通过bounding box定位其中的关键区域如文字、标题、表格、图片等通常采用一些CV目标检测模型进行版式分析如参数量大的有DINO等基于transformer的目标检测模型参数量小的有MaskRCNN、YOLO系列等。 难点具体表现如下 文档版式场景多样版面元素布局丰富多样元素之间层叠遮盖等。文档版式复杂单栏、双栏、三栏等。 上述内容都给文档版式分析带来困难从数据标注标签体系定义、到版式分析模型训练优化都面临着巨大的挑战。 2.2 文档树构建 通过版式分析得到版面元素的类别信息后需要通过后处理方式建立起文档的层次结构关系即文档树。 难点具体表现需要通过规则引擎和深度语义模型算法的联合方式构建起文档树。 2.3 阅读顺序还原 通过版式分析后能够输出版面元素的bounding box如何准确的恢复出符合人类阅读顺序的文档内容也是尤为重要。 常见技术路径有基于规则的方法xy-cut等)、基于深度学习的方法Layoutreader等 难点体现在与版式分析难点相同。 2.4 表格还原 pdf表格元素中常见的表格类型包含有线表、无线表、跨页表格、合并单元格、密集表格及表格中单元格中含有复杂元素如特殊字符、公式等。如何有效的进行解析非常具有挑战性。 常见技术路径表格结构识别如DeepDeSRT等、表格内容OCR等。 三、PDFlux PDFlux是一个基于深度学习模型的PDF解析器经过超过一千万个文档页面的训练。通过识别和区分文档中的所有视觉元素如文本、表格、图像、图表等并保留它们的空间关系。它包括以下步骤 OCR 进行文字定位和识别物理文档对象检测跨列和跨页调整阅读顺序确定表格结构识别文档逻辑结构识别。 通过以上步骤PDFlux解析器最终以 json 、 html 、word、markdwon 格式提供解析结果。 效果展示 比较惊喜的是不但可以有效的合并单元格格式还能够识别出单元格中填充的高亮数值颜色。此外通过word格式可以看到PDFlux可以清楚的识别出pdf文件的目录层级结构并有效的恢复原始文档的阅读顺序这对RAG系统预处理阶段文本边界划分有着积极的意义。 值得一提的是由于 Markdown 格式不能表示合并单元格在 Markdown 格式中将合并单元格中的全部文本放入每个原始单元格中。如图所示文本“观察期”重复了 7 次表示该合并单元格合并了 7 个原始单元格。 PDFlux将pdf解析成结构化的形式后可以构建类似文档树结构如RAPTOR等增强RAG系统的效果结构化文档树有以下优势 结构化信息保留Markdown作为一种轻量级标记语言能够很好地保留文本的结构信息如标题、段落、列表和表格等。这使得RAG系统能够更容易地理解和处理文档的结构。 改善检索质量当文档以结构化的方式呈现时RAG系统中的检索组件可以更准确地定位到相关信息。例如如果用户查询与特定表格相关的问题系统可以快速检索到整个表格及其标题而不仅仅是表格的一部分。 增强上下文理解文档树提供了文档内容的层次结构有助于RAG系统中的语言模型更好地理解上下文。这对于生成准确和相关的答案至关重要。 提高信息检索的精度构建文档树可以帮助系统更精确地定位信息减少错误检索或信息片段的不完整检索从而提高整体的检索精度。 优化生成答案的过程在RAG系统中生成答案通常依赖于检索到的内容与用户查询的结合。文档树提供了一种清晰的方式使得语言模型能够更有效地结合检索到的信息和上下文生成更准确和全面的答案。 支撑复杂查询对于需要综合多个部分信息的复杂查询文档树使得RAG系统能够更好地识别和整合来自文档不同部分的信息以生成综合的答案。 四、PDFlux增强RAG实验 基于PDFlux其构建了一个基于大模型的问答工具ChatDOC并且构建了一份评估数据集。数据集收集了 800 个手动生成的问题。经过仔细筛选后删除了低质量的问题得到了 302 个可用于评估的问题。这些问题分为两类。 4.1 提取信息类问题的结果 提取信息类问题的结果如表 3 所示。在 86 个提取信息类问题中ChatDOC 在 42 个案例中表现优于 Baseline 模型有 36 例与 Baseline 模型表现持平仅有 8 例表现不如 Baseline 模型。 评分的分布情况详见下图。在分布表中ChatDOC 得分高于 Baseline 模型ChatDOC 胜出的情况表示在左下角而 Baseline 模型得分较高的情况表示在右上角。 值得注意的是大多数有明确胜负结果的样本位于左下角部分这表明了 ChatDOC 的优势。令人印象深刻的是ChatDOC 在近一半的案例中获得满分10 分总计 40 个。 4.2 综合分析类问题的结果 综合分析类问题的结果如前表所示。在 216 个综合分析类问题中ChatDOC 在 101 个案例中表现优于 Baseline 模型有 79 例与 Baseline 模型表现持平仅有 36 例表现不如 Baseline 模型。 如图这些问题的分数分布表显示左下角的分数集中程度更高。这表明 ChatDOC 的表现经常优于 Baseline 模型。 值得注意的是ChatDOC 的大多数检索结果得分在 8.5 到 9.5 之间表明其检索质量很高。 总结 通过对PDFlux的体验可以得出结论除了RAG系统内部提升检索准确率和提高基础生成大模型的能力之外精确的处理PDF文件对提升RAG系统的性能至关重要。 参考文献 https://www.pdflux.com如果有需要可以直接向其申请试用PDFlux APIRevolutionizing Retrieval-Augmented Generation with Enhanced PDF Structure Recognitionhttps://arxiv.org/pdf/2401.12599https://mp.weixin.qq.com/s/JJHlJsWEqFG77LdzhvzDNw
http://www.w-s-a.com/news/820258/

相关文章:

  • 网站做前端把网站扒下来以后怎么做
  • 网站模板素材下载手机做任务佣金的网站
  • 机关网站建设考核测评总结做网站sqlserver排序
  • 凉山州建设厅官方网站html5下载教程
  • 内网网站建设方面政策id97网站怎么做的
  • 福州企业建站系统七米网站建设
  • 长春seo建站北京做机床的公司网站
  • 网站维护具体做啥如何开发wap网站
  • 公司网站设计费计入什么科目潍坊公司网站制作
  • 拖拽式网站开发模具钢东莞网站建设
  • 彩票娱乐网站建设模块化网站开发
  • 孝感网站设计用自己的名字设计头像
  • 高明网站建设哪家好深圳vi设计公司全力设计
  • 工程技术cpu游戏优化加速软件
  • 一起做网店网站入驻收费wordpress 自定义评论样式
  • 深圳高端网站建设公司排名app软件开发sh365
  • 泰州网站整站优化惠州做网站多少钱
  • 做博客网站的php代码一建论坛建工教育网
  • 邢台网站制作费用单页营销网站后台
  • 红色网站建设的比较好的高校用vs2010做购物网站
  • 网站域名备案号查询网页设计实验报告总结模板
  • 什么软件 做短视频网站好大型论坛网站建设
  • 视频网站用什么cms网络运营与维护主要做什么
  • 设计网站主页要多少钱赣州制作网站百度
  • 什么叫高端网站定制网站收录大幅度下降
  • 汝城县网站建设公司aspx网站实例
  • 专业微网站营销diywap手机微网站内容管理系统
  • 盗版做的最好的网站温州logo设计公司
  • 网站建设 中山南充微网站建设
  • 企业网站更新什么内容免费设计软件下载