当前位置: 首页 > news >正文

wordpress图片清理插件胶州网站优化

wordpress图片清理插件,胶州网站优化,做毕业设计哪个网站好,中山智能设备网站建设前期《文档智能》专栏详细中介绍了文档智能解析详细pipline链路技术方案#xff0c;如下图#xff1a; 现在来看一个新思路#xff0c;指出pipline链路依赖大量标注数据、并且会出现错误传播问题#xff0c;导致解析效果不佳#xff0c;故提出一个基于布局强化学习…前期《文档智能》专栏详细中介绍了文档智能解析详细pipline链路技术方案如下图 现在来看一个新思路指出pipline链路依赖大量标注数据、并且会出现错误传播问题导致解析效果不佳故提出一个基于布局强化学习layoutRL的多模态大模型的端到端的解析框架通过强化学习GRPO的方式训练模型的布局感知能力。ps笔者看来在通用场景下解析效果也能并不会有文中评价的那么好但这个数据合成思路及强化学习的训练方式可以参考。 方法 如下图所示方法分两步走数据合成和GRPO强化学习训练多模态文档解析模型。 1、数据集构建 为了构建Infinity-Doc-55K设计了一个双管道框架结合了合成和真实世界文档生成。数据细节如上图数据集涵盖了七个不同的文档领域ps说实话这个场景数量还不够多。 1.1、真实世界数据 这一个还是联合了pipline解析流程中的专家小模型收集了来自金融报告、医疗记录、学术论文、书籍、杂志和网页等多样化的扫描文档。为了生成标注数据其中专业模型处理不同的结构元素如布局块、文本、公式和表格。 布局分析使用视觉布局模型分析整体布局。公式识别使用专门的公式识别模型处理公式区域。表格解析使用基于Transformer的表格提取器解析表格。 然后通过交叉验证机制比较专家模型和VLM的输出过滤掉不一致的结果只保留跨模型预测一致的区域的注释作为高置信度的伪GT。 1.2、合成数据 合成数据构建管道通过将采样内容注入预定义的单列、双列或三列HTML布局中使用Jinja模板从维基百科、网络爬虫和在线语料库中收集文本和图像。这些页面使用浏览器引擎渲染成扫描文档随后自动过滤掉低质量或重叠的图像。通过解析原始HTML生成对齐的Markdown表示作为真实注释。 2、采用布局感知的强化学习 布局感知的强化学习框架layoutRL通过优化多方面的奖励函数来训练模型使其能够更好地理解和解析文档的布局结构。使用GRPO方法通过从基于规则的奖励信号中学习训练架构如下 那么这一部分的核心就是奖励函数的设计了。主要分三部分 2.1、编辑距离奖励 编辑距离奖励基于预测输出与参考输出之间的归一化Levenshtein距离。该奖励通过计算将预测输出转换为参考输出所需的最小插入、删除或替换操作的数量来衡量预测的准确性。 R d i s t 1 − D ( y , y ^ ) max ⁡ ( N , M ) R_{dist}1-\frac{D(y,\hat{y})}{\max(N,M)} Rdist​1−max(N,M)D(y,y^​)​ 其中 N N N 和 M M M 分别是参考和预测序列的长度 D ( y , y ^ ) D(y,\hat{y}) D(y,y^​) 是Levenshtein距离。该奖励的范围在[0,1]之间值越高表示预测与参考的对齐程度越好。 2.2、段落计数奖励 目的是鼓励模型准确地分割段落。该奖励通过比较预测段落数量与参考段落数量的差异来计算 R c o u n t 1 − ∣ N Y − N Y ^ ∣ N Y R_{count}1-\frac{\left|N_{Y}-N_{\hat{Y}}\right|}{N_{Y}} Rcount​1−NY​ ​NY​−NY^​ ​​ 其中 N Y N_Y NY​ 和 N Y ^ N_{\hat{Y}} NY^​ 分别是参考和预测的段落数量。该奖励惩罚缺失或多余的段落。 2.3、顺序奖励 通过计算预测段落与参考段落之间的顺序反转次数来衡量阅读顺序的保真度。公式如下 R o r d e r 1 − D o r d e r max ⁡ i n v R_{order}1-\frac{D_{order}}{\max_{inv}} Rorder​1−maxinv​Dorder​​ 其中 D o r d e r D_{order} Dorder​ 是顺序反转次数 max ⁡ i n v \max_{inv} maxinv​ 是最大可能的反转次数。该奖励鼓励模型保持原始的阅读顺序。 最终奖励计算 最终的奖励是上述三个部分的加权和通过匈牙利算法确定预测与参考段落之间的最佳匹配然后计算每个匹配对的编辑相似性、段落数量和顺序保真度。公式如下 R M u l t i − A s p e c t R d i s t R c o u n t R o r d e r R_{Multi-Aspect}R_{dist}R_{count}R_{order} RMulti−Aspect​Rdist​Rcount​Rorder​ 该设计平衡了内容保真度与结构正确性和顺序保真度为端到端的文档解析提供监督。 实验评估 OmniDocBench评估在OmniDocBench基准上Infinity-Parser-7B在所有子任务中表现均衡 表格识别评估 文档级OCR评估 参考文献Infinity-Parser: Layout-Aware Reinforcement Learning for Scanned Document Parsinghttps://arxiv.org/pdf/2506.03197 repo:https://github.com/infly-ai/INF-MLLM/tree/main/Infinity-Parser
http://www.w-s-a.com/news/959633/

相关文章:

  • 如何建设学校的微网站广告推广是什么
  • 设计类专业哪个就业前景好网站建设seoppt
  • 济南建站公司网站网站友链查询源码
  • 校园失物招领网站建设涪陵网站建设公司
  • 怎么做盗号网站手机网站建设需要租用什么科目
  • 成品网站是什么意思沈阳seo推广
  • 购物网站后台流程图昆明官网seo技术
  • 创建自己网站全网零售管理系统
  • 江苏省建设厅网站建筑电工证wordpress收费插件大全
  • 北京中国建设银行招聘信息网站宁德蕉城住房和城乡建设部网站
  • 泉州做网站优化哪家好wordpress站点预览
  • 创建门户网站一页网站首页图如何做
  • 服装手机商城网站建设sns社交网站有哪些
  • 无锡工程建设招标网站怎么自己建设公司网站
  • 哪个网站可以学做咸菜安卓软件开发需要学什么软件
  • 自有网站建设的团队遂宁市建设局网站
  • 网站建设哪个好一些网站内容导出
  • 什么网站的页面做的比较好看网上做平面设计的网站
  • 网站建设单选网站建设学校培训学校
  • 可以做app的网站logo设计在线生成免费标小智
  • 网站变更备案做酒类网站
  • 网站必须要备案吗东莞市非凡网站建设
  • 太原建网站公司网站设计的流程是怎样的
  • 网站开发交易平台北京网站建设的价格低
  • 捷克注册公司网站搜索引擎广告推广
  • 网站的实用性青岛九二网络科技有限公司
  • 广东备案网站网站反链如何做
  • 做网站的实施过程企业建设H5响应式网站的5大好处6
  • ps制作个人网站首页景安搭建wordpress
  • 常德建设网站制作网站建设推广是什么工作