建网站的目的是什么,网站服务商排名,漂亮的门户网站,公众号推广渠道在PDF解析中#xff0c;目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline#xff0c;或者直接通过VLM解析图像。
#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
二、document-anchoring
与上述的不同在于#xff0c;olmOCR使用…在PDF解析中目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline或者直接通过VLM解析图像。
#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
二、document-anchoring
与上述的不同在于olmOCR使用了document-anchoring文档锚定方法。针对PDF中的页码信息、图像信息等元数据和文字使用pyPDF库进行解析。 通过在提示词里加入这些文字位置、图像位置、元数据等信息VLM的幻觉大大减少。 加上位置信息VLM应该能够定位到具体区域然后专注于这部分的解析。 仅用页面图像进行提示容易出现未完成的句子或者在图像数据模糊时产生不忠实的输出。
三、模型微调
数据集构建了olmOCR-mix-0225数据集 训练在Qwen2-VL-7B-Instruct上微调 评估 1.与教师模型GPT-4o计算对齐得分具体是文档相似性度量该度量将文档拆分为单词使用Hirschberg算法对这些单词进行对齐并计算匹配的比例 2.人类评估ELO分数 3.下游任务评估
项目https://github.com/allenai/olmocr