网站建设开发感想,购物网站设计公司,旅游app用户人群分析,凡科登录网近期收到大量读者反馈#xff1a;上传pdf/图文PDF到Dify、Cherry Studio等知识库时#xff0c;普遍存在格式错乱、图片丢失、表格失效三大痛点。
在试用的几款知识库中除了ragflow具备图片解析的能力外#xff0c;其他的都只能解析文本。
如果想要解析扫描件#xff0c…近期收到大量读者反馈上传pdf/图文PDF到Dify、Cherry Studio等知识库时普遍存在格式错乱、图片丢失、表格失效三大痛点。
在试用的几款知识库中除了ragflow具备图片解析的能力外其他的都只能解析文本。
如果想要解析扫描件或者带图片的pdf或word怎么办
通过工具将文档转成markdown
私密性的文件建议本地部署本地模型非私密性的文件可以使用一些在线服务。
marker
https://github.com/VikParuchuri/marker
在github上21.6k星
总结下用途
多格式转换支持 PDF、图像、PPTX/DOCX/XLSX/HTML/EPUB → Markdown/JSON/HTML复杂内容提取表格、公式、代码块、链接支持图像保留与 OCR 修复适配论文、金融文档等场景。可扩展优化通过 --use_llm 调用 Gemini/Ollama 等模型提升准确率支持自定义处理规则。
优点
速度与精度单页平均处理仅 0.18 秒H100 GPU基准测试优于 Llamaparse/Mathpix灵活性强兼容 GPU/CPU/MPS支持批量并发122 页/秒多 GPU 模式开源易扩展模块化设计可自定义 Processor/Renderer。
缺点
文档复杂度限制复杂嵌套表格需依赖 LLM 辅助商业化壁垒模型权重非商用企业使用需营收$5M硬件高需求GPU 加速依赖显存单进程峰值 5GB。
所需硬件资源
基础配置CPU/MPSMac 芯片可轻量运行但速度下降推荐配置多 CUDA GPU如 H100/A100提升吞吐显存≥16GB 优化并行LLM 附加启用 --use_llm 需联网调用云服务Gemini/Claude/Ollama。
markitdown
https://github.com/microsoft/markitdown
在github上39.4k星
用途
将多种文件类型PDF、Office文档、图像、音频、HTML、ZIP、YouTube等转换为Markdown格式支持文本分析、索引生成等场景并提供插件扩展能力。
优点
格式丰富支持超过20种文件格式含音视频、图像OCR、YouTube字幕。灵活安装按需选择依赖如[pdf]/[docx]减少冗余资源占用。扩展性强支持第三方插件GitHub搜索#markitdown-plugin适配定制需求。集成AI能力结合Azure文档智能、OpenAI模型如GPT-4o增强OCR、音频转录与图像描述功能。多场景适配提供CLI、Python API、Docker镜像适合本地开发与云环境。
缺点
依赖管理复杂需手动选择安装依赖项默认不全覆盖可能引发兼容性问题。外部服务依赖Azure/OpenAI功能需API密钥和网络支持增加配置门槛。版本变更风险v0.0.1至v0.0.2存在破坏性更新旧项目迁移需调整。
所需硬件资源
基础配置适用于常规文件处理CPU/RAM需求低。复杂任务大文件处理、AI模型调用如OCR/语音转录建议高配置CPU/内存。云服务依赖Azure或OpenAI功能需稳定网络环境及对应API资源。
MinerU
https://github.com/opendatalab/MinerU
在github上27.1k星
用途
文档结构化转换PDF转Markdown/JSON保留文本、表格、公式、图像结构。学术/技术处理精准提取论文公式LaTeX、表格HTML。多语言OCR支持84种语言的扫描文档识别。
优点
高效精准多模型加速10倍速度跨页拼接优化。多模态支持图文表公式一体化提取。跨平台加速兼容CPU/GPU/NPU/MPS灵活部署。
缺点
场景局限复杂布局杂志/艺术册、垂直文本支持不足。硬件门槛GPU需8GB显存NPU需华为Ascend生态。小语种误差变音符号或罕见字符OCR可能偏差。
所需硬件资源
最低配置8GB内存SSDCPU模式。推荐配置 GPURTX 30608GB显存NPU华为Ascend 910BAppleM2芯片16GB内存禁用公式识别优化性能。
官方硬件推荐 本想在线体验下打开报
docling
https://github.com/DS4SD/docling
在github上23.2k星让deepseek联网搜索竟然没有找到这个的产
用途
Docling 是文档处理工具支持多格式解析PDF、DOCX、HTML、图片等重点增强 PDF 的布局、表格、代码、公式理解及 OCR 功能提供统一文档结构表达并与 LangChain、LlamaIndex 等 AI 框架集成助力生成式 AI 应用开发。
优点
多格式支持覆盖 PDF、DOCX、HTML 等常见格式。高级 PDF 解析精准识别布局、表格、公式、图像分类。本地化执行支持敏感数据和断网环境。生态系统集成无缝对接 LangChain 等 AI 工具链。OCR 能力有效处理扫描件与图片文本提取。
缺点
复杂结构支持待完善图表、分子结构等理解功能标注为“即将推出”。外部模型依赖需遵守第三方模型许可协议可能存在版权风险。实验性功能部分功能如 VLM 管道可能稳定性不足。
所需硬件资源
跨平台支持macOS/Linux/Windowsx86_64 及 arm64。推荐配置未明确具体需求但 OCR 与视觉模型可能需中等以上 CPU/GPU 资源本地执行时需预留存储空间依赖 HuggingFace 模型缓存。轻量场景基础文档解析可在普通配置运行复杂任务建议配备 GPU 加速。
然后我deepseek综合对比了下这款产品各有优缺点联网竟然没有查到Docling
工具适用场景优点缺点硬件资源需求Marker复杂PDF解析财报、学术文献支持段落、表格、图片提取适用于RAG场景。- 段落解析准确 - 表格转Markdown格式 - 开源GitHub Star 14.5k- 表格标题行易识别错误 - 目录误判为表格 - 复杂表格解析混乱需较高计算资源可能依赖GPU加速MinerUPDF解析技术文档、报告强调结构化输出版面分析、表格定位- 版面分析精准 - 表格定位能力强 - 目录和标题识别优于Marker- 表格未优化处理保存为图片 - 图片识别偶尔错误需较强CPU性能对GPU依赖较低MarkitDown多格式转换Office文件、PDF、图片→Markdown适合内容创作、开发者及AI分析场景- 支持多格式转换含OCR - 可结合AI模型生成智能描述 - MIT开源协议灵活扩展- 依赖外部AI模型成本高 - 复杂PDF解析能力有限轻量级设计但大文件多页PPT/高清图片需较高内存Docling无信息无信息无信息无信息这些产品都得自己折腾。
在线服务TextIn
一个群友强烈安利我这款产品Textln有在线体验注册可以免费解析100页我不会告诉你我加了他们的小助手后给我增加了1000页。我拿着群友发的影印件体验了下。大家可以扫描体验。 点击位置1上传文件上传文件以后先不要执行点击位置2参数配置调整完参数点击3 特别注意它家的速度贼快第一次没注意配置上传一个99页的演示稿直接点击识别几秒就用了99页的免费额度。 这里1可以设置从哪页开始解析同时可以设置解析的页数2如果pdf有密码可以输入pdf的密码最重要的是要设置下4 全文识别 可以通过1查看识别出来的表格、公式等是否正确特别是公式通过2可以看到整个的识别还是蛮准确的通过3可以复制出结果通过4可以导出结果我们一般用这个通过5可以对文档进行编辑目前的识别准确率还是很不错的。
导出结果如下。 在dify中建立知识库导入文档。 注意分段标识符1位置使用正则^###(?!#)\s。2设置把分段长度往长了设置如果文档不大全文作为整体3子分段以句号为分隔符
按照官方的说法是可以按照https://regexr.com/ 进行正则解析的但是我在实际使用的时候官方是可以的到dify中并没有生效。
然后我又看了下表格解析。 好家伙影印件中那么模糊的文本都能扫描出来我特意用自己高度近视的眼睛堪比24K钛合金探测器逐字比对结果发现字符识别零误差实在是太强大速度又快准确率又高。
Textln不仅有文档解析还有很多的其他的服务。
这么好用的东西我以前竟然没有发现而且这个公司我以前怎么没听过然后看了一下公司业务。 噢原来是扫描全能王以前经常用的app。
在cherry studio和dify中无法上传影印件的同学可以去试试注意别上传隐私信息。另外他家也有本地化部署服务。
相关资料
清华DeepSeek相关资料 https://pan.quark.cn/s/5c1e8f268e02
https://pan.baidu.com/s/13zOEcm1lRk-ZZXukrDgvDw?pwd22ce
北京大学DeepSeek相关资料 https://pan.quark.cn/s/918266bd423a
https://pan.baidu.com/s/1IjddCW5gsKLAVRtcXEkVIQ?pwdech7
零基础使用DeepSeek https://pan.quark.cn/s/17e07b1d7fd0
https://pan.baidu.com/s/1KitxQy9VdAGfwYI28TrX8A?pwdvg6g
ollama的docker镜像
https://pan.baidu.com/s/13JhJAwaZlvssCXgPaV_n_A?pwdgpfq
deepseek的模型ollama上pull下来的 https://pan.quark.cn/s/dd3d2d5aefb2
https://pan.baidu.com/s/1FacMQSh9p1wIcKUDBEfjlw?pwdks7c
dify相关镜像
https://pan.baidu.com/s/1oa27LL-1B9d1qMnBl8_edg?pwd1ish
ragflow相关资料和模型
https://pan.baidu.com/s/1bA9ZyQG75ZnBkCCenSEzcA?pwdu5ei
公众号案例
https://pan.quark.cn/s/18fdf0b1ef2ehttps://pan.baidu.com/s/1aCSwXYpUhVdV2mfgZfdOvA?pwd6xc2
总入口有时候会被屏蔽 https://pan.quark.cn/s/05f22bd57f47 提取码HiyL
https://pan.baidu.com/s/1GK0_euyn2LtGVmcGfwQuFg?pwdnkq7
系列文档
DeepSeek本地部署相关
ollamadeepseek本地部署 局域网或断网环境下安装DeepSeek
DeepSeek相关资料 清华出品《DeepSeek从入门到精通》免费下载AI时代进阶必看 清华出品《DeepSeek赋能职场应用》轻松搞定PPT、海报、文案
DeepSeek个人应用
不要浪费deepseek的算力了DeepSeek提示词库指南 服务器繁忙电脑配置太低别急deepseek满血版来了’ DeepSeek本地知识库真的太香了(修订版) DeepSeek本地知识库真是太香了企业方案 deepseek一键生成小红书爆款内容排版下载全自动睡后收入不是梦 最轻量级的deepseek应用支持联网和知识库
当我把公众号作为知识库塞进了智能体后
个人神级知识库DeepSeekima 个人学习神器
dify相关
DeepSeekdify 本地知识库真的太香了 DeepseekDify本地知识库相关问题汇总 dify的sandbox机制安全隔离限制 DeepSeekdify 本地知识库高级应用Agent工作流 DeepSeekdify知识库查询数据库的两种方式api直连 DeepSeekdify 工作流应用,自然语言查询数据库信息并展示 聊聊dify权限验证的三种方案及实现 dify1.0.0版本升级及新功能预览
ragflow相关
DeepSeekragflow构建企业知识库突然觉的dify不香了1 # DeepSeekragflow构建企业知识库之工作流突然觉的dify又香了
关于我
资深全栈技术专家 | 互联网领域十年架构沉淀 技术纵深高并发架构 | 应用调优 | 分布式系统 技术版图Java/Vue/Go/Python 管理沉淀8年技术团队管理 | 百万级DAU经验 专注输出 ✓ 架构思维 × 技术管理 × 全栈实战 ✓ 新技术应用 × 行业趋势前瞻
【三连好运 福利拉满】 若本日推送有收获点赞 → 小手一抖bug没有在看 → 一点扩散知识璀璨收藏 → 代码永驻防止迷路分享 → 传递战友功德999关注 → 关注5ycode追更不迷路干货永同步 若有槽点想输出评论区已铺好红毯等你来战