当前位置: 首页 > article >正文

docling:PDF解析

在这里插入图片描述

目录

  • 环境部署
    • 部署问题
  • 用法
    • 转换单个文档
  • 解析效果

环境部署

下载

git clone https://gitclone.com/github.com/DS4SD/docling.git
conda create -n docling python=3.11
conda activate docling
pip install docling

安装模型

git clone https://www.modelscope.cn/AI-ModelScope/docling-models.git
git clone https://gitclone.com/github.com/JaidedAI/EasyOCR.gi
t

部署问题

缺少.pth文件,是去modelscope官网下载
在这里插入图片描述

用法

转换单个文档

from docling.document_converter import DocumentConverter


source = "demo1.pdf"  # PDF path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "### Docling Technical Report[...]"

解析效果

速度0.96秒/页
在这里插入图片描述
但是公式解析效果差
在这里插入图片描述


http://www.kler.cn/a/445227.html

相关文章:

  • 【前后端】HTTP网络传输协议
  • 多模态抽取图片信息的 Prompt
  • 《剑网三》遇到找不到d3dx9_42.dll的问题要怎么解决?缺失d3dx9_42.dll是什么原因?
  • Soul Android端稳定性背后的那些事
  • 基于Spring Boot的雅苑小区管理系统
  • 省略内容在句子中间
  • DALL-M:基于大语言模型的上下文感知临床数据增强方法 ,补充
  • Ansible基本用法
  • 14:00面试,14:10就出来了,问的问题过于变态了。。。
  • Visio——导出的PDF文件缺乏嵌入字体的解决办法 / 设置导出的PDF文件添加嵌入字体的方法
  • 【HTML+CSS】深入理解HTML中的<div>标签:布局与样式的基石
  • verge下最节省gas的智能合约写法
  • 师生交流系统|Java|SSM|JSP|
  • OnOn-WebSsh (昂~昂~轻量级WebSSH) 可实现 网页 中的 ssh 客户端操作,支持多用户多线程操作 ssh 持久化
  • 【漫话机器学习系列】011.Bagging方法 VS Dropout方法
  • 【Harmony Next】多个图文配合解释DevEco Studio工程中,如何配置App相关内容,一次解决多个问题?
  • JSP企业快信系统的设计与实现【源码+文档】
  • Android 音视频编解码器 MediaCodec
  • SparkSQL案例
  • SQL或ORM获取随机一行数据
  • 深度学习网络训练及部署环节相关工具
  • Flamingo论文介绍:把视觉特征向语言模型看齐
  • R 语言科研绘图第 6 期 --- 散点图-基础
  • 线性代数判断两条线方向相反(python)
  • python学习——洛谷[NOIP2011 普及组] 统计单词数
  • 大恒相机开发(1)—Python调用采集彩色图像并另存为本地