当前位置: 首页 > article >正文

所有文件转markdown文件

当前支持的文件格式如下:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • Images (EXIF metadata, and OCR)
  • Audio (EXIF metadata, and speech transcription)
  • HTML (special handling of Wikipedia, etc.)
  • 其它各种文本格式 (csv, json, xml, etc.)

先安装:

pip install markitdown

基础使用:

from markitdown import MarkItDown

md = MarkItDown(enable_plugins=False) # Set to True to enable plugins
result = md.convert("test.xlsx")
print(result.text_content)

进阶使用:
开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:

from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

http://www.kler.cn/a/553978.html

相关文章:

  • 在 WSL上的 Ubuntu 中通过 Docker 来运行 Redis,并在微服务项目中使用redis
  • Docker:3、在VSCode上安装并运行python程序或JavaScript程序
  • deepseek本地调用
  • 解决Failed to resolve import “@element-plus/icons-vue“ from.... vue3使用icons报错问题
  • goland无法debug项目
  • 汉化VScode
  • 爬虫破解网页禁止F12
  • 如何在云端GPU服务器中部署DeepSeek-R1蒸馏模型(下)
  • 【数据分析】2.数据分析业务全流程
  • git中修改文件、版本回退、撤销修改
  • 幂等与分布式锁的区别及应用场景
  • ubuntu源码方式安装TensorRT-LLM推理框架(超详细)
  • ELK怎么实现跨服务日志追踪,Trace-Id 具体实现方案及代码
  • python中的Pillow 有哪些常用的功能?
  • CSS中五种定位方式(position)对比分析
  • Unity之Serialized序列化:从原理到实践
  • PostgreSQL的学习心得和知识总结(一百六十九)|深入理解PostgreSQL数据库之 Group By 键值消除 的使用和实现
  • 【建设工程经济】2.1 经济效果评价内容
  • 蓝桥杯 Java B 组 之堆的基础(优先队列实现 Top K 问题)
  • Langchain vs. LlamaIndex:哪个在集成MongoDB并分析资产负债表时效果更好?