当前位置: 首页 > article >正文

推荐一些经典和实用的开源项目

pdf2htmlEXPDF到HTML的无损转换技术

pdf2htmlEX通过分析 PDF文件的内容并使用HTML + CSS 精确还原其视觉效果, 将PDF文档转换为浏览器中可直接查看的网页。

这个始于9年前的项目,虽然近几年已经没有更新迭代,但是它的PDF -> HTML无损转换技术,对LLM应用中的PDF解析、PDF在线预览引用等,都有很好的启发。

pdf2htmlEX结合视觉语言模型,提升了对 PDF 的解析。项目中使用poppler解析PDF,对于扫描类或图文混排复杂的PDF会很吃力;但结合视觉语言模型,或MinerU类的AI综合方案,解析能力会有很大加强!

pdf2htmlEX的无损转换技术的新用途

PDF的优势是显示和打印等一致性,而HTML的优势是在电脑、手机等不同屏幕间的适应性。

这个项目从PDF解析到HTML/CSS的转换逻辑,很值得被参考;比如它能够用到Chat PDF类AI应用中,在线预览PDF、对PDF做标注高亮、对应段落选择编辑等!

ml-ferret

ml-ferret是由苹果公司开源的一个图像深度学习模型,如果你对图片中的某些区域不了解,只需要将不熟悉的区域进行标记,该模型会将该区域的识别结果进行反馈。具体使用如下图所示。

scikit-learn

Scikit-learn是一个使用Python语言开发的机器学习开源工具,它基于Scipy、Numpy、Matplotlib和Pandas等开源库构建而成;它的内部主要有6大模块组成,分别是:回归、分类、降维、模型选择、聚类和预处理。

如果你想学习机器学习,scikit-learn很适合你,它的API设计很好,对象接口简单。

Llama.cpp是一款基于Meta公司LLaMA模型的接口而开发,作者的目的是能够以最少的硬件和最先进的性能在本地和云端实现LLM推理。

openpilot

openpilot是一款机器人操作系统,作者亲自使用自己的丰田汽车做了测试,效果还不错的。到现在为止,已有超过275款汽车使用openpilot升级了辅助驾驶系统。


http://www.kler.cn/a/550005.html

相关文章:

  • leetcode 子集
  • Spring 和 Spring MVC 的关系是什么?
  • Windows 11 安装 Docker
  • 【线性代数】2矩阵
  • 【SQL server】存储过程模板
  • 【deepseek与chatGPT辩论】辩论题: “人工智能是否应当具备自主决策能力?”
  • 【我与开源】 | 我的开源印象
  • UNET改进63:添加DTAB模块|强大的局部拟合和全局视角能力
  • JAVA泛型介绍与举例
  • [HarmonyOS]鸿蒙(添加服务卡片)推荐商品 修改卡片UI(内容)
  • [特殊字符] C语言中打开和关闭文件的两种方法:标准库 VS 系统调用
  • YOLO11网络结构以及改进1
  • day51 第十一章:图论part02
  • M4Pro基于homebrew安装Redis踩坑记录
  • 前端骨架怎样实现
  • Oracle DG运维概要及详细操作手册
  • Docker 入门与实战:从安装到容器管理的完整指南
  • Ubuntu18 将脚本设置成自启动的几种方法
  • ES分词技术
  • kkFileView二开之pdf转图片接口