推荐一些经典和实用的开源项目
pdf2htmlEX:PDF到HTML的无损转换技术
pdf2htmlEX通过分析 PDF文件的内容并使用HTML + CSS 精确还原其视觉效果, 将PDF文档转换为浏览器中可直接查看的网页。
这个始于9年前的项目,虽然近几年已经没有更新迭代,但是它的PDF -> HTML无损转换技术,对LLM应用中的PDF解析、PDF在线预览引用等,都有很好的启发。
pdf2htmlEX结合视觉语言模型,提升了对 PDF 的解析。项目中使用poppler解析PDF,对于扫描类或图文混排复杂的PDF会很吃力;但结合视觉语言模型,或MinerU类的AI综合方案,解析能力会有很大加强!
pdf2htmlEX的无损转换技术的新用途
PDF的优势是显示和打印等一致性,而HTML的优势是在电脑、手机等不同屏幕间的适应性。
这个项目从PDF解析到HTML/CSS的转换逻辑,很值得被参考;比如它能够用到Chat PDF类AI应用中,在线预览PDF、对PDF做标注高亮、对应段落选择编辑等!
ml-ferret
ml-ferret是由苹果公司开源的一个图像深度学习模型,如果你对图片中的某些区域不了解,只需要将不熟悉的区域进行标记,该模型会将该区域的识别结果进行反馈。具体使用如下图所示。
scikit-learn
Scikit-learn是一个使用Python语言开发的机器学习开源工具,它基于Scipy、Numpy、Matplotlib和Pandas等开源库构建而成;它的内部主要有6大模块组成,分别是:回归、分类、降维、模型选择、聚类和预处理。
如果你想学习机器学习,scikit-learn很适合你,它的API设计很好,对象接口简单。
Llama.cpp是一款基于Meta公司LLaMA模型的接口而开发,作者的目的是能够以最少的硬件和最先进的性能在本地和云端实现LLM推理。
openpilot
openpilot是一款机器人操作系统,作者亲自使用自己的丰田汽车做了测试,效果还不错的。到现在为止,已有超过275款汽车使用openpilot升级了辅助驾驶系统。