GitHub 热点项目介绍
Oumi - 端到端的基础模型平台
项目简介
Oumi 是一个全开源平台,旨在解决大模型在各个阶段面临的复杂问题,提供构建先进端到端基础模型所需的一切,涵盖数据准备、训练、评估和部署等环节。
项目链接
GitHub - oumi-ai/oumi
特点
-
提供一致的 API、生产级可靠性及研究所需的灵活性。
-
已与 13 所研究型大学的学者建立合作。
-
可通过 pip 安装并使用 CRI 命令进行模型训练、评估和推理。
-
项目中还提供了详细的 notebook 供参考实践。
Janus-Pro - DeepSeek 的多模态模型
项目简介
Janus-Pro 是 DeepSeek 发布的多模态框架,可统一多模式的理解和生成,是先前 Genus 的高级版本。
项目链接
GitHub - deepseek-ai/Janus
特点
-
提供更优化的训练策略、扩展的训练数据和更大的模型大小。
-
生成图片质量有所提升,具备图像识别、地标识别、文字识别等多种能力。
-
Mac 用户使用存在一些问题,建议优先考虑用 CUDA 运行。
-
输出尺寸固定为 384×384。
Qwen2.5-VL - Qwen2.5 的视觉模型
项目简介
阿里云发布的千问 2.5VL 视觉语言模型,是千问模型家族的旗舰视觉语言模型。
项目链接
GitHub - QwenLM/Qwen2.5-VL
特点
-
在感知更丰富世界、支持作为视觉 Agent、理解长视频和捕捉事件、视觉定位以及结构化输出等方面有显著提升。
-
在处理发票表单和表格数据等任务中表现出色。
-
7B 模型在多个任务中超过 GBT4o mini 水平。
Browser-Use - AI 控制浏览器
项目简介
一个开源库,用 Python 编写,结合自然语言处理、浏览器自动化工具 Playwright 和大语言模型,让 AI 能像人类一样控制浏览器完成各种任务。
项目链接
GitHub - browser-use/browser-use
特点
-
支持多标签页管理、视觉识别与内容提取。
-
支持多种大模型,可进行自动化 AI 任务。
-
还支持自我纠正机制。
-
可通过 pip 安装并配置大模型 API 密钥后使用。
Metabase - 开源 BI 工具
项目简介
一个开源的商业智能工具,帮助用户轻松从数据库提取数据并转化为易于理解的图表和仪表盘。
项目链接
GitHub - metabase/metabase
特点
-
无需编写 SQL,非技术人员也可通过简单操作创建有用报告和可视化分析。
-
安装简单,提供图形化查询构建器。
-
支持多种可视化表格类型。
-
可通过 Docker 或 Java 运行。