5个小型多模态AI模型及其功能
随着全球对多模态AI系统研发兴趣的增长,最近这些多模态AI的轻量级版本也是越来越受欢迎。
想想看,过去这几年,大型语言模型(LLM)的发展速度简直就像坐了火箭一样,参数数量激增到数百亿乃至千亿,成了分析、摘要和生成文本和图像,甚至创建拟人化聊天机器人等任务的强大工具。
但是,强大的功能往往要求与之匹配的高额资金和硬件,所以,小规模语言模型(SLM)的兴起也就不足为奇了,它专门针对资源受限的用户。
现在,随着大家对能够同时处理不同类型数据(比如图像、文本、音频和视频)的多模态AI系统的兴趣越来越浓,这些多功能工具的小型版本也开始多了起来。接下来,我要给大家介绍五种最近备受关注的小型多模态AI工具。
1. TinyGPT-V
这款模型虽然只有28亿参数,但是它的多模态能力可是相当出色,既能处理文本,又能处理图像输入。而且,它在资源使用上比那些大体量模型要节省多,但性能却一点不逊色。
TinyGPT-V 的缩小规模架构具有优化的Transformer层,在规模、性能和效率之间取得了平衡,此外还使用了一种专门的机制来处理图像输入并将它们与文本输入集成。它使用相对较小的LLM Phi-2构建,并结合了来自BLIP-2或CLIP的预训练视觉模块。
TinyGPT-V可以使用较小的数据集进行微调,这让它成为了中小型公司,或者那些希望在教育或研究环境中本地部署它的用户的理想选择。
2.TinyLlaVA
TinyLlaVA,是一个非常新颖的框架,它集成了CLIP-Large和SigLIP等视觉编码器,以及小型LLM解码器、中间连接器和定制的训练管道。所有这些都是为了在保持高水平性能的同时,将计算使用量保持在最低限度。
TinyLlaVA 使用两个不同的数据集进行训练:LLaVA-1.5和ShareGPT4V。通过监督微调过程,它可以调整LLM和视觉编码器的部分可学习参数。根据测试,TinyLLaVA-share-Sig-Phi 3.1B变体在性能上优于LLaVA-1.5和Qwen-VL等7B模型。这个框架还对模型选择、训练方法和数据对小型LLM性能的贡献进行了全面的分析。
3. GPT-4o mini
GPT-4o mini,作为OpenAI GPT-4o多模态模型的精简版,其运行成本较OpenAI前最经济的GPT-3.5 Turbo降低了约60%。
通过精妙的蒸馏技术,GPT-4o mini在性能与成本之间取得了完美平衡。它拥有128K的超大上下文窗口,能够同时处理文本与图像的多模态任务,并计划在未来支持视频与音频。此外,它还加强了安全功能,有效防范越狱、系统提示提取和提示注入等风险。
GPT-4o mini的应用前景广阔,包括快速打造新型聊天机器人、开发语言学习或个人助理设备应用、互动游戏以及教育场景中的应用等。
4. Phi-3 Vision
微软的Phi-3 Vision是一个基于Transformer的模型,包括图像编码器、连接器、投影器和Phi-3 Mini语言模型。这个模型拥有42亿个参数,能够支持高达128K个token的上下文长度,并具有广泛的多模态推理能力,使其能够理解和生成基于图表、图形和表格的内容。
Phi-3 Vision的性能可与OpenAI的GPT-4V等大型模型相媲美,非常适合资源受限的环境和延迟敏感的场景,在离线运行、成本和用户隐私方面具有优势。其潜在应用场景包括文档和图像分析以改进客户支持、社交媒体内容审核以及公司或教育机构的视频分析。
5. Mississippi 2B 和 Mississippi 0.8B
H2O.ai最新发布的Mississippi 2B和Mississippi 0.8B,是专为OCR和文档AI应用设计的多模态基础模型。这些模型紧凑高效,为企业提供了一种可扩展且经济实惠的解决方案,以实时进行文档分析和图像识别。
经过多阶段训练和精心微调,这些模型具有极低延迟,非常适合医疗保健、银行、保险和金融等行业的大规模文档处理需求。
H2OVL Mississippi 2B和H2OVL Mississippi 0.8B目前在Hugging Face上免费提供,为开发人员、研究人员和企业提供了一个易于获取、便于微调和修改的优质选择。
总结
多模态模型以及大型语言模型的可访问性和成本效益仍然是主要问题。但随着越来越多的相对轻量级但功能强大的多模态AI选项可用,这意味着更多机构和小型企业将能够在其工作流程中采用AI。