【AI】什么是Embedding向量模型?我们应该如何选择?
我们之前讲的搭建本地知识库,基本都是使用检索增强生成(RAG)技术来搭建,Embedding模型则是RAG的核心,同时也是大模型落地必不可少的技术。那么今天我们就来聊聊Embedding向量模型:
一、Embedding模型是什么?
Embedding模型是一种将离散数据(如文本、图像、用户行为等)映射到连续向量空间的技术。其核心思想是通过低维稠密向量(Embedding)捕捉数据的内在特征和语义关系。
用通俗易懂一些的说法就是Embedding给数据穿上了一件“数字外衣”,把离散数据(如文本、图像、用户行为等)转化成一组数字,即向量来表示,目的是让机器更好的理解和处理。
或者说,Embedding模型就是一个“翻译官”,能把文字、图片、用户行为这些东西,变成一串计算机能看懂的数字。
比如:它能知道“猫”和“狗”都是宠物,所以它们的数字串很像;但“猫”和“西瓜”差别大,数字串就离得远。
干啥用