当前位置: 首页 > article >正文

什么是向量化?ElasticSearch如何存储向量化?

向量化(Vectorization)是一种将数据或操作转换为向量的过程,以便利用并行计算和高效处理。向量化将非数值数据(如文本、图像)转换为数值向量,以便计算机处理。而向量化在AIGC中非常的常见,例如知识库对话等等。如果大家感兴趣,后面专门来聊聊。

向量长什么样?例如:[0.25, -0.1, 0.7],向量化后的数据通常是一个数值数组

那我们如何将文本向量化呢,有很多种方式,这里我们使用Embedding。

Embedding(嵌入)是一种将高维、离散的数据(如单词、类别、图像等)映射到低维、连续的向量空间的技术。这些向量能够捕捉数据的语义或特征信息,广泛应用于自然语言处理(NLP)、推荐系统和机器学习等领域。

例如通过下面的代码我们可以将文本转换为向量化:

from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
inputs = tokenizer("I love programming", return_tensors="pt")
outputs = model(**inputs)
embeddings = outputs.last_hidden_state  # 获取单词或句子的向量

向量数据库是一种专门设计用于存储和查询向量数据的数据库,而ElasticSearch就可以用来


http://www.kler.cn/a/556854.html

相关文章:

  • 如何在 Vue 应用中实现权限管理?
  • 关于css中bfc的理解
  • SOME/IP--协议英文原文讲解12(完结)
  • 计算机专业知识【数据库读操作:不可重复读、脏读及其他现象解析】
  • 【接口封装】——13、登录窗口的标题栏内容设置
  • 跳跃游戏(力扣55)
  • Selenium实战案例1:论文pdf自动下载
  • 城电科技|可展开光伏花 绽放绿色 点亮未来
  • JavaScript 中,数据类型 有哪些?(复习/面试)
  • JVM系列--虚拟机类加载机制
  • TSMaster【第四篇:目击之术——总线测量窗口精解】
  • MATLAB拟合算法:如何使用 MATLAB 进行多组数据的高斯拟合分析
  • 【Kubernets】Kubernets资源类型Deployment详细介绍
  • 图数据库Neo4j面试内容整理-深度优先搜索(DFS)和广度优先搜索(BFS)
  • C语言03
  • 可编辑112页PPT | DeepSeek行业应用实践报告
  • 【TOT】Tree-of-Thought Prompting
  • day16_推荐系统和总结
  • ARM64 Trust Firmware [四]
  • 开启开源新时代:DeepSeek引领人工智能技术开放化