当前位置: 首页 > article >正文

什么是向量化?ElasticSearch如何存储向量?

向量化(Vectorization)是一种将数据或操作转换为向量的过程,以便利用并行计算和高效处理。向量化将非数值数据(如文本、图像)转换为数值向量,以便计算机处理。而向量化在AIGC中非常的常见,例如知识库对话等等。如果大家感兴趣,后面专门来聊聊。

向量长什么样?例如:[0.25, -0.1, 0.7],向量化后的数据通常是一个数值数组

那我们如何将文本向量化呢,有很多种方式,这里我们使用Embedding。

Embedding(嵌入)是一种将高维、离散的数据(如单词、类别、图像等)映射到低维、连续的向量空间的技术。这些向量能够捕捉数据的语义或特征信息,广泛应用于自然语言处理(NLP)、推荐系统和机器学习等领域。

例如通过下面的代码我们可以将文本转换为向量化:

from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')
inputs = tokenizer("I love programming", return_tensors="pt")
outputs = model(**inputs)
embeddings = outputs.last_hidden_state  # 获取单词或句子的向量

向量数据库是一种专门设计用于存储和查询向量数据的数据库,而ElasticSearch就可以用来


http://www.kler.cn/a/561207.html

相关文章:

  • 2025-02-23 学习记录--C/C++-PTA 7-28 猴子选大王
  • 机器学习数学基础:37.偏相关分析
  • 基于C#+SQL Server设计与实现的教学管理信息系统
  • 机器学习数学基础:32.斯皮尔曼等级相关
  • 火语言RPA--Excel添加Sheet页
  • 快速入门——Vue组件化开发
  • Lineageos 22.1(Android 15)Launcer打开Taskbar
  • Redission可重试、超时续约的实现原理(源码分析)
  • 多旋翼+航模+直升机:多型号无人机飞行表演技术详解
  • LeetCode 贪心算法经典题目 (C++实现)
  • 网络空间安全(2)应用程序安全
  • 机器人“战场”:创新、落地与未来
  • PyCharm Professional 2025 安装配置全流程指南(Windows平台)
  • Vue使用Three.js加载glb (gltf) 文件模型及实现简单的选中高亮、测距、测面积
  • 使用Kafka进行实时数据流处理的场景
  • Sky Hackathon 清水湾的水 AI美食助手
  • 数据结构:Map set - 习题(三)
  • 智能物联赋能城市照明升级——塔能科技的创新实践与城市转型
  • Reactor和Paroactor模型
  • [特殊字符]清华大学:DeepSeek从入门到精通.pdf(清华领航,驾驭DeepSeek,开启AI新境界)