当前位置: 首页 > article >正文

大语言模型学习--向量数据库基础知识

1.向量

向量是多维数据空间中的一个坐标点。

向量类型

图像向量 文本向量  语音向量

Embedding

非结构化数据转换为向量过程

通过深度学习训练,将真实世界离散数据,投影到高维数据空间上,通过数据在空间中间的距离体现真实世界的相似度

Vector Embedding 向量嵌入

将非数值词语符号等非结构化数据编码成数值向量

Word Embedding 词嵌入

通过NN学习,文本中词语作为NN输入,输出对应词向量 Word Vector。词向量是一个数值向量,每个数值代表词语的某个特征

向量的每个数值表示某个特征,只要向量足够大,特征区分足够明显

2.向量数据库

向量数据库为向量数据提供专用的存储和索引机制

向量数据被存储为高维空间中的点

向量数据库发展阶段

向量存储类型

1.私域知识 Domain Knowledge

可以把向量数据库作为大模型的外挂知识库

2.本地存储 Local Storage

将向量数据存储到本地

3.长期记忆 Long Time Storage

大模型具有短期记忆,具有上下文信息数量限制。

向量数据库作为外部数据库 存储单次上传的超大文本 对外内容等信息,为大模型提供理论上没有上限的长期记忆

向量数据库作用

1.相似性搜索

根据向量距离或相似性对向量数据进行快速准确的相似性搜索,即可以根据语义或者上下文含义查找最相似或相关的数据

2.提升性能

相似度计算 相似性搜索 高效存储 分布式

向量数据库评价指标

1.准确率   

检索相关的向量/检索出向量总数

2.召回率

检索相关的向量/向量数据中相关的向量总数

3.每秒平均吞吐

每秒向量数据库能够处理的查询请求次数

4.平均响应延迟

请求平均响应时间

向量相似度计算

向量索引

向量数据库索引分类

按照数据结构

哈希索引

树索引

图索引

倒排文件索引

按照量化压缩

相似性搜索算法

向量数据量应用场景

图像相似性搜索

视频相似性搜索

音频相似性搜索

推荐系统

问答系统

混合搜索系统

大模型与向量数据库

当前主流向量数据库

2024年精选推荐的16个向量数据库:提升你的AI应用性能-CSDN博客

相关学习资料

三天搞定【大模型系列】之向量数据库教程(搭建、原理、实战)_哔哩哔哩_bilibili

【上集】向量数据库技术鉴赏_哔哩哔哩_bilibili

【下集】向量数据库技术鉴赏_哔哩哔哩_bilibili


http://www.kler.cn/a/580451.html

相关文章:

  • Vue3中动态Ref的魔法:绑定与妙用
  • 【开发语音助手】android 语音识别、合成、唤醒 sherpa
  • Android Dagger2 原理深度剖析
  • STM32步进电机驱动全解析(上) | 零基础入门STM32第五十七步
  • C语言每日一练——day_2(快速上手C语言)
  • 安卓逆向环境搭建(Windows/Linux双平台)
  • 【2025】Electron 基础一 (目录及主进程解析)
  • Visual Studio Code 基本使用指南
  • linux docker相关指令
  • QT系列教程(18) MVC结构之QItemSelectionModel模型介绍
  • JAVA面试_进阶部分_深入理解socket网络异常
  • Pytorch实现之SICSGAN实现图像识别
  • 什么是Jmeter? Jmeter工作原理是什么?
  • 【计算机原理】深入解析 HTTP 中的 URL 格式、结构和 URL encode 转义与 URL decode 逆转义原理
  • 【javaEE】多线程(进阶)
  • 蓝桥杯2024年第十五届省赛真题-团建
  • wordpress两个网站用同一个数据库的实现方法
  • 学习笔记:利用OpenAI实现阅卷智能体
  • Android 低功率蓝牙之BluetoothGattCallback回调方法详解
  • STM32项目分享:智能家居语音系统(ASRPRO版)