当前位置：首页 > article >正文

faiss用于大数据量的向量检索

article 2025/2/22 2:05:52

背景：10亿（Billion级别）的数据应该是一个很大的数据了，尤其是维度在768+级别（还有1024,1536等），这个数据量我做了一个实验，shape为（1kw，768）的array（numpy）占内存为30G（float32格式），如果能降低为float16更好不过，但似乎faiss没有这种方法或者精度有所损失。

那么对于5亿级别的数据（vectors），占内存则为1500G，我相信目前似乎没有这么大的机器，我只见过500G，700G，甚至900G的机器，而且是8卡GPU的服务器才有的内存。这已经超出了一般的数据量了。

当然也可采用ES集群部署，但是感觉有点费资源。维护也是需要的，可能会宕机。

愿我们终有重逢之时，而你还记得我们曾经讨论的话题。

Q group 868373192

Q second group 277356808

下面是代码分享：

import faiss                   # make faiss available
index = faiss.IndexFlatL2(d)   # build the index, d=size of vec

查看全文

http://www.kler.cn/a/383283.html

vm虚拟机中添加网卡却在network-scripts文件找不到，解决方法

vue中的nextTick() - 2024最新版前端秋招面试短期突击面试题【100道】

IDEA2024下安装kubernetes插件并配置进行使用

Spring源码(十一)：Spring MVC之DispatchServlet

WPF+MVVM案例实战（二十）- 制作一个雷达辐射效果的按钮

Ubuntu 安装Nvidia 显卡驱动

新能源汽车空调压缩机：科技驱动的冷暖核心

深度学习：循环神经网络（RNN）详解

深度学习：Cross-attention详解

SpringMvc day1101

基于布局的3D场景生成技术：SceneCraft

美创科技以韧性数据安全防护体系助力畜牧业数字化发展

计算机专业开题报告写法，该怎么写好？

头歌——机器学习（线性回归）

NewStarCTF2024-Week5-WebMisc-WP

yolov8涨点系列之轻量化主干网络替换

Android中的跨进程通信方案总结一-AIDL运行原理

机器学习—构建一个神经网络

新能源汽车的未来：车载电源与V2G技术的前景

音箱与功放功率解析

愿我们终有重逢之时，而你还记得我们曾经讨论的话题。

相关文章：