当前位置: 首页 > article >正文

不同的embedding技术效果评价

在评估四种不同的嵌入技术(Conan-embedding-v1、demo_vector_bm25、nomic-embed-text_latest、xiaobu-embedding-v2)的效果时,考虑以下几个方面:

相关性:嵌入结果是否与查询高度相关。

多样性:嵌入结果是否涵盖了不同的信息维度。

信息量:嵌入结果是否提供了足够的信息来回答查询。

结构清晰度:嵌入结果是否易于理解和解析。

我的评价标准:(0-10分进行手动打分)

精确性:其中相似度最高的前两个检索结果能否符合问题要求

相关性:嵌入的所有结果是否与查询相关。

问答1:找博士学历候选人

问题:问博士学历,他不一定能判断出来,基于相似度可能找到的是学历,而不是博士

这个测试没有代表性,因为测试样本中博士比较少,没有显示出不同模型能力的差别。

demo(km25)

conan

xiaobu

nomic

bge-large

bge-m3

精确性

3

3

2

2

3

3

相关性

2

2

2

2

2

2

总分

5

5

4

4

5

5

问答2:985高校硕士

问题:部分查不到985,只能检索高校,但不知道哪些高校是985

demo

conan

xiaobu

nomic

bge-large

bge-m3

精确性

6

4

7

3

7

4

相关性

6

4

8

4

4

6

总分

12

8

15

7

11

10

问答3:211大学本科以上学历

问题:与985问题一样,而且211以上,也没有区分按道理985也应该能够找到。同样的问题还有“有大型企业工作经历”,怎样去定义大型?llm不理解

demo

conan

xiaobu

nomic

bge-large

bge-m3

精确性

0

5

8

8

6

6

相关性

0

4

8

10

4

2

总分

0

9

16

18

10

8

问答4:国外留学背景

问题:国外留学背景,不能理解整个问题的意思,和国相关就去检索了,但是国和国外的检索差别很大,分词上。

demo

conan

xiaobu

nomic

bge-large

bge-m3

精确性

1

5

8

5

0

5

相关性

0

4

4

0

4

2

总分

1

9

12

5

4

7

问答5:找流体力学专业

问题:demo按关键词搜索,在预估表现上并没有超过相似度检索的xiaobu和conan,可能问题的纯度比较高,相似度还是能够满足需求

demo

conan

xiaobu

nomic

bge-large

bge-m3

精确性

8

8

8

5

8

6

相关性

6

6

8

4

4

4

总分

14

14

16

9

12

10

问答6:找计算机相关专业

问题:考取了计算机相关证书的也会检索到,然而他可能并不是计算机专业的。按关键词检索就会出问题,因为有些专业叫做高能物理计算。

demo

conan

xiaobu

nomic

bge-large

精确性

1

7

7

0

8

相关性

0

8

8

0

6

总分

1

15

15

0

14

问答7:熟悉Python的

demo

conan

xiaobu

nomic

bge-large

精确性

8

8

8

8

4

相关性

4

6

6

6

6

总分

12

14

14

14

10

问答8:有深度学习经验的

问题:虽然不能直接通过关键词检索到深度学习,但是相似度的检索还是占有优势,比如简历中提到卷积方法、tenserflow、yolo5

demo

conan

xiaobu

nomic

bge-large

精确性

1

5

5

1

5

相关性

0

2

6

0

4

总分

1

7

11

1

9

问答9:有3年以上工作经验

问题:相似度检索整体相关性很好,但面对这种问题,不能理解整个问题的意思,只抽取部分词语去理解,经验——熟练掌握中英文。关键词就很好,因为一般简历会直接写几年工作经验。不过2.5年经验的也会被检索到。

相同的问题是“互联网行业经验”,如果一个关键词语在一整句问题中占的比例较少,基于相似度检索的效果就不佳

demo

conan

xiaobu

nomic

bge-large

精确性

6

3

3

5

相关性

6

4

6

4

总分

12

7

9

9

问答10:有项目管理经验的

问题:相似度检索能从管理检索到主导这类的词语,相同语义的也能检索。

demo

conan

xiaobu

nomic

精确性

0

4

4

0

相关性

2

6

8

2

总分

2

10

12

2

问答11:有专利成果的

demo

conan

xiaobu

nomic

精确性

0

5

5

0

相关性

0

2

2

0

总分

0

7

7

0

问答12:有聚变行业经验

问题:简历测试文件比较少,聚变人才少,这个问题不太好测

demo

conan

xiaobu

nomic

精确性

0

0

0

0

相关性

0

0

0

0

总分

0

0

0

0

总结:

大部分场景相似度检索的效果更好,其中xiaobu效果最优。部分场景更适合用关键词检索,3年以上工作经验,但是也会漏了类似2012-2015这样的时间信息。

因此后续的检索效果提升准备用混合检索,80%的大模型+20%关键词检索。

多agent思路、交互速度(并行OCR解析)


http://www.kler.cn/a/505609.html

相关文章:

  • 晨辉面试抽签和评分管理系统之十:如何搭建自己的数据库服务器,使用本软件的网络版
  • Anaconda安装(2024最新版)
  • C++ STL之容器介绍(vector、list、set、map)
  • 基于当前最前沿的前端(Vue3 + Vite + Antdv)和后台(Spring boot)实现的低代码开发平台
  • Ubuntu上,ffmpeg如何使用cuda硬件解码、编码、转码加速
  • Node.js 如何实现文件夹内文件批量重命名
  • kafka的listeners和advertised.listeners,配置内外网分流
  • Natural Language-Assisted Multi-modal Medication Recommendation
  • go语言实现UTF8与GB2312内码转换
  • Node.js、Vue 和 React 的关系和区别
  • 一文掌握Docker
  • Ubuntu-Install-Ros2
  • MySQL 排除指定时间内重复记录的解决方案
  • VSCode连接远程docker环境
  • 宝塔面板 申请证书后 仍然提示不安全
  • 神经网络:什么是交叉熵?
  • C++并发编程之异常安全性增强
  • 基于ADMM交替方向乘子法的超大规模储备系统分布式协同优化算法收敛性matlab仿真与分析
  • PostgreSQL 的一些常用命令
  • LabVIEW与WPS文件格式的兼容性
  • 如何搭建 Vue.js 开源项目的 CI/CD 流水线
  • 《大语言模型后训练技术:指令、偏好、强化微调的深度解析与发展趋势》
  • 计算机网络 (42)远程终端协议TELNET
  • Vue2+OpenLayers给标点Feature添加信息窗体(提供Gitee源码)
  • 基于django中医药数据可视化平台(源码+lw+部署文档+讲解),源码可白嫖!
  • LeetCode热题100-二叉树的中序遍历【JavaScript讲解】