不同的检索方法效果评价
我的评价标准:(0-10分进行手动打分)
精确性:其中相似度最高的前两个检索结果能否符合问题要求
相关性:嵌入的所有结果是否与查询相关。
检索方法:
similarity算法:使用余弦相似度进行检索
MMR算法:
lambda_mult参数(取值范围0-1)用来平衡相关性和多样性:
数字越大,检索的相关性越强。数字越小,检索的多样性越强
0.2 0.5 0.7 1
bm25算法:
(红色代表问题详细,绿色代表问题模糊)
问答1:找博士学历候选人(问题得分平均8.5)
问题:这个问题的关键是博士,但按关键词搜索,会匹配其他的比如候选人、学历这些。
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 5 | 5 | 5 | 5 | 5 | 0 |
相关性 | 4 | 6 | 6 | 4 | 4 | 2 |
总分 | 9 | 11 | 11 | 9 | 9 | 2 |
问答2:985高校硕士(问题得分平均4.33)
问题:这类问题按关键词更好一些,985的问题,还有国外学校的问题。问题需要更精确与细化,要么就是检索的库更细化,因为用户这边是给一个大概的模糊的表达,不会给的很精确。或者对用户有一个表达上的引导?
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 0 | 3 | 3 | 3 | 0 | 5 |
相关性 | 0 | 2 | 2 | 2 | 0 | 6 |
总分 | 0 | 5 | 5 | 5 | 0 | 11 |
问答3:211大学本科以上学历(问题得分平均4.66)
问题:
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 5 | 5 | 5 | 0 | 5 | 0 |
相关性 | 2 | 2 | 2 | 0 | 2 | 0 |
总分 | 7 | 7 | 7 | 0 | 7 | 0 |
问答4:国外留学背景(问题得分平均6.5)
问题:相关性与多样性的区别:目前大多数场景下多样性≥相关性,多样性才能符合大模型的检索,能够将同义词进行匹配,而不是关键词匹配。
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 0 | 0 | 0 | 0 | 0 | 9 |
相关性 | 2 | 6 | 6 | 6 | 2 | 8 |
总分 | 2 | 6 | 6 | 6 | 2 | 17 |
问答5:找流体力学专业(问题得分平均11)
问题:
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 8 | 5 | 5 | 5 | 8 | 9 |
相关性 | 6 | 2 | 2 | 4 | 6 | 6 |
总分 | 14 | 7 | 7 | 9 | 14 | 15 |
问答6:找计算机相关专业(问题得分平均3.5)
问题:检索的是计算机二级考试的或者期望职业是计算机或者具有计算机能力,并不是我想要的计算机相关专业(全日制本科)(计算机科学与技术)、电子信息,可见用户心中所想的,和他第一次表达的提出的问题还是有差距的。这个过程要么需要引导用户来细化,要么需要让大模型提前做一次细化,而不是直接就拿用户第一次提问的内容去检索。
找相关专业,找的是学生还是已经工作两三年的?
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 0 | 0 | 1 | 1 | 0 | 3 |
相关性 | 0 | 2 | 6 | 6 | 0 | 2 |
总分 | 0 | 2 | 7 | 7 | 0 | 5 |
问答7:熟悉Python的(问题得分平均14.33)
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 9 | 5 | 5 | 8 | 9 | 8 |
相关性 | 10 | 4 | 4 | 4 | 10 | 10 |
总分 | 19 | 9 | 9 | 12 | 19 | 18 |
问答8:有深度学习经验的(问题得分平均17.83)
问题:
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 9 | 8 | 8 | 8 | 9 | 8 |
相关性 | 10 | 9 | 9 | 9 | 10 | 10 |
总分 | 19 | 17 | 17 | 17 | 19 | 18 |
问答9:有3年以上工作经验(问题得分平均3.16)
问题:一般不会这么问,一般是结合行业+行业工作经验/年限。
三年造型设计经验?
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | 0 | 0 | 0 | 0 | 0 | 9 |
相关性 | 0 | 0 | 0 | 0 | 2 | 10 |
总分 | 0 | 0 | 0 | 0 | 0 | 19 |
问答10:有项目管理经验的(问题得分平均)
问题:相似度检索能从管理检索到主导这类的词语,相同语义的也能检索。
similarity | mmr0.2 多样性 | mmr0.5 | mmr0.7 | mmr1 相关性 | bm25 | |
精确性 | ||||||
相关性 | ||||||
总分 |
总结:
-
分场景,有模糊问题和精细问题。对于模糊问题,检索效果差不多(都很差),这时就保证不要瞎回答,mmr0.2和mmr0.5的目前看来鲁棒性比较好。对于精细问题,similarity、mmr1和bm25都比较好,similarity略有优势
-
引导用户细化问题?与思琪交流后,一般HR给的提示词会比较长,具体,因此不需要扩充细化,可能需要精简。
-
推荐系统?简历放进来,自动推荐合适岗位,或者不合适。