当前位置：首页 > article >正文

13.boost项目总结(C++)

article 2025/3/12 10:49:37

a. 数据清洗模块：针对Boost⽂档的HTML进⾏解析，去除html标签，提取出核⼼数据
b. 索引模块：构建正排索引和倒排索引。
c. 搜索模块：基于索引，实现按查询词查找出匹配HTML⽂档的逻辑
d. Web模块：基于cpp-httplib，搭建HTTP服务器，提供HTTP接⼝，编写前端⻚⾯

该项⽬能够达成针对Boost⽂档的搜索预期效果，也就是通过浏览器访问服务器获取搜索⻚⾯，输⼊关键字进⾏搜索，得到预期正确的搜索结果.
通过这个项⽬，进⼀步的了解了搜索引擎的⼯作原理，对Linux，HTTP，⽂件操作，数据结构等核⼼操作的理解有了进⼀步的提⾼，锻炼了项⽬设计，问题解决的能⼒。

STL:C++常⽤技术
cpp-httplib:⾮常轻量的http库.相⽐于cpp-netlib来说,cpp-httplib引⼊的依赖更少,⽆需编译,直接引⼊头⽂件就可以使⽤,⽽且官⽅⽂档简洁清晰,⾮常快速就能上⼿.
cppjieba:分词库.在开源免费的分词库中,cppjieba分词效果较好,⽹上的资料⾮常丰富,⾜够满⾜本项⽬的需求.

针对搜索引擎实现原理的调研:参考了⼀些⽹上的资料和⼀些开源项⽬的代码,发现别⼈介绍/编
写的搜索引擎,功能/流程⼤多⽐较复杂,⽽此处我只需要⼀个⽐较简单的搜索引擎,因此需要对功能进⾏提炼,把最核⼼的部分提取出来并进⾏实现.

当前是针对boost⽂档进⾏解析和制作索引的.后续也可以引⼊其他的⽂档html,做更丰富搜索功能.
可以通过第三⽅⽹站的api(⽐如github),或者爬⾍爬取对应⽹站的⽹⻚数据,获取到更多的待分析数据.

中⽂语⾔词汇虽然数⽬众多，但是对于计算机来说是可以穷尽枚举的。

根据语料库进⾏训练(⽐如近20年⼈⺠⽇报的所有内容),统计相邻两个汉字出现的概率,将概率⾼的汉字组合更新进⼊词典
当前直接使⽤了第三⽅库cppjieba,并未关注具体分词算法的实现

数据清洗：遍历⽬录,读取到每个html⽂件内容,提取出html中的标题,正⽂，url
构建正排索引：把上个环节解析出的内容，构造成⽂档对象，通过⼀个数组管理起来。对应的数组下标设定为"⽂档id"。此时就得到了⽂档id=>⽂档内容的映射
构建倒排索引：针对每个⽂档对象的标题和正⽂，进⾏分词。以分词结果作为key，以⽂档id列表作为value，添加到⼀个哈希表中。此时就得到了词=>⽂档id列表的映射
在构建倒排过程中，同时统计每个词在该⽂档中出现的次数，作为后续排序依据(权重)

通过词频衡量。当前使⽤的公式是标题中出现的次数*10+正⽂中出现的次数来作为权重.

这样的⽂档包含多个查询词，相关性理解成更⾼，应该要排到更靠前的位置。
⼀个简单的做法是针对同⼀个⽂档进⾏权重合并。
⽐如遍历A的倒排拉链，把这⾥的⽂档信息记录到⼀个哈希表中。然后再遍历B的倒排拉链，依次在A中
查询如果发现存在相同的⽂档，则把两个⽂档的权重进⾏相加，并且在最终合并多个拉链时进⾏去重

在进⾏构建倒排索引的时候，针对⽂档中分词后的词频对每⼀个关键字进⾏了权重计算（标题与正⽂中的关键字权重不同）
在查询的时候，根据查询关键字进⾏倒排索引查询时，根据得到的倒排拉链中的关键字权重进⾏⽂档权重统计（因为有可能多个关键字对应同⼀个⽂档，因此将同⼀个⽂档中的多个关键字权重进⾏求和）
在返回结果的时候，对返回的内容按照⽂档权重进⾏编号排序后返回