【自然语言处理】补充:布尔模型
【自然语言处理】补充:布尔模型
布尔检索是指针对查询的检索,布尔查询是指利用AND,OR或者NOT操作符将词项连接起来的查询,例如:信息AND检索、信息OR检索、信息AND检索AND NOT教材
- Google的高级搜索/布尔查询
- Google的AND—百度 “ 手机 报价 ”
- Google的NOT—百度 “ 手机 - 报价 ”
- Google的OR—百度 “ 手机 | 报价 ”
示例:莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia?布尔表达式为Brutus AND Caesar AND NOT Calpurnia。
-
一般方法:
- 从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus和Caesar,同时又不包含Calpurnia
- 缺点:速度慢(特别是大型文档集);处理NOT Calpurnia并不容易(一旦包含即可停止判断);不太容易支持其它操作(eg,find the word Romans near countrymen);不支持检索结果的排序(即只返回较好的结果)
-
词项-文档(term-doc)的关联矩阵