当前位置: 首页 > article >正文

COMP 6714-Info Retrieval and Web Search笔记week2

在这里插入图片描述
tokenizer:分词器
右半部分:倒排索引
Westlaw
AND(&): 要搜索必须同时出现在文档中的两个或多个词语,请使用 AND(&)。例如,输入 narcotics & warrant,即可检索包含这两个词语的文档。请注意,当你使用 & 连接符时,这些词语可能会出现在文档的不同页面上。
OR(OR): 要搜索替代词语,请使用 OR 连接符,它用空格表示。例如,输入 attorney lawyer counsel,即可检索包含至少一个这些词语的文档。
词根扩展符 ROOT EXPENDER(!):要搜索具有多个词尾的单词,请在词根后使用词根扩展符(!)。例如,输入 object!,即可检索“object”、“objected”、“objection”和“objecting”。
通配符UNIVERSAL CHARACTER(*):要搜索包含可变字符的单词,请使用通配符()。例如,输入 withdrw,即可检索“withdraw”和“withdrew”
精确搜索SEARCH EXACTLY AS TYPED(#) 要完全按照你输入的形式搜索单词,请在单词前使用井号(#)。例如,输入 #damage,即可检索“damage”,而不会检索“damages”。井号会关闭复数形式和等效词(equivalents)的匹配。
短语搜索(“ ”):要搜索一个短语,请使用引号(“ ”)。例如,输入 “res ipsa loquitur”,即可检索该短语。引号表示精确匹配,搜索引擎或查询系统会按照完全相同的顺序来匹配这些词,且不允许在它们之间插入其他词。如果你搜索没有引号的关键词,搜索引擎可能会返回包含这些关键词的所有文档,而不管它们是否是连续出现的

/p:搜索词必须出现在同一段落中
+p:第一个搜索词位于第二个搜索词之前
/s:搜索词必须出现在同一句话中。例如,design /s defect
+s:第一个搜索词必须位于第二个词之前,且两者出现在同一句话中。例如,attorney +s fee

/n:搜索词必须在彼此相隔 n 个词以内,不区分先后顺序,其中 n 是 1 到 255 之间的数字。例如,personal /3 jurisdiction
+n:第一个搜索词必须在 n 个词之内出现在第二个词之前,其中 n 是 1 到 255 之间的数字。例如,capital +3 gain。
排除连接符(%):你可以使用排除连接符(%)在搜索末尾排除包含某些词的文档。Westlaw 会排除搜索中 % 之后的所有词。例如,查询 tax taxation /s income % investment 会检索包含 tax 或 taxation 且与 income 在同一句话中的文档,但排除其中包含 investment 的文档
Westlaw 按以下顺序处理查询中的连接符:

“ ”、空格(OR)、+n、/n、+s、/s、+p、/p、&、%

作业
1.跳表指针(skip pointer)对哪些查询有用?
A. x OR (NOT y)
B. x AND y
C. x AND (NOT y)
D. x OR y
E. NOT x
答:B、C,跳表指针常用于加速合并倒排列表的过程
2.stemming词干提取
减少词汇的大小(size of vocabulary)
提高召回率(recall):因为考虑了不同的单词形式,从而检索到更多相关文档
降低精确率(precision):可能导致检索到一些不相关的文档,这些文档包含了词干相同但语义不同的词,如"run"和"runner"可能会被不恰当的归为同一类
词干提取在索引(indexing time)和查询(processing a query)时都进行,以确保查询中的词项于索引中的词项一致
7. Query (microsoft & google)(microsoft & amazon)
grep命令详解

grep -Ei '(microsoft.*google|microsoft.*amazon)' *
(grep -i 'microsoft' * | grep -i 'google') || (grep -i 'microsoft' * | grep -i 'amazon')

8.microsoft +5 revenue earning

grep -Eio 'microsoft([^ ]+ ){1,5}(revenue|earning)' *

9.“App Store” iOS android /10 mobile game

grep -E -i 'App Store' * | perl -nle 'print if /iOS|android/ && /(?:\b\w+\b\s*){0,10}(mobile|game)/i'

10.(game +8 streaming)(microsoft /s license)
不行了搞不出来了,感觉还是复制到word高级查找吧


http://www.kler.cn/news/327203.html

相关文章:

  • 解决 Android WebView 无法加载 H5 页面常见问题的实用指南
  • Another redis desktop manager使用说明
  • 在IntelliJ IDEA中设置文件自动定位
  • 劳易测ODT3CL1-2M漫反射传感器荣获 “2024 MM《现代制造》创新产品奖”
  • AWS Network Firewall - IGW方式配置只应许白名单域名出入站
  • SQL进阶技巧:影院2人相邻的座位如何预定?
  • QT将QBytearray的data()指针赋值给结构体指针变量后数据不正确的问题
  • Brave编译指南2024 MacOS篇-构建与运行(六)
  • 正则表达式的使用规则
  • Linux —— Socket编程(三)
  • 深入理解 C++11 Lambda 表达式及其捕获列表
  • Lombok同时使⽤@Data和@Builder遇到的坑
  • 0基础学习PyTorch——监控机器学习的可视化工具
  • PostgreSQL 字段使用pglz压缩测试
  • OceanBase企业级分布式关系数据库
  • TypeScript 算法手册 - 【冒泡排序】
  • 海陆钻井自动化作业机器人比例阀放大器
  • Apache Solr:深入探索与常见误区解析
  • 深度学习实战:UNet模型的训练与测试详解
  • 关于 JVM 个人 NOTE
  • ARM Assembly: 第8课 branching
  • Web自动化中常用XPath定位方式
  • D23【 python 接口自动化学习】- python 基础之判断与循环
  • Docker入门指南:快速学习Docker的基本操作
  • 网络编程(13)——单例模式
  • BCJR算法——卷积码的最大后验译码
  • Ubuntu 开机自启动 .py / .sh 脚本,可通过脚本启动 roslaunch/roscore等
  • 联邦学习(三只决策和大数据分析)(学习笔记)
  • 【网络安全】TCP和UDP
  • 防止电脑电池老化,禁止usb或者ac接口调试时充电