爬虫中XPath语法四个重要概念及示例
一、根节点与非根节点
1、/div :选择div节点,只有当它是文档的根节点时。
2、//div:选择文档中所有的div节点(包括非根节点)。
二、通过属性选择节点
1、//@href:选择带href属性的所有节点。
2、//a[@href='http://baidu.com']:选择页面中所有指向网站的链接。
三、通过位置选择节点
1、//a[3]:选择文档中的第三个链接。
2、//a[position()<3]:选择文档中的前三个链接。
3、//table[last()]:选择文档中的最后一个表。
四、星号(*)匹配任意字符或节点,可在不同条件下使用
1、//table/tr/*:选择所有表格行tr标签的所有的子节点。
2、//div[@*]:选择带任意属性的所有div标签。