Javase——正则表达式
正则表达式的相关使用
public static void main(String[] args) {
//校验QQ号
System.out.println("3602222222".matches("[1-9][0-9]{4,}"));
// 校验18位身份证号
System.out.println("11050220240830901X".matches("^([0-9]){7,18}(x|X)?$ 或 ^\\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$"));
}
// 上面账号都位假
常用正则表达式
正则表达式常见用法——爬虫
字符串中查找匹配规则的关键词
String str = "Java自从95年问世以来,经历了很多版本,目前企业中用的最多的是Java8和Java11," +
"因为这两个是长期支持版本,下一个长期支持版本是Java17,相信在未来不久Java17也会逐渐登上历史舞台";
|
//1.获取正则表达式的对象,即创建匹配规则
Pattern p= Pattern.compile("Java\\d{0,2}");
//2.获取文本匹配器的对象
//拿着m去读取str,找符合p规则的子串
Matcher m = p.matcher(str);
//3.m读取完str后,利用.find()循环获取
while(m.find()){
String s = m.group();
System.out.println(s);
}
爬取网页里的信息
public static void main(String[] args) throws IOException {
// 创建一个URL对象
URL url = new URL("https://baike.baidu.com/item/%E6%AD%A6%E6%B1%89%E5%B8%82?fromModule=lemma_search-box");
// 连接上这个网址
// 细节:保证网络是畅通
URLConnection conn = url.openConnection();
// 创建一个对象去读取网络中的数据
BufferedReader br = new BufferedReader(new InputStreamReader(conn.getInputStream(),"UTF-8")); // 要确定爬取数据的编码格式
String line;
// 获取正则表达式的对象 pattern,即确定字符串匹配规则
Pattern pattern = Pattern.compile("[\\u4e00-\\u9fa5]+大学");
// 在读取的时候每次读一整行
while ((line = br.readLine()) != null) {
// System.out.println(line); 这个可以将这个html页面打印下来
Matcher matcher = pattern.matcher(line); // 扫描一整行,对这一行进行正则校验,得到matcher
// 输出一行中匹配到的
while (matcher.find()) {
System.out.println(matcher.group());
}
}
br.close();
}
贪婪爬取和非贪婪爬取
String str = "abbbbbbbbbbbbaaaa"
- 贪婪爬取:在爬取数据的时侯尽可能的多获取数据
- 正则表达式:ab+
- 爬取为:abbbbbbbbbbbb
- 非贪婪爬取:在爬取数据的时侯尽可能的少获取数据
- 正则表达式:ab+?
- 爬取为:ab