当前位置: 首页 > article >正文

Javase——正则表达式

 正则表达式的相关使用

    public static void main(String[] args) {
    //校验QQ号 
        System.out.println("3602222222".matches("[1-9][0-9]{4,}"));
    // 校验18位身份证号        
        System.out.println("11050220240830901X".matches("^([0-9]){7,18}(x|X)?$ 或 ^\\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$"));
    }
// 上面账号都位假

常用正则表达式

正则表达式常见用法——爬虫

字符串中查找匹配规则的关键词

String str = "Java自从95年问世以来,经历了很多版本,目前企业中用的最多的是Java8和Java11," +
"因为这两个是长期支持版本,下一个长期支持版本是Java17,相信在未来不久Java17也会逐渐登上历史舞台";

|
//1.获取正则表达式的对象,即创建匹配规则
Pattern p= Pattern.compile("Java\\d{0,2}");
//2.获取文本匹配器的对象
//拿着m去读取str,找符合p规则的子串
Matcher m = p.matcher(str);

//3.m读取完str后,利用.find()循环获取
while(m.find()){
    String s = m.group();
    System.out.println(s);
}

爬取网页里的信息

public static void main(String[] args) throws IOException {
        // 创建一个URL对象
        URL url = new URL("https://baike.baidu.com/item/%E6%AD%A6%E6%B1%89%E5%B8%82?fromModule=lemma_search-box");
        // 连接上这个网址
        // 细节:保证网络是畅通
        URLConnection conn = url.openConnection();
        // 创建一个对象去读取网络中的数据
        BufferedReader br = new BufferedReader(new InputStreamReader(conn.getInputStream(),"UTF-8")); // 要确定爬取数据的编码格式
        String line;
        // 获取正则表达式的对象 pattern,即确定字符串匹配规则
        Pattern pattern = Pattern.compile("[\\u4e00-\\u9fa5]+大学");
        // 在读取的时候每次读一整行
        while ((line = br.readLine()) != null) {
            // System.out.println(line);  这个可以将这个html页面打印下来
            Matcher matcher = pattern.matcher(line); // 扫描一整行,对这一行进行正则校验,得到matcher
            // 输出一行中匹配到的
            while (matcher.find()) {
                System.out.println(matcher.group());
            }
        }
        br.close();
    }

 贪婪爬取和非贪婪爬取 

String str = "abbbbbbbbbbbbaaaa"

  •  贪婪爬取:在爬取数据的时侯尽可能的多获取数据
    • 正则表达式:ab+
    • 爬取为:abbbbbbbbbbbb
  • 非贪婪爬取:在爬取数据的时侯尽可能的少获取数据
    • ​​​​​​​​​​​​​​​​​​​正则表达式:ab+?
    • 爬取为:ab

字符串方法使用

 正则表达式分组使用


http://www.kler.cn/a/378819.html

相关文章:

  • Oceanbase学习之一迁移mysql数据到oceanbase
  • 支持 Mermaid 语言预览,用通义灵码画流程图
  • 基于人工智能的搜索和推荐系统
  • 微信支付宝小程序SEO优化的四大策略
  • 市场分化!汽车零部件「变天」
  • 3151. 特殊数组 I
  • C#开发webService接口
  • aws(学习笔记第九课) 使用AWS的网络存储EBS
  • Git 概述及相关命令(1)
  • 【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法
  • 【Git】Git 版本控制与协作开发指南
  • 在VSCode中读取Markdown文件
  • 【linux-Day7】Vim的使用和简单配置
  • 前端技术月刊-2024.11
  • Google 地图类型
  • mysq-B+Treel(一)
  • 【HTML】——VSCode 基本使用入门和常见操作
  • zoho域名邮箱指南:如何设置优化烽火邮箱?
  • 学编程应该怎么写博客,有什么推荐的平台吗?
  • windows在两台机器上测试 MySQL 集群实现实时备份
  • 三十、Python基础语法(继承-下)
  • Shutdown Abort 强制关库,真的有可能起不来?
  • C++算法练习-day32——222.完全二叉树的节点个数
  • 宠物排泄物图像分割系统:高效目标识别
  • 开放式耳机什么品牌质量好?5款排行榜里的开放式蓝牙耳机
  • rnn/lstm 项目实战