当前位置：首页 > article >正文

【python】python指南（三）：使用正则表达式re提取文本中的http链接

article 2025/2/22 2:06:12

【python】python指南（三）：使用正则表达式re提取文本中的http链接

在这里插入图片描述

一、引言

对于算法工程师来说，语言从来都不是关键，关键是快速学习以及解决问题的能力。大学的时候参加ACM/ICPC一直使用的是C语言，实习的时候做一个算法策略后台用的是php，毕业后做策略算法开发，因为要用spark，所以写了scala，后来用基于storm开发实时策略，用的java。至于python，从日常用hive做数据策略用python写udf，到基于tensorflow深度学习框架写python版的模型网络，再到现在实用pytorch做大模型。眼看着在语言纷争中，python的应用越来越广，开一个单独的专栏用于记录python中常用到的技巧，算是做笔记，没事翻出来看看。

本文重点介绍如何使用python正则表达式re提取一段内容中的链接。

二、参数解析器（ArgumentParser）

2.1 概述

我们日常处理的文本中，有很多内容和链接混合在一起的情况，有时需要我们提取链接，获取链接内的内容，有时希望把链接去掉，今天看一段分离内容和链接的代码。

2.2 代码示例

代码语言：javascript

复制

import re

def extract_links(text):
    # 正则表达式匹配URL
    pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
    # 查找所有匹配的URL
    links = re.findall(pattern, text)
    text_blocks = re.split(pattern, text)
    combined_text = ''.join(text_blocks)
    return links,combined_text

# 测试函数
text = "这是一个https://hhhh.org段网络上的内容，https://www.example.org里面偷偷卖了一个卖货的链接"
print(extract_links(text))