当前位置: 首页 > article >正文

Python 项目实践:文件批量处理

Python 项目实践:文件批量处理

文章目录

  • Python 项目实践:文件批量处理
      • 一 背景
      • 二 发现问题
      • 三 分析问题
      • 四 解决问题
        • 1 找到所有文件
        • 2 找到文件特定字段
        • 3 找出复杂的字符串
        • 4 替换目标字符串
        • 5 验证文件是否正确
      • 五 总结
      • 六 完整代码示例
      • 七 源码地址

本项目旨在通过 Python 编程实现对大量文件的批量处理。假设我们有 1000 个文件需要修改特定字段,例如将 yourpython.github.io 替换为 yourpython.com 。通过结合 Python 的文件管理、循环控制、正则表达式等知识,逐步解决问题。首先,通过 os.listdir() 遍历文件,利用正则表达式 re.findall() 找到需要替换的字段。然后,选择替换方案,将修改后的内容保存到新文件中,以保持原始文件不变。该项目展示了从发现问题、分析需求,到编写解决方案的完整过程,是实际应用 Python 知识的一个良好示例。

一 背景

让我们一起开展一个小项目,把之前学到的知识实际应用起来。根据自己的学习情况,预备课程可以选择跳过。

预备课

Python 文件与目录管理:操作、管理与检验详解
Python for 和 while 循环:掌握循环控制的基本操作
Python 文件读写操作详解:从创建到编码处理.md
Python 正则表达式详解:从基础匹配到高级应用

本章主要涉及功能

找到所有文件找到文件特定字段替换
os.listdir()re.findall()os.path.join()
os.path.join()os.path.join()re.sub()
string.startswith()

二 发现问题

假如要处理大量文件,比如 1000 个文件,需要替换其中的特定字符,比如把 yourpython.github.io 改成 yourpython.com。

三 分析问题

需求分析,要满足以下三点:

  • 遍历所有的文本文件
  • 找到文件中特定字段
  • 替换掉这些特定字段

四 解决问题

1 找到所有文件

这里需要 Python 文件与目录管理:操作、管理与检验详解 这章的知识点。

print(os.listdir("yourfiles"))
2 找到文件特定字段

这里需要 Python for 和 while 循环:掌握循环控制的基本操作 和 Python 文件读写操作详解:从创建到编码处理.md 这两章的知识点。

    for filename in os.listdir("yourfiles"):
        file_path = os.path.join("yourfiles", filename)
        with open(file_path, "r") as f:
            print(file_path, ": ", f.read())
3 找出复杂的字符串

这里需要 Python 正则表达式详解:从基础匹配到高级应用 这章的知识点。

    string = "这是我的主页 https://mofanpy.com, 这个 www.mofanpy.com 有很多 mofan 教你机器学习和 python 语言的教学"
    res = re.findall(r"(https://)?(mofanpy.com)", string)
    for r in res:
        print(r[1])
4 替换目标字符串

这里有二种方案:

  • 在原文本上替换,并覆盖原文本的内容。
  • 复制出一个新的文件,将原文本替换过的文字拷贝到新文件中,原文件不改变。

这里选择方案二。

    for filename in os.listdir("yourfiles"):
        file_path = os.path.join("yourfiles", filename)
        with open(file_path, "r") as f1:
            string = f1.read()
            new_string = re.sub(r"yourpython.github.io", "yourpython.com", string)
            with open(os.path.join("yourfiles", "new_" + filename), "w") as f2:
                f2.write(new_string)
5 验证文件是否正确
    for filename in os.listdir("yourfiles"):
        if filename.startswith("new_"):
            continue
        file_path = os.path.join("yourfiles", "new_" + filename)
        with open(file_path, "r") as f:
            print(file_path, ": ", f.read())

五 总结

尽管这个任务看起来很简单,但其实包含了对项目的一些深度思考,比如如何发现问题、分析问题、解决问题。通过之前那个 简单的计算器项目 以及当前这个实践,大家对使用 Python 开发项目应该有了更深入的理解。好了,到了这个阶段,大家已经可以尝试独立完成一些简单的项目了。接下来的课程将致力于进一步提升你的技能,而且内容会更加丰富精彩。

六 完整代码示例

# This is a sample Python script.

# Press ⌃R to execute it or replace it with your code.
# Press Double ⇧ to search everywhere for classes, files, tool windows, actions, and settings.
import os
import re


def print_hi(name):
    # Use a breakpoint in the code line below to debug your script.
    print(f'Hi, {name}')  # Press ⌘F8 to toggle the breakpoint.
    # 项目实践 文件批量处理
    # 预备课:
    # 文件目录管理
    # for 和 while 循环
    # 读写文件
    # 正则表达式

    # 主要涉及功能
    # 找到所有文件
    # os.listdir()
    # os.path.join()
    # 找到文件特定字段
    # re.findall()
    # os.path.join()
    # 替换
    # os.path.join()
    # re.sub()
    # string.startswith()

    # 我遇到的问题 ,我们要处理大量文件 比如 1000 个文件,需要替换其中的特定字符,
    # 比如把 yourpython.github.io 改成 mofanpy.com

    # 分析问题
    # 遍历所有的文本文件
    # 找到文件中特定字段
    # 替换掉这个特定字段

    # 找到所有文件,文件目录管理
    print(os.listdir("yourfiles"))

    # 找到文件特定字段,for 和 while 循环,读写文件
    for filename in os.listdir("yourfiles"):
        file_path = os.path.join("yourfiles", filename)
        with open(file_path, "r") as f:
            print(file_path, ": ", f.read())

    # 找出复杂的字符串,正则表达式
    string = "这是我的主页 https://mofanpy.com, 这个 www.mofanpy.com 有很多 mofan 教你机器学习和 python 语言的教学"
    res = re.findall(r"(https://)?(mofanpy.com)", string)
    for r in res:
        print(r[1])

    # 替换,有二种方案
    # 在原文本上替换,并覆盖原文本的内容;
    # 复制出一个新的文件,将原文本替换过的文字拷贝到新文件中,原文件不改变。
    # 这里选择方案二
    for filename in os.listdir("yourfiles"):
        file_path = os.path.join("yourfiles", filename)
        with open(file_path, "r") as f1:
            string = f1.read()
            new_string = re.sub(r"yourpython.github.io", "yourpython.com", string)
            with open(os.path.join("yourfiles", "new_" + filename), "w") as f2:
                f2.write(new_string)

    # 查看文件是否正确
    print()
    for filename in os.listdir("yourfiles"):
        if filename.startswith("new_"):
            continue
        file_path = os.path.join("yourfiles", "new_" + filename)
        with open(file_path, "r") as f:
            print(file_path, ": ", f.read())


# Press the green button in the gutter to run the script.
if __name__ == '__main__':
    print_hi('文件批量处理')

# See PyCharm help at https://www.jetbrains.com/help/pycharm/

复制粘贴并覆盖到你的 main.py 中运行,运行结果如下。

Hi, 文件批量处理
['c.txt', 'b.txt', 'a.txt', 'd.txt']
yourfiles/c.txt :  yourpython.github.io is my favorite site, please have a look.
yourfiles/b.txt :  this is a page in yourpython.github.io, please have a look.
yourfiles/a.txt :  I have an apple, I have a pen
yourfiles/d.txt :  what is my favorite site, please have a look of yourpython.github.io.
mofanpy.com
mofanpy.com

yourfiles/new_c.txt :  yourpython.com is my favorite site, please have a look.
yourfiles/new_b.txt :  this is a page in yourpython.com, please have a look.
yourfiles/new_a.txt :  I have an apple, I have a pen
yourfiles/new_d.txt :  what is my favorite site, please have a look of yourpython.com.

七 源码地址

代码地址:

国内看 Gitee 之 文件批量处理.py

国外看 GitHub 之 文件批量处理.py

引用 莫烦 Python


http://www.kler.cn/a/313150.html

相关文章:

  • AcWing 300 任务安排1
  • JavaScript Cookie 与 服务器生成的 Cookie 的区别与应用
  • ODOO学习笔记(1):ODOO的SWOT分析和技术优势是什么?
  • redis实现消息队列的几种方式
  • pgsql和mysql的自增主键差异
  • MySQL 中的索引下推功能
  • 软硬件项目运维方案(Doc原件完整版套用)
  • CSP-CCF★★★201909-2小明种苹果(续)★★★
  • 【Linux】:信号的保存和信号处理
  • 【C++掌中宝】深入解析C++命名空间:有效管理代码的利器
  • 文心快码、通义灵码、腾讯云AI代码助手、豆包MarsCode 四大国产AI编程助手对比
  • 前端中常见的三种存储方式Cookie、localStorage 和 sessionStorage。
  • CompletableFuture-详解使用及源码解析
  • 洗衣机制造5G智能工厂物联数字孪生平台,推进制造业数字化转型
  • 《nmap 命令全解析:网络探测与安全扫描的利器》
  • 2024最新最全:超详细Nmap使用技巧(非常详细)零基础入门到精通,收藏这一篇就够了
  • 【delphi】正则判断windows完整合法文件名,包括路径
  • 计算机毕业设计之:教学平台微信小程序(
  • 详解:冒泡排序
  • BGP 路由反射器
  • 西圣、蜂鸟bebird可视挖耳勺好不好用?行业王者测评争霸!
  • python教程(三):python高级数据结构大全(附代码)
  • MySQL高阶1892-页面推荐2
  • 数据结构—(java)反射,枚举,lambda表达式
  • JS获取URL中的某个参数值
  • ONNX Runtime学习之InferenceSession模块