当前位置: 首页 > article >正文

python实战三-提取Word数据到Excel

视频+源码:
链接:https://pan.quark.cn/s/83db5bb15383

一个文件夹下有大量会议通知文件,为word文件,文件格式都是一致的,现在要将文件中的一些字段提取出来汇总到Excel文件中。
会议通知文件格式如下:

要提取学习时间、学习内容、学习形式、主持人汇总到 会议汇总.xlsx 中,每新增一条记录序号加1

Excel表格式如下:

代码如下:

from docx import Document
from openpyxl import load_workbook
import glob

def 提取数据汇总(file_dir):
    tempfile = file_dir + r'\汇总模版.xlsx'
    workbook = load_workbook(tempfile)  # 打开模板文件
    sheet = workbook.active
    number = 1  # 计数

    docFiles = glob.glob(file_dir + r'\*.docx')  # 筛选出指定文件下所有.docx后缀文件
    for file in docFiles:
        print(file)
        doc = Document(file)
        contentList = []  # 学习内容
        studyTime = ''  # 学习时间
        studyType = ''  # 学习形式
        host = ''  # 主持人
        for paragraph in doc.paragraphs:
            if paragraph.text[2:7] == '学习时间:':
                studyTime = paragraph.text[7:]
            if paragraph.text[2:6] == '主持人:':
                host = paragraph.text[6:]
            if paragraph.text[2:7] == '学习形式:':
                studyType = paragraph.text[7:]
            if len(paragraph.text) >= 2:
                if paragraph.text[0].isdigit() and paragraph.text[1] == '、':
                    contentList.append(paragraph.text)
        content = ' '.join(contentList)  # 列表转化为字符串
        sheet.append([number, studyTime, content, studyType, host])
        number += 1

    workbook.save(file_dir + r'\会议汇总.xlsx')

if __name__ == '__main__':
    提取数据汇总(r'D:\自动化')

很简单自己创建 几个word试试吧:

关于党委理论学习中心组

2021 年第一次学习会的通知

公司党委领导班子成员:

定于3月1日组织公司党委理论学习中心组2021年第一次学习会,现将有

关事项通知如下:

一、学习时间:2021年3月10日下午4:00.

二、学习地点:5楼会议室,

三、参加人员:公司领导班子成员

四、主持人:李 XX。

五、学习形式:集中学习。I

六、学习内容:

                 1、2022谢谢小星星

                 2、生的点点滴滴

七、相关要求:

1.学习资料提前发给与会人员,请与会人员做好学习及发言准备;

2.请与会人员妥善安排工作,准时参加,学习时间如有变

运行结果: 


http://www.kler.cn/a/289437.html

相关文章:

  • qt QKeySequence详解
  • Node.js笔记
  • Spark:不能创建Managed表,External表已存在...
  • 使用Python实现定期从API获取数据并存储到数据库的完整指南
  • 机器学习——贝叶斯
  • 【Mode Management】AUTOSAR架构下唤醒源检测函数EcuM_CheckWakeup详解
  • 《python语言程序设计》第8章第12题生物信息:找出基因,生物学家使用字母A C T和G构成字符2串建模一个基因组(下)
  • 【Linux系统编程】TCP实现--socket
  • 力扣2542.最大子序列的分数
  • 设计模式-离氏替换原则
  • Edge PDF 关闭 提供支持的应用Adobe Acrobat
  • 深度学习-OpenCv的运用(4)
  • 【安全生产】叉车安全带报警器有哪些特点?
  • 数分基础(06)商业分析四种类型简介
  • VsCode + Go + macOS 小白 demo运行
  • 数学建模强化宝典(9)遗传算法
  • 财富趋势金融大模型已通过备案
  • 贪心算法---合并区间
  • Flutter之CRC校验
  • python使用selenium,实现简单爬虫功能
  • 《从C/C++到Java入门指南》- 22.对象的转型
  • 机器学习面试题(9月3日笔记)
  • 跨境多账号登录如何防止IP、cookie和设备关联?
  • pil 常见用法
  • 如何打造在线音乐网站?java springboot架构,vue前端开发,音乐分享新体验
  • sealos快速搭建k8s集群