当前位置: 首页 > article >正文

Python自动化发票处理:使用Pytesseract和Pandas从图像中提取信息并保存到Excel

1. 引言

在财务部门,处理大量的纸质或扫描版发票是一项既耗时又容易出错的任务。通过使用Python中的pytesseract(一个OCR工具)和pandas库,我们可以自动化这一过程,从而提高工作效率并减少错误。

2. 安装所需库

首先确保你的开发环境中安装了以下库:

  • pytesseract:用于OCR文本识别。
  • Pillow:用于图像处理。
  • pandas:用于数据管理和导出到Excel。

可以通过以下命令进行安装:

pip install pytesseract pillow pandas

同时,你需要安装Tesseract OCR引擎,并根据实际情况设置其路径。

3. 代码详解

接下来我们将详细解析如何使用这些库来从发票图片中提取关键信息,并将这些信息保存到Excel文件中。

3.1 导入必要的模块

首先导入需要的模块。

import pytesseract
from PIL import Image
import pandas as pd
import re  # 用于正则表达式

3.2 设置Tesseract路径

设置Tesseract OCR引擎的路径。请根据你的实际安装路径进行调整。

# 设置Tesseract路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

3.3 定义提取发票信息的函数

定义一个名为extract_invoice_info的函数,它接受一个参数:发票图片的路径(image_path)。

打开图像

使用Pillow库打开图像文件。

def extract_invoice_info(image_path):
    # 打开图像
    img = Image.open(image_path)
使用Tesseract进行OCR识别

使用pytesseract.image_to_string方法对图像进行OCR识别。对于中文发票,我们指定语言为chi_sim

    # 使用Tesseract进行OCR识别
    text = pytesseract.image_to_string(img, lang='chi_sim')
提取关键信息

使用正则表达式从识别的文本中提取发票号码、开票日期和合计金额。

    # 提取关键信息
    invoice_number = find_pattern(text, r'发票号码:(\d+)')
    invoice_date = find_pattern(text, r'开票日期:(\d{4}-\d{2}-\d{2})')
    total_amount = find_pattern(text, r'合计金额:(\d+\.\d+)')
    
    return {
        '发票号码': invoice_number,
        '开票日期': invoice_date,
        '合计金额': total_amount
    }

3.4 定义正则表达式匹配函数

定义一个辅助函数find_pattern,用于从文本中查找符合特定模式的信息。

def find_pattern(text, pattern):
    match = re.search(pattern, text)
    if match:
        return match.group(1)
    return None

3.5 定义保存数据到Excel文件的函数

定义一个名为save_to_excel的函数,它接受两个参数:发票数据列表(data)和输出文件名(output_file)。

def save_to_excel(data, output_file):
    df = pd.DataFrame(data)
    df.to_excel(output_file, index=False)

4. 运行脚本

保存上面编写的代码到.py文件中,例如命名为auto_invoice.py。然后打开终端或者命令提示符,切换到包含此文件的目录下,执行如下命令运行程序:

一旦运行起来,你就会看到一个名为“invoices.xlsx”的新Excel文件被创建出来,其中包含了从发票图片中提取的关键信息。

5. 结论

通过本文的学习,你应该已经掌握了如何使用Python与pytesseractpandas库来实现自动化发票处理。这不仅可以帮助你快速提取和管理大量发票信息,还能显著提高工作效率。


http://www.kler.cn/news/367365.html

相关文章:

  • android 添加USB网卡并配置DNS
  • Redis 事务 总结
  • Fast Simulation of Mass-Spring Systems in Rust 论文阅读
  • 三周精通FastAPI:16 Handling Errors处理错误
  • Maven项目管理工具-初始+环境配置
  • Jenkins发布vue项目,版本不一致导致build错误
  • 每天一题:洛谷P2041分裂游戏
  • 通过火山云API来实现:流式大模型语音对话
  • java脚手架系列9-统一权限认证gateway
  • 基于MWORKS的蓝桥杯「智能装备数字化建模大赛」正式发布,首期培训本周六开启
  • C++结合图形编程与物联网:你更偏向哪种方式来学习信息学奥赛?
  • 如何应对 Android 面试官 -> ANR 如何优化?线上 ANR 如何监控?
  • 计算机网络:网络层 —— IPv4 地址与 MAC 地址 | ARP 协议
  • <Project-11 Calculator> 计算器 0.5 液体、长度、温度单位 转换器 liquid_measures HTML JS
  • 【NIPS24】【Open-Ended Object Detection】VL-SAM
  • 【从零开始】2. Dell PowerEdge 人工智能服务搭建(番外篇)
  • 【MySQL】索引和事务
  • mongodb 导入导出索引--查询慢问题
  • 4404 - 提高:二分与三分:曲线(三分)
  • 企业数据高效集成案例:钉钉到MySQL的数据同步
  • C语言二刷指针篇
  • 安装 Pycharm-Community
  • 【数据结构】贪心算法:决策的艺术
  • 厨艺交流平台:Spring Boot技术实践案例
  • springboot061基于B2B平台的医疗病历交互系统(论文+源码)_kaic
  • 基于SSM+微信小程序的社区垃圾回收管理系统(垃圾1)