当前位置：首页 > article >正文

DeepSeek如何快速开发PDF转Word软件

article 2025/3/1 10:29:53

一、引言

如今，在线工具的普及让PDF转Word成为了一个常见需求，常见的PDF转Word工具有收费的WPS，免费的有PDFGear（详见：PDFGear:一款免费的PDF编辑、格式转化软件-CSDN博客），以及在线工具SmallPDF、iLovePDF、24PDF等。然而，大多数免费在线转换工具存在严重隐私风险——文件需上传至云端处理，容易泄露敏感信息。

许多平台如WPS、迅捷PDF等要求付费才能使用高效服务，导致用户无法快捷使用转换服务。为解决这些问题，我决定用Python开发一款本地化的PDF批量转Word软件，具有以下优势：

100%离线处理保障隐私安全
完全免费且支持个性化服务
帮助巩固Python编程知识
深度运用DeepSeek模型提升开发能力

二、软件主要功能

1. 核心特性

✅ 100%离线转换：杜绝信息泄露风险
🚀 批量处理：支持扫描子文件夹（可选）
📁 路径管理：兼容中英文自定义路径
📊 双进度显示：文件转换进度+页面解析进度
🔍 智能交互：完成后自动打开目标文件夹

2. 技术亮点

多线程处理防止界面卡顿
异常捕获机制增强稳定性
自适应路径创建功能
队列通信实时更新进度

三、设计过程

1. 技术架构

2、设计过程
用户界面：界面设计以简洁易用为主。通过tkinter的标签、文本框、按钮等控件，我实现了文件夹选择、设置选项、进度条显示等功能。

**PDF转Word功能：**因为有现成的pdf2docx的库，我采用了这个轮来进行PDF到Word格式的转换，再加上Python的批量处理功能，要以轻松满足我的文件转换需求。

**多线程与进度更新：**为避免界面卡顿，我使用了threading库来将文件转换操作放入独立线程，并利用queue进行线程间通信，实时更新进度条显示。
在这里插入图片描述

我们在设计时，借助了DeepSeek R1的深度思考模型。
为了减少错误，我们在提示词加入了让deepseek进行自我运行代码，进行调试的功能，减少用户本地测试中产生的bug。先上传软件图片，然后给出指令：
在这里插入图片描述

在其回复中，我们看到它针对我的提问题也进行了回答，尤其是在指定的Python环境下进行了测试。
在这里插入图片描述
DeepSeek自主调试功能

经过测试，代码运行无误，但是缺少进度条功能，可能是没有识别出来，或者漏掉了，于是通过追加提问：
在这里插入图片描述
这里我故意打错了一个汉字，但是DeepSeek还能正确地进行理解，同时很好地解决了进度条缺失的问题。就这样，我们通过两步，不到1分钟就可以把这个一个pdf转word工具制作出来。

在开发过程中，我为DeepSeek提供了完整的开发环境，DeepSeek通过对项目需求的分析，建议我添加更多的异常处理机制，特别是在文件路径不正确或者文件损坏的情况下的处理。最终，这些改进使得程序的稳定性和用户体验都得到了显著提升。

经过多次的调试和优化，软件终于成型，并可以稳定运行。用户只需选择文件夹并点击转换按钮，程序就会自动处理所有PDF文件，最终输出为Word格式。每一步的转换进度都会实时更新，确保用户能够清晰地了解当前状态。

四、代码实现

1. 完整代码

import os
import tkinter as tk
from tkinter import ttk,filedialog, messagebox
from pdf2docx import Converter
import threading
import queue
 
class PDFToWordConverter:
    def __init__(self, master):
        self.master = master
        master.title("PDF批量转Word")
        master.geometry("610x295")
 
        # 输入文件夹
        self.lbl_input = tk.Label(master, text="输入文件夹：")
        self.ent_input = tk.Entry(master, width=30)
        self.btn_input = tk.Button(master, text="选择", command=self.select_input)
 
        # 输出文件夹
        self.lbl_output = tk.Label(master, text="输出文件夹：")
        self.ent_output = tk.Entry(master, width=30)
        self.btn_output = tk.Button(master, text="选择", command=self.select_output)
 
        # 复选框
        self.var_subdir = tk.BooleanVar()
        self.var_open = tk.BooleanVar(value=True)
        self.chk_subdir = tk.Checkbutton(master, text="包含子文件夹", variable=self.var_subdir)
        self.chk_open = tk.Checkbutton(master, text="转换完成后打开目标文件夹", variable=self.var_open)
 
        # 转换按钮
        self.btn_convert = tk.Button(master, text="开始转换", command=self.start_conversion)
 
        # 布局
        self.lbl_input.grid(row=0, column=0, padx=10, pady=10, sticky=tk.W)
        self.ent_input.grid(row=0, column=1, padx=5, pady=10, sticky=tk.EW)
        self.btn_input.grid(row=0, column=2, padx=10, pady=10)
 
        self.lbl_output.grid(row=1, column=0, padx=10, pady=10, sticky=tk.W)
        self.ent_output.grid(row=1, column=1, padx=5, pady=10, sticky=tk.EW)
        self.btn_output.grid(row=1, column=2, padx=10, pady=10)
 
        self.chk_subdir.grid(row=2, column=1, padx=5, pady=5, sticky=tk.W)
        self.chk_open.grid(row=3, column=1, padx=5, pady=5, sticky=tk.W)
 
        self.btn_convert.grid(row=4, column=1, pady=10)
 
 
        # 新增进度组件
        self.progress_label = tk.Label(master, text="准备就绪")
        self.progress_bar = ttk.Progressbar(master, orient=tk.HORIZONTAL, mode='determinate')
        
        # 调整布局（新增两行）
        self.progress_label.grid(row=5, column=0, columnspan=3, padx=10, pady=5, sticky=tk.W)
        self.progress_bar.grid(row=6, column=0, columnspan=3, padx=10, pady=10, sticky=tk.EW)
 
        # 消息队列用于线程通信
        self.queue = queue.Queue()
        master.after(100, self.process_queue)
        
        # 配置列权重
        master.columnconfigure(1, weight=1)
 
    def select_input(self):
        path = filedialog.askdirectory()
        if path:
            self.ent_input.delete(0, tk.END)
            self.ent_input.insert(0, path)
 
    def select_output(self):
        path = filedialog.askdirectory()
        if path:
            self.ent_output.delete(0, tk.END)
            self.ent_output.insert(0, path)
 
    def start_conversion(self):
        # 重置进度条
        self.progress_bar['value'] = 0
        self.progress_label.config(text="正在扫描PDF文件...")
        
        input_dir = self.ent_input.get()
        output_dir = self.ent_output.get()
 
        if not input_dir or not output_dir:
            messagebox.showerror("错误", "请先选择输入和输出文件夹！")
            return
         # 禁用转换按钮
        self.btn_convert.config(state=tk.DISABLED)
        
        threading.Thread(target=self.convert_files, args=(input_dir, output_dir), daemon=True).start()
        
    def get_pdf_list(self, input_dir):
        pdf_list = []
        for root, dirs, files in os.walk(input_dir):
            if not self.var_subdir.get() and root != input_dir:
                continue
            for file in files:
                if file.lower().endswith('.pdf'):
                    pdf_list.append(os.path.join(root, file))
        return pdf_list
    
    def convert_files(self, input_dir, output_dir):
        self.pdf_files = self.get_pdf_list(input_dir)
        try:
            total_files = len(self.pdf_files)
            for index, pdf_path in enumerate(self.pdf_files):
                # 更新当前文件进度
                self.queue.put(("file_progress", (index+1, total_files, pdf_path)))
                
                # 构建输出路径
                relative_path = os.path.relpath(os.path.dirname(pdf_path), input_dir) if self.var_subdir.get() else ""
                output_path = os.path.join(output_dir, relative_path)
                os.makedirs(output_path, exist_ok=True)
                
                # 转换文件
                docx_path = os.path.join(output_path, f"{os.path.splitext(os.path.basename(pdf_path))[0]}.docx")
                cv = Converter(pdf_path)
                cv.convert(docx_path, progress_callback=self.update_page_progress)
                cv.close()
 
            self.queue.put(("complete", None))
        except Exception as e:
            self.queue.put(("error", str(e)))
    def update_page_progress(self, current, total):
        # 页面级别进度（每文件0-100%）
        progress = (current / total) * 100 if total != 0 else 0
        self.queue.put(("page_progress", progress))
 
    def process_queue(self):
        try:
            while True:
                msg_type, data = self.queue.get_nowait()
                
                if msg_type == "file_progress":
                    current, total, path = data
                    file_progress = (current / total) * 100
                    self.progress_bar['value'] = file_progress
                    self.progress_label.config(text=f"正在转换 {current}/{total}：{os.path.basename(path)}")
                
                elif msg_type == "page_progress":
                    # 综合进度 = 文件进度 + 页面进度/总文件数
                    current_file_progress = self.progress_bar['value']
                    page_progress = data / len(self.pdf_files)
                    self.progress_bar['value'] = current_file_progress + page_progress
                
                elif msg_type == "complete":
                    messagebox.showinfo("完成", "转换完成！")
                    if self.var_open.get():
                        os.startfile(self.ent_output.get())
                    self.btn_convert.config(state=tk.NORMAL)
                    self.progress_label.config(text="转换完成")
                
                elif msg_type == "error":
                    messagebox.showerror("错误", f"转换出错：{data}")
                    self.btn_convert.config(state=tk.NORMAL)
                    self.progress_label.config(text="转换出错")
 
        except queue.Empty:
            pass
        finally:
            self.master.after(100, self.process_queue)
if __name__ == "__main__":
    root = tk.Tk()
    app = PDFToWordConverter(root)
    root.mainloop()