使用joblib 多线程/多进程
文章目录
- 1. Joblib 并行计算的两种模式
-
- 多进程(Multiprocessing,适用于 CPU 密集型任务)
- 多线程(Multithreading,适用于 I/O 密集型任务)
- 2. Joblib 的基本用法
- 3. Joblib 多进程示例(适用于 CPU 密集型任务)
-
- 示例:计算平方
- 4. Joblib 多线程示例(适用于 I/O 密集型任务)
-
- 示例:爬取网页
- 5. 选择合适的并行模式
- 6. 使用 parallel_backend 控制后端
- 7. parallel_backend 与 Parallel 直接指定 backend 的区别
-
-
- 区别
-
joblib 是一个 Python 库,用于高效的并行计算和缓存。它支持 多进程(multiprocessing) 和 多线程(multithreading),主要用于加速 CPU 密集型和 I/O 密集型任务。
1. Joblib 并行计算的两种模式
多进程(Multiprocessing,适用于 CPU 密集型任务)
每个任务在单独的进程中执行,避免 GIL(全局解释器锁)限制。
适用于 数值计算、矩阵运算、图像处理等 CPU 密集型任务。
后端:multiprocessing 或 loky(默认)。
多线程(Multithreading,适用于 I/O 密集型任务)
线程共享同一个进程,适用于 文件 I/O、网络请求、数据库查询等任务。
由于 Python 的 GIL,不适用于 CPU 密集型任务。
后端:threading。
2. Joblib 的基本用法
joblib 的并行计算主要通过 Parallel 和 delayed 来实现:
from joblib import Parallel, delayed
results = Parallel(n_jobs=4)(delayed(func)(x) for x in iterable)
n_jobs=4:使用 4 个线程或进程并行计算。
delayed(func)(x):将 func(x) 延迟执行,供 Parallel 并行调度。
3. Joblib 多进程示例(适用于 CPU 密集型任务)
示例:计算平方
import time