Linux 多线程(理论+实践)
1. Linux下的线程概念
Linux 线程是 Linux 操作系统中实现多线程编程的一种机制。在 Linux 中,线程被视为轻量级的进程,它们共享同一个进程的地址空间和其他资源(如文件描述符、信号处理程序等),但每个线程都有自己的线程上下文(包括线程ID、栈空间、程序计数器等),以及独立的调度优先级和状态。
Linux设计者认为进程和线程都是执行流具有极高的相似度,因此没有必要单独设计一套数据结构和算法,直接复用进程代码。因此搞懂了Linux进程,线程也就容易了。进程相关知识
在有多线程技术时,一个进程可以有一个或多个执行流,但是在Linux中cpu依然以task_struct为单位进行调度。
1.1线程vs进程
线程的优点
1.创建一个新线程的代价要比创建一个新进程小得多
2.与进程之间的切换相比,线程之间的切换需要操作系统做的工作要少很多
3.线程占用的资源要比进程少很多
4.能充分利用多处理器的可并行数量
5.在等待慢速I/O操作结束的同时,程序可执行其他的计算任务
6.计算密集型应用,为了能在多处理器系统上运行,将计算分解到多个线程中实现
7.I/O密集型应用,为了提高性能,将I/O操作重叠。线程可以同时等待不同的I/O操作。
线程的缺点
1.性能损失
一个很少被外部事件阻塞的计算密集型线程往往无法与共它线程共享同一个处理器。如果计算密集型线程的数量比可用的处理器多,那么可能会有较大的性能损失,这里的性能损失指的是增加了额外的同步和调度开销,而可用的资源不变。
2.健壮性降低
编写多线程需要更全面更深入的考虑,在一个多线程程序里,因时间分配上的细微偏差或者因共享了不该共享的变量而造成不良影响的可能性是很大的,换句话说线程之间是缺乏保护的。
3.缺乏访问控制
进程是访问控制的基本粒度,在一个线程中调用某些OS函数会对整个进程造成影响。
4.编程难度提高
编写与调试一个多线程程序比单线程程序困难得多
进程是资源分配的基本单位;线程是调度的基本单位
线程共享进程数据,但也拥有自己的一部分数据:
线程ID 一组寄存器(存储自己的上下文信息)
栈(每个线程都有临时数据,都需要压栈出栈,各自独立)
errno 信号屏蔽字 调度优先级
共享同一地址空间,因此代码段(Text Segment)、数据段(Data Segment)都是共享的:
如果定义一个函数,在各线程中都可以调用;
如果定义一个全局变量,在各线程中都可以访问到;
除此之外,各线程还共享以下进程资源和环境:
文件描述符表
每种信号的处理方式(SIG_ IGN、SIG_ DFL或者自定义的信号处理函数)
当前工作目录
用户id和组id
2.线程的使用
2.1创建线程
功能:创建一个新的线程
原型
int pthread_create(pthread_t *thread, const pthread_attr_t *attr, void *
(*start_routine)(void*), void *arg);
参数
thread:返回线程ID
attr:设置线程的属性,attr为NULL表示使用默认属性
start_routine:是个函数地址,线程启动后要执行的函数
arg:传给线程启动函数的参数
返回值:成功返回0;失败返回错误码
pthread_ create函数会产生一个线程ID,存放在第一个参数指向的地址中。该线程ID和前面说的线程ID
不是一回事。
前面讲的线程ID属于进程调度的范畴。因为线程是轻量级进程,是操作系统调度器的最小单位,所以需要
一个数值来唯一表示该线程。
pthread_ create函数第一个参数指向一个虚拟内存单元,该内存单元的地址即为新创建线程的线程ID,
属于NPTL线程库的范畴。线程库的后续操作,就是根据该线程ID来操作线程的。
线程库NPTL提供了pthread_ self函数,可以获得线程自身的ID:
pthread_t pthread_self(void);pthread_t 到底是什么类型呢?取决于实现。对于Linux目前实现的NPTL实现而言,pthread_t类型的线程ID,本质
就是一个进程地址空间上的一个地址。
2.2线程终止
pthread_exit函数
功能:线程终止
原型
void pthread_exit(void *value_ptr);
参数
value_ptr:value_ptr不要指向一个局部变量。
返回值:无返回值,跟进程一样,线程结束的时候无法返回到它的调用者(自身)需要注意,pthread_exit或者return返回的指针所指向的内存单元必须是全局的或者是用malloc分配的,不能在线程函数的栈上分配,因为当其它线程得到这个返回指针时线程函数已经退出了。
pthread_join函数
功能:等待线程结束
原型
int pthread_join(pthread_t thread, void **value_ptr);
参数
thread:线程ID
value_ptr:它指向一个指针,后者指向线程的返回值
返回值:成功返回0;失败返回错误码
分离线程pthread_detach函数
默认情况下,新创建的线程是joinable的,线程退出后,需要对其进行pthread_join操作,否则无法释放资源,从而造成系统泄漏。
如果不关心线程的返回值,join是一种负担,这个时候,我们可以告诉系统,当线程退出时,自动释放线程资源。
2.3线程同步与互斥
线程同步
- 信号量(Semaphore):
- 用于控制对共享资源的访问数量,允许多个线程同时访问,但访问数量有限制。
- 信号量维护一个计数器,表示当前可用的资源数量。每当一个线程访问共享资源时,计数器减一;线程释放资源时,计数器加一。
- 当计数器为零时,表示没有可用资源,其他线程必须等待。
- 条件变量(Condition Variable):
- 用于线程间的同步,允许一个或多个线程等待某个条件成立时被唤醒。
- 通常与互斥锁一起使用,以确保对共享数据的访问是安全的。
- 读写锁(Reader-Writer Lock):
- 允许多个线程同时读取共享资源,但在写入时独占资源。
- 提高了读取操作的并发性,同时保证了写入操作的原子性和一致性。
线程互斥
- 互斥锁(Mutex):
- 用于保护共享资源,确保同一时刻只有一个线程能够访问该资源。
- 互斥锁具有原子性和唯一性,即加锁和解锁操作是原子的,且同一时刻只有一个线程能够持有锁。
- 互斥锁适用于不同进程间的多线程同步。
- 自旋锁(Spinlock):
- 一种特殊的互斥锁,当线程尝试获取锁失败时,它会一直循环检查锁是否可用,而不是进入阻塞状态。
- 自旋锁适用于锁持有时间较短的场景,以避免线程切换带来的开销。
- 信号量(作为互斥手段):
- 虽然信号量主要用于控制访问数量,但也可以将最大访问数量设置为1,从而将其用作互斥锁。
- 这样,信号量就实现了与互斥锁相同的功能,即确保同一时刻只有一个线程能够访问共享资源。
3.两种生产者消费者模型,线程池代码实现
线程池,阻塞队列式生产者消费者模型,环形队列式生产者消费者模型