《Rust权威指南》学习笔记(四)
配置文件
1.在Rust项目中,release和dev配置文件是两种不同的构建配置。dev配置(运行cargo build、cargo run等命令时会使用)用于开发阶段,它侧重于快速编译和调试,启用了更多的调试信息和编译器检查,因此生成的二进制文件可能比较大,执行速度相对较慢。它通常包括调试信息、内存安全检查等,这有助于开发过程中发现问题并进行调试。相比之下,release配置(运行cargo build --release命令时会使用)用于发布阶段,目标是优化性能和减少二进制文件的体积。编译器会进行更严格的优化,如代码内联、循环展开等,以提高执行效率。在这个配置下,调试信息被剥离,生成的二进制文件较小,执行速度更快。选择合适的配置可以帮助开发者在调试时获得更多的信息,在发布时获得更高的性能和更小的体积。如下图所示:
这两个配置可以在Cargo.toml文件中设置,如下图所示,其中opt-level表示优化程度:
2.文档注释:在Rust中,文档注释使用///进行标记,通常位于所注释项(如函数、结构体、模块等)之前。通过这种注释,可以自动生成文档,使代码更易于理解和维护。文档注释使用Markdown语法,可以包含文字说明、代码示例、列表等。Rust的文档生成工具rustdoc会自动提取这些注释,并生成HTML格式的可阅读文档。使用cargo doc命令,会运行rustdoc工具把生成的HTML文件放在target/doc目录下,cargo doc --open命令可以构建当前crate的文档并在浏览器中打开。在Rust的文档注释中,常用的章节标签包括:Examples (# Examples): 提供代码示例,展示如何使用函数或结构体;Panics (# Panics): 描述函数可能引发的恐慌(panic)情况;Errors (# Errors): 说明函数可能返回的错误类型和条件;Safety (# Safety): 主要用于不安全代码,描述使用不安全代码段的安全假设和要求;See Also (# See Also): 提供相关文档或代码部分的链接。这些章节有助于提高文档的清晰度和可用性,帮助使用者更好地理解和使用代码。cargo test命令会把文档注释中的示例代码作为测试来运行。使用//!进行的注释称为模块级文档注释。这种注释通常用于文件的顶部或模块的开头,用于为整个模块或文件提供说明和文档。与///用于单个项(如函数、结构体)前面的注释不同,//!注释能够为导入此模块的用户提供全局性的背景信息和使用指南。如下图是一个文档注释示例:
3.使用pub use可以重新导出并创建一个与内部私有结构不同的对外公共结构API,这样其他程序在使用当前crate中的某些结构体或函数时就不用再给出完整的use路径,如下图所示:
4.在Rust中,Cargo的工作空间(workspaces)是一个用于管理多个相关包(crate)的功能,允许在一个项目中组织和构建多个包,将它们视为一个整体。一个workspace可以包含多个package。工作空间具有以下几个关键特性:共享Cargo.lock文件:工作空间中的所有包共享一个Cargo.lock文件,这确保了这些包在一起开发时使用的依赖版本是一致的,避免了不同包之间的版本冲突;共享target目录:工作空间中的所有包共享同一个target目录,这可以减少编译生成物的重复构建,节省磁盘空间和构建时间;集中管理:可以从工作空间的根目录运行cargo build、cargo test等命令,同步构建和测试所有成员包;独立包:尽管工作空间内的包共享某些配置,它们仍可以是彼此独立的,拥有各自的特定依赖和定义。创建一个工作空间通常涉及在项目根目录下的Cargo.toml文件中定义一个[workspace]部分,指定包含哪些成员包(通常是子目录),从而构成一个整体协同的项目。这种结构非常适合于大型项目中的模块化开发。如下图所示:
5.使用cargo install命令可以安装二进制crate文件,只能安装具有二进制目标的crate(是一个可运行程序,由拥有src/main.rs或其它被指定为二进制文件的crate生成),这个命令安装的二进制存放在根目录的bin文件夹中,默认是$HOME/.cargo/bin。
6.在Rust中,可以通过自定义命令来扩展Cargo的功能。这种扩展机制允许开发者创建自己的Cargo子命令,并将其集成到Cargo的工作流中。创建自定义命令 在项目的根目录下创建一个名为cargo-<command_name>的可执行文件(如果是Windows,则为cargo-<command_name>.exe)。这个文件就是自定义命令,它可以是Rust编写的二进制程序,也可以是shell脚本或其他可执行文件。一旦自定义命令可执行,就可以在终端上直接使用cargo <command_name>来调用它,Cargo会自动发现并执行这个命令。
智能指针
1.在Rust中,引用&是最常见的指针类型,智能指针行为和指针相似,但有额外的数据和功能。引用计数智能指针类型通过记录所有者数量使一份数据被多个所有者同时持有,并在没有任何所有者时自动清理数据。智能指针和引用的主要区别在于:智能指针自动管理内存,拥有对象所有权,超出作用域时自动释放资源,避免手动管理复杂性;引用则是对对象的借用,不拥有所有权,不能管理内存,生命周期由原始所有者控制。例如String和Vec<T>就是智能指针。智能指针通常使用struct实现,并且都实现了Deref和Drop两个trait,Deref trait允许智能指针struct的实例像引用一样使用,Drop trait允许自定义当智能指针实例走出作用域时的代码。
2.编译时,Rust 需要知道每个类型所占空间的大小,以便正确分配内存。栈上的数据大小必须在编译时确定,以便分配足够的栈空间。对于堆上的数据,虽然大小在编译时也需知道以进行内存分配,但实际数据管理在运行时进行。动态大小类型(如str和dyn Trait)的大小在编译时未知,Rust通过指针和附加元数据来处理这些类型,确保内存安全和高效管理。而对于递归类型的数据,在编译时无法确定其大小,可以通过Box<T>来实现(Box<T>的大小是固定的,指针的大小不会基于它所指向的数据的大小变化而变化)。Rust编译器通过计算enum中最大变体的大小和对齐要求来确定enum的总大小,同时还需要为变体标签分配空间。这样,enum可以在运行时正确处理不同变体的值和类型。如下图因无法确大小而报错:
3.Cons List是一种链表数据结构,广泛用于函数式编程。它由两个部分组成:Cons节点包含一个元素和指向下一个Cons List节点的指针;Cons List最后一个节点成员只包含Nil表示链表的结束。Cons List 通常是不可变的,即一旦创建后,链表的结构无法修改。与NULL的区别在于,Nil是Cons List中的合法终结值,表示链表的结束,而NULL是一种泛用的空指针值,用于指示没有有效对象的情况。
4.Box<T>是Rust标准库中的一个智能指针类型,用于在堆上分配内存,它实现了Deref trait和Drop trait。Box<T>可以被视为一个包含两个主要部分的结构体:一个Unique<T>指针,指向堆上分配的数据;一个分配器A,负责管理内存的分配和释放。如下图所示:
在Rust中,普通的变量一般存储在栈上,而 Box<T>可以将数据存储在堆上。某些类型在编译时无法确定其大小,这类类型不能直接放在栈上。使用Box<T>可以在堆上存储这种类型,并通过固定大小的指针来访问它。Rust不允许递归类型直接出现在栈上,因为这会导致编译器无法计算出类型的大小。通过Box<T>,可以将递归类型的子项放在堆上,从而绕过这个限制。如下图所示:
Box<T>拥有其存储的值,遵循Rust的所有权规则,当Box<T>被销毁时,堆上的内存也会被释放,这使得 Box<T> 成为一种安全的堆内存管理方式。Box::new(x)返回的是一个Box<T>类型的值,它是一个智能指针,它拥有堆上数据的所有权。当Box<T>离开它的作用域时,它会自动释放堆上分配的内存,这个过程是通过Drop trait实现的。由于Box<T>实现了Deref trait,可以通过解引用操作符*来访问Box中存储的值,就像访问指针所指向的值一样。Deref trait会返回一个指向内部数据的引用,使得使用*运算法时相当于使用*(y.deref()),如下图所示:
由于Box<T>是一个拥有所有权的智能指针,因此它遵循Rust的所有权规则。可以将Box<T>传递给其他函数或变量,这会移动其所有权,而不是复制它。在传递时,所有权转移后,原来的变量将无法再使用 Box<T>,因为它已经失去了对堆上数据的控制。
5.隐式解引用转换(Deref Coercion)是Rust中的一种特性,允许在对一个类型进行解引用时自动转换为另一类型。这通常用于简化代码,使得对某个类型的操作可以像对其内部类型一样进行,减少显式的转换和解引用操作。当对一个实现了Deref trait的类型进行解引用操作时,Rust会自动将其转换为Deref trait中定义的目标类型。这意味着你可以使用实现了Deref的类型的某些方法,而无需显式转换。如下图所示:
在目标类型和Deref trait中的Target类型在下列三种情况下时,Rust会执行隐式解引用转换:1当T:Deref<Target=U>,允许&T转换为&U;2当T:DerefMut<Target=U>,允许&mut T转换为&mut U;当T:Deref<Target=U>,允许&mut T转换为&U。也就是说不能让不可变引用转换为可变引用,因为可能导致有多个可变引用同时存在,造成内存不安全。再如下图,有好几个隐式解引用发生:
6.实现Drop trait可以让我们自定义当值要离开作用域时发生的动作,Drop trait的drop 方法在对象生命周期结束时自动调用,用于释放资源。当一个对象的作用域结束时,它会按照逆序(即从内到外)调用drop方法。如果一个对象包含其他对象(例如,嵌套结构或拥有子对象),这些子对象的drop方法会在外部对象之前被调用。也就是说,最内层的对象会最早被清理。如下图所示:
Drop trait的drop方法只会被调用一次,并且用户程序无法手动调用这里的drop方法,但是可以使用std::mem::drop函数来提前drop释放某个值,如下图所示:
7.Rc<T>是Rust标准库中的一个智能指针(并不在prelude预导入模块中,需要通过use std::rc::Rc导入),它是非线程安全的,所以只能用于在单线程环境中共享数据。Rc代表“引用计数”(Reference Counted,实质是不可变引用),这个数据值的多个所有权由Rc<T>实例管理,它通过内部的引用计数来追踪有多少个Rc<T>实例引用同一数据。当引用计数降为零时,即没有更多的Rc<T>实例指向数据时,数据会被自动释放。它通过一个内部结构RcBox<T>来存储实际的数据和引用计数,如下图所示:
创建Rc<T>实例时,内部结构中的引用计数被初始化为1,表明有一个所有者。每当克隆Rc<T>时,引用计数会递增,当Rc<T>被丢弃时,引用计数递减。Rc<T>提供了类似Deref和DerefMut的实现,使得可以像直接使用数据一样使用Rc<T>。使用Rc<T>的典型场景包括需要多个所有者的情况,如树结构中的节点。注意Rc<T>与Box<T>的区别,Box<T>是一个拥有所有权的智能指针,所有权是不能被共享的,只能转移,如下图所示,使用Box<T>会报错,而可以使用Rc<T>:
8.Rc::clone是Rc<T>的静态方法,它用于增加引用计数,并返回一个新的Rc<T>实例,这个新实例指向相同的数据。它不会进行深度拷贝,而是通过增加引用计数来管理数据共享,调用方式为Rc::clone(&rc_instance)。而一般的类型clone()方法,会进行深度拷贝。可以通过Rc::strong_count(&rc_instance)获取强引用计数值。当使用Rc::clone时,新的变量并不拥有数据的所有权,而是与原始Rc指针共享对数据的所有权。这种共享方式使得多个Rc实例可以访问相同的数据,同时自动管理数据的内存释放。
9.内部可变性(Interior Mutability):允许在不可变的结构体或对象内部进行修改,这种机制通过特殊的数据结构和类型来实现,确保在数据的不可变性表面下,能够安全地修改其内部状态,内部可变性的主要目的在于提供对数据的灵活性和线程安全。
10.Rust编译器是设计得非常保守,以确保在编译阶段尽可能地捕获错误并提供安全性,保持代码在运行时的安全性和稳定性。默认情况下Rust在编译阶段进行借用规则检查,编译时检查能在代码执行前捕捉到潜在的借用错误,避免了运行时错误和数据竞争,从而确保代码在编译后是安全和一致的,这样的检查能显著减少运行时开销,因为编译器已提前验证了所有可能的借用冲突。然而,编译阶段检查的灵活性较低,可能限制某些动态行为的实现,例如内部可变性。在这些情况下,运行时检查,如RefCell提供的机制,则允许在不可变上下文中进行修改,并在运行时进行借用检查。虽然运行时检查能提供更多的灵活性,允许更复杂的动态行为,但它可能引入额外的开销和潜在的性能损失,因为错误检查和数据一致性是在程序运行时进行的。
11.RefCell<T>是Rust中用于提供内部可变性的类型,它允许在不可变的上下文中修改数据,并在运行时进行借用检查,但它只能用于单线程的场景。RefCell通过其内部字段管理借用状态,以确保在运行时没有违反借用规则。核心字段borrow使用Cell<BorrowFlag>来跟踪当前的借用情况,其中BorrowFlag是一个标志,指示是否存在活跃的不可变借用或可变借用。Cell类型使得借用状态能够在运行时进行原子操作,从而维护数据的安全性。若尝试在已有可变借用的情况下进行另一个可变借用,RefCell会引发运行时错误,防止数据竞争和不一致。如下图所示:
在Rust的RefCell<T>类型中,borrow和borrow_mut是用于借用内部数据的两个主要方法。borrow方法用于获取对RefCell中数据的不可变借用。调用borrow后,返回一个Ref<T>,它是对T的不可变引用。多个Ref实例可以同时存在,但不能同时有可变借用。borrow方法会在运行时检查当前是否已有可变借用(RefMut)存在,如果存在,它会引发BorrowError,否则返回一个不可变借用。borrow_mut方法用于获取对RefCell中数据的可变借用,调用borrow_mut后,返回一个RefMut<T>,它是对T的可变引用,此时RefCell只能有一个活跃的可变借用,不能同时有任何不可变借用。
12.Box<T>、Rc<T>和RefCell<T>的区别如下:
以下是一个混和使用Rc<T>和RefCell<T>的例子:
13.Rust的内存安全机制可以保证很难发生内存泄漏,但不是不可能,例如使用Rc<T>和RefCell<T>就可能创造出循环引用,从而发生内存泄漏:每个项的强引用计数都不变成0,值也就不会被处理掉,如下图所示(对于a.tail()可以直接调用和item返回值的类型不匹配问题是因为Rust的自动解引用):
上面这段代码会导致下图所示的循环引用,所以a、b的强引用计数永远不会减少到0,导致a、b永远不会被释放造成内存泄漏:
上述代码中最后一行的println!语句由于递归的格式化输出最终会导致栈溢出。防止内存泄漏和循环引用,可以将Rc<T>换成Weak<T>。强引用会增加强引用计数,确保值在引用存在期间不会被回收,只有当所有强引用都被丢弃强引用计数变为0时,资源才会被释放。与强引用不同,弱引用不会阻止被引用的数据被回收(弱引用计数不为0也可释放资源),强引用计数为0时弱引用会自动断开,这对于避免循环引用非常有用。Rc::downgrade方法用于创建一个弱引用(Weak),返回类型为只能指针Weak<T>,要从Weak<T>实例获取Rc<T>,可以调用upgrade方法,这会从Weak<T>生成一个Option<Rc<T>>,如果原始的Rc<T>仍然存在,upgrade会返回Some(Rc<T>),否则返回None。
并发
1.运行时(Runtime)是指程序在实际执行过程中的环境和机制,包括内存管理、错误处理、线程调度等。它涵盖程序执行所需的库、系统服务和动态行为,确保程序从启动到终止的正确运行。Rust标准库进提供1:1的线程模型。
2.在Rust中,thread::spawn是用于创建新线程的函数,允许在程序中并发地执行代码,该函数会启动一个新的线程,并执行指定的闭包(closure)代码。新的线程会和主线程并发运行,主线程执行完会直接退出程序,并不会等待其他线程完成。通过thread::spawn创建的线程返回一个JoinHandle类型的值,这个JoinHandle可以用来等待线程完成并获取线程的返回值(如果有的话),主线程可以通过调用JoinHandle的join方法来阻塞,直到新线程完成执行。join方法返回一个Result类型,可以用unwrap()来判断是否发生错误。thread::sleep函数用于使当前线程休眠一段时间。如下图所示:
可以用将move闭包和thread::spawn函数一起使用,来使用其他线程的数据,如下图所示:
3.在 Rust 中,通道(Channel)是一种用于线程间通信的机制,允许线程安全地传递消息。Rust 的标准库提供了std::sync::mpsc模块中的通道实现,用于在多线程环境中发送和接收数据。mpsc代表 "multiple producer, single consumer"(多生产者,单消费者)的缩写,意味着通道支持多个发送端(生产者)和一个接收端(消费者)。mpsc::channel函数用于创建通道,该函数返回一个元组,元组中的两个元素分别是发送端和接收端(即(send,recv)),如下图所示,可使用send方法发送消息,该方法返回一个Result类型,如果接收端已经关闭(即没有接收端),send会返回一个Err。可使用recv或try_recv方法接收消息,recv方法会阻塞当前线程,直到消息到达,try_recv方法是非阻塞的,如果没有消息则会立即返回Err,recv或try_recv返回的都是Result类型。一个通道的发送器 (Sender) 和接收器 (Receiver) 之间传递的数据类型是唯一确定的。当创建一个通道时,使用mpsc::channel()函数,这个函数返回一个Sender<T>和Receiver<T>,其中T是通道中传递的数据类型。这个类型T一旦确定,就不能在同一个通道中改变。这意味着通过Sender<T>发送的消息和Receiver<T>接收的消息必须是同一种类型T。
可以循环发送,如下图:
还可以通过克隆创建多个发送者,通过不同线程同时发送,如下图:
send方法会转移所有权,如下图中报错的地方:
4.在Rust中,mutex(互斥锁)是用于在多线程环境中实现线程安全的共享数据访问的一种同步原语。mutex可以确保在同一时间只有一个线程能够访问被保护的数据,从而防止数据竞争和并发修改问题。要访问mutex中的数据,必须首先获取锁,使用完mutex所保护的数据后必须对数据进行解锁以便其他线程够可以获取锁。mutex定义在std::sync模块下,可以用过Mutex::new(数据)来创建锁Mutex<T>,Mutex<T>实质上也是一个智能指针,访问数据前可用lock方法获取锁(Rust中没有unlock方法),它会阻塞当前线程直到成功获取锁,该方法返回MutexGuard,MutexGuard是一个智能指针,它在作用域结束时会自动释放锁。下图是一个例子:
Arc<T>是一个与Rc<T>类似的智能指针,可用于进行原子引用计数(需要性能作为代价),用在并发情景,如下图所示:
5.在Rust中,Send和Sync是两个重要的trait,用于描述类型在多线程环境中的安全性和行为,它们用于确保线程安全和同步。Send是一个标记trait,用于表示一个类型的值可以安全地在线程之间传递,如果一个类型实现了Send,则它的值可以被移动到其他线程中。大多数Rust标准库中的类型都实现了Send,它们在多线程环境中是线程安全的。Sync是一个标记trait,用于表示一个类型的引用可以安全地在多个线程之间共享。如果一个类型实现了Sync,则它的引用可以安全地被多个线程同时访问。Rc不实现Send的原因是Rc的引用计数不是线程安全的。Rc依赖于非原子的引用计数,这意味着如果多个线程同时操作Rc,可能会导致数据竞争和不安全的行为。因此,Rust不允许Rc被安全地移动到其他线程中。在多线程环境中使用线程安全的引用计数智能指针,如Arc(原子引用计数),是Rc的替代品。Arc是线程安全的,可以在多个线程之间安全地共享数据。Arc实现了Send和Sync,因为它使用原子操作来管理引用计数,从而确保线程安全。
6.在Rust中,trait对象是一种用于实现动态分发(dynamic dispatch)的机制,使得在运行时可以通过trait动态调用方法,而不需要在编译时确定具体的类型,这提供了一种在不知道具体类型的情况下使用trait中定义的方法的能力。它通过特征对象(dyn Trait)实现,特征对象包含一个指向实际对象的指针和一个虚表(vtable),vtable存储了所有可能的函数实现的指针,在调用时Rust会查找vtable并调用正确的函数实现。这种方式引入了一些运行时开销,因为它需要在运行时进行函数查找和调用。dyn trait语法:在Rust2018版本之后,dyn关键字用来明确表示trait对象的动态性质。例如,Box<dyn Animal>表示一个存储Animal trait对象的Box。由于trait对象的大小在编译时不可知(因为它可能指向不同的具体类型),通常需要通过智能指针(如Box、Rc、Arc)来包装它们,这些智能指针能处理不确定大小的问题。trait对象与泛型的区别:主要区别在于动态分发与静态分发,trait对象(如Box<dyn Trait>)允许在运行时通过trait调用方法,实现动态分发,适用于需要运行时类型决策的场景。泛型(如<T>)在编译时确定具体类型,通过静态分发提供类型安全和性能优化。泛型提供编译时的类型检查,而trait对象的类型在运行时决定,因此泛型通常比trait对象更高效。对象安全(object safety)是trait能否被用作trait对象的一个关键条件,一个trait只有在满足特定条件时,才能安全地用于trait对象。对象安全的条件:没有Self作为方法的返回类型(因为Self代表实现该trait的具体类型,而trait对象的具体类型在编译时并不确定)、方法参数不能是Self或&Self、方法的泛型参数不能依赖于Self。
7..take()方法在Rust中用于Option<T>和迭代器。对Option使用时,它取出内部值并返回,同时将Option设为None。在迭代器上,.take(n)创建一个新迭代器,仅生成前n个元素。
8.状态模式(state pattern)是一个面向对象设计模式。该模式的关键在于定义一系列值的内含状态。这些状态体现为一系列的状态对象,同时值的行为随着其内部状态而改变。
模式匹配
1.在Rust中,模式是用于匹配和解构数据结构的工具。模式可以用来检查一个值的形态、提取数据、验证某种结构或条件是否成立。常见的模式包括字面值、变量绑定、枚举变体、结构体和元组的解构、以及通配符_。通过模式匹配,程序可以根据数据的不同形态执行不同的逻辑。Rust中的match表达式和iflet语法结构利用模式来简化条件判断和数据提取,使代码更简洁、明确。
2.if let用于检查某个值是否匹配特定模式,如果匹配成功则执行相应的代码。if let主要用于Option和Result类型的匹配。基本语法是if let模式=表达式{//匹配成功时执行的代码}。在匹配成功时,可以直接解构并使用值,而在匹配失败时,可以选择执行一个else分支。下图是一个例子:
while let循环是Rust中的一种模式匹配循环结构,用于在满足特定模式时持续执行代码。它的基本语法是while let模式=表达式{//匹配成功时执行的代码}。该循环会不断评估表达式,直到其不再匹配指定的模式为止。如下图所示:
下图展示的是for循环中的模式匹配:
实质上let语句也是模式匹配,如:let (x,y,z)=(1,2,3);。
3.在Rust中,模式匹配可以分为可辨驳(irrefutable)和不可辩驳(refutable)模式。不可辨驳模式是指那些总能匹配成功的模式。最典型的不可辨驳模式是_(通配符),它可以匹配任何值,不管值是什么,_都会匹配成功。可辩驳模式则是那些可能无法匹配成功的模式,这包括match表达式中的复杂模式,比如Option的Some(value)或Result的Err(error)。这些模式只能在满足某些条件时匹配成功,而在其他情况下可能不会匹配。函数参数、let语句、for循环只能使用不可辩驳模式。if let语句、while let语句接受可辨驳和不可辩驳的模式。
4.在Rust中,match表达式内的模式绑定变量只能在匹配分支的代码块{}内有效。外部定义的变量可以在match语句内使用,并在match之后继续使用。使用match可以灵活地处理和更新外部定义的变量,但模式匹配的局部变量不会在match语句外部可见。如下图所示,result的值在match中被修改,value是match中的局部变量,命名变量是可匹配任何值的不可辩驳模式,所以option与Some(value)相匹配。
在match表达式中,使用|语法可以匹配多种模式,如下图所示:
可以使用..=来匹配某个范围的值,如下图所示:
使用模式匹配结构struct例子如下图所示:
可以使用_来忽略整个值或者部分值,示例如下:
可以使用_开头命名变量来忽略未使用的变量,如:let _x=5;此时如果x未使用则不会发生警告。可以使用..来忽略值的剩余部分,如下图所示:
可使用match守卫来提供额外的条件,match守卫就是match分支模式后额外的if条件,想要匹配该条件还必须满足if条件,如下图所示:
@符号让我们可以创建一个变量,该变量可以在测试某个值是否与模式匹配的同时保留该值,如下图: