当前位置：首页 > article >正文

深入理解string：从模拟实现看本质

article 2025/3/12 22:19:10

文章目录

摘要：
一、引言
二、string的模拟实现
- 2.1 string类的定义
三、深拷贝和深赋值
- 3.1 深浅拷贝构造函数
- 3.2 深赋值运算符
四、总结
五、附录
- 5.1 完整代码
- 6.2 测试用例
六、致谢

摘要：

本文将通过模拟实现一个简单的 String 类，深入探讨字符串的底层实现原理，包括内存管理、深浅拷贝、深赋值、常用操作以及性能优化等方面，帮助读者更好地理解和使用字符串。

关键词： String, 模拟实现, 内存管理, 深浅拷贝, 深赋值, 字符串操作, 性能优化

一、引言

在 C++ 中，string 是一个表示字符串的类，它提供了一系列用于字符串操作的方法。string 类的对象可以存储文本数据，支持多种操作，如赋值、连接、比较和搜索。本文将通过模拟实现string类来理解string的底层实现原理，并以此为基础，深入探讨字符串的相关知识。

二、string的模拟实现

2.1 string类的定义

我们首先定义一个 String 类，包含以下成员变量和成员函数：

成员变量：
- char* _str = nullptr; ：字符串
- size_t _size = 0; ：字符串的长度
- size_t _capacity = 0; ：字符串的容量
成员函数：
- 构造函数、析构函数、拷贝构造函数、赋值运算符。
- 常用操作：字符串连接、子串查找、字符串比较、访问元素、获取长度等。
- 常用操作符：==、!=、>>、<<等。

namespace dza 
{
	class string {
	public:
		///*重新定义一个新的变量名*///
		//typedef char* iterator;

		using iterator = char*;
		using const_iterator = const char*;

		/*成员函数*/

		//构造函数
		string(const char* str = "");
		string(const string& s);
		string& operator=(string s);

		//析构函数
		~string();

		///*迭代器*/

		iterator begin()
		{
			return _str;
		}

		iterator end()
		{
			return _str + _size;
		}

		const_iterator begin() const
		{
			return _str;
		}

		const_iterator end() const
		{
			return _str + _size;
		}

		size_t size() const
		{
			return _size;
		}

		const char* c_str() const
		{
			return _str;
		}

		//*容量操作*
		
		//预留空间
		void reserve(size_t len);
		
		void clear()
		{
			_str[0] = '\0';
			_size = 0;
		}

		*元素访问*//
        
		//[]元素符重载
		char& operator[](size_t i)
		{
			assert(i < _size);

			return _str[i];
		}

		const char& operator[](size_t i) const
		{
			assert(i < _size);

			return _str[i];
		}

		/*修饰符*/

		// 尾插
		void push_back(char ch);

		// 尾插
		void append(const char* str);

		// +=运算符的重载
		string& operator+=(char ch);
		string& operator+=(const char* str);

		//头插
		void insert(size_t pos, char ch);
		void insert(size_t pos, const char* str);

		//擦除
		void erase(size_t pos, size_t len = npos);

		//交换
		void swap(string& s);

		*字符串操作*///

		//寻找
		size_t find(char ch, size_t pos = 0);
		size_t find(const char* str, size_t pos = 0);

		//在一个字符串里面拷贝构造一个子字符串
		string substr(size_t pos,size_t len = npos);

		///*非成员函数重载*

	private:
		//因为是私有成员。初始化列表的时候会按照这里初始化的顺序进行初始化。为了防止初始化列表出现问题。建议直接在定义的时候初始化
		//如果这里没有初始化，初始化列表的时候可能会因为搞错初始化的顺序而导致程序报错
		char* _str = nullptr;
		size_t _size = 0;
		size_t _capacity = 0;

	public:
		// static const size_t npos = -1;
		static const size_t npos;// 这里的npos编译器自动初始化为0.但是在.cpp文件中又重新初始化为-1
	};

	void swap(string& s1, string& s2);
	bool operator== (const string& lhs, const string& rhs);
	bool operator!= (const string& lhs, const string& rhs);
	bool operator< (const string& lhs, const string& rhs);
	bool operator> (const string& lhs, const string& rhs);
	bool operator<= (const string& lhs, const string& rhs);
	bool operator>= (const string& lhs, const string& rhs);

	ostream& operator<<(ostream& os,const string& str);
	istream& operator>>(istream& is,string& str);
	istream& getline(istream& is,string& str,char delim = '\n');
}

三、深拷贝和深赋值

3.1 深浅拷贝构造函数

默认的拷贝构造函数和赋值运算符是浅拷贝，即只复制指针的值，而不是指针指向的内存内容。这会导致多个对象共享同一块内存，从而引发以下问题：

修改一个对象会影响其他对象。
析构时可能导致重复释放同一块内存，引发程序崩溃。

深拷贝是指不仅复制指针的值，还复制指针指向的内存内容。

深拷贝与浅拷贝

3.2 深赋值运算符

深赋值运算符不仅需要深拷贝新内容，还需要释放原有内存，避免内存泄漏。同时，需要检查自我赋值的情况，避免释放自身内存导致错误。

以下是深赋值的实现：

String& String::operator=(const String& other) {
    if (this != &other) {                 // 检查自我赋值
        delete[] data;                    // 释放原有内存
        length = other.length;           // 复制长度
        data = new char[length + 1];     // 动态分配内存
        strcpy(data, other.data);        // 复制内容
    }
    return *this;                        // 返回当前对象的引用
}

四、总结

通过模拟实现 String 类，我们可以更深入地理解字符串的底层实现原理，包括内存管理、深浅拷贝、深赋值、常用操作以及性能优化等方面。在实际编程中，我们应该根据具体需求选择合适的字符串实现方式，并注意避免常见的内存错误和性能问题。

五、附录

5.1 完整代码

namespace dza {
	const size_t string::npos = -1;
	/*成员函数*/

	//完全通过初始化列表这种方式来初始化。可能会有问题
	/*string::string()
		:_str(new char[1]{ '\0' })
		, _size(0)
		, _capacity(0)
	{}*/

	//构造函数
	string::string(const char* str)
		:_size(strlen(str))//只初始化size
	{
		_capacity = _size;
		_str = new char[_size + 1];

		strcpy(_str, str);
	}

	//传统写法
	string::string(const string& s)
	{
		_str = new char[s._capacity + 1];
		strcpy(_str, s._str);
		_size = s._size;
		_capacity = s._capacity;
	}

	现代写法
	//string::string(const string& s)
	//{
	//	string tmp(s._str);
	//	swap(tmp);
	//}

	//传统写法
	string& string::operator=(string s)
	{
		if (this != &s)
		{
			delete[] _str;
			_str = new char[s._capacity + 1];
			strcpy(_str, s._str);
			_size = s._size;
			_capacity = s._capacity;
		}

		return *this;
	}

	现代写法
	//string& string::operator=(string s)
	//{
	//	swap(s);
	//	return *this;
	//}

	//析构函数
	string::~string()
	{
		delete[] _str;
		_str = nullptr;
		_size = 0;
		_capacity = 0;
	}

	///*迭代器*/
	void string::reserve(size_t n)
	{
		if (n > _capacity)
		{
			char* tmp = new char[n + 1]();
			//strcpy(_str, tmp);
			strcpy(tmp, _str);
			// strcpy和swap不一样。参数不能调换
			delete[] _str;
			_str = tmp;

			_capacity = n;
		}
	}

	// 插入字符
	void string::push_back(char ch)
	{
		//两种写法
		//第一种
		if (_size == _capacity)
		{
			reserve(_capacity == 0 ? 4 : _capacity * 2);
		}
		_str[_size] = ch;
		_size++;

		//第二种
		//insert(_size,ch);
	}

	// 插入字符串
	void string::append(const char* str)
	{
		//两种写法
		//①
		size_t len = strlen(str);
		if (_size + len > _capacity)
		{
			size_t newCapacity = 2 * _capacity;
			if (newCapacity < _size + len)
			{
				newCapacity = _size + len;
			}
			reserve(newCapacity);
		}

		strcpy(_str + _size, str);
		_size += len;

		②
		//insert(_size, str);
	}

	// 底层逻辑是push_back。所以和push_back的使用一样
	string& string::operator+=(char ch)
	{
		push_back(ch);

		return *this;
	}

	string& string::operator+=(const char* str)
	{
		append(str);

		return *this;
	}

	// 
	void string::insert(size_t pos, char ch)
	{
		assert(pos <= _size);

		if (_size == _capacity)
		{
			reserve(_capacity == 0 ? 4 : _capacity * 2);
		}

		size_t end = _size + 1;
		while (end > pos)
		{
			_str[end] = _str[end - 1];
			--end;
		}
		_str[pos] = ch;
		_size++;
	}

	void string::insert(size_t pos,const char* str)
	{
		assert(pos <= _size);

		size_t len = strlen(str);
		if (_size + len > _capacity)
		{
			size_t newCapacity = 2 * _capacity;
			if (newCapacity < _size + len)
			{
				newCapacity = _size + len;
			}
			reserve(newCapacity);
		}

		size_t end = _size + len;
		while (end > pos + len - 1)
		{
			_str[end] = _str[end - len];
			--end;
		}

		for (size_t i = 0; i < len; i++)
		{
			_str[pos + i] = str[i];
		}

		_size += len;
	}

	void string::erase(size_t pos, size_t len)
	{
		assert(pos < _size);

		if (len >= _size - pos)
		{
			_str[pos] = '\0';
			_size = pos;
		}
		else
		{
			size_t end = pos + len;
			while (end <= _size)
			{
				_str[end - len] = _str[end];
				++end;
			}
			_size -= len;
		}
	}

	size_t string::find(char ch,size_t pos)
	{
		assert(pos < _size);

		for (size_t i = pos; i < _size; i++)
		{
			if (ch == _str[i])
			{
				return i;
			}
		}

		return npos;
	}

	size_t string::find(const char* str, size_t pos)
	{
		assert(pos < _size);

		const char* ptr = strstr(_str + pos, _str);
		if (ptr == nullptr)
		{
			return npos;
		}
		else 
		{
			return ptr - _str;
		}
	}

	string string::substr(size_t pos, size_t len)
	{
		assert(pos < _size);

		if (len > (_size - pos))
		{
			len = _size - pos;
		}

		dza::string sub;
		sub.reserve(len);
		for (size_t i = 0; i < len; i++)
		{
			sub += _str[pos + i];
		}

		return sub;
	}

	void string::swap(string& s)
	{
		std::swap(_str,s._str);
		std::swap(_size,s._size);
		std::swap(_capacity,s._capacity);
	}

	///
	
	// 这个swap是为了防止没有使用定义内的swap。
	// 编译器自带的swap在交换时，会调用三次构造和三次析构。大大降低程序效率
	// 自己定义的swap就只是交换两个对象所指向的资源。效率快很多
	void swap(string& s1, string& s2)
	{
		s1.swap(s2);
	}

	bool operator== (const string& lhs, const string& rhs)
	{
		// strcmp。两个字符串相等返回0。lhs大于rhs返回大于0的数，lhs小于rhs返回小于0的数
		// 相等则是真，其余情况都是返回假
		return strcmp(lhs.c_str(), rhs.c_str()) == 0;
	}

	bool operator!= (const string& lhs, const string& rhs)
	{
		// 如果lhs等于rhs，则返回假
		// 如果lhs不等于rhs，则返回真。
		return !(lhs == rhs);
	}

	bool operator< (const string& lhs, const string& rhs)
	{
		// 如果lhs小于rhs。那么strcmp返回的是小于0的数。
		// 然后判断。若是小于0，则为真；其他情况都为假
		return strcmp(lhs.c_str(), rhs.c_str()) < 0;
	}

	bool operator> (const string& lhs, const string& rhs)
	{
		// 如果lhs大于rhs，则为假，返回假说明 rhs 不大于 lhs ；等于或者大于都是真，说明 rhs 大于等于 lhs
		return !(lhs <= rhs);
	}

	bool operator<= (const string& lhs, const string& rhs)
	{
		// lhs > rhs 为假，返回假，说明 lhs 不小于等于 rhs 。其余情况都说明 lhs 大于等于 rhs
		return lhs < rhs || lhs == rhs;
	}
	
	bool operator>= (const string& lhs, const string& rhs)
	{
		// 
		return !(lhs < rhs);
	}

	ostream& operator<<(ostream& os, const string& str)
	{
		// 遍历 str 的内容
		// 这个os是什么？return os是返回什么？
		for (size_t i = 0; i < str.size(); i++)
		{
			os << str[i];
		}
		return os;
	}

	istream& operator>>(istream& is, string& str)
	{
		// 在流插入之前，把字符串的内部清空
		str.clear();

		// 使用内置类型的数组。可以避免自定义类型的频繁扩容
		// 因为内置类型的数组空间开创在栈中，空间扩容比位于堆中的自定义类型方便
		int i = 0;
		char buff[256];

		// 定义一个ch，用来记录输入的数据
		// get()函数是编译器提供输入数据的函数。这里如果使用 >> 来输入数据，字符串就无法输入' ' 和 '\0'
		// get()则是用户自己定义结束标志
		char ch;
		//cin >> ch;
		ch = is.get();

		// 这里定义的结束标志为 ' ' 和 '\0'。与编译器一致
		while (ch != ' ' && ch != '\n')
		{
			// i++。记录输入的数据的实际长度
			buff[i++] = ch;
			// 如果数据长度超过256，那么先让str的长度扩大256。再把i清0。重新记录数据的长度
			if (i == 255)
			{
				buff[i] = '\0';
				str += buff;
				i = 0;
			}

			// 把数据放进数组中
			ch = is.get();
		}

		// 这里是避免ch已经读取完。但是buff数组里面还有残余的数据没有输入进str
		if (i > 0)
		{
			buff[i] = '\0';
			str += buff;
		}

		return is;
	}

	istream& getline(istream& is, string& str, char delim)
	{
		str.clear();

		int i = 0;
		char buff[256];

		char ch;
		ch = is.get();

		while (ch != delim)
		{
			buff[i++] = ch;
			if (i == 255)
			{
				buff[i] = '\0';
				str += buff;
				i = 0;
			}

			ch = is.get();
		}

		if (i > 0)
		{
			buff[i] = '\0';
			str += buff;
		}

		return is;
	}
}

6.2 测试用例

#include"string的模拟实现.h"

void test01()
{
	dza::string s1("123");
	cout << "s1.size() == " << s1.size() << endl;
	dza::string s2;
	cout << "s2.size() == " << s2.size() << endl;

	// push_back只能插入一个字符
	s2.push_back('h');
	s2.push_back('e');
	s2.push_back('l');
	s2.push_back('l');
	s2.push_back('o');

	for (auto& ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;

	s1.push_back('5');

	for (auto& ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;


	for (auto& ch : s2)
	{
		cout << ch << " ";
	}
	cout << endl;

	s1 += '6';
	for (auto ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;

	dza::string s3;
	// append可以插入一个字符串
	s3.append("12345");
	s3.append("上山打老虎");
	// 范围for不能打印汉字。因为范围for是一个一个字节的打印。但是汉字一般有两个字节以上
	/*for (auto ch : s3)
	{
		cout << ch << " ";
	}*/
	cout <<s3 <<  endl;
}

void test02()
{
	dza::string s1("123");

	for (auto ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;

	s1.erase(2);
	for (auto ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;

	s1.push_back('1');
	s1.push_back('3');
	s1.push_back('1');
	s1.push_back('4');
	for (auto ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;

	// 从位置为1开始，删除两个字符
	s1.erase(1,2);
	for (auto ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;

	// 从位置为1开始，删除一个字符
	s1.erase(1, 1);
	for (auto ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;

	// 从位置为1开始，删除后面所有字符
	s1.erase(1);
	for (auto ch : s1)
	{
		cout << ch << " ";
	}
	cout << endl;

	cout << "--------------------------------------------------------------------------------" << endl;

	dza::string s2("1234");
	for (auto ch : s2)
	{
		cout << ch << " ";
	}
	cout << endl;

	s2.insert(0, '1');
	for (auto ch : s2)
	{
		cout << ch << " ";
	}
	cout << endl;

	s2.insert(3, '1');
	for (auto ch : s2)
	{
		cout << ch << " ";
	}
	cout << endl;

	// 位置必须给，不是默认从0开始
	/*s2.insert('0');
	for (auto ch : s2)
	{
		cout << ch << " ";
	}
	cout << endl;*/

	s2.insert(s2.size(), '9');
	for (auto ch : s2)
	{
		cout << ch << " ";
	}
	cout << endl;
}

void test03()
{
	// 提取网址
	dza::string s1 = "https://legacy.cplusplus.com/reference/cstring/strstr/?kw=strstr";
	//bit::string s1 = "https://blog.csdn.net/ww753951/article/details/130427526";
	
	// pos1先找到网址中的 :
	size_t pos1 = s1.find(':');
	
	// pos2从pos1加3的位置开始找'/'。最后得到网址中的地址
	size_t pos2 = s1.find('/', pos1 + 3);
	
	if (pos1 != string::npos && pos2 != string::npos)
	{
		// substr的作用是提取字符串中的一段。来创建一个全新的子字符串
		dza::string domain = s1.substr(pos1 + 3, pos2 - (pos1 + 3));
		cout << domain.c_str() << endl;

		dza::string uri = s1.substr(pos2 + 1);
		cout << uri.c_str() << endl;
	}
}

void test04()
{
	dza::string s1("12345");
	cout << s1.c_str() << endl;
	dza::string s2("hello world");
	cout << s2.c_str() << endl;
}

int main()
{
	test04();

	return 0;
}