当前位置：首页 > article >正文

Python从入门到高手6.1节-字符串的定义与编码

article 2024/10/10 22:24:19

6.1.1 理解字符串

6.1.2 字符串的类型名

6.1.3 字符的数字编码

5.1.4 常用的字符编码

6.1.5 字符串的默认编码

6.1.6 字符串的编码与解码

6.1.7 转义字符详解

6.1.8 对字符串进行迭代

6.1.9 大神薯条老师

6.1.1 理解字符串

在Python中使用英文引号括住的都是字符串:

# 英文中的引号为单引号，双引号，三引号
chinese = "我爱你"
english = 'I Love You'
japanese = '''君のことを愛している'''
russian = """я люблю тебя"""

理解字符串，不仅要知道它是什么，还得知道它底层的数据结构。字符串是一种线性的顺序表结构:

上图所示表示字符串"我一直深爱着你"，从图中可以看出，字符是按序进行排列的，所有的字符空间对应着一块连续的内存，这种结构就叫做线性的顺序表结构。

图中的每一个格子表示一个内存块，内存块里存储了字符的数字编码。

对于字符串这种序列结构，可通过索引来访问容器中的每一个元素。在Python中，索引从0开始编号，0表示第一个，1表示第二个, 以此类推。例如编号0对应的是字符'我'，编号1对应的是字符'一'。

感兴趣的同学可以系统地学习数据结构这门课程。成为一名卓越的程序员，必须掌握数据结构这门知识。薯条老师在后面的教程中会推出数据结构的系列课。

6.1.2 字符串的类型名

在交互模式中调用type来输出字符串对象的类型名:

>>> chinese = "我爱你"

>>> english = 'I Love You'

>>> japanese = '''君のことを愛している'''

>>> russian = """я люблю тебя"""

>>> type(chinese) <class 'str'>

>>> type(english) <class 'str'>

>>> type(japanese) <class 'str'>

>>> type(russian) <class 'str'>

从输出可知，字符串的类型名为str。

6.1.3 字符的数字编码

计算机只能处理二进制，为了让计算机能对字符进行处理，需要对字符进行编码。所谓的编码，是指用数字来对字符进行表示。不同的表示方法，即对应不同的字符编码。通过Python中的内置函数ord,可以获取字符的十进制数字码：

ord(character)

参数character表示特定的字符，返回值为字符的十进制数字编码。进入交互模式中进行验证:

>>> ord('爱') 
29233

通过Python中的内置函数chr,可以获取数字编码所对应的字符:

chr(code)

参数code表示字符的数字编码，返回值为数字编码所对的字符。进入交互模式中进行验证:

>>> chr(29233)
'爱'

5.1.4 常用的字符编码

最早的字符编码为ASCII编码，这种编码使用一个字节来表示一个字符。一个字节能表示的范围是0-255，也就是说,这种编码最多只能表示256个字符。ASCII编码无法表示汉字等其它字符，为了满足其它地区的需要，又出现了多字节编码。

我们中国一开始制定的是GBK编码，使用两个字节来表示常用的汉字，其它地区也纷纷制定了不同的编码，用来表示本国的字符集。为了对各地区的编码进行规范统一，出现了UNICODE编码，UNICODE编码在制定之初统一使用两个字节来表示一个字符。

(1) ASCII

ASCII码，全称为美国信息交换标准码，一种使用7个或8个二进制位进行字符编码的方案，最多可以包含256个字符。基本的 ASCII 字符集一共有 128 个字符，其中有 96 个可打印字符，包括常用的字母、数字、标点符号等，另外还有 32 个控制字符。下图为ASCII字符的码表：

(2）UNICODE

在UNICODE编码中，为每种语言中的每个字符设定了统一并且唯一的二进制编码, 这个编号范围从 0x000000 到 0x10FFFF，每个字符对应一个唯一的UNICODE数字码，UNICODE编码的形式为：在数字码(十六进制)前面加上U+。例如："爱"的UNICODE是U+7231。

(3) UTF-8

UTF-8，是一种针对UNICODE的可变长度字符编码, 不同于UNICODE编码采用固定长度的字节数来表示字符， UTF-8使用的字节数是可变的，比如ASCII字符，在UTF-8编码中仍使用一个字节来进行编码，对于汉字等字符使用的是3个字节来进行编码。

(4) GBK

GBK编码是汉字编码字符集，采用的是单双字节变长编码，英文字符使用单字节编码，完全兼容ASCII码，中文部分采用双字节编码。

6.1.5 字符串的默认编码

Python中的字符串默认采用UNICODE进行编码，也就是说，Python中的字符串是UNICODE字符串。

6.1.6 字符串的编码与解码

通过字符串类型的encode方法，可以获取字符串以特定编码方式编码后的字节码类型:

str.encode(encoding)

参数encoding表示字符的编码方法, 返回值为bytes类型。通过字节码类型的decode方法，可以将字节码类型转换为UNICODE字符串。

bytes.decode(encoding)

参数encoding表示字符的编码方法,返回值为str类型。

代码实例-对字符串进行编码与解码

# 1.对汉字字符进行编码与解码
chinese = "我爱你"
gbk_code = chinese.encode('gbk')
chinese = gbk_code.decode('gbk')
 
# 2.对英文字符进行编码与解码
english = 'I Love You'
ascii_code = english.encode('ascii')
english = ascii_code.decode('ascii')
# 3.对日本字符进行编码与解码
japanese = '''君のことを愛している'''
unicode = japanese.encode('unicode-escape')
japanese = unicode.decode('unicode-escape')
# 4.对俄文字符进行编码与解码
russian = """я люблю тебя"""
utf8_code = russian.encode('utf-8')
russian = utf8_code.decode('utf-8')

调用bytes类型的decode方法进行解码时，传递编码方式必须兼容，否则会抛出编码错误的异常信息。我们可以在交互模式中进行验证：

>>> gbk_code = chinese.encode('gbk')
>>> gbk_code.decode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xce in position 0: 
ordinal not in range(128)

编码时传递的是gbk编码，但在解码时传递的却是ascii。ascii编码与gbk编码不兼容，故抛出了异常信息。

6.1.7 转义字符详解

编程语言中的转义字符是反斜杠符号'\'+字符构成的特殊字符，通常使用转义字符来表示字符集中定义的字符，如ASCll字符集里面的换行符。下表是常用的转义字符：

1588232596(1).jpg

使用转义字符可以避免产生歧义，比如通过转义字符\"来表示一个包含引号的字符串:

"\""

如果没有转义字符，那么系统无法识别用户究竟定义的是一个包含引号的字符串，还是一个三引号。

也可以通过引号括住其它形式的引号来表示包含引号的字符串，例如在单引号中包含双引号:'"'，在双引号中包含单引号:"''"。

使用转义字符，还可以实现一些有用的特性。

(1) 使用换行符输出多行

>>>chinese = "我\n爱\n你\n"
>>>print(chinese)
我
爱
你

(2) 输出水平制表符

>>> chinese = "我\t爱\t你\t"
>>> print(chinese)
我 爱 你

在特定的应用场景下，需要禁止字对符进行转义，通过在字符串前加上r前缀，可以实现这样的功能。

>>> chinese = r"我\t爱\t你\t"
>>> print(chinese)
我\t爱\t你

字符串中包含路径时，禁止Python对其进行转义会非常有用:

>>> file_path = "D:\nosql\data"
>>> print(file_path)
D:
osql\data

输出明显是有问题的，Python将字符串中的\n字符解释成了转义字符，此时可以在字符串中加上r前缀，来禁止Python对字符进行转义。

>>> file_path = r"D:\nosql\data"
>>> print(file_path)
D:\nosql\data

6.1.8 字符串可迭代

字符串是可迭代的类型，可在for循环中对字符串中的所有字符进行迭代。

代码实例-迭代字符串中的字符:

japanese = '''君のことを愛している'''
for char in japanese:
    print(char)

代码讲解:

(1) 对字符串进行迭代，是按字符的先后排列顺序进行迭代的

(2) 通过分析程序的输出，可以更好地理解字符串这种线性的序列结构

6.1.9 大神薯条老师

跟薯条老师学后端开发，高级爬虫(JS逆向+安卓逆向)，数据分析，大数据开发，量化交易，以及机器学习+深度学习算法。坚定自己的学习目标，保持学习的热情，那你成为高手只是时间问题。

薯条老师的学生在南方电网，林氏家居，京东，阿里等大厂。想系统学习Python和Java的同学，可以移步薯条老师的个人技术博客：薯条老师的个人技术博客http://www.chipscoco.com/ 对本节教程有任何不懂的同学，亦可在评论区中进行评论。薯条老师会详细解答你们提出的每一个问题。

查看全文

http://www.kler.cn/news/341810.html

车载电源OBC+DC/DC

25西安电子科技大学考研预报名人数信息—公布

OmniPlan Pro for Mac 项目管理流程软件安装教程【保姆级教程，简单小白轻松上手】

机器学习中的熵（Entropy）是什么？

修改 antd a-popover气泡卡片弹窗背景颜色

代码随想录算法训练营第四十六天 | 647. 回文子串，516.最长回文子序列

Python 工具库每日推荐【Matplotlib】

需求9——通过一个小需求来体会service层的作用

ubuntu下载gitee库源码

代码随想录day29：动态规划part2

备份python运行环境

vue3中使用live2D

Echarts 图表导出为 SVG矢量图

毕设大数据电影数据分析与可视化系统（源码+论文）

RabbitMQ入门5—exchange参数之durability

前端背景图裁剪

【kubernetes】环境准备及K8S二进制安装【最新最全】

古典舞在线交流：SpringBoot平台实现与优化

Leetcode 3312. Sorted GCD Pair Queries

移动电源自动化测试中有哪些关键步骤，如何对这些步骤进行优化-天宇微纳

6.1.1 理解字符串

6.1.2 字符串的类型名

6.1.3 字符的数字编码

5.1.4 常用的字符编码

6.1.5 字符串的默认编码

6.1.6 字符串的编码与解码

6.1.7 转义字符详解

6.1.8 字符串可迭代

6.1.9 大神薯条老师

相关文章：