当前位置：首页 > article >正文

Python中编码【encode】解码【decode】讲解

article 2025/2/28 19:52:55

嗨害大家好鸭！我是芝士~

这次也是给大家带来一点干货~

请添加图片描述

所用素材:点击此处跳转文末名片获取

一、python3中str与unicode

在python3中，字符串有两种形式：str和bytes，两者区别如下：

unicode string(str类型)：以Unicode code points形式存储(人认识的形式)

byte string(bytes类型)：以byte形式存储(机器认识的形式)

在python3中所定义的所有字符串都是unicode string类型，

使用type和isinstance可以判别

请添加图片描述

而bytes是一个二进制序列对象，

你只要你在定义字符串时前面加一个b，

就表示你要定义一个bytes类型的字符串对象

请添加图片描述
但是在定义中文字符串时，

你就不能直接在前面加b了，

而应该使用encode转一下

请添加图片描述

二、python2中str与unicode

而在Python2中，
字符串的类型又与Python3不一样，需要仔细区分

在Python2里，字符串也只有两种类型，unicode和str

只有unicode object和非unicode object（其实应该叫str object）的区别：

unicode string（unicode类型）：以Unicode code points形式存储（人认识的形式）

byte string（str类型）：以byte形式存储（机器认识的形式）

当我们直接使用双引号或单引号包含字符的方式来定义字符串时，

就是str字符串对象，比如这样

请添加图片描述
而当我们在双引号或单引号前面加个u，

就表明我们定义的是unicode字符串对象，比如这样

请添加图片描述

三、如何检测对象的编码

所有的字符，在unicode字符集中都有对应的编码值（code point）

而把这些编码值按照一定的规则保存成二进制字节码，
就是我们说的编码方式，常见的有：UTF-8，GB2312等。

也就是说，当我们要将内存中的字符串持久化到硬盘中的时候，
都要指定编码方法，
而反过来，读取的时候，
也要指定正确的编码方法（这个过程叫解码），
不然会出现乱码。

那问题就来了，当我们知道了其对应的编码方法，
我们就可以正常解码，
但并不是所有时候我们都能知道应该用什么编码方式去解码？

这时候就要介绍到一个python的库–chardet，
使用它之前需要先安装

python3 -m pip install chardet

chardet有一个detect方法，可以预测其编码格式

import chardet

chardet.detect(encode(‘gbk’))

{‘encoding’: ‘GB2312’,‘confidence’: 0.99,‘language’: ‘Chinese’}

为什么说是预测呢，通过上面的输出来看，
你会看到有一个confidence字段，其表示预测的可信度，
或者说成功率。

但是使用它时，若你的字符数较少，就有可能“误诊”），
比如只有中文两个字，就像下面这样，
我们是使用gbk编码的，使用chardet却识别成KOI8-R编码。

请添加图片描述
所以为了编码诊断的准确，要尽量使用足够多的字符

四、编码与解码的区别

编码和解码，其实就是str与bytes的相互转化的过程（Python 2已经远去，这里以及后面都只用Python 3举例）

编码：encode方法，把字符串对象转化为二进制字节序列

解码：decode方法，把二进制字节序列转化为字符串对象

Unicode & Character Encodings in Python

那么假如我们真知道了其编码格式，如何来转成unicode呢？

有两种方法：

第一种是直接使用decode方法

 byte_obj.decode('gbk')

‘中文’

第二种是使用str类来转

str_obj=str(byte_obj,encoding='gbk')

str_obj

'中文'

五、如何设置文件编码

在Python 2中，默认使用的是ASCII编码来读取的，
因此，我们在使用Python 2的时候，
如果你的python文件里有中文，运行是会报错的。

SyntaxError:Non-ASCII character '\xe4' in file demo.py

原因就是ASCII编码表太小，无法解释中文。

而在Python 3中，默认使用的是uft-8来读取，所以省了不少的事。

对于这个问题，通常解决方法有两种：

第一种方法：在python2中，可以使用在头部指定

可以这样写，虽然很好看

# -*- coding: utf-8 -*-

但这样写太麻烦了，我通常使用下面两种写法

#coding:utf-8

#coding=utf-8

第二种方法：

import sys

reload(sys)


sys.setdefaultencoding('utf-8')

这里在调用sys.setdefaultencoding(‘utf-8’)设置默认的解码方式之前，

执行了reload(sys)，这是必须的，

因为python在加载完sys之后，

会删除sys.setdefaultencoding这个方法，

我们需要重新载入sys，

才能调用sys.setdefaultencoding这个方法

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

查看全文

http://www.kler.cn/a/5851.html

k8s qos等级

【Windows版】VScode配置C++开发环境

Python实现提前查询考研成绩

大家有没有时候觉得，递归，分治，回溯，傻傻分不清楚？

设计LFU缓存结构（美团面试算法题）

骨传导蓝牙耳机什么牌子，推荐几款比较热销的骨传导耳机

【Elastic (ELK) Stack 实战教程】04、ElasticSearch 集群进阶及优化

Java-双向链表的实现

【软件设计师03】数据库系统

电路板焊接技巧实践（没有电烤箱条件下）

人工智能交互革命：探索ChatGPT的无限可能第13章ChatGPT的应用场景和创新应用

智慧办公抉择之——VBA与Python的选择

MySQL尚硅谷学习笔记之DQL语言

QT开发笔记（USB Bluetooth）

【新2023Q2模拟题JAVA】华为OD机试 - 快递业务站

使用AXI4总线控制MMCM时钟模块

python编程：判断一个数是否是超级素数

解决AJAX在后台使用PHP,ASP,JSP返回数据出现中文乱码的问题

算法训练：贪心与回溯

debian 10编译安装gcc 9.5.0

嗨害大家好鸭！我是芝士~

所用素材:点击此处跳转文末名片获取

一、python3中str与unicode

二、python2中str与unicode

三、如何检测对象的编码

四、编码与解码的区别

五、如何设置文件编码

相关文章：