当前位置: 首页 > article >正文

pandas read_csv读取中文内容文件报错UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte

先用如下代码检查编码格式

import chardet

# 检测文件编码
with open("data.csv", "rb") as f:
    result = chardet.detect(f.read())
    print(result["encoding"])  # 打印检测到的编码

我检查后我的文件编码格式是ISO-8859-1,因此读取文件时设置

data = pd.read_csv('data.csv', encoding='ISO-8859-1')

虽然能读进数据,但读取后中文仍是乱码,使用如下代码进行更改

data.columns = [col.encode("ISO-8859-1").decode("gbk") for col in data.columns]
data = data.applymap(lambda x: x.encode("ISO-8859-1").decode("gbk") if isinstance(x, str) else x)

http://www.kler.cn/a/416948.html

相关文章:

  • 【开源免费】基于SpringBoot+Vue.JS宠物咖啡馆平台(JAVA毕业设计)
  • 【MySQL】自动刷新flush privileges命令
  • 分布式锁的实现原理
  • 每日速记10道java面试题03
  • ubuntu20配置mysql注意事项
  • uniapp数据绑定、插值、v-bind、v-for
  • 【C++篇】排队的艺术:用生活场景讲解优先级队列的实现
  • C、C++ 和 C# 三种语言及其常见框架的介绍
  • 大数据环境下网络安全态势感知研究
  • 混淆零碎知识点
  • 挑战用React封装100个组件【003】
  • ElasticSearch7.x入门教程之全文搜索(七)
  • 深入理解 GitHub 高级应用:从分支管理到自动化工作流
  • 【大数据学习 | Spark调优篇】Spark之JVM调优
  • iOS开发之修改已有项目的项目名和类名前缀
  • Shell脚本小练习
  • GitLab: You cannot create a branch with a SHA-1 or SHA-256 branch name
  • java基础概念43:Lambda表达式
  • [Ubuntu] linux之Ubuntu18.04的下载及在虚拟机中详细安装过程(附有下载链接)
  • 计算机基础 原码反码补码问题
  • 大数据新视界 -- 大数据大厂之 Hive 数据质量监控:实时监测异常数据(下)(18/ 30)
  • 暴雨发布首款兆芯KX-7000信创笔记本
  • Android 12系统源码_RRO机制(一)Runtime Resource Overlay机制实践
  • RFID资产管理系统的应用与未来发展
  • 初学git报错处理 | 从IDEA远程拉取、创建分支中“clone failed”“couldn‘t checkout”
  • otter 高可用策略