当前位置: 首页 > article >正文

pandas read_csv读取中文内容文件报错UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte

先用如下代码检查编码格式

import chardet

# 检测文件编码
with open("data.csv", "rb") as f:
    result = chardet.detect(f.read())
    print(result["encoding"])  # 打印检测到的编码

我检查后我的文件编码格式是ISO-8859-1,因此读取文件时设置

data = pd.read_csv('data.csv', encoding='ISO-8859-1')

虽然能读进数据,但读取后中文仍是乱码,使用如下代码进行更改

data.columns = [col.encode("ISO-8859-1").decode("gbk") for col in data.columns]
data = data.applymap(lambda x: x.encode("ISO-8859-1").decode("gbk") if isinstance(x, str) else x)

http://www.kler.cn/a/416948.html

相关文章:

  • Spring依赖注入方式
  • 【进程与线程】进程之间的通信
  • [2025年最新]2024.3版本idea无法安装插件问题解决
  • 【MySQL】深度学习数据库开发技术:使用CC++语言访问数据库
  • Jetbrains IDE http客户端使用教程
  • QTreeView和QTableView单元格添加超链接
  • 【C++篇】排队的艺术:用生活场景讲解优先级队列的实现
  • C、C++ 和 C# 三种语言及其常见框架的介绍
  • 大数据环境下网络安全态势感知研究
  • 混淆零碎知识点
  • 挑战用React封装100个组件【003】
  • ElasticSearch7.x入门教程之全文搜索(七)
  • 深入理解 GitHub 高级应用:从分支管理到自动化工作流
  • 【大数据学习 | Spark调优篇】Spark之JVM调优
  • iOS开发之修改已有项目的项目名和类名前缀
  • Shell脚本小练习
  • GitLab: You cannot create a branch with a SHA-1 or SHA-256 branch name
  • java基础概念43:Lambda表达式
  • [Ubuntu] linux之Ubuntu18.04的下载及在虚拟机中详细安装过程(附有下载链接)
  • 计算机基础 原码反码补码问题
  • 大数据新视界 -- 大数据大厂之 Hive 数据质量监控:实时监测异常数据(下)(18/ 30)
  • 暴雨发布首款兆芯KX-7000信创笔记本
  • Android 12系统源码_RRO机制(一)Runtime Resource Overlay机制实践
  • RFID资产管理系统的应用与未来发展
  • 初学git报错处理 | 从IDEA远程拉取、创建分支中“clone failed”“couldn‘t checkout”
  • otter 高可用策略