当前位置: 首页 > article >正文

360大数据面试题及参考答案

数据清理有哪些方法?

数据清理是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。常见的数据清理方法有以下几种:

  1. 去重处理:数据中可能存在重复的记录,这不仅会占用存储空间,还可能影响分析结果。通过对比每条记录的关键属性,若所有关键属性值都相同,则判定为重复记录,可保留其中一条,删除其余重复项。例如在客户信息表中,若有两条记录客户姓名、联系方式、地址等关键信息都一样,就可进行去重。在 Python 的 pandas 库中,使用duplicated()函数可识别重复行,drop_duplicates()函数可删除重复行。
  2. 缺失值处理:数据中某些属性值可能缺失。处理方法有删除缺失值记录,当缺失值占比较小且对整体分析影响不大时适用;还有填充缺失值,可使用均值、中位数、众数填充数值型、分类型数据,也可利用机器学习算法如 K 近邻算法(KNN)根据相似样本进行填充。
  3. 异常值处理:异常值是明显偏离其他数据的观测值。可通过可视化方法如箱线图直观识别,也可利用统计方法如 Z - score 计算数据点与均值的偏离程度,若偏离过大则视为异常值。处理方式有

http://www.kler.cn/a/524680.html

相关文章:

  • LCR 139.训练计划 I
  • Ubuntu介绍、与centos的区别、基于VMware安装Ubuntu Server 22.04、配置远程连接、安装jdk+Tomcat
  • 【信息系统项目管理师-选择真题】2007下半年综合知识答案和详解
  • python——Django 框架
  • macbook安装go语言
  • QT使用eigen
  • WordPress使用(1)
  • 大数据技术笔记
  • OpenCV:开运算
  • FreeMarker框架的用法指南
  • 【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE
  • Origami Agents:AI驱动的销售研究工具,助力B2B销售团队高效增长
  • 火出圈的DeepSeeK R1详解
  • AI大模型开发原理篇-2:语言模型雏形之词袋模型
  • Baklib在知识管理创新中的价值体现与其他产品的优势比较分析
  • 0小明的数组游戏
  • Java基础面试题总结(题目来源JavaGuide)
  • 曲线救国——uniapp封装toast消息提示组件(js)
  • 什么是长短期记忆网络?
  • JVM_类的加载、链接、初始化、卸载、主动使用、被动使用
  • STM32标准库移植RT-Thread nano
  • OceanBase 读写分离探讨
  • WPS数据分析000008
  • Linux---架构概览
  • 27.useFetch
  • unity学习22:Application类其他功能