当前位置：首页 > article >正文

编程小白冲Kaggle每日打卡（13）--kaggle学堂：＜机器学习简介＞基础数据探索

article 2025/2/24 22:00:54

Kaggle官方课程链接：Basic Data Exploration

本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。

Basic Data Exploration

加载并理解您的数据。

使用Pandas熟悉您的数据

任何机器学习项目的第一步都是熟悉数据。您将使用Pandas库进行此操作。Pandas是数据科学家用来探索和操纵数据的主要工具。大多数人在代码中将pandas缩写为pd。

import pandas as pd

Pandas库最重要的部分是DataFrame。DataFrame包含您可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。

Pandas对于你想用这类数据做的大多数事情都有强大的方法。

例如，我们将查看澳大利亚墨尔本的房价数据。在实践练习中，您将把相同的过程应用于一个新的数据集，该数据集包含爱荷华州的房价。

示例（墨尔本）数据位于文件路径中/输入/墨尔本住房快照/melb_data.csv。

我们使用以下命令加载和浏览数据：

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

Rooms	Price	Distance	Postcode	Bedroom2	Bathroom	Car	Landsize	BuildingArea	YearBuilt	Lattitude	Longtitude	Propertycount
count	13580.000000	1.358000e+04	13580.000000	13580.000000	13580.000000	13580.000000	13518.000000	13580.000000	7130.000000	8205.000000	13580.000000	13580.000000	13580.000000
mean	2.937997	1.075684e+06	10.137776	3105.301915	2.914728	1.534242	1.610075	558.416127	151.967650	1964.684217	-37.809203	144.995216	7454.417378
std	0.955748	6.393107e+05	5.868725	90.676964	0.965921	0.691712	0.962634	3990.669241	541.014538	37.273762	0.079260	0.103916	4378.581772
min	1.000000	8.500000e+04	0.000000	3000.000000	0.000000	0.000000	0.000000	0.000000	0.000000	1196.000000	-38.182550	144.431810	249.000000
25%	2.000000	6.500000e+05	6.100000	3044.000000	2.000000	1.000000	1.000000	177.000000	93.000000	1940.000000	-37.856822	144.929600	4380.000000
50%	3.000000	9.030000e+05	9.200000	3084.000000	3.000000	1.000000	2.000000	440.000000	126.000000	1970.000000	-37.802355	145.000100	6555.000000
75%	3.000000	1.330000e+06	13.000000	3148.000000	3.000000	2.000000	2.000000	651.000000	174.000000	1999.000000	-37.756400	145.058305	10331.000000
max	10.000000	9.000000e+06	48.100000	3977.000000	20.000000	8.000000	10.000000	433014.000000	44515.000000	2018.000000	-37.408530	145.526350	21650.000000

解读数据描述

结果显示原始数据集中每列有8个数字。第一个数字是计数，显示有多少行没有缺失值。

缺失值的出现有很多原因。例如，在调查一间卧室的房子时，不会收集第二间卧室的大小。我们将回到缺失数据的话题。

第二个值是平均值，即平均值。在这种情况下，std是标准偏差，它衡量的是数值的分散程度。

要解释最小值、25%、50%、75%和最大值，想象一下从最低值到最高值对每列进行排序。第一个（最小）值是最小值。如果你遍历列表的四分之一，你会发现一个大于值的25%但小于值的75%的数字。这就是25%的值（发音为“25th percentury”）。第50和第75百分位数的定义类似，最大值是最大的数字。