当前位置: 首页 > article >正文

人力资源数据集分析(一)_t-test、卡方检验和描述性统计

数据入口:人力资源分析数据集 - Heywhale.com

数据说明

字段说明
EmpID唯一的员工ID
Age年龄
AgeGroup年龄组
Attrition是否离职
BusinessTravel出差:很少、频繁、不出差
DailyRate日薪
Department任职部门:研发部门、销售部门、人力资源部门
DistanceFromHome通勤距离
Education教育等级
EducationField专业领域:生命科学、医学、市场营销、技术、其他
EnvironmentSatisfaction工作环境满意度
Gender性别
HourlyRate时薪
JobInvolvement工作参与度
JobLevel工作级别
JobRole工作角色
JobSatisfaction工作满意度
MaritalStatus婚姻状况
MonthlyIncome月收入
SalarySlab工资单
MonthlyRate月薪
NumCompaniesWorked工作过的公司数量
PercentSalaryHike加薪百分比
PerformanceRating绩效评级
RelationshipSatisfaction关系满意度
StandardHours标准工时
StockOptionLevel股票期权级别
TotalWorkingYears总工作年数
TrainingTimesLastYear去年培训时间
WorkLifeBalance工作生活平衡评价
YearsAtCompany在公司工作年数
YearsInCurrentRole担任现职年数
YearsSinceLastPromotion上次晋升后的年数
YearsWithCurrManager与现任经理共事年数
import pandas as pd
data = 'HR_Analytics.csv'
data = pd.read_csv(file_path)
# 打印每一列的唯一值
for column in data.columns:
    print(f"Unique values in {column}:")
    print(data[column].unique())

通过这段代码可以了解每一列的唯一值。观察到某些列含有缺失值且缺失值的行数较少,可以直接删去。

data_cleaned = data.dropna()

本文将通过t-test、卡方检验和描述性统计来识别与分析员工离职因素。

一:识别员工离职因素

缺失值已成功删除。现在,我们将继续进行探索性数据分析(EDA),以识别与员工离职(Attrition)相关的因素。EDA将包括以下步骤:

  1. 分析目标变量 “Attrition” 的分布。
  2. 使用统计测试和可视化方法来探索其他变量与 “Attrition” 的关系。
  3. 基于分析结果,识别可能导致员工离职的关键因素。

现在,我将开始执行探索性数据分析的第一步,分析目标变量 “Attrition” 的分布。

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(8, 6))
attrition_distribution = sns.countplot(data=data_cleaned, x='Attrition')
attrition_distribution.set_title('Distribution of Attrition')
attrition_distribution.set_xticklabels(['No', 'Yes'])

plt.show()

从 “Attrition” 变量的分布图中,我们可以看到员工离职(Yes)和未离职(No)的数量。接下来,我们将使用统计测试和可视化方法来探索其他变量与 “Attrition” 的关系。

为了识别可能导致员工离职的关键因素,我们将重点关注以下类型的变量:

  1. 数值变量,如 “Age”, “DailyRate”, “DistanceFromHome” 等。
  2. 分类变量,如 “Department”, “EducationField” 等。

我们将通过以下步骤进行分析:

  1. 对于数值变量,我们将使用箱线图来可视化其分布,并使用统计测试(如t-test)来检查它们与 “Attrition” 的关系。
  2. 对于分类变量,我们将使用条形图来可视化其分布,并使用卡方检验来检查它们与 “Attrition” 的关系。

现在,我将开始分析数值变量与 “Attrition” 的关系。为了简化分析,我将选择一些可能对员工离职有较大影响的数值变量进行分析,包括 “Age”, “DailyRate”, “DistanceFromHome”, “EnvironmentSatisfaction”, “JobInvolvement”, “JobSatisfaction”, “RelationshipSatisfaction”, 和 “WorkLifeBalance”。

现在,我将为这些选定的数值变量绘制箱线图。

selected_numerical_columns = ['Age', 'DailyRate', 'DistanceFromHome', 'EnvironmentSatisfaction', 
                              'JobInvolvement', 'JobSatisfaction', 'RelationshipSatisfaction', 'WorkLifeBalance']

plt.figure(figsize=(15, 10))
for i, column in enumerate(selected_numerical_columns, 1):
    plt.subplot(2, 4, i)
    sns.boxplot(data=data_cleaned, x='Attrition', y=column)
    plt.title(column)
    plt.ylabel('')  

plt.tight_layout()
plt.show()

我们已经为选定的数值变量绘制了箱线图,这些图显示了员工离职(Yes)和未离职(No)的分布情况。从箱线图中,我们可以观察到一些变量在离职和未离职的员工之间有显著差异,例如年龄、日薪、环境满意度、工作投入度、工作满意度和工作生活平衡。

接下来,我们将分析分类变量与 “Attrition” 的关系。我们将使用条形图来可视化分类变量的分布,并使用卡方检验来检查它们与 “Attrition” 的关系。

为了简化分析,我将选择一些可能对员工离职有较大影响的分类变量进行分析,包括 “Department”, “EducationField”, “JobRole”, 和 “MaritalStatus”。

现在,我将为这些选定的分类变量绘制条形图。

我们已经为选定的分类变量绘制了条形图,这些图显示了不同分类变量在不同离职状态(Yes/No)下的分布情况。从条形图中,我们可以观察到一些分类变量在离职和未离职的员工之间有显著差异,例如部门、教育领域、工作角色和婚姻状况。

基于这些可视化结果,我们可以进行更深入的分析,例如使用统计测试(如t-test或卡方检验)来确认这些差异是否具有统计学意义。然后,我们可以根据这些分析结果总结可能导致员工离职的关键因素。

现在,我将进行统计测试来确认这些差异是否具有统计学意义。我们将对数值变量进行t-test,对分类变量进行卡方检验。

from scipy import stats

t_test_results = {}
for column in selected_numerical_columns:
    t_stat, p_value = stats.ttest_ind(data_cleaned[data_cleaned['Attrition'] == 'No'][column],
                                      data_cleaned[data_cleaned['Attrition'] == 'Yes'][column],
                                      equal_var=False)
    t_test_results[column] = (t_stat, p_value)

chi_square_test_results = {}
for column in selected_categorical_columns:
    contingency_table = pd.crosstab(data_cleaned[column], data_cleaned['Attrition'])
    chi2, p, dof, expected = stats.chi2_contingency(contingency_table)
    chi_square_test_results[column] = (chi2, p)

t_test_results, chi_square_test_results

我们已经完成了统计测试,并得到了以下结果:

数值变量的t-test结果:

  • “Age”, “DailyRate”, “EnvironmentSatisfaction”, “JobInvolvement”, “JobSatisfaction”, 和 “WorkLifeBalance” 的 p 值小于0.05,表明这些变量在离职和未离职的员工之间存在显著差异。
  • “DistanceFromHome” 和 “RelationshipSatisfaction” 的 p 值大于0.05,表明这些变量在离职和未离职的员工之间没有显著差异。

分类变量的卡方检验结果:

  • 所有选定的分类变量(“Department”, “EducationField”, “JobRole”, “MaritalStatus”)的 p 值都小于0.05,表明这些变量在离职和未离职的员工之间存在显著差异。

基于这些结果,我们可以总结可能导致员工离职的关键因素,包括:

  1. 数值变量:员工的年龄、日薪、环境满意度、工作投入度、工作满意度和工作生活平衡。
  2. 分类变量:部门、教育领域、工作角色和婚姻状况。

二:影响因素具体分析

为了更好地分析AgeGroup、MaritalStatus、TotalWorkingYears和Attrition之间的关系。,我们将进行以下分析:

  1. 描述性统计:了解这些字段的分布情况。
  2. 交叉分析:分析这些字段之间的关系,特别是Attrition与其他字段的关系。

让我们首先进行描述性统计分析。

descriptive_stats = data[['AgeGroup', 'MaritalStatus', 'TotalWorkingYears', 'Attrition']].describe(include='all')

descriptive_stats

以下是关于AgeGroup、MaritalStatus、TotalWorkingYears和Attrition字段的描述性统计信息:

  • AgeGroup:
    • 共有5个不同的年龄组。
    • 最常见的年龄组是26-35岁,共有611人。
  • MaritalStatus:
    • 共有3种婚姻状况。
    • 最常见的婚姻状况是已婚,共有679人。
  • TotalWorkingYears:
    • 平均工作年限为11.28年。
    • 工作年限的范围从0年到40年。
    • 中位数为10年。
  • Attrition:
    • 有两种离职情况:是和否。
    • 大多数员工没有离职,共有1242人。

接下来,我们将进行交叉分析,以了解Attrition与其他字段之间的关系。我们将计算每个AgeGroup、MaritalStatus和TotalWorkingYears的离职率。

attrition_by_age = data.groupby('AgeGroup')['Attrition'].value_counts(normalize=True).unstack().fillna(0)

attrition_by_marital = data.groupby('MaritalStatus')['Attrition'].value_counts(normalize=True).unstack().fillna(0)

attrition_by_years = data.groupby('TotalWorkingYears')['Attrition'].value_counts(normalize=True).unstack().fillna(0)

attrition_by_age, attrition_by_marital, attrition_by_years.head()  

以下是按AgeGroup、MaritalStatus和TotalWorkingYears分组的离职率分析结果:

  • 按AgeGroup分组的离职率:

    • 18-25岁年龄组的离职率为35.77%
    • 26-35岁年龄组的离职率为18.99%
    • 36-45岁年龄组的离职率为9.13%
    • 46-55岁年龄组的离职率为11.84%
    • 55岁以上的年龄组的离职率为17.02%
  • 按MaritalStatus分组的离职率:

    • 离婚员工的离职率为10.37%
    • 已婚员工的离职率为12.37%
    • 单身员工的离职率为25.37%
  • 按TotalWorkingYears分组的离职率:

    • 工作年限为0年的员工的离职率为45.45%
    • 工作年限为1年的员工的离职率为49.38%
    • 工作年限为2年的员工的离职率为29.03%
    • 工作年限为3年的员工的离职率为21.43%
    • 工作年限为4年的员工的离职率为19.05%

从这些数据中,我们可以观察到以下趋势:

  • 年龄较大的员工离职率较低。
  • 单身员工的离职率高于已婚和离婚员工。
  • 工作年限较短的员工离职率较高。

附录:每日股票行情数据
 

想要探索多元化的数据分析视角,可以关注之前发布的相关内容。


http://www.kler.cn/a/312459.html

相关文章:

  • LabVIEW 实现 find_nearest_neighbors 功能(二维平面上的最近邻查找)
  • 【LeetCode】【算法】19. 删除链表的倒数第N个结点
  • .NET中通过C#实现Excel与DataTable的数据互转
  • 电脑提示xinput1_3.dll丢失怎么办?游戏DLL修复方法详解
  • 第四十三章 Vue之mapMutations简化mutations操作
  • pyspark入门基础详细讲解
  • Spring Cloud常见面试题
  • 电子电气架构---智能汽车应该是怎么样的架构?
  • 24.9.18学习笔记
  • opengl-redbook环境搭建(静态库)
  • 『功能项目』事件中心处理怪物死亡【55】
  • Vue3:props实现组件通信
  • react 创建react项目
  • 高级java每日一道面试题-2024年9月14日-基础篇-如何处理事务中的性能问题?
  • 已知曲线满足正余弦函数,根据其峰值,还原出整条曲线
  • Bio-Linux-shell详解-1-从0开始
  • 【Ubuntu】虚拟机安装USB摄像头ROS驱动 usb_cam(最新方法)
  • ES5 在 Web 上的现状
  • [ffmpeg] packet
  • element-plus的菜单组件el-menu
  • 7--SpringBoot-后端开发、原理详解(面试高频提问点)
  • Web开发:ABP框架3——入门级别的接口增删改查实现原理
  • 基于SpringBoot的自习室预订系统
  • 莱卡相机sd内存卡格式化了怎么恢复数据
  • Volta无障碍的 JavaScript 工具管理器
  • Java 中使用 Redis 的几种方式优缺点对比