当前位置：首页 > article >正文

4.1 数据分析-excel 基本操作

article 2025/2/21 3:18:55

第四节：数据分析-excel 基本操作

课程目标

学会excel 基本操作

课程内容

数据伪造

产生一份招聘数据

import pandas as pd
from faker import Faker
import random
import numpy as np

# 创建一个Faker实例，用于生成假数据，指定中文本地化
fake = Faker('zh_CN')

# 定义一些可能的公司大小和领域
company_sizes = ['小型', '中型', '大型']
company_fields = ['科技', '金融', '教育', '医疗', '制造']

# 准备数据集
data = []

for i in range(1000):
    city = fake.city_name() if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值 
    full_name = fake.company()
    company_id = fake.uuid4()
    short_name = full_name[:2]
    size = random.choice(company_sizes)
    job_title = fake.job()
    business_district = fake.street_address()
    department = job_title
    education_requirement = random.choice(['本科', '硕士', '博士', '无要求'])
    field = random.choice(company_fields)
    job_id = fake.uuid4() if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值
    benefits = ', '.join(random.sample(['五险一金', '带薪年假', '年终奖', '股票期权', '弹性工作'], random.randint(1, 5)))
    
    salary = random.randint(3000, 50000) if random.random() > 0.1 else np.nan  # 10% 的概率生成缺失值 
    experience_required = f"{random.randint(1, 10)}年"
    # 上班时间 8:00-10:00
    start_work_time = f"{random.randint(8, 10)}:00"
    end_work_time = f"{random.randint(18, 20)}:00"

    data.append([city, full_name, company_id, short_name, size, business_district, department, education_requirement, field, job_id, benefits, job_title, salary, experience_required,start_work_time, end_work_time])

# 将数据转换为DataFrame
df = pd.DataFrame(data, columns=[
    '城市', '公司全名', '公司ID', '公司简称', '公司大小', '公司所在商区', '职位所属', '教育要求', '公司所属领域', '职位ID', '职位福利', '职位', '薪水', '工作年限要求',"上班时间","下班时间"
])

# 写入Excel文件
df.to_excel('company_data.xlsx', index=False)
df.to_csv('company_data.csv', index=False)

print("数据已成功写入Excel文件。")