当前位置: 首页 > article >正文

【C#生态园】提升数据处理效率:C#中多款数据清洗库全面解析

数据清洗利器:探索C#中的多款数据处理库

前言

在现代软件开发中,数据清洗和处理是非常常见的任务。特别是在C#开发中,处理各种数据文件如CSV、Excel等是一个必不可少的环节。为了更高效地完成这些任务,我们需要依赖一些优秀的数据清洗库。

欢迎订阅专栏:C#生态园

文章目录

  • 数据清洗利器:探索C#中的多款数据处理库
    • 前言
    • 1. CsvHelper:一个用于C#的数据清洗库
      • 1.1 简介
        • 1.1.1 核心功能
        • 1.1.2 使用场景
      • 1.2 安装与配置
        • 1.2.1 安装指南
        • 1.2.2 基本设置
      • 1.3 API 概览
        • 1.3.1 数据读取
        • 1.3.2 数据写入
    • 2. ExcelDataReader:一个用于C#的数据清洗库
      • 2.1 简介
        • 2.1.1 核心功能
        • 2.1.2 使用场景
      • 2.2 安装与配置
        • 2.2.1 安装指南
        • 2.2.2 基本设置
      • 2.3 API 概览
        • 2.3.1 数据解析
        • 2.3.2 数据处理
    • 3. NPOI:一款基于.NET的Excel读写库
      • 3.1 简介
        • 3.1.1 核心功能
        • 3.1.2 使用场景
      • 3.2 安装与配置
        • 3.2.1 安装指南
        • 3.2.2 基本设置
      • 3.3 API 概览
        • 3.3.1 Excel创建
        • 3.3.2 Excel操作
    • 4. ClosedXML:一个简单易用的开源.NET库,用于处理Excel文件
      • 4.1 简介
        • 4.1.1 核心功能
        • 4.1.2 使用场景
      • 4.2 安装与配置
        • 4.2.1 安装指南
        • 4.2.2 基本设置
      • 4.3 API 概览
        • 4.3.1 Excel导入
        • 4.3.2 Excel导出
    • 5. EPPlus:一款用于操作Excel的开源库
      • 5.1 简介
        • 5.1.1 核心功能
        • 5.1.2 使用场景
      • 5.2 安装与配置
        • 5.2.1 安装指南
        • 5.2.2 基本设置
      • 5.3 API 概览
        • 5.3.1 Excel加载
        • 5.3.2 Excel保存
    • 6. GemBox.Spreadsheet:一个.NET组件,用于读写和操作电子表格文件
      • 6.1 简介
        • 6.1.1 核心功能
        • 6.1.2 使用场景
      • 6.2 安装与配置
        • 6.2.1 安装指南
        • 6.2.2 基本设置
      • 6.3 API 概览
        • 6.3.1 电子表格创建
        • 6.3.2 电子表格编辑
    • 总结

1. CsvHelper:一个用于C#的数据清洗库

CsvHelper 是一个流行的 C# 库,用于处理 CSV 格式的数据。它提供了丰富的功能和灵活的 API,可以帮助开发人员轻松地读取和写入 CSV 文件,并对数据进行清洗和转换。

1.1 简介

1.1.1 核心功能

CsvHelper 提供了以下核心功能:

  • 读取 CSV 数据并将其映射到.NET 对象
  • 将.NET 对象写入 CSV 格式
  • 支持自定义类型转换和数据映射
  • 强大的异常处理和验证机制
1.1.2 使用场景

CsvHelper 可以应用于许多场景,包括但不限于:

  • 数据清洗和转换
  • 导入/导出 CSV 数据
  • 与其他系统进行数据交互

1.2 安装与配置

1.2.1 安装指南

通过 NuGet 包管理器或 .NET CLI 安装 CsvHelper:

Install-Package CsvHelper

或者使用 .NET CLI:

dotnet add package CsvHelper
1.2.2 基本设置

引入命名空间:

using CsvHelper;
using CsvHelper.Configuration;
using System.Globalization;
using System.IO;
using System.Linq;

1.3 API 概览

1.3.1 数据读取
public class Person
{
    public string Name { get; set; }
    public int Age { get; set; }
}

void ReadCsvData()
{
    using (var reader = new StreamReader("path/to/csv/file.csv"))
    using (var csv = new CsvReader(reader, CultureInfo.InvariantCulture))
    {
        var records = csv.GetRecords<Person>().ToList();
        foreach (var person in records)
        {
            Console.WriteLine($"Name: {person.Name}, Age: {person.Age}");
        }
    }
}

具体示例请参考:CsvHelper - 数据读取

1.3.2 数据写入
void WriteCsvData(List<Person> people)
{
    using (var writer = new StreamWriter("path/to/output.csv"))
    using (var csv = new CsvWriter(writer, CultureInfo.InvariantCulture))
    {
        csv.WriteRecords(people);
    }
}

更多内容请参考:CsvHelper - 数据写入

以上是 CsvHelper 的简要介绍和基本用法,欲了解更多详细信息,请参阅 CsvHelper 官方文档。

2. ExcelDataReader:一个用于C#的数据清洗库

2.1 简介

ExcelDataReader 是一个用于 C# 的库,可以帮助我们进行 Excel 数据的读取和清洗操作。它提供了丰富的 API,使得数据处理变得简单高效。

2.1.1 核心功能

ExcelDataReader 主要用于解析和处理 Excel 文件中的数据,可以将 Excel 表格中的数据转换为 C# 中的数据结构,方便后续的数据处理和分析。

2.1.2 使用场景

ExcelDataReader 可以广泛应用于需要对 Excel 文件中的数据进行清洗、分析和处理的场景,比如数据导入导出、报表生成等业务中常见的需求。

2.2 安装与配置

2.2.1 安装指南

可以通过 NuGet 包管理器来安装 ExcelDataReader。在 Visual Studio 中打开 NuGet 包管理器控制台,并执行以下命令来安装 ExcelDataReader:

Install-Package ExcelDataReader
2.2.2 基本设置

安装完成后,可以通过引入相应的命名空间来开始使用 ExcelDataReader:

using Excel;
using System.IO;

2.3 API 概览

2.3.1 数据解析

ExcelDataReader 提供了丰富的方法来解析 Excel 文件中的数据。下面是一个简单的示例代码,演示了如何使用 ExcelDataReader 来读取 Excel 文件中的数据:

using (var stream = File.Open(filePath, FileMode.Open, FileAccess.Read))
{
    IExcelDataReader reader = null;
    if (Path.GetExtension(filePath).Equals(".xls"))
    {
        reader = ExcelReaderFactory.CreateBinaryReader(stream);
    }
    else if (Path.GetExtension(filePath).Equals(".xlsx"))
    {
        reader = ExcelReaderFactory.CreateOpenXmlReader(stream);
    }

    var result = reader.AsDataSet(new ExcelDataSetConfiguration()
    {
        UseColumnDataType = false,
        ConfigureDataTable = (tableReader) => new ExcelDataTableConfiguration()
        {
            UseHeaderRow = true
        }
    });

    // 处理 result 中的数据
}

更多关于数据解析的详细信息可以参考 ExcelDataReader 文档。

2.3.2 数据处理

ExcelDataReader 不仅可以用来解析数据,还提供了一些简单的数据处理功能,比如数据筛选、转换等。以下是一个简单的示例,演示了如何对 Excel 数据进行简单的处理:

// 假设已经获取到了 Excel 数据集合 data
var dataTable = data.Tables[0];
var rows = dataTable.Select("ColumnName = 'SomeValue'");

foreach (var row in rows)
{
    // 处理符合条件的行
}

更多关于数据处理的详细信息可以参考 ExcelDataReader 文档。

3. NPOI:一款基于.NET的Excel读写库

NPOI 是一款基于 .NET 平台,用于读写 Microsoft Office 格式文件(包括 Excel 以及 Word)的开源库。在数据清洗领域,NPOI 能够帮助我们处理 Excel 文件,进行数据提取、转换和加载等操作。

3.1 简介

3.1.1 核心功能

NPOI 提供了丰富的 API,允许我们对 Excel 文件进行创建、读取、修改和保存等操作。其核心功能包括:

  • 创建新的 Excel 文档
  • 读取现有的 Excel 文档
  • 修改和操作 Excel 文档中的数据
  • 保存 Excel 文档

官网链接: NPOI GitHub

3.1.2 使用场景

NPOI 在各种场景下都能发挥作用,包括但不限于:

  • 批量数据导入导出
  • 数据报表生成
  • 数据清洗与处理

3.2 安装与配置

3.2.1 安装指南

通过 NuGet 包管理器可以很方便地安装 NPOI。

Install-Package DotNetCore.NPOI
3.2.2 基本设置

在使用 NPOI 之前,需要引入相应的命名空间。

using NPOI.SS.UserModel;
using NPOI.XSSF.UserModel; // 如果是xlsx格式的Excel
using NPOI.HSSF.UserModel; // 如果是xls格式的Excel
using NPOI.SS.Util;

3.3 API 概览

3.3.1 Excel创建
// 创建一个工作簿
IWorkbook workbook = new XSSFWorkbook();

// 创建一个工作表
ISheet sheet1 = workbook.CreateSheet("Sheet1");

// 创建行
IRow row = sheet1.CreateRow(0);

// 创建单元格并赋值
row.CreateCell(0).SetCellValue("Hello");
row.CreateCell(1).SetCellValue("World");

// 保存Excel文件
using (FileStream file = new FileStream("workbook.xlsx", FileMode.Create, FileAccess.Write))
{
    workbook.Write(file);
}
3.3.2 Excel操作
// 读取Excel文件
using (FileStream file = new FileStream("workbook.xlsx", FileMode.Open, FileAccess.Read))
{
    IWorkbook workbook = new XSSFWorkbook(file);
    ISheet sheet = workbook.GetSheetAt(0);
    IRow row = sheet.GetRow(0);
    if (row != null)
    {
        Console.WriteLine(row.GetCell(0).StringCellValue);
        Console.WriteLine(row.GetCell(1).StringCellValue);
    }
}

通过以上代码示例,我们展示了如何使用 NPOI 创建和操作 Excel 文件。NPOI 提供了丰富的 API 和灵活性,使得我们能够轻松地在 .NET 平台上进行 Excel 文件的读写操作。

4. ClosedXML:一个简单易用的开源.NET库,用于处理Excel文件

4.1 简介

ClosedXML 是一个用于处理 Excel 文件的开源 .NET 库,提供了丰富的功能和简单易用的 API,使得在 C# 中操作 Excel 变得更加便捷。无需安装 Office 或使用 COM 亦能实现对 Excel 的读写操作。

4.1.1 核心功能

ClosedXML 主要提供以下核心功能:

  • 创建、打开、编辑和保存 Excel 文件
  • 对工作表进行操作,如添加、删除或隐藏
  • 支持单元格格式设置、合并、拆分等操作
  • 导入导出数据到 Excel 文件
4.1.2 使用场景

ClosedXML 可以被广泛应用于需要对 Excel 进行自动化处理的场景,例如报表生成、数据导入导出等业务场景。

4.2 安装与配置

4.2.1 安装指南

可以通过 NuGet 来安装 ClosedXML,打开 Visual Studio 并在包管理器控制台中执行以下命令进行安装:

Install-Package ClosedXML
4.2.2 基本设置

安装完成后,即可通过 using ClosedXML.Excel; 引入 ClosedXML 库,并开始使用其提供的功能。

4.3 API 概览

4.3.1 Excel导入

ClosedXML 提供了丰富的 API 用于从 Excel 文件中导入数据。以下是一个简单的示例代码,演示了如何从已有的 Excel 文件中读取数据:

using (var workbook = new XLWorkbook("sample.xlsx"))
{
    var worksheet = workbook.Worksheet(1);
    var cellValue = worksheet.Cell("A1").Value.ToString();
}

更多关于数据导入的 API 和示例可以参考官方文档。

4.3.2 Excel导出

除了导入,ClosedXML 也提供了便捷的 API 用于将数据导出至 Excel 文件。以下示例展示了如何创建一个新的 Excel 文件,并向其中写入数据:

using (var workbook = new XLWorkbook())
{
    var worksheet = workbook.Worksheets.Add("Sheet1");
    worksheet.Cell("A1").Value = "Hello";
    worksheet.Cell("B1").Value = "World";
    workbook.SaveAs("output.xlsx");
}

更多关于数据导出的 API 和示例可以参考官方文档。

5. EPPlus:一款用于操作Excel的开源库

EPPlus 是一款用于操作 Excel 的开源库,它提供了丰富的 API,便于开发人员对 Excel 进行快速、灵活的操作。

5.1 简介

5.1.1 核心功能

EPPlus 主要提供以下核心功能:

  • 创建、修改和操作 Excel 文档
  • 读取和写入 Excel 单元格数据
  • 支持图表、样式和格式设置等功能
5.1.2 使用场景

EPPlus 可以被广泛应用于以下场景:

  • 生成报表
  • 数据导出到 Excel
  • 对已有 Excel 进行数据处理

5.2 安装与配置

5.2.1 安装指南

可以通过 NuGet 来安装 EPPlus 库。在 Visual Studio 中打开 NuGet 包管理器控制台,并执行以下命令来安装 EPPlus:

Install-Package EPPlus
5.2.2 基本设置

在使用 EPPlus 前,需要引入 EPPlus 的命名空间:

using OfficeOpenXml;

5.3 API 概览

5.3.1 Excel加载

EPPlus 提供了加载 Excel 文档的功能,示例代码如下:

// 新建一个Excel包
using (ExcelPackage package = new ExcelPackage())
{
    // 添加一个工作表
    ExcelWorksheet worksheet = package.Workbook.Worksheets.Add("Sheet1");

    // 设置单元格的值
    worksheet.Cells["A1"].Value = "Hello, EPPlus!";
    
    // 保存工作簿
    package.SaveAs(new FileInfo(@"D:\sample.xlsx"));
}

更多关于 Excel 加载的信息,请参考 EPPlus - Load Excel。

5.3.2 Excel保存

EPPlus 允许将修改后的 Excel 文档保存到指定路径,示例代码如下:

// 读取一个Excel文件
using (ExcelPackage package = new ExcelPackage(new FileInfo(@"D:\sample.xlsx")))
{
    // 获取第一个工作表
    ExcelWorksheet worksheet = package.Workbook.Worksheets[0];

    // 读取单元格的值
    Console.WriteLine(worksheet.Cells["A1"].Value);
}

更多关于 Excel 保存的信息,请参考 EPPlus - Save Excel。

6. GemBox.Spreadsheet:一个.NET组件,用于读写和操作电子表格文件

6.1 简介

GemBox.Spreadsheet是一个.NET组件,旨在简化对电子表格文件(如Excel)的读取和编辑操作。它提供了丰富的API,使得开发人员可以轻松地创建、编辑和转换电子表格文件,并支持多种常见的电子表格格式,包括XLSX、XLS、CSV等。

6.1.1 核心功能

GemBox.Spreadsheet的核心功能包括:

  • 读取和写入电子表格文件
  • 创建新的电子表格文件
  • 编辑现有的电子表格文件
  • 支持各种常见的电子表格格式
6.1.2 使用场景

GemBox.Spreadsheet适用于以下场景:

  • 数据导入和导出
  • 数据清洗和处理
  • 自动化报告生成
  • 业务数据分析

6.2 安装与配置

使用GemBox.Spreadsheet前,需要进行安装和基本设置。

6.2.1 安装指南

你可以通过NuGet包管理器来安装GemBox.Spreadsheet。在Visual Studio中打开NuGet包管理器控制台,并执行以下命令来安装GemBox.Spreadsheet:

Install-Package GemBox.Spreadsheet
6.2.2 基本设置

安装完成后,在项目中引用GemBox.Spreadsheet命名空间:

using GemBox.Spreadsheet;

6.3 API 概览

GemBox.Spreadsheet提供了丰富的API,下面将介绍一些常用的操作。

6.3.1 电子表格创建

通过以下示例,演示了如何使用GemBox.Spreadsheet创建一个新的电子表格文件并添加数据:

// 如果没有许可证,则将显示一个水印。
SpreadsheetInfo.SetLicense("FREE-LIMITED-KEY");

// 创建一个新的工作簿。
var workbook = new ExcelFile();

// 添加新工作表。
var worksheet = workbook.Worksheets.Add("Sheet1");

// 写入数据到单元格。
worksheet.Cells["A1"].Value = "Hello";
worksheet.Cells["B1"].Value = "World!";

// 保存工作簿。
workbook.Save("Output.xlsx");

以上代码演示了如何使用GemBox.Spreadsheet创建一个新的电子表格文件,并在其中写入数据。更多关于电子表格创建的操作,请参考官方文档。

6.3.2 电子表格编辑

GemBox.Spreadsheet还提供了丰富的编辑功能,包括单元格样式设置、公式计算等。以下示例展示了如何设置单元格的样式:

// 设置单元格字体样式。
var style = worksheet.Rows[0].Style;
style.Font.Weight = ExcelFont.BoldWeight;
style.FillPattern.SetSolid(Color.LightGray);

// 保存工作簿。
workbook.Save("Output.xlsx");

以上代码演示了如何使用GemBox.Spreadsheet设置单元格的字体样式和背景色。更多关于电子表格编辑的操作,请参考官方文档。

总结

通过阅读本文,读者可以全面了解C#中几个常用的数据清洗库,包括它们的核心功能、使用场景、安装配置和API概览。针对不同的需求,可以选择最适合的库来提升数据处理的效率和质量。


http://www.kler.cn/news/354698.html

相关文章:

  • 【wpf】07 后端验证及令牌码获取步骤
  • [旧日谈]关于Qt的刷新事件频率,以及我们在Qt的框架上做实时的绘制操作时我们该关心什么。
  • 关于FFmpeg【使用方法、常见问题、解决方案等】
  • jmeter 对 dubbo 接口测试是怎么实现的?有哪几个步骤
  • 我谈结构自相似性SSIM——实质度量的是什么?
  • JavaScript 小技巧和诀窍:助你写出更简洁高效的代码
  • Scale Decoupled Distillation 论文中SPP发生了什么
  • 一款AutoXJS现代化美观的日志模块AxpLogger
  • k8s-配置网络策略 NetworkPolicy
  • docker/docker-compose里面Command和entrypoint的关系
  • 股票Tick数据如何获取做量化交易
  • springboot如何接入阿里云短信
  • Vue 3 中的状态管理:深入探讨 Vuex 和 Pinia 的比较与最佳实践
  • 初识git · 有关模型
  • 【C语言】数据类型
  • 实用篇:如何让Win11右键默认显示更多呢
  • STM32 独立看门狗和窗口看门狗区别
  • Python进阶知识
  • 智能平台或系统中的归因、根因分析案例集锦
  • 使用python实现图书管理系统