[python3]Excel解析库-xlrd
`xlrd` 是一个用于从 Excel 文件中读取数据的 Python 库,主要用于处理 `.xls` 文件(即 Excel 97-2003 格式)。它允许你用 Python 编写程序来解析和提取 Excel 文件中的信息,而无需实际运行 Microsoft Excel 应用程序。需要注意的是,从版本 2.0.0 开始,`xlrd` 不再支持读取 `.xls` 文件,只支持 `.xlsx` 文件格式。如果你需要读取 `.xls` 文件,应该安装低于 2.0.0 版本的 `xlrd`。
安装
要使用 `xlrd`,你可以通过 pip 来安装它。对于 `.xlsx` 文件的支持,请确保安装的是低于 2.0.0 的版本:
```bash
pip3 install xlrd<2.0.0
```
如果你只需要处理 `.xls` 文件,则可以直接安装最新版本的 `xlrd`:
```bash
pip3 install xlrd
```
基本用法
#### 打开和读取 `.xls` 文件
以下是如何使用 `xlrd` 读取 `.xls` 文件并获取其中的数据:
```python
import xlrd
# 打开工作簿
workbook = xlrd.open_workbook('example.xls')
# 获取所有的工作表名称
sheet_names = workbook.sheet_names()
print(f"Sheet names: {sheet_names}")
# 选择第一个工作表
sheet = workbook.sheet_by_index(0)
# 或者根据名称选择工作表
# sheet = workbook.sheet_by_name('Sheet1')
# 遍历所有行
for row_idx in range(sheet.nrows):
print(sheet.row_values(row_idx)) # 输出每一行的所有单元格值
```
#### 处理特定单元格的数据
你可以直接访问特定单元格的数据,或者遍历一行或多列的数据:
```python
# 获取特定单元格的值
cell_value = sheet.cell(0, 0).value
print(f"Value at A1: {cell_value}")
# 获取某一行或某一列的数据
row_data = sheet.row_values(0) # 获取第一行的数据
col_data = sheet.col_values(0) # 获取第一列的数据
print(f"Row data: {row_data}")
print(f"Column data: {col_data}")
```
#### 读取日期和时间
`xlrd` 可以正确地处理 Excel 中的日期和时间格式,并将其转换为 Python 的 `datetime` 对象:
```python
from datetime import datetime, timedelta
def convert_excel_date(excel_date):
"""将 Excel 的日期序列号转换为 Python 的 datetime"""
if excel_date > 60:
excel_date -= 1 # 调整1900年2月29日的问题
return datetime(1899, 12, 30) + timedelta(days=excel_date)
# 假设 A1 单元格包含一个日期
excel_date = sheet.cell(0, 0).value
if isinstance(excel_date, float): # 确保是数字类型的日期
python_date = convert_excel_date(excel_date)
print(f"Converted date: {python_date.strftime('%Y-%m-%d')}")
```
### 注意事项
- **版本兼容性**:如前所述,确保使用正确的 `xlrd` 版本来匹配你需要处理的文件格式。
- **性能问题**:对于非常大的 Excel 文件,`xlrd` 可能会遇到性能瓶颈,因为它需要将整个文件加载到内存中进行处理。
- **替代方案**:如果你正在寻找更现代的方法来处理 Excel 文件,特别是 `.xlsx` 文件,可以考虑使用 `openpyxl` 或 `pandas` 等库,它们提供了更好的性能和支持更多功能。
### 示例:完整代码示例
以下是一个完整的例子,演示了如何使用 `xlrd` 读取 `.xls` 文件并打印出其内容:
```python
import xlrd
from datetime import datetime, timedelta
def read_excel(file_path):
# 打开工作簿
workbook = xlrd.open_workbook(file_path)
# 获取所有的工作表名称
sheet_names = workbook.sheet_names()
print(f"Sheet names: {sheet_names}")
# 选择第一个工作表
sheet = workbook.sheet_by_index(0)
# 遍历所有行并打印出来
for row_idx in range(sheet.nrows):
row_data = sheet.row_values(row_idx)
print(row_data)
# 如果有日期数据,尝试转换为 Python 的 datetime
for col_idx, cell_value in enumerate(row_data):
if isinstance(cell_value, float): # 检查是否可能是日期
try:
python_date = convert_excel_date(cell_value)
print(f"Cell ({row_idx}, {col_idx}) as date: {python_date.strftime('%Y-%m-%d')}")
except Exception as e:
print(f"Failed to convert cell ({row_idx}, {col_idx}): {e}")
def convert_excel_date(excel_date):
"""将 Excel 的日期序列号转换为 Python 的 datetime"""
if excel_date > 60:
excel_date -= 1 # 调整1900年2月29日的问题
return datetime(1899, 12, 30) + timedelta(days=excel_date)
if __name__ == "__main__":
file_path = 'example.xls'
read_excel(file_path)
```
总结
`xlrd` 是一个简单易用的库,适用于需要读取 `.xls` 文件的应用场景。然而,考虑到它对较新文件格式的支持有限以及可能存在的性能问题,在选择工具时应该权衡项目的长期需求和技术栈的选择。