Pandas 2-读取文件
1. 读取CSV文件
CSV(Comma-Separated Values)是一种常见的文件格式,用于存储表格数据。Pandas提供了read_csv
方法来读取CSV文件。
import pandas as pd
# 读取CSV文件
df = pd.read_csv('input.csv')
print(df)
2. 读取Excel文件
Excel文件是一种广泛使用的电子表格文件格式。Pandas提供了read_excel
方法来读取Excel文件。需要注意的是,读取Excel文件需要安装openpyxl
或xlrd
库。
pip install openpyxl
# 读取Excel文件
df = pd.read_excel('input.xlsx', engine='openpyxl')
print(df)
3. 读取JSON文件
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。Pandas提供了read_json
方法来读取JSON文件。
# 读取JSON文件
df = pd.read_json('input.json')
print(df)
4. 读取SQL数据库
如果需要从SQL数据库中读取数据,Pandas提供了read_sql
方法。需要安装sqlalchemy
库,并确保数据库连接正常。
pip install sqlalchemy
from sqlalchemy import create_engine
# 创建数据库连接
engine = create_engine('sqlite:///mydatabase.db')
# 读取SQL数据库
query = 'SELECT * FROM my_table'
df = pd.read_sql(query, engine)
print(df)
5. 读取HTML文件
HTML文件可以用于网页展示数据。Pandas提供了read_html
方法来读取HTML文件中的表格数据。
# 读取HTML文件
dfs = pd.read_html('input.html')
print(dfs[0]) # 假设HTML文件中只有一个表格