当前位置：首页 > article >正文

利用pandas为海量数据添加UUID并实现精准筛选

article 2024/11/12 23:19:06

文章目录

- 摘要
- 引言
- 环境准备
- 构建示例数据
- 添加UUID列
- 精准筛选数据
- 成果展示

摘要

在数据处理中，为每条数据记录赋予独特身份标识至关重要。本文通过引入UUID 作为全局唯一标识符，结合强大的pandas库，详细介绍了如何为数据表轻松添加UUID，并通过UUID精准筛选出所需数据。文章从环境准备、构建示例数据、添加UUID列，到精准筛选数据等步骤进行了详细阐述，为数据处理人员提供了一种直观且高效的数据交互方式。

引言

在数据处理领域，为海量数据记录赋予独特身份标识是至关重要的。这种标识，类似于每个人的身份证号码，能够帮助我们追踪、分析和识别数据。UUID（Universally Unique Identifier）正是这样一种能够确保全球唯一性的标识符。想象一下，在庞大的数据海洋中，如何快速定位并筛选出我们感兴趣的信息呢？这就像侦探在案件调查中精准搜寻线索一样，需要迅速且准确。今天，我们将借助强大的pandas库，学习如何为数据表轻松添加UUID，并精准筛选出所需数据。

环境准备

首先，请确保您的环境中已安装pandas库。如果尚未安装，请通过以下命令进行安装：

pip install pandas

安装完成后，我们可以开始导入pandas，并准备一些示例数据以供实验。

构建示例数据

为了让学习过程更加有趣且直观，我们将创建一个包含100万条模拟数据的数据集，每条数据包含随机的名字和年龄。

import pandas as pd  
import random  
import string  
import uuid  
  
# 生成随机名字：假设名字都是5个随机字母的组合  
names = [''.join(random.choices(string.ascii_letters, k=5)) for _ in range(int(1e6))]  
  
# 生成随机年龄：假设年龄范围在18到100岁之间  
ages = [random.randint(18, 100) for _ in range(int(1e6))]  
  
# 创建一个DataFrame来存储这些数据  
df = pd.DataFrame({"name": names, "age": ages})

现在，我们已经拥有了一个包含100万条数据的数据集，每条数据都包含随机的名字和年龄。接下来，我们将为每条数据分配一个唯一的UUID。

df.head()

	name	age
0	uqHNN	53
1	wFdfi	60
2	EpYUg	32
3	duNqw	30
4	pyuaV	75

添加UUID列

在pandas中，为DataFrame添加一列UUID非常简单。我们将为每条数据生成一个UUID，并将其作为新列添加到DataFrame中。

# 为每条数据生成一个UUID  
uuids = [str(uuid.uuid4()) for _ in range(int(1e6))]  
  
# 将UUID作为新列添加到DataFrame中  
df["uuid"] = uuids

df.head()

如下标所示，uuid属性列已完成添加：

	name	age	uuid
0	uqHNN	53	8aeb9ff4-6c62-4da5-81fd-056905c43a23
1	wFdfi	60	66740675-6b7f-42bc-91af-d6618540e88a
2	EpYUg	32	74e24dec-af01-45d4-b7ca-65ad5b274777
3	duNqw	30	d96eaab8-48e8-4458-b6c8-4fc8d277b8fb
4	pyuaV	75	e24f5883-fabf-4410-b949-1a0d6629c168

精准筛选数据

假设我们想要从这100万条数据中快速找出特定的10条数据。有了UUID，这变得轻而易举。我们可以随机选择10个UUID作为搜索目标，并使用isin()函数根据这些UUID筛选出对应的数据行。

# 随机选择10个UUID作为搜索目标  
idxs = random.sample(range(int(1e6)), 10)  
uuid_index = list(df["uuid"][idxs])  
  
# 使用isin()函数根据UUID列表筛选出对应的数据行  
filtered_df = df[df["uuid"].isin(uuid_index)]

idxs

[346213, 547106, 971513, 982517, 289692, 399447, 209555, 417602, 426722, 798174]

uuid_index

随机筛选出的10条数据的uuid如下所示：

['d281e1e6-2cdc-4417-bac4-55c1e2d63487',
 'd2b628df-a030-4ce7-8ed6-3ea632325298',
 'dd81e3dc-56f0-4dc3-ae6d-487fb6e52d73',
 'd02aae73-0a15-47e0-aa46-975331699d88',
 '00e068d4-afbd-4fab-bc2d-cea042dcc886',
 'd2afeca5-6eae-4a7c-94ed-67713687544e',
 'be5547d4-62be-403b-a0ac-b7e9cd3f2623',
 '10871287-d665-4790-a04f-25b2ad6ce931',
 '38cc6b4f-c0a0-489d-a82f-8a7105424c7e',
 'd1cf6d2b-4385-4f05-9961-d476fa7e622d']

最后，让我们打印出这10条数据的信息，以验证筛选结果是否正确。

成果展示

filtered_df

	name	age	uuid
209555	FirEu	60	be5547d4-62be-403b-a0ac-b7e9cd3f2623
289692	jpPof	51	00e068d4-afbd-4fab-bc2d-cea042dcc886
346213	zrzCv	79	d281e1e6-2cdc-4417-bac4-55c1e2d63487
399447	SelbJ	77	d2afeca5-6eae-4a7c-94ed-67713687544e
417602	XJMBy	89	10871287-d665-4790-a04f-25b2ad6ce931
426722	FRDHN	94	38cc6b4f-c0a0-489d-a82f-8a7105424c7e
547106	PMqTZ	35	d2b628df-a030-4ce7-8ed6-3ea632325298
798174	HfOUA	92	d1cf6d2b-4385-4f05-9961-d476fa7e622d
971513	agNRB	29	dd81e3dc-56f0-4dc3-ae6d-487fb6e52d73
982517	ZqtPP	45	d02aae73-0a15-47e0-aa46-975331699d88