当前位置：首页 > article >正文

Hive 中 IP 字典的应用：让你的数据分析更加精准

article 2025/1/29 17:38:32

大家好！时隔一年，再次更新帖子，今天我们来探讨一个在大数据分析中非常实用的功能：在 Hive 中将连续的 IP 地址合并为一整条数据，作为字典使用。这项技术可以帮助我们减少数据量，提高数据处理效率，下面我将详细介绍如何实现这一功能。

一、准备工作

1.数据准备：首先，确保你有包含 IP 地址的 Hive 表。假设我们的表名为 ip_logs，结构如下：

CREATE TABLE `ipdata`  (
  `iplong` longtext CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci NULL,
  `c_region` varchar(255) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci NULL DEFAULT NULL,
  `c_city` varchar(255) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci NULL DEFAULT NULL,
  `c_district` varchar(255) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci NULL DEFAULT NULL,
  `company` varchar(255) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci NULL DEFAULT NULL
) ENGINE = InnoDB CHARACTER SET = utf8mb4 COLLATE = utf8mb4_0900_ai_ci ROW_FORMAT = Dynamic;

2.数据预处理：将 IP 地址转换为数字形式，以便于进行比较和合并操作。可以使用 UDF（用户定义函数）来实现。

二、创建 IP 范围表

为了合并连续的 IP 地址，我们需要创建一个临时表来存储 IP 范围信息。SQL 语句如下：

INSERT INTO `ipdata` VALUES ('74420640', '重庆市', '重庆市', '渝中区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('74420641', '重庆市', '重庆市', '渝中区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('74420642', '重庆市', '重庆市', '渝中区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('74420643', '重庆市', '重庆市', '渝中区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('74420644', '重庆市', '重庆市', '渝中区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('74420991', '重庆市', '重庆市', '渝中区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('91021632', '重庆市', '重庆市', '南岸区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('91021633', '重庆市', '重庆市', '南岸区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('91021634', '重庆市', '重庆市', '南岸区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('91021635', '重庆市', '重庆市', '南岸区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('91021636', '重庆市', '重庆市', '南岸区', '重庆工商大学');
INSERT INTO `ipdata` VALUES ('49127859', '重庆市', '重庆市', '南岸区', '重庆工商大学');

在这里插入图片描述

# 三、合并连续 IP

接下来，我们使用窗口函数来合并连续的 IP 地址。以下是一个示例查询：

SELECT
	MIN( iplong ) AS minip,
	MAX( iplong ) AS maxip,
	c_region,
	c_city,
	c_district,
	company 
FROM
	(
	SELECT
		iplong,
		c_region,
		c_city,
		c_district,
		company,
		ROW_NUMBER() OVER ( PARTITION BY  c_region, c_city, c_district, company ORDER BY iplong ) AS rn 
	FROM
		ipdata
	) AS b_location 
GROUP BY
	c_region,
	c_city,
	c_district,
	company,
	iplong - rn