【二等奖论文】2024年华为杯研赛D题成品论文(后续会更新)
您的点赞收藏是我继续更新的最大动力!
一定要点击如下的卡片,那是获取资料的入口!
点击链接获取【2024华为杯研赛资料汇总】:
https://qm.qq.com/q/jTIeGzwkSchttps://qm.qq.com/q/jTIeGzwkSc
题 目: 大数据驱动的地理综合问题
摘 要:
地理系统是自然、人文多要素综合作用的复杂巨系统,地理学家常用地理综合的方式对地理系统进行主导特征的表达,本文利用大数据的手段对地理系统进行综合,探索全球气候变化下中国地理环境的演化。
针对问题一,本文首先对数据进行清洗,替换一些取值较大或较小的特殊值,并利用
准则确定一些离群点,然后使用数字、图表等方式,对原始数据进行定量总结、概括,得出了一些降水量、土地利用/土地覆被面积两个变量的在1990至2020年间中国范围内的时空演化特征。
针对问题二,首先利用逻辑回归模型量化地形-气候相互作用在极端天气形成过程中的作用,再用格兰杰因果检验和斯皮尔曼相关系数加以检验,确定它们之间的相互作用,验证了本文模型建立的有效性,为后文预测的准确性奠定基础。
针对问题三,首先对题目中提到的自变量进行量化,建立逻辑回归模型,再利用移动平均线模型和LSTM神经网络进行预测,将预测的数据代入前面建立的逻辑回归模型进行降水量的预测,利用不同的成灾临界值可确定不同的防范政策。若需要推广至多分类问题,为不同地区制定不同政策,也即对全国所有城市分类出应对暴雨灾害能力最为脆弱、较为脆弱、一般、不脆弱等类的话,只需将本文中的成灾临界值调为阶梯型的函数即可,增强模型的泛化能力。
针对问题四,将数据集3的降水量、数据集5的人口数量、数据集6的GDP数据作为中国土地利用变化的影响因素,重复问题一的描述性统计,与问题二、三的建模进行分析,描述中国土地利用变化的特征与结构,并从准确性和有用性两个方面总结解释本文所建立的模型与获得的结果。
关键词:逻辑回归;LSTM;大数据可视化;格兰杰因果检验;斯皮尔曼相关系数
一、问题重述
-
- 问题背景
地理系统是自然、人文多要素综合作用的复杂巨系统,地理学家常用地理综合的方式对地理系统进行主导特征的表达。如以三大阶梯概括中国的地形特征,以秦岭—淮河一线和其它地理区划的方式揭示中国气温、降水、植被、土壤及生态环境在水平和垂直方向上的地带性与非地带性规律,利用胡焕庸线、T型开发结构等描绘我国人口、社会和经济发展的总体格局。这些方法早期以宏观结构和定性分析为主体,对我国生态保护、社会经济发展和国家安全保障起到了巨大的支撑作用。伴随着对地观测体系的快速发展,当前已经积累了巨量的对地观测数据。如何利用大数据的手段对地理系统进行综合,探索全球气候变化下中国地理环境的演化,是当前地球科学研究的关键问题。
-
- 问题回顾
问题1:在众多描述地理环境的变量中,一些简单的指标背后蕴藏了深厚的内涵,对人类的生存发展具有重大深远的影响,如大气中二氧化碳的浓度、全球年平均气温等。降水量是一个连续变化的变量,而土地利用/土地覆被类型则是一个存在突变和离散分布的变量。同时,它们都具有时空分布不均匀的特征。请从附件数据中选取相关数据集,为这两个变量分别构建一套描述性统计方法,用1到3个较为简洁的统计指标或统计图表,对这两个变量在1990~2020年间中国范围内的时空演化特征进行描述和总结。
问题2:近年来,以暴雨为代表的极端天气事件对人类的生产生活造成了越来越难以忽视的影响。请结合附件中所给的数据,建立数学模型,说明地形-气候相互作用在极端天气形成过程中的作用。
问题3:降雨、地形和土地利用对于暴雨等极端天气灾害的形成都具有不可忽视的影响。这其中,降雨的时空变异性和不可控性都最强;土地利用作为自然条件和人类活动的综合结果,虽然也随时空演化,但具有一定可控性;地形是最为稳定、不易改变的因素。请考虑第2问所反映的从“暴雨”到“灾害”中上述三方面因素的角色及其交互作用,确定暴雨成灾的临界条件;并结合第1问中降雨量和土地利用/土地覆被变化的历史时空演化特征,对2025至2035年间中国境内应对暴雨灾害能力最为脆弱的地区进行预测。请以地图的形式呈现你们的预测结果。
问题4:在中国级别的尺度上,描述自然地理特征的地形可以概括为“三级阶梯”,而降水中具有标志性意义的“800mm等降水量线”则与区分我国南北方的“秦岭—淮河”一线大体重合;描述人文地理特征的人口分布及其社会经济活动总量等指标,则被由连接黑龙江黑河与云南腾冲的“胡焕庸线”清晰地划分成东密西疏的两部分。那么,对于自然地理和人文地理交汇点的土地利用/土地覆被情况,结合其在前三问中描述、估计和预测任务中的“特性”,利用地理大数据,建立相应的数学模型,对数据进行简化和综合,描述中国土地利用变化的特征与结构。从准确性和有用性两个方面解释验证你们的总结。
二、问题分析
2.1 问题一分析
针对问题一,本文首先对数据进行清洗,替换一些取值较大或较小的特殊值,然后使用数字、图表等方式,对原始数据进行定量总结、概括,得出了一些降水量、土地利用/土地覆被面积两个变量的在1990至2020年间中国范围内的时空演化特征。
2.2 问题二分析
针对问题二,首先利用逻辑回归量化地形-气候相互作用在极端天气形成过程中的作用,再用格兰杰因果检验和斯皮尔曼相关系数加以检验,确定它们之间的相互作用,验证了本文模型建立的有效性,为后文预测的准确性奠定基础。
2.3 问题三分析
针对问题三,首先对题目中提到的自变量进行量化,建立逻辑回归模型,再利用移动平均线模型和LSTM神经网络进行预测,将预测的数据代入前面建立的逻辑回归模型进行降水量的预测,利用不同的成灾临界值可确定不同的防范政策。若需要推广至多分类问题,为不同地区制定不同政策,也即对全国所有城市分类出应对暴雨灾害能力最为脆弱、较为脆弱、一般、不脆弱等类的话,只需将本文中的成灾临界值调为阶梯型的函数即可,增强模型的泛化能力。
2.3 问题四分析
针对问题四,将数据集3的降水量、数据集5的人口数量、数据集6的GDP数据作为中国土地利用变化的影响因素,重复问题一的描述性统计,与问题二、三的建模进行分析,描述中国土地利用变化的特征与结构,并从准确性和有用性两个方面总结解释本文所建立的模型与获得的结果。
三、模型假设
1、假设所有使用的气象、地形和土地利用数据都是准确和可靠的。
2、假设在研究期间内,中国的地形变化不大,可以认为是稳定的。
3、假设在未来预测期间,现有的社会经济发展趋势和政策导向将持续
4、在模型中,假设人类活动对土地利用变化的影响可以通过现有数据进行合理估计,并在模型中得到体现。
5、在分析暴雨成灾的临界条件时,假设一个地区的灾害风险主要受当地气候、地形和土地利用因素的影响,而较少受到远离地区的影响。
6、假设数据记录时不存在漏记错记的情况。
四、符号说明
符号 | 说明 |
Xtij | Logistic模型中的自变量 |
Ytij | Logistic模型的自变量 |
Ztij | Logistic模型的因变量 |
自变量与因变量之间的映射机制 | |
MAPE | 平均绝对百分比误差 |
第i个序列误差 | |
斯皮尔曼相关系数 | |
置信水平 | |
LSTM中的隐藏状态 | |
Wi | LSTM中的可学习参数 |
σ | 标准差 |
注:这里只列出论文各部分通用符号,个别模型单独使用的符号在首次引用时会进行说明。
五、模型建立与求解
5.1 数据清洗
对于数据集3,数据集中将中国以外的经纬度上的降水量数据均设为了-99.9,在后续数据处理中,因问题一中需要建立统计指标与统计图表,将-99.9设为0,防止这些数据对一些边界地区的降水量指标造成影响。对于人口、GDP等数据的处理方式相同,将其中的-NAN或NAN替换为0.
图1 数据集3中取某一天的降水量的可视化
利用Python进行编程将负值设为0,并进行可视化后的结果可见图2。将NetCDF文件中的数据daily precipitation也即pre的数据取出转化为矩阵的形式,利用
准则对异常数据进行分析,此时并不进行剔除,在问题二和三中对“暴雨”和“成灾”界定后再进行剔除。于此同时,对于其他数据集的如GDP、人口、地形、气温,土地利用和覆盖,以每一年为一个样本,利用
准则对异常数据进行分析并剔除。
5.2 问题一模型的建立与求解
5.2.1 问题一模型的建立与求解
首先对这降水量在1990至2020年间中国范围内的时空演化特征进行描述和总结,首先固定空间分析该变量随时间变化的趋势,
图3
图4
从波动来看最大值与最小值的差距并不是特别明显,每年基本上都维持在当地的一个平均水平上。但从月降水量的波动来看,全国的月降水量明显呈现出季节趋势,存在着明显的波峰与波谷。(为降重考虑,大家可以自行补充语