2024年亚太杯数学建模竞赛赛题选题人数发布
经过36个小时【截至11.22日 18:00】,各个平台的相关选题投票、相关文章阅读量等各项数据进行统计,利用之前的评估办法(详见注释)。在开赛后24小时,我们基本确定各个赛题选题人数,以帮助大家更好地分析赛题局势。
题目 | 人数 |
A | 98 |
B | 67 |
C | 412 |
D | 45 |
中国宠物食品行业的发展趋势与汇率情景分析:基于多模型的量化预测与决策分析
摘要
近年来,中国宠物食品行业迅速增长,但面临复杂的国际形势和多变的市场环境,因此科学地分析和预测该行业的发展趋势至关重要。本研究通过构建多个机器学习与统计回归模型,量化分析中国宠物食品行业的关键驱动因素,预测未来宠物食品总产值和出口值。
在数据处理部分,收集了2019年至2023年中国宠物食品行业的相关数据,包括宠物数量、市场规模、人口增长率、人均GDP、汇率等多项指标。为确保数据的可比性与模型的有效性,进行了数据标准化、特征选择及特征工程,构建了完整的分析数据集。
对于问题一,首先分析了哪些因素对中国宠物食品总产值产生显著影响。通过使用相关性分析与线性回归模型,发现宠物数量、市场规模和全球市场规模与宠物食品总产值的相关性最高,相关系数分别为0.945、0.xxx和0.9xx。同时,美元兑人民币汇率(USD/CNY)与宠物食品总产值之间也存在0.xxx的正相关性,这表明汇率波动对宠物食品总产值具有一定的影响。
在问题二中,研究了影响中国宠物食品出口值的关键因素,并采用支持向量回归(SVR)模型进行建模。通过多因素的特征选择,构建了与出口相关的特征集(食品出口百分比、人口增长率、美元汇率、美国对中国的宠物食品进口量),利用SVR模型对未来进行预测,结果显示,2027年中国宠物食品出口值在基本情景下预计达到xxx.xx亿美元。
问题三是对未来中国宠物数量的预测分析。由于宠物数量的变化具有一定的非线性特征,采用了多种模型,包括线性回归、多项式回归和指数回归,并使用组合模型加权优化预测结果。最终预测显示,到2027年,中国宠物数量将达到xxx.xx百万,结合多模型组合预测的结果,均方误差(MSE)相比单一模型降低了xxx%。
针对问题四,分析了汇率变化对宠物食品出口的影响,进行了不同汇率情景下的预测。情景一为基础汇率增长2%,情景二为汇率大幅增加10%,情景三为汇率减少5%。结果表明,在汇率大幅增加的情景下,到2027年宠物食品出口可能下降至28.9亿美元,而在汇率减少的情景下,出口则有望增加到62.3亿美元。这一结果表明汇率波动对出口具有较大的影响,是中国宠物食品行业需考虑的重要风险因素。
在问题五中,进行了中国宠物食品总产值和出口值的综合预测,并采用了包括支持向量回归(SVR)、随机森林、线性回归和多项式回归等多种模型进行比较和加权组合。结果显xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
关键词:宠物食品行业,回归分析,支持向量回归,情景分析,汇率波动,行业预测
一、模型的建立与求解
5.1 数据收集与处理
5.1.1 数据收集
为了对全球及中国宠物行业的发展情况进行深入分析,进行了广泛的数据收集工作。本研究的数据来源涵盖了宠物食品市场规模、兽医服务开支、宠物食品开支、美国宠物家庭渗透率、关税政策以及宠物医疗市场规模等多个维度。本研究还收集了多项经济和行业指标数据,具体如下:
分类 | 指标名称 |
市场规模与经济数据 | 猫的全球市场规模(亿美元),狗的全球市场规模(亿美元),宠物市场规模(百万和亿美元),宠物食品开支(亿美元),兽医服务开支(亿美元),宠物医疗市场规模(亿元人民币),中国宠物食品出口总值(美元),中国宠物食品总产值(人民币),欧盟宠物食品进口总额(亿欧元),美国宠物食品进口总额(亿美元)。 |
贸易与关税政策数据 | 报告经济体的商品出口,向拉丁美洲和加勒比地区的发展中经济体的商品出口(占商品出口总额的百分比),向高收入经济体的商品出口,制造业出口,食品出口(占商品出口的百分比),美国最惠国税率(MFN),美国对中国加征关税,欧盟最惠国税率(MFN),欧盟对中国加征关税,进口数量限制,自由贸易协定(FTA)。 |
宏观经济与人口数据 | 出生人口性别比(每1000名男性的女性),总生育率(女性人均生育数),年轻群体总失业人数(占15-24岁所有劳动力数量的比例),人口总数(女性),人口增长(年度百分比),总税率(占商业利润的百分比),税收(占国民生产总值(GDP)比例),城镇人口,农村人口,汇率(USD/CNY,EUR/CNY),人均 GDP(现价美元),按购买力平价 (PPP) 衡量的居民最终消费支出(现价国际元),商业服务进口额(现价美元),食品生产指数(2014-2016 = 100),基尼 (GINI) 系数。 |
宠物行业普及率与渗透率 | 中国宠物家庭渗透率,美国宠物家庭渗透率,全球宠物狗数量(亿只),全球宠物猫数量(亿只),全球人均宠物食品消费(美元)。 |
通过多来源、多维度的数据收集,确保了数据的全面性和可靠性,部分来源网站如下所示
表1:来源网站
宠物食品市场规模(亿美元) | 兽医服务开支 (亿美元)+宠物食品开支 (亿美元) | 美国宠物家庭渗透率 |
https://www.jiemian.com/article/11967023.html | https://www.euromonitor.com/ | https://www.sohu.com/a/700105587_121746450 |
https://www.thepaper.cn/newsDetail_forward_29179742 | https://www.marketresearch.com | https://www.21jingji.com/article/20240117/herald/100e75780066b931e56c2d585b19b3a5.html |
https://www.hangyan.co/charts/3488743342085244004 | https://www.hangyan.co/charts/3392831999713477730 |
5.1.2 数据清洗
首先,需要对数据进行必要的处理工作对于初步收集的数据存在大量的缺失值,需要补充。由于部分指标仅只能在网站收集,网站给出数据并非逐年的。为了方便后续计算,需要对缺失值数据利用插值方式进行补充。
表1:缺失值数据
法国相关数据 | ||||
年份 | 兽医服务开支(亿美元) | 宠物医疗市场规模(亿欧元) | 报告经济体的商品出口,剩余(占商品出口总额的百分比) | 总生育率(女性人均生育数) |
2019 | 1.2 | 0.787204677 | 1.86 | |
2020 | 1.9 | 1.3 | 0.455771952 | 1.83 |
2021 | 2 | 1.4 | 0.466127228 | 1.84 |
2022 | 1.794 | |||
2023 | 2.4 | 1.6 | 0.296505815 | 1.844526316 |
5.2 问题一模型的建立与求解
5.2.1 分析发展情况
为了更好地理解数据的变化趋势,利用matlab通过六个子图对宠物行业中的关键变量进行了可视化展示。图形展示的意图如下
图 1. 宠物数量变化展示了 猫数量、狗数量 和 总宠物数量 在 2019-2023 年间的变化趋势。结果显示:猫的数量呈逐年上升的趋势,尤其在2020年之后增长较快;而狗的数量则存在一定的波动,尤其在2020年到2022年间有所下降,可能与疫情期间人们对养狗的需求和条件变化有关,总宠物数量总体呈现稳定增长。
5.2.3 预测未来发展
使用了历史数据和多种回归方法对中国猫的数量在未来三年内的增长情况进行了预测。具体来说,结合了 线性回归、多项式回归、非线性回归 和 加权预测模型 来提高预测的准确性,并对各模型的预测误差进行了对比分析。下面将详细描述模型的构建、预测过程
数据定义
·历史年份 (years) : 从2019年到2023年。
·人口增长率 (pop_growth_rate): 毎年的年度人口增长率 (%)。
·人均GDP (gdp_per_capita): 以现价美元计算的人均GDP。
·猫数量 (cat_count)、狗数量 (dog_count) 和 总宠物数量 (total_pet_count):表示宠物的数量(以万为单位)。
·宠物市场规模 (market_size) 和 宠物医疗市场规模 (pet_medical_market_size) : 分别以亿美元和亿元人民币表示。
未来数据的预测:
·未来三年 (years_future): 2025年到2027年。
·未来三年人口增长率 (pop_growth_rate_future): 假定的负增长率。
·未来三年人均GDP (gdp_per_capita_future):按照每年5%的增长率预测。
为了预测未来的猫数量,使用了三种不同的回归模型:
线性回归预测
MAPE 和 RMSE 的柱状图 用于比较不同模型的误差,可以直观看出 加权预测模型 在两项指标上都表现最好,说明通过结合不同模型的优势可以得到更准确的预测。通过对猫数量的预测,构建了 线性、多项式、非线性 等多种回归模型,最终使用 加权平均 的方式将各模型的预测进行优化组合。加权预测模型在误差评估上表现最佳,这说明通过结合多种模型的优势,可以显著提高预测精度。
未来的猫数量预测(2025-2027年)基于多种经济指标(如人口增长率和人均GDP),通过这种多模型结合的方法,能够更好地应对复杂的非线性增长特性,为中国宠物行业的发展提供更为可靠的趋势预测。
摘要
“宠物陪伴”在中国的流行而逐渐拥有了广阔且快速增长的市场。因此,分析宠物行业的发展趋势及市场需求,以及根据分析和当前的经济环境,为中国宠物行业的发展提出相应的战略建议至关重要。
针对问题1,首先对数据进行预处理,由于题目所给数据量较少,因此先从统计局等网站收集相关数据数据,并对数据进行清洗,填充缺失值,去除异常值。然后进行相关性分析,采用斯皮尔曼系数大致了解相关性,用随机森林进行细化,建立模型分析中国宠物行业发展影响最大的五个因素。最后建立ARIMA、随机森林改进模型和多元线性回归三个模型并进行对比,选择最优模型随机森林来预测未来三年中国宠物行业的发展。
问题2要求分析全球宠物行业(按宠物种类:猫和狗)的发展趋势,并预测未来三年全球宠物食品的需求,首先进行数据预处理,收集相关数据并将来自中国、美国、法国、德国的数据合并成一个全球宠物行业的数据集,然后构建梯度提升回归模型和XGboost模型预测未来三年四个国家对宠物食品的需求,最后整合为全球预测结果。
针对问题3,要求分析中国宠物食品行业的生产与出口情况,并预测未来三年的发展。结合全球宠物食品市场的需求趋势以及中国的发展情况,增加差分特征,使用梯度提升模型和超参数调优对生产和出口分别进行预测,性能通过均方误差(MSE)来评估,以确保预测值的合理性。
针对问题4,要求分析外国经济政策对中国宠物食品行业的影响,并提供可持续发展战略。首先采集关税税率等政策,使用LASSO和交叉验证定量分析各个变量的影响与相关程度,最终基于这四个问题指定中国宠物食品行业的可持续发展可行的策略。
一、问题求解与分析
4.1 问题1求解与分析
4.1.1 问题1分析
针对问题1,首先对数据进行预处理,由于题目所给数据量较少,因此先从统计局等网站收集相关数据数据,并对数据进行清洗,填充缺失值,去除异常值。然后进行相关性分析,采用斯皮尔曼系数大致了解相关性,用随机森林进行细化,建立模型分析中国宠物行业发展影响最大的五个因素。最后建立ARIMA、随机森林改进模型和多元线性回归三个模型并进行对比,选择最优模型随机森林来预测未来三年中国宠物行业的发展。
4.1.2 问题1建模与求解
1、数据预处理
1.1 数据收集与准备
为了分析中国宠物行业的发展及其影响因素,我们收集了中国2019年至2023年的宠物行业相关数据。将附件1给出的数据进行可视化,了解数据的分布以及趋势,数据包括猫和狗的数量(单位为万只),如图1所示。在这五年(2019年到2023年)间,蓝色部分逐渐增大,而绿色部分逐渐减小。这表明猫的比例在逐年增加,而狗的比例在逐年减少。也就是说从2019年到2023年,猫的比例呈现逐年增加的趋势,说明饲养猫的人越来越多。相对的,狗的比例则逐年下降,表明饲养狗的家庭相对减少,或者狗的数量增长速度低于猫。
显然仅有上述数据是不够的,因此在一些网站上采集了其他可能影响宠物行业发展的社会经济因素,比如中国宠物食品总产值(人民币),中国宠物食品出口总值(美元),宠物市场规模(亿美元)等,数据收集完成后,我们对数据进行了清洗和整理,确保特征和目标变量无缺失或异常值。
1.2 相关性分析
为了找出与中国宠物行业发展最相关的影响因素,我们首先对各个特征与目标变量(即猫和狗的数量)进行了斯皮尔曼相关性分析。斯皮尔曼相关性是一种非参数检验方法,适用于分析数据之间的单调关系,特别适合存在非线性关系的数据。它是衡量两个变量的相关性的非参数指标。它利用单调函数评价两个统计变量的相关性。若数据中没有重复值,且当两变量完全单调相关时,斯皮尔曼相关系数为+1或−1。
我们计算了所有特征与目标变量之间的斯皮尔曼相关系数,并以热力图的形式进行可视化,以更直观地展示各个因素的相关性。由于指标有很多,热力图不便于完全展示,这里仅仅选取了十几个指标进行观察,为了找到中国宠物行业发展的重要影响因素,这里建立随机森林模型分析特征重要性,以中国宠物猫狗数量为因变量分析,反映未来市场的变化趋势和潜在的增长空间,找到了影响最大的五个因素,然后分析中国宠物行业发展的影响最大的五个因素,影响最大的五个因素如表1和表2所示,可视化结果如图3所示。
在随机森林建立过程中,生成的部分树如图5所示。
表1
Feature | Cats Importance | Dogs Importance |
总税率 (占商业利润的百分比) | 0.130597 | 0.181137 |
中国宠物食品总产值 (人民币) | 0.107714 | 0.124633 |
基尼 (GINI) 系数 | 0.101656 | 0.095881 |
宠物食品开支 (亿美元) | 0.094405 | 0.057406 |
农村人口 | 0.089761 | 0.072159 |
表2
Feature | Cats Importance | Dogs Importance |
总税率 (占商业利润的百分比) | 0.130597 | 0.181137 |
中国宠物食品总产值 (人民币) | 0.107714 | 0.124633 |
人均 GDP (现价美元) | 0.062375 | 0.102648 |
基尼 GINI) 系数 | 0.101656 | 0.095881 |
食品生产指数 | 0.084467 | 0.072211 |
随机森林选择特征的建立过程部分展示:
2、建立预测模型
为了预测未来三年(2024-2026年)中国宠物行业的发展情况,我们采用了三种不同的方法进行建模和预测:
(1)ARIMA 时间序列模型:用于捕捉数据的时间序列趋势和季节性特征。适合捕捉数据的时间序列特征,尤其是在数据具有明显趋势或季节性时。
(2)随机森林回归优化模型:随机森林是一种基于集成学习的非线性模型,能够处理复杂的特征之间的交互。能够捕捉特征之间的复杂关系,预测结果对于非线性数据具有较高的精度。在此基础上,加入了留一法交叉验证进行优化,进一步提升模型预测的准确率。
(3)多元线性回归模型:用于分析各影响因素之间的线性关系,并进行未来趋势预测。能够提供各个特征对目标变量的线性解释,但对于非线性关系可能效果不佳。
2.1 ARIMA模型求解
(1)ARIMA模型原理
ARIMA模型由三个主要部分组成:自回归 (AR)、差分 (I) 和滑动平均 (MA)。其完整形式可以表示为ARIMA ,其中参数 分别代表自回归阶数、差分阶数和滑动平均阶数。
自回归AR:自回归部分描述了序列当前值与其过去值之间的关系。它假设当前值可以由过去的值加上一些随机误差来描述。自回归模型的阶数 p 决定了要参考多少个历史值。AR(p) 表示序列的当前值是前 p 个过去值的线性组合。数学表示如下:
(2)ARIMA模型预测求解
ARIMA 模型需要输入平稳的时间序列数据,因此我们首先对猫和狗的数量进行了平稳性检测(ADF 检验),并对非平稳的数据进行差分处理直到其满足平稳性的要求。首先可以看到猫和狗的数据不是平稳的,因此不能直接采用ARIMA模型进行处理,所以要对数据进行差分操作,一阶差分之后,可以看到狗的数据是平稳的,但是猫的数据仍然是非平稳的,因此还要对猫的数据进行二阶差分处理。一阶差分后得到的结果如下所示:
Cats p-value (Diff): 0.42811060946796686
猫数据的一阶差分仍然非平稳
Dogs ADF Statistic (Diff): -6.142011812079186
Dogs p-value (Diff): 7.929541291227802e-08
狗数据的一阶差分是平稳的
在处理完毕之后,针对猫和狗的数据分别建立 ARIMA 模型,对未来三年进行预测。预测结果如下所示。
Cats Forecast (2024-2026): [7647.15363209 8295.50444178 8945.43956864]
Dogs Forecast (2024-2026): [5014.4923516 5169.36835894 5019.92639846]
Standard Deviation (Normalized) - Cats: 0.3778613945734487
Standard Deviation (Normalized) - Dogs: 0.38937160021701045
2.2 随机森林回归优化模型求解
(1)随机森林回归优化模型原理
随机森林是一种集成学习方法,具体来说是装袋法(Bagging,Bootstrap Aggregating)的一种应用。它通过训练多棵决策树来进行预测,并结合
4.2 问题2求解与分析
4.2.1 问题2分析
问题2要求分析全球宠物行业(按宠物种类:猫和狗)的发展趋势,并预测未来三年全球宠物食品的需求,首先进行数据预处理,收集相关数据并将来自中国、美国、法国、德国的数据合并成一个全球宠物行业的数据集,然后构建梯度提升回归模型和XGboost预测未来三年四个国家对宠物食品的需求,最后整合为全球预测结果。
4.2.2 问题2建模与求解
问题2需要基于提供的数据和收集的额外数据,分析全球宠物行业(中国、美国、法国、德国)按宠物类型的发展情况,构建适当的数学模型来预测未来三年(2024-2026年)的宠物食品需求。
1、数据收集与准备
根据提供的附件2中的数据,以及收集到的额外数据,我们涵盖了包括美国、法国、德国等主要海外国家的宠物数量变化情况。原始附件2中的数据可视化如图8所示(加入中国),根据可视化结果,可以看出不同国家中宠物猫和狗的数量呈现不同的增长趋势。其中,美国的宠物数量相对较多,而法国和德国的宠物数量相对较为平稳,但略有增长。
将原始附件2和收集到的额外数据进行清理和整合,过程如下:
(1)将来自中国、美国、法国、德国的数据合并成一个全球宠物行业的数据集。各国的数据将以宠物数量(猫和狗)、宠物食品市场规模、宠物食品出口总值等关键特征来整合。
(2)处理缺失值:对各国的数据中的缺失值,采用合适的填补方法,例如均值填补或使用插值法。
(3)数据标准化/归一化:由于各国的数据范围不同,可能导致数据的量纲差异较大。可以通过归一化或标准化使得模型更易于处理这些数据。
第二版本 无附录 34页 18488字 7*5*3*3=315种方案选择
问题1 多元线性回归 ARIMA模型 随即森林优化模型
问题2 梯度提升 XGboost
问题3 梯度提升预测模型
问题4 Lasso
第一版本 无附录 43页 23072字 7*5*3*3=315种方案选择
问题一 六种基础模型+一种集成模型
问题二 五种模型对比
问题三 三种模型
问题四 单模型三情况对比