当前位置：首页 > article >正文

【机器学习(十三)】零代码开发案例之股票价格预测分析—Sentosa_DSML社区版

article 2024/12/31 4:32:10

文章目录

一、背景描述
二、Sentosa_DSML社区版算法实现
- (一) 数据读入
- (二) 特征工程
- (三) 样本分区
- (四) 模型训练和评估
- (五) 模型可视化
三、总结

一、背景描述

股票价格是一种不稳定的时间序列,受多种因素的影响。影响股市的外部因素很多,主要有经济因素、政治因素和公司自身因素三个方面的情况。自股票市场出现以来,研究人员采用各种方法研究股票价格的波动。随着数理统计方法和机器学习的广泛应用,越来越多的人将机器学习等预测方法应用于股票预测中,如神经网络预测、决策树预测、支持向量机预测、逻辑回归预测等。
XGBoost是由TianqiChen在2016年提出来,并证明了其模型的计算复杂度低、运行速度快、准确度高等特点。XGBoost是GBDT的高效实现。在分析时间序列数据时,GBDT虽然能有效提高股票预测结果,但由于检测速率相对较慢,为寻求快速且精确度较高的预测方法,采用XGBoost模型进行股票预测,在提高预测精度同时也提高预测速率。可以利用XGBoost网络模型对股票历史数据的收盘价进行分析预测,将真实值和预测值进行对比,最后通过评估算子来评判XGBoost模型对股价预测的效果。
数据集通过爬虫获取从2005年开始到2020年的股票（代码为 510050.SH）历史数据，下表展示了股票在多个交易日内的市场表现，主要字段包括：

字段	含义
ts_code	股票代码
trade_date	交易日期
pre_close	前一个交易日的收盘价
open	开盘价
high	当日最高价
low	当日最低价
close	当日收盘价
change	收盘价变化值（与前一日相比的差值）
pct_chg	收盘价变化百分比
vol	成交量
amount	成交金额
label	标记某日涨跌情况

这些字段全面记录了股票每天的价格波动和交易情况，用于后续分析和预测股票趋势。

二、Sentosa_DSML社区版算法实现

(一) 数据读入

首先，利用文本算子从本地文件读入股票数据集。
在这里插入图片描述

(二) 特征工程

移动平均线是一种常用的技术指标，通过计算移动平均来分析股票的价格走势，帮助识别市场趋势，并为交易决策提供参考。根据不同的窗口大小（5天、7天、30天）来计算股票的收盘价的移动平均线，移动平均线可以平滑股价的短期波动，从而更好地识别股票的长期趋势。短期的 5 日、7 日移动平均线通常用来捕捉股票的短期趋势，帮助交易者快速做出买入或卖出的决策。30 日移动平均线则代表中长期趋势，帮助识别更广泛的市场方向。通过绘制图表，可以直观地看到收盘价格及其对应的移动平均线，方便观察价格变化和趋势。
利用生成列算子，通过设定的生成列表达式计算的新列的值，并设置列名，这里生成列分别为 moving_avg_5d、 moving_avg_7d、 moving_avg_30d，分别表示不同周期（5天、7天、30天）的移动平均线。
在这里插入图片描述
表达式为SQL窗口函数，

AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)
AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)
AVG(`close`) OVER ( ROWS BETWEEN 4 PRECEDING AND CURRENT ROW)

在这里插入图片描述
连接折线图算子，选择收盘价实际值和移动平均线，进行图表展示。

得到结果如下，可以直观地看到收盘价格及其对应的移动平均线，方便观察价格变化和趋势。

再利用生成列算子，计算股票价格与不同周期的移动平均线的偏差的绝对值，得出当前价格偏离移动平均线的程度，观察偏离水平。偏差值越大，意味着价格波动越剧烈，可能处于较强的上涨或下跌趋势中。偏差值越小，意味着价格与均值靠近，波动较小，市场可能处于震荡或横盘阶段。
如果偏差持续扩大，说明价格远离均值，可能面临较大的回调风险或即将突破某个方向。
如果偏差开始收窄，说明价格回归均值，可能表明市场趋势趋于稳定或发生反转。
这里设置生成列列名分别为deviation_MA5、 deviation_MA7、deviation_MA30，分别表示不同周期得偏差。
生成列值得表达式如下：

abs(`close`-` moving_avg_5d`)
abs(`close`-` moving_avg_7d`)
abs(`close`-` moving_avg_29d`)

在这里插入图片描述
右键生成列算子预览可以得到数据展示。

或者利用图表算子对偏差值进行可视化图表展示，通过对偏差值进行可视化展示，绘制偏差曲线，可以直观呈现实际收盘价格与移动平均线之间的偏离趋势，不仅有助于揭示市场波动的幅度，还能为识别潜在的价格反转或趋势变化提供重要依据，能够更精准地判断市场的动向，从而优化决策流程并降低交易风险。
在这里插入图片描述
然后，基于交易量计算加权平均价格，反映特定时间段内股票的平均成交价格，考虑成交量的影响。计算公式是用股票的收盘价（close）乘以交易量（vol），然后计算加权收盘价的累积和，除以交易量的累积和。
利用生成列算子设置列名，并构造生成列表达式计算成交量加权平均值。
在这里插入图片描述
当股票的收盘价（close）大于成交量加权平均值时，signal 设置为 1，表示一个买入信号，股票价格处于强势。
当股票的收盘价小于等于成交量加权平均值时，signal 为 0，表示弱势，可以用于做空或保持观望。这个信号可以作为简单的策略来指导交易决策。
利用选择算子，对数据按照表达式trade_date;close>成交量加权平均对数据进行选择。
在这里插入图片描述
并连接删除和重命名算子将进行条件判断后得列修改列名为signal，表示交易决策的指导信号。

再连接合并算子，将数据利用关键字trade_date将特征列进行合并。

右键预览，可观察合并后的数据情况，也可以连接表格算子对数据进行表格输出。
在这里插入图片描述

(三) 样本分区

在处理数据时，将trade_date列从int类型转换为datetime 类型，可以连接两个格式算子完成，首先将int类型的日期转换为字符串，然后再将字符串转换为datetime类型。
在这里插入图片描述
对数据输出类型进行格式化后，连接类型算子，设置数据的测量类型和模型类型。这里修改模型类型，设置建模算子输入数据需要的标签列和特征列等属性。

然后，连接样本分区算子，利用时间序列对数据进行分区，训练集和测试集比例为8：2。在这里插入图片描述

(四) 模型训练和评估

首先，选择XGBoost回归算子，并设置了相关参数用于模型训练，使用均方根误差（RMSE）作为评估模型表现的指标。构建了一个XGBoost预测模型，并将其应用于股票收盘价预测。也可以连接其他回归模型进行训练，将XGBoost模型的预测结果与其他模型的预测结果进行比较，并通过模型评价指标（如R²、MAE、RMSE等）对各个模型的表现进行验证和评估。
在这里插入图片描述
执行后可以得到训练完成的XGBoost回归模型，右键可进行查看模型信息和预览结果等操作。

连接评估算子对XGBoost模型进行评估。股票预测模型的预测性能评价指标采用R²、MAE、RMSE、MAPE、SMAPE和MSE，分别用于评估模型的拟合优度、预测误差的平均绝对值、均方根误差、绝对百分比误差、对称百分比误差和均方误差，用于衡量预测的准确性和稳定性。
在这里插入图片描述
得到训练集和测试集的评估结果如下所示：

该XGBoost股票预测模型在训练集上表现优异，误差较小，表明模型能够很好地拟合训练数据。在测试集上的评估结果也较为理想，MAE为0.054，RMSE为0.093，MAPE和SMAPE分别为1.8%和1.7%，说明模型在测试集上的预测误差较小，具有良好的泛化能力，能够较为准确地预测股票收盘价，该模型在平衡训练集拟合和测试集泛化上表现稳定。

(五) 模型可视化

右键模型信息可以查看特征重要性图、残差直方图等信息。
在这里插入图片描述

连接时序图算子，用于将XGBoost模型预测的股票收盘价与实际收盘价进行可视化对比，将每个序列单独显示，生成时序对比曲线图，通过这种方式可以直观地看到模型预测与实际数据的差异，从而评估模型的性能和可靠性。这在数据预测中非常重要，因为它有助于识别模型是否能够准确捕捉市场趋势。
在这里插入图片描述
得到时序图算子的执行结果如下所示：

这张图包含两条时间序列曲线，分别展示了模型预测值（Predicted_close）和实际值（close）在一段时间内的走势对比，显示的是模型预测的股票收盘价随时间变化的趋势。两条曲线的整体趋势相似，尤其是在大的波动区域（如2008年左右的高峰期和之后的下降期），表明模型的预测效果与实际值接近。这张图直观地展示了模型预测值与实际值的时间序列对比，帮助评估模型的表现是否符合实际市场走势。

三、总结

相比传统代码方式，利用Sentosa_DSML社区版完成机器学习算法的流程更加高效和自动化，传统方式需要手动编写大量代码来处理数据清洗、特征工程、模型训练与评估，而在Sentosa_DSML社区版中，这些步骤可以通过可视化界面、预构建模块和自动化流程来简化，有效的降低了技术门槛，非专业开发者也能通过拖拽和配置的方式开发应用，减少了对专业开发人员的依赖。
Sentosa_DSML社区版提供了易于配置的算子流，减少了编写和调试代码的时间，并提升了模型开发和部署的效率，由于应用的结构更清晰，维护和更新变得更加容易，且平台通常会提供版本控制和更新功能，使得应用的持续改进更为便捷。

Sentosa数据科学与机器学习平台（Sentosa_DSML）是力维智联完全自主知识产权的一站式人工智能开发部署应用平台，可同时支持零代码“拖拉拽”与notebook交互式开发，旨在通过低代码方式帮助客户实现AI算法模型的开发、评估与部署，结合完善的数据资产化管理模式与开箱即用的简捷部署支持，可赋能企业、城市、高校、科研院所等不同客户群体，实现AI普惠、化繁为简。
Sentosa_DSML产品由1+3个平台组成，以数据魔方平台（Sentosa_DC）为主管理平台，三大功能平台包括机器学习平台（Sentosa_ML）、深度学习平台（Sentosa_DL）和知识图谱平台（Sentosa_KG）。力维智联凭借本产品入选“全国首批人工智能5A等级企业”，并牵头科技部2030AI项目的重要课题，同时服务于国内多家“双一流”高校及研究院所。
为了回馈社会，矢志推动全民AI普惠的实现，不遗余力地降低AI实践的门槛，让AI的福祉惠及每一个人，共创智慧未来。为广大师生学者、科研工作者及开发者提供学习、交流及实践机器学习技术，我们推出了一款轻量化安装且完全免费的Sentosa_DSML社区版软件，该软件包含了Sentosa数据科学与机器学习平台（Sentosa_DSML）中机器学习平台（Sentosa_ML）的大部分功能，以轻量化一键安装、永久免费使用、视频教学服务和社区论坛交流为主要特点，同样支持“拖拉拽”开发，旨在通过零代码方式帮助客户解决学习、生产和生活中的实际痛点问题。
该软件为基于人工智能的数据分析工具，该工具可以进行数理统计与分析、数据处理与清洗、机器学习建模与预测、可视化图表绘制等功能。为各行各业赋能和数字化转型，应用范围非常广泛，例如以下应用领域：
金融风控：用于信用评分、欺诈检测、风险预警等，降低投资风险；
股票分析：预测股票价格走势，提供投资决策支持；
医疗诊断：辅助医生进行疾病诊断，如癌症检测、疾病预测等；
药物研发：进行分子结构的分析和药物效果预测，帮助加速药物研发过程；
质量控制：检测产品缺陷，提高产品质量；
故障预测：预测设备故障，减少停机时间；
设备维护：通过分析机器的传感器数据，检测设备的异常行为；
环境保护：用于气象预测、大气污染监测、农作物病虫害防止等；
客户服务：通过智能分析用户行为数据，实现个性化客户服务，提升用户体验；
销售分析：基于历史数据分析销量和价格，提供辅助决策；
能源预测：预测电力、天然气等能源的消耗情况，帮助优化能源分配和使用；
智能制造：优化生产流程、预测性维护、智能质量控制等手段，提高生产效率。

欢迎访问Sentosa_DSML社区版的官网https://sentosa.znv.com/，免费下载使用。同时，我们在B站、CSDN、知乎等平台有技术讨论博客和应用案例分享，欢迎广大数据分析爱好者前往交流讨论。

Sentosa_DSML社区版，重塑数据分析新纪元，以可视化拖拽方式指尖轻触解锁数据深层价值，让数据挖掘与分析跃升至艺术境界，释放思维潜能，专注洞察未来。

社区版官网下载地址：https://sentosa.znv.com/
B站地址：https://space.bilibili.com/3546633820179281
CSDN地址：https://blog.csdn.net/qq_45586013?spm=1000.2115.3001.5343
知乎地址：https://www.zhihu.com/people/kennethfeng-che/posts