一种用于低成本水质监测的软传感器开源方法:以硝酸盐(NO3⁻)浓度为例
论文标题
A Soft Sensor Open-Source Methodology for Inexpensive Monitoring of Water Quality: A Case Study of NO3− Concentrations
作者信息
-
Antonio Jesús Chaves, ITIS Software, University of Málaga, 29071 Málaga, Spain
-
Cristian Martín, ITIS Software, University of Málaga, 29071 Málaga, Spain
-
Luis Llopis Torres, ITIS Software, University of Málaga, 29071 Málaga, Spain
-
Manuel Díaz, ITIS Software, University of Málaga, 29071 Málaga, Spain
-
Jaime Fernández-Ortega, Department of Geology and Center of Hydrogeology, University of Málaga (CEHIUMA), 29071 Málaga, Spain
-
Juan Antonio Barberá, Department of Geology and Center of Hydrogeology, University of Málaga (CEHIUMA), 29071 Málaga, Spain
-
Bartolomé Andreo, Department of Geology and Center of Hydrogeology, University of Málaga (CEHIUMA), 29071 Málaga, Spain
论文出处
本文发表于《Journal of Computational Science》。
论文主要内容
本文提出了一种基于开源框架的软传感器方法,用于低成本监测水质中的硝酸盐(NO3−)浓度。硝酸盐污染是全球性问题,影响环境完整性和公共健康。传统的硬件传感器成本高昂,限制了其大规模应用。因此,本研究探索了通过数据流集成软传感器的方法,以实时预测硝酸盐浓度。研究基于Kafka-ML框架,结合物联网(IoT)设备,通过数据流管理机器学习模型的生命周期。
研究背景
硝酸盐(NO3−)是地下水和地表水中的常见污染物,其浓度上升对环境质量和人类健康构成威胁。例如,饮用水中硝酸盐浓度过高可能导致婴儿高铁血红蛋白血症(“蓝婴综合征”)、甲状腺问题甚至增加胃癌风险。此外,硝酸盐在水生生态系统中的过量存在会导致富营养化,引发藻类水华或水生植物过度生长,消耗氧气并破坏水生生物。因此,世界卫生组织和欧盟将饮用水中硝酸盐的阈值设定为50 mg/L,以避免潜在健康问题。传统的硝酸盐测定方法依赖于实验室技术,如镉还原或离子色谱法,这些方法虽然准确,但成本高、耗时且无法提供实时数据。
研究方法
研究提出了一种基于Kafka-ML框架的软传感器开发方法。Kafka-ML是一个开源框架,用于管理使用数据流的机器学习模型生命周期。该方法包括以下步骤:
-
数据收集与预处理:通过IoT设备收集数据,并将其流式传输到Apache Kafka中。
-
模型选择与训练:在Kafka-ML中定义和训练多个机器学习模型,选择性能最佳的模型。
-
模型部署与推理:将训练好的模型部署到Kafka-ML中,用于实时推理。
-
软传感器可视化:通过Kafka-ML的可视化工具实时显示软传感器的预测结果。
实验设计
实验中使用了来自西班牙马拉加省东部龙达山脉的喀斯特泉水数据库,包含13种不同的物理化学参数(如电导率、温度、pH值等)。这些参数通过低成本传感器(如温度传感器、pH传感器和电导率传感器)获取。实验中使用了Arduino MKR NB 1500作为处理单元,连接上述传感器,总成本约为300欧元,远低于传统硝酸盐水质探头的成本。
实验结果
-
模型评估:评估了六种不同的神经网络架构,最终选择了表现最佳的模型(模型4),其平均绝对误差(MAE)为1.55 mg/L,均方误差(MSE)为5.60 mg/L。该模型在不同浓度范围内的预测表现良好,但在高浓度(>50 mg/L)范围内精度有待提高。
-
可扩展性评估:通过模拟不同数量的客户端和数据传输频率,测试了Kafka-ML的响应时间和可扩展性。结果表明,增加模型副本和Kafka分区可以显著降低延迟,提高系统的可用性和响应能力。
-
实验室与现场测试:在实验室和马拉加省的瓜达尔霍尔河进行了现场测试。测试结果表明,软传感器在不同环境下的表现存在差异,尤其是在实验室条件下,模型预测与实际测量值之间存在较大偏差。这可能是由于训练数据集与测试环境之间的差异所致。
讨论与结论
本研究提出的方法在软传感器开发中具有显著优势,包括快速开发、低响应时间和可扩展性。通过结合低成本设备,可以大规模部署软传感器,有效管理水资源监测。然而,模型在不同环境下的适用性需要进一步验证,建议针对特定生态系统重新训练模型,以提高其适应性和准确性。未来的工作将包括改进数据预处理和后处理功能、集成预训练模型、检测和纠正概念漂移,以及优化推理模块的响应时间。