环境科学  2025, Vol. 46 Issue (6): 3349-3360   PDF    
基于机器学习的河湖水质评估的研究进展
程浩淼1, 杨富康1, 张健2, 赵程程3, 朱腾义4     
1. 扬州大学水利科学与工程学院,扬州 225127;
2. 江苏省农村水利科技发展中心,南京 210029;
3. 常熟市水利工程建设管理中心,常熟 215500;
4. 扬州大学环境科学与工程学院,扬州 225127
摘要: 机器学习(ML)具有深层次的网络结构和强大的拟合能力,可实现不依赖完整物理化学机制的污染物浓度预测. 因此,ML已成为河湖污染早期预警、水质动态评估领域的重要研究工具. 当前ML在河湖水质评估中的应用主要有特定时刻的污染物浓度快速评估、特定时间步长下的未来污染物浓度预测两个方向;预测污染物主要包括:氮磷营养盐、叶绿素a(Chla)、溶解性有机物(DOM)以及农药等有机物. 溶解氧(DO)、水温(WT)和pH是ML预测污染物浓度的高频输入因子. 内外源和水力条件也是河湖水质变化的关键驱动因子,考虑这两种因子可显著提高ML的预测精度. 此外,数据缺失、过拟合以及可解释性不足等问题是制约ML在河湖水质评估领域发展的主要瓶颈;故机制模型-ML耦合和可解释机器学习(XML)等方法成为了现阶段ML研究的主攻方向. 研究结果将为河湖水质快速评估和污染物浓度预测提供重要参考信息.
关键词: 机器学习(ML)      水质评价      河流湖泊      时间序列      驱动因子     
Research Progress on River and Lake Water Quality Assessment Based on Machine Learning
CHENG Hao-miao1 , YANG Fu-kang1 , ZHANG Jian2 , ZHAO Cheng-cheng3 , ZHU Teng-yi4     
1. School of Hydraulic Science and Engineering, Yangzhou University, Yangzhou 225127, China;
2. Jiangsu Rural Water Conservancy Science and Technology Development Center, Nanjing 210029, China;
3. Changshu Water Conservancy Project Construction Management Division, Changshu 215500, China;
4. School of Environmental Science and Engineering, Yangzhou University, Yangzhou 225127, China
Abstract: Machine learning (ML) possesses a deep network structure and powerful fitting capabilities, enabling the prediction of contaminant concentrations without complete physical and chemical mechanisms. Therefore, ML has become an important research tool for pollution early warning and water quality assessment in rivers and lakes. This review aimed to investigate the application scenarios, methodological focus, impact factors, bottlenecks, and future directions of ML in water quality assessment of water ecosystems. A specialized information database was established by searching the keywords "machine learning", "water quality assessment", "rivers", and "lakes" in the Web of Science (WOS) and China National Knowledge Infrastructure (CNKI). There were 309 relevant literatures in this field, and the volume has increased sharply in recent years. The directions and predictive goals of the literature were analyzed by using feature selection and clustering validation techniques. It was found that water quality prediction was the main purpose for machine learning applications in the water ecosystems, which can generally be subdivided into two directions, i.e., a specific time and the time series prediction of water quality. This study further investigated the effects of input factors and ML methods on the prediction accuracy of nutrients, chlorophyll-a (Chla), and organic matter concentrations. The results showed that dissolved oxygen (DO), water temperature (WT), and pH were the top three high-frequency inputs of ML models for predicting pollutant concentrations. Internal and external sources, as well as parameters of hydraulic conditions such as flow, velocity, and water level, were also the core driving factors in ML models. It is suggested that the factors of internal and external sources and hydraulic conditions have great potential to improve the prediction accuracy of the ML model. Additionally, data missing, overfitting, and insufficient interpretability were the dominant limitations for the application of ML in the water quality assessment. Methods such as mechanistic model-ML coupling and interpretable machine learning (XML) have become the main focus of ML research in the current stage of research. The findings provided important reference information for water quality assessment and pollutant concentration prediction.
Key words: machine learning(ML)      water quality assessment      rivers and lakes      time series      driver factors     

随着我国工业化及城镇化脚步显著加快,大量污染物通过点源和面源等途径排入水环境系统[1],导致河流和湖泊等地表水体的环境质量持续恶化[23],如2021年2月的洪泽湖成子湖区[4]及2021年10月的黄河三门峡段[5]水质检测均为劣V类. 这类污染事件受多种因素驱动,具有发生速度快和危害性强等特点,如果不能迅速有效地进行应对,可能引起阵发性水污染及水质性缺水等公共卫生事件,造成严重的社会影响. 因此,准确评估河湖水体污染状况,把握水质动态规律,对提升环境承载能力和保障区域水生态安全有重要意义.

传统的河湖水体污染状况评估方法主要是实测法和水质模拟法. 实测法是结合野外采样并进行室内定量,获得湖泊或河流各采样点的水质数据[6],将各点数据整合后,可进一步得到污染物的时空分布特征. 这也是当前水利部门和环境部门采用的主要方法. 王飞宇等[7]基于2008~2018年长江流域16个代表性监测断面的水质数据,包括pH、溶解氧(DO)、高锰酸盐指数和氨氮(NH4+),对长江干流及其主要支流的流域水质状况进行了综合评价;尹晓静等[8]于2022年夏季(6月)及秋季(9月)对太湖西北流域水体进行水质监测,监测对象包括有机氯农药和有机磷农药等有机污染物;Chen等[9]监测了2016年旱雨两季我国东部沿海16条河流中的新烟碱类农药含量. 这一方法虽然精度高,但也存在较多弊端:有限的采样点无法全面反映流域尺度污染状况;不能实现连续时空序列分析,不能对水质变化做出预警,也不能实现水质实时监测;同时采样和实验过程需要消耗大量人力、物力和财力[10].

水质模拟法以野外观测数据为基础,模拟湖泊水力过程与生态环境系统之间的响应关系,机制再现湖泊水动力和物质循环过程,进而得到湖区水质的时空分异特征[11]. 基于水动力学方程与物质对流扩散方程,国际上已推出了多种综合性的水环境模拟软件,其中以EFDC[1213]、MIKE21[14]和Delft3D[15]等为代表,以上模型在国内外已有许多应用,如:Shin等[12]利用EFDC模型探索了不同水动力条件下美国Okeechobee湖中总磷(TP)的时空分布规律;Liang等[13]耦合了WASP和EFDC模型,模拟了太湖竺山湾的水力条件,进而模拟了TP、NH4+、总氮(TN)以及化学需氧量(COD)的时空分布;Hodgkins等[15]基于Delft3D模拟预测了氟烷基物质在加拿大近海水体中迁移及分布. 水质模拟法的优势在于能全面了解湖区水质的时空分布,但在实际应用中也受到诸多限制:水质模拟法在模型开发阶段需要大量的水文水动力和水质资料[16];在流域水文水质资料不足情况下,其精度难以保障;研究区域的二(三)维模型构建和机制计算需要耗费大量算力和时间;对于有机物或农药的模拟,由于存在众多非完整的物理化学机制,模拟难度较大,精度也难以保证.

随着近年来人工智能和计算机技术的飞速发展,机器学习(machine learning,ML)由于计算速度快,不依赖完整的物理化学机制,可进行时空连续预测等优势,被认为是可替代传统实测法和水质模拟法的河湖水质评估新方法[17]. ML具有更深层次的网络结构和强大的拟合能力,能有效发掘训练数据的内在联系[18],尤其适合处理复杂水环境系统中高维非线性数据预测问题[19],并善于寻求大规模数据集之间的规律[20]. 部分ML甚至具有自动优化能力,随着训练集的丰富和完善,可以进一步提升水质评估的效率和稳定性[21].

鉴于以上背景,本文对ML在河湖水质评估中的应用进行了综述,逻辑框架见图 1. 首先根据数据类型区分了ML在河湖水质评估中的两类应用场景,即基于横截面数据的污染物浓度快速评估和基于时间序列数据的未来浓度预测;着重探究了河湖水体营养盐、叶绿素a(Chla)和有机物浓度的ML预测方法;综合分析了当前ML预测过程中各因子的出现频率及主要输入因子的影响机制. 此外,还梳理了当下ML在河湖水质研究中面临的主要挑战,包括:数据稀缺、可解释性不足以及模型过拟合问题;展望了应用于河湖水质评估的ML的未来发展方向. 本文通过综述ML在水质快速评估、未来水质预测和驱动因子解析等方面的优异表现,阐明了ML对于河湖水质评估的重要意义.

图 1 本文的逻辑框架 Fig. 1 Logical framework of this study

1 评估河湖水污染状况的机器学习模型及其特征 1.1 机器学习在河湖水质评估中的应用

本文以全球引文数据库(Web of Science,WOS)及中国知网(CNKI)为检索数据库,以机器学习(machine learning)、水质评估(water quality assessment)和河流或湖泊(river or lake)为关键词检索了2013~2023年的文献资料,共检索出英文文献296篇,中文文献13篇见图 2(a). 从中可知:将ML应用于河湖水质评估的研究十分丰富,尤其在近几年发文数量指数型增长,以英文文献为主,国内相关研究尚处于起步阶段.

(a)近年来将机器学习应用于河湖水质评估发表的文章数量;(b)机器学习应用于河湖水质评估的聚类视图;(c)应用于河湖水质评估的机器学习类型及特征;prediction:预测;water quality parameter:水质参数;chl:叶绿素a;total phosphorus:总磷;total nitrogen:总氮;nutrient:营养盐;water quality data:水质数据;support vector machine:支持向量机;artificial nerual network:人工神经网络;long short term memory:长短期记忆;time series:时间序列;inland water:内陆水体;surface water:地表水;lake taihu:太湖;human activity人类活动 图 2 机器学习在河湖水质评估中的应用趋势 Fig. 2 Trends in the application of machine learning to water quality assessment in rivers and lakes

本文提取了上述英文文献的题目及摘要,基于共现关系强度与测度指标对提取到的内容进行了关键词共现,经过特征选择和聚类验证等步骤,构建了ML应用于河湖水质评估相关研究的聚类视图,即图 2(b). 聚类分析显示:ML在河湖水质研究中的应用以污染物浓度预测为主,水质参数如TP、TN和Chla等是最主要的预测对象. 模型方面,支持向量机(SVM)、人工神经网络(RNN)和随机森林(RF)是应用频率较高的模型,这可能与它们诞生较早、发展时间较长有关;长短期记忆模型(LSTM)是时序预测中应用最频繁的模型,这可以归功于它在时序预测中的良好表现. 需要关注的是,将多个ML耦合[22]或将ML与传统机制模型耦合[23]已渐渐成为当下潮流,研究人员根据各个模型的特点和自身需求耦合出的模型往往具有较高的准确度和稳定性,能较好地完成水质评估和浓度预测.

1.2 应用于河湖水质评估的机器学习类别及特征

模型的训练数据类型是ML的一个关键区分点. 基于此,ML可分为两类,即:基于横截面数据的机器学习(cross-sectional data machine learning,CD_ML)和基于时间序列数据的机器学习(time-series data machine learning,TD_ML)[24],见图 2(c). CD_ML通常是以某一时刻的生态环境因子(包括:水体理化因子、水质参数和水力条件等)作为模型输入因子,以待预测的污染物浓度为目标,捕捉这一时刻的污染物浓度与各生态环境因子的内在响应关系. 进而利用这一响应关系,快速评估水污染状况. CD_ML的常用模型有决策树(DT)[25]、支持向量机(SVM)[26]、随机森林(RF)[27]和多元线性回归(MLR)[28]等. 如:Goz等[29]和Moradi等[30]利用CD_ML分别预测了土耳其东北部总有机碳浓度和澳大利亚饮用水集水区溶解性有机碳浓度. Read等[31]利用RF预测了美国1026个湖泊的TP、TN、溶解性有机碳(DOC)和电导率(Cond). Batur等[32]运用多元线性回归(MLR)、人工神经网络(ANN)、支持向量机(SVM)和主成分分析(PCA)这4种机器学习方法,预测了多项水质参数. 由于CD_ML不涉及随时间变化的连续观察值,输出结果具有时间一致性,所以可用来快速评估同时段河湖中待预测污染物的浓度,有效减少了实地采样和实验室检测的工作量[24].

TD_ML通过分析按时间顺序排列的数据来预测对应的未来数据点,其关键是挖掘出数据的内在结构及可能影响预测结果的外部因素,综合考量数据的内在规律和外部影响作出预测[3334]. TD_ML的常用模型十分丰富,有长短期记忆网络(LSTM)[35]、极限梯度提升(XGBoost)[36]和梯度提升回归树(GBRT)[37]等,它们可以有效预测河湖水体中污染物的未来浓度及变化趋势,从而实现水污染状况动态评估或对水质恶化作出早期预警. 此外,如驱动因子分析和关键因子识别等功能也可以实现. 如王渤权等[37]基于西丽水库2019年12月至2021年8月共629 d的水质数据,利用LSTM预测了西丽水库的日水质状况. Lu[38]等分别运用LSTM、GBRT以及RF模型,基于2011~2018年太湖TP、TN、DO、气温(T)和流量(Q)数据预测了TP和TN的月度变化,其中LSTM预测效果最佳. TD_ML的特点在于考虑了数据在时间上连续变化的相关性,其所用数据通常呈现出一定的升降趋势,适用于预测未来特定步长下的污染物浓度及季节动态,有利于建立河湖水质监测的早期预警系统,迅速应对水污染事件,尤其适用于监测数据有限的大区域[39].

2 污染物浓度评估预测

本文筛选出了图 2(a)中利用ML预测营养盐浓度(见表 1)、Chla浓度(见表 2)和有机物浓度(见表 3)的相关文献,整理了其研究区域、应用模型、预测目标及输入因子. 并将输入因子分为水体理化因子、水质参数、内外源、水力条件和其他因子5类,按照所使用的模型类型将表格分为两部分,上半区为TD_ML,下半区为CD_ML.

表 1 机器学习在营养盐浓度评估预测中的应用1) Table 1 Application of machine learning in the assessment and prediction of nutrient salt concentration

表 2 机器学习在叶绿素a浓度评估预测中的应用1) Table 2 Application of machine learning in the assessment and prediction of chlorophyll a concentration

表 3 机器学习在有机物浓度评估预测中的应用1) Table 3 Application of machine learning in the assessment and prediction of organic matter concentration

2.1 营养盐的评估预测及其影响因子

水体中的营养盐对水生植物的生长繁殖有重要作用,但过量的营养盐会严重影响水质和生态平衡[40]. 调查显示,世界上63%的湖泊存在富营养化问题[41];我国约70%的湖泊处于富营养化状态,准确评估水体各类营养盐浓度,可以极大地促进河湖水生态保护和水质保持等工作[42].

表 1所示,在营养盐浓度预测中,一般以TP、TN和NH4+中的一项或多项作为预测目标,可以分为特定时刻浓度快速预测和未来时刻浓度时序预测两类. 进行未来时刻的营养盐浓度预测时,通常需要将按时间序列采集到的营养盐浓度也作为TD_ML中的输入变量,如:Yao等[23]采用耦合型LSTM预测太湖未来1、3、5和7 d的TP,将2015~2020年按相同频率采集到的数据及WT、pH、DO和高锰酸盐指数等9种水体环境因子共同作为模型的输入因子,在短期预测(1 d和3 d)中得到了不错的预测效果(R2 > 0.85). Lu等[38](NSE=0.96)和Guo等[43]R2=0.92)分别对太湖和Simcoe湖进行了类似的研究,虽然采用的模型不同,但均表现出了良好的预测性能. 特定时刻浓度快速预测方面,Nieto等[44]和Mratinsen等[45]采用ABC、SVM和RF等CD_ML分别预测了西班牙Englishmen湖和丹麦180 377个湖泊的一项或多项营养盐浓度,均得到了较好的预测效果(R2 > 0.70).

河湖系统中各理化因子是相互联系并相互作用的,它们会影响到营养盐的浓度变化[46]. 因此,筛选出对预测结果影响最大的因子作为模型的输入因子,是提高ML预测效率和模型稳定性的关键[47]. 由表 1可见,WT、DO和pH等水体理化因子及高锰酸盐指数和NH4+等水质参数是当前考虑最多的输入因子. 这可能是因为WT、DO和pH等共同决定了水体的物理和化学特性,对水生动植物生长代谢有重要影响,影响众多物理化学过程,是水生生态系统的基石[48];而高锰酸盐指数这类水质参数集中体现了水体中某类污染物的浓度,以上污染物的浓度与营养盐浓度密切关联,对营养盐浓度评估有重要意义[49].

值得注意的是,内外源和水力条件也是影响水体营养盐浓度的重要因子,但常常被现有的模型所忽略. 底泥在受到水流剪切作用时,会释放富集在其中的营养盐,使得水体中的TP和TN增加. 上游的工业和农业生产过程中排放出的含氮磷物质也会随着不同的水力条件汇入河湖,导致河湖中营养盐浓度上升[50]. Lu等[38]在太湖的研究表明,考虑内源可显著提升TN预测精度;相比于未考虑内源的预测结果,模型NSE由0.79上升为0.96,RMSE由0.27 mg·L-1降至0.11 mg·L-1. 此外,他们的研究还发现入湖河道水位对太湖TP浓度有重要作用. 根据模型模拟结果,入湖河道水位从3.29 m降至2.99 m时,TP浓度由0.081 mg·L-1降至0.066 mg·L-1(下降30%). Hu等[36]研究表明内源释放的NH4+是对太湖TN预测结果影响最大的因子;其影响权重为36%. 因此,预测营养盐浓度时,内外源及水力参数也应是ML的关键输入因子.

2.2 叶绿素a的评估预测及其输入因子

Chla浓度是反映河湖中水生植物繁殖状况的重要参数[51],准确评估地表水中Chla浓度及其变化趋势,可以实现藻类有害繁殖的早期预警,从而抑制藻华危害,保障用水安全[52].

表 2所示,如果涉及未来浓度的时序预测,通常需要将过去的Chla浓度按特定步长输入TD_ML中,如Yang等[22]、Zheng等[53]和Liu等[54]均进行了这方面的研究. 在Liang等[55]的研究中,过去的Chla浓度是影响未来Chla浓度的最重要因素(权重大于50%). 随着预测步长增长,过去的Chla浓度对预测结果的影响会逐渐下降. 预测步长增至31d时,过去的Chla浓度权重降至25%左右. 也有许多学者将CD_ML用于Chla浓度快速预测的研究,如Park等[56]、Zhu等[57]以及Li等[58]. 其中,Li等[58]在表征2008~2014年鄱阳湖营养状态时,以Chla浓度为研究对象,利用RF这一最常用的CD_ML成功探究了鄱阳湖不同湖区的营养化程度. 这一研究为鄱阳湖和Okeechobee湖这类空间异质性高的洪泛区湖泊的水质管理和富营养化预防提供了重要思路.

WT、DO、pH、TP、TN以及NH4+通常都会被考虑为影响Chla浓度预测的重要参数,从而作为模型的输入因子(见表 2). 这与湖沼学的经典理论是一致的,Chla浓度与水体中的藻类数量息息相关,水体中的氮和磷是影响藻类生长的重要化学因子[59],氮磷比也被认为是影响藻类生长的重要因素[60]. 而河湖中TP、TN和NH4+的水平代表了水体中的氮磷含量,从而与预测的Chla浓度高度相关. WT[61]和pH[62]是影响藻类生长代谢的重要环境因子,DO含量会显著影响藻类的光合作用,进而影响到藻类繁殖. 因此,适宜的WT和pH范围和DO浓度是藻类繁殖生长的必要条件,WT、pH和DO浓度是影响Chla浓度的重要因子. 在后续研究中,上述因子应当作为首要考虑对象和切入点,从而提高Chla浓度的预测效率,高效抑制藻华危害,为河湖水生态可持续发展提供支持.

2.3 有机物的评估预测及其输入因子

河湖中的有机物如有色溶解有机质(CDOM)[64]和荧光溶解有机物(FDOM)[65]等对于维持水生态系统稳定及全球碳循环和气候变化具有重要意义[66]. 因此在ML广泛应用于河湖水质评估时,有不少学者开始利用ML预测河湖中这类有机物的浓度. 此外,有机农药和抗生素等人工合成有机物,因很难通过传统方法对其进行持续监测,也开始有人尝试用ML来进行评估预测[67].

在利用TD_ML进行时间序列预测时,有机物的初始浓度需要作为模型的输入因子,在基于横截面数据预测时则不需要,这与前文中营养盐和Chla的浓度预测是一致的. 与前文不同的是,基于横截面数据对有机物浓度进行快速评估的研究占比较大(约占统计的75%),应用的算法种类也更丰富,在算法的耦合和改进方面也做出了更进一步的尝试(见表 3).

溶解性有机碳(DOC)浓度可以反映水体的生物活动水平和受污染程度,是衡量水质的一个重要指标,因而Moradi等[30]、Green等[68]以及Liu等[69]均将DOC浓度作为预测对象. 进行DOC浓度预测时,常以光谱反射率作为模型的输入因子. 这是因为CDOM可以被遥感仪器监测到,而CDOM浓度与DOC浓度显著相关,许多研究表明CDOM浓度可以作为DOC的浓度的可靠指示[70 ~ 72]. 因此,基于卫星遥感信息捕捉CDOM以及DOC浓度的时空动态,成为了原位测量的重要补充或替代方案,为实现河湖DOC快速预测提供了新思路. 对于有机农药、酚类和有机磷脂等人工合成有机物,其产生、排放和迁移转化受人类生产生活影响极大,因此在预测以上物质的浓度时,研究人员均考虑了人类活动[73]、人口密度[74]或者外源输入[67]等因素(见表 3).

2.4 其他污染物评估预测

除营养盐、Chla和有机物外,ML在其他物质的评估预测中也有广泛应用. 利用ML评估水体中的DO含量即是河湖水质研究领域的一个重要方向[83],如Li等[84]提出了一种基于经验模态分解(EEMD)-Pearson分析-LSTM的混合模型(EEMD-Pearson-LSTM)用于水中DO含量预测. 这种混合模型高效地完成了预测任务,且相较于传统LSTM模型性能有较大提升(R2 > 0.85,同比增长28.15%);陈英义等[85]也基于小波变换、卷积神经网络(CNN)和LSTM耦合出了性能良好的DO含量预测模型(R2 > 0.95).

重金属污染评估是ML评估河湖水质的另一重要应用. 这方面的应用以重金属浓度预测为主,如Li等[86]利用氮磷等营养物质和各项环境因子(WT、DO、pH和NTU),基于SVM成功预测了巢湖As和Ba等重金属浓度;Zou等[87]利用水体环境因子(WT、DO、pH、Cond、电阻率和盐度等),基于SVM和RF预测了长江口沿岸水体中的Cr和Pb等重金属浓度. 此外还包括水体中的重金属来源分析,如Li等[88]基于RF分析了德国Elbe河中Zn、As和Pb等痕量重金属的可能来源.

随着河湖水体中微塑料关注度的持续上升,ML在微塑料污染评估方面的应用也引发了热议,如Yu等[89]讨论了使用ML评估微塑料归趋和生物效应的必要性,他们的研究显示ML可能加速对微塑料污染的识别和控制. 也有研究人员已经利用ML来揭示微塑料与环境系统之间的复杂关系,如Qiu等[90],利用遗传算法和SVM耦合模型,高效预测了微塑料对水相中有机污染物的吸附系数(R2 > 0.93,RMSE=0.07 L·kg-1);此外,ML在河湖中的全氟烷基物质[91]、大肠杆菌[78]、WT[92]以及pH[93]等物质或水质指标的评估预测中也有应用.

3 预测目标的关键驱动因子分析

ML预测水质的核心在于挖掘输入因子与预测目标的内在联系. 因此,厘清预测目标的关键驱动因子是提高预测效率和模型稳定性的重要举措.

表 1~3中36篇文献选取的输入因子的统计结果见图 3:考虑DO、WT和pH这3种因子的研究最为广泛(次数大于23). 这3种因子不仅是决定水体理化性质的关键参数,也是影响水生生物生长繁殖的重要因素[94]. 因此,大部分研究会考虑将其作为输入因子,这在一定程度可以解释它们的高频出现. 另外,数据采集简便、监测点分布广泛、数据库完善以及便于训练和验证模型,也是这3种因子位居前列的重要原因. 其次是TP、NH4+、TN、高锰酸盐指数、Chla和Cond(次数大于10),以上因子充分反映了河湖的营养状况和理化性质,也是评估河湖水质不可忽视的因素[80]. 但相比于DO、WT、pH,TP、NH4+ 以及TN等物质监测定量相对复杂,这或许是导致它们出现频率略低的重要原因.

1.DO(溶解氧),2.WT(水温),3.pH;4.Cond(电导率),5.NTU(浊度),6.SD(赛奇深度);7.透明度,8.SS(悬浮固体),9.碱度,10.氧化还原电位,11.TP(总磷),12.NH4+(氨氮),13.TN(总氮),14.高锰酸盐指数,15.Chla(叶绿素a),16.NO3-(硝态氮),17.BOD(生物需氧量),18.TOC(总有机碳),19.磷酸盐,20.DOC(溶解性有机碳),21.风速,22. T(气温),23.光谱反射率,24.太阳辐射,25.Am(植被覆盖率),26.人类活动,27.Q(流量),28.流速,29.水位,30.内源,31.外源 图 3 利用机器学习评估河湖水质时各模型输入因子出现次数 Fig. 3 Frequency of input factors in various models when using machine learning to assess the water quality of rivers and lakes

考虑内外源影响及流量水位等水力条件影响的文献较少(出现次数分别为9和8),但内源释放和外源输入是河湖水体污染物的重要来源[35],水力条件为物质迁移转化提供动力[36]. 因此这两类因子对河湖水质变化的推动作用是无法忽视的[95],后续研究中需要加强对此方面的讨论. 此外,光谱反射率、太阳辐射、植被覆盖率(Am)和湖泊表面积等因子出现的次数较少(出现次数均小于6),原因是以上因子一般只在特定的预测环境下使用,如Harkort等[81]和Sun等[82],仅以光谱反射率为输入特征,借助遥感卫星数据快速预测了大区域内水体的有机物浓度. Read等[31]在预测美国1 026个湖泊的水质时,只以Am、土地利用类型、湖泊表面积和经纬度等地理信息作为模型的输入特征,以此来研究水质与地理因素之间的变化关系,进一步促进了河湖水质快速评估的发展.

总体而言,DO、WT、pH、TP、NH4+、TN、Cond和高锰酸盐指数是大多数情况下的关键驱动因子,建模时应当着重考虑. 内外源和水力条件在过去关注较少,但对预测结果的作用十分关键,应当增强对这两类因子的关注程度. 其他因子基于不同的应用场景与预测目标对预测结果的影响差别较大,其关键性需根据具体情况综合考虑.

4 现存挑战 4.1 数据短缺

数据是ML的知识来源,也是ML进行特征选择的依据[96]. 在ML的训练和验证过程中,完备的数据集至关重要[97]. 然而,数据收集涉及多个环节,需要投入大量的资源和时间. 这种资源和时间的消耗使得数据短缺成为了建立ML的关键制约因素[98],进而限制了ML在河湖水质评估中的应用. 同时,数据质量对预测结果的影响也不容忽视. ML的泛化能力依赖于训练数据的质量,如果训练数据代表性不足,那么模型可能无法准确地泛化到新的情况. 如果数据存在偏差,这种偏差通常也会被模型学习并反映在预测结果中,从而影响水质评估效果.

4.2 可解释性不足及模型过拟合

ML在河湖水质评估中的应用提供了强大的预测能力,但其忽略了水污染过程中的复杂物理化学机制,这一局限将导致基于ML的评估预测面临可解释性不足的问题. 具体而言,ML模型往往被视为“黑箱”,相关用户难以理解其内部的原理和决策依据,从而降低了用户对ML评估结果的信任度和接受度,这在一定程度上限制了ML在河湖水质评估中的应用.

ML预测过程中还存在过拟合问题. 过拟合意味着模型的泛化能力不足,对训练样本表现出优秀的预测性能,但在面对新样本时预测准确性大幅下降. 在涉及大量参数的复杂预测任务中,过拟合问题尤为显著,严重影响了ML在河湖水质评估中的实用性和可靠性,进而限制了这类研究的发展. 此外,计算资源需求较高和数据泄露等问题也是当下ML应用于河湖水质评估时需要面临的挑战.

5 展望 5.1 机器学习与机制模型耦合

将ML与机制模型耦合可以提高模型可解释性、泛化能力和预测准确性,将是未来河湖水质评估领域的重要发展方向. 这一方法既利用了ML处理复杂非线性关系的优势,又保留了机制模型的可解释性和物理真实性,可以有效解决ML可解释性不足的问题,提高预测结果的可信度. 同时,ML可以适应新的数据和边界条件,而机制模型则提供了对物理过程的深入理解,两者结合可以更好地应对复杂环境系统的动态变化,进而提升模型泛化能力. 此外,ML能够捕捉数据中的复杂非线性关系,而机制模型提供了基于物理规律的约束,两者结合可以提高预测的准确性. 最后,基于少量数据或先验知识构建的机制模型在新情境下仍能进行较为可靠的预测. 因此,可以利用已经建立好的机制模型输出大量的水质数据用于ML训练和验证,既弥补了机制模型在时序预测和快速评估方面的不足,又解决了ML训练数据短缺的问题,显著减少了采样和检测的工作量,为提升河湖水质评估效率提供重要的解决方案.

5.2 共享数据库与模型共享平台

共享数据库和模型共享平台允许研究人员和开发者访问和利用他人的研究成果,是促进ML在河湖水质评估领域发展的重要工具. 研究人员可以通过共享数据库调用现有的数据集进行研究,避免重复收集和处理数据的工作,显著减少这一环节的时间和资源消耗. 这一方法既能有效解决数据短缺问题,提高模型训练效率和鲁棒性,还有利于制定数据收集和记录标准,提升数据质量.

模型共享平台可以同步其他研究人员的训练成果,大量节省模型训练时间. 同时,这一方法还不需要海量的训练数据,经过验证之后即可进行水质评估预测,有效缓解ML的数据稀缺问题,大幅促进ML在河湖水生态风险评估领域的应用普及. 共享平台还有利于模型在多样化的数据集上训练和测试,进而开发出泛化能力更强的ML模型. 此外,共享平台使得其他研究人员可以复现和验证已发布的模型,增强研究的可靠性和透明度.

5.3 可解释机器学习

可解释机器学习(XML)是未来河湖水质评估领域的另一个重要研究方向. 提升ML可解释性的方法有决策树和规律列表等全局解释法、局部线性模型解释(local interpretable model-agnostic explanations,LIME)和SHAP(shapley additive explanations)等局部解释法,还有特征重要性分析以及注意力机制(attention)等. 通过以上方法,XML可以有效提高模型的透明度和可解释性,使得用户更好地理解模型的工作原理、预测逻辑和决策依据,进而提升公众对ML预测结果的接受程度,推动ML在河湖水质评估领域的发展.

6 结论

ML已成为河湖水质评估的主流方法之一. 目前ML在河湖水质评估中的研究成果以英文文献为主,中文成果相对稀少. ML在河湖水质评估中主要分为两个应用方向,即:基于横截面数据实现特定时刻河湖水质的快速评估以及基于时间序列数据预测未来时段的污染物浓度变化. RF和LSTM分别是这两个应用方向使用最为广泛的模型,水体环境因子DO、WT和pH以及水质参数TP、TN和NH4+是主要的模型输入因子. 同时,考虑内外源和水力条件可以显著提高ML的预测精度,在后续研究中应当重视这两类因子的作用. 数据短缺、模型过拟合和可解释性不足是当下将ML应用于河湖水质评估面临的主要挑战.

参考文献
[1] 黄雪滢, 高鸣远, 王金东, 等. 过水性湖泊水质长期演变趋势及驱动因素: 以骆马湖为例[J]. 环境科学, 2023, 44(1): 219-230.
Huang X Y, Gao M Y, Wang J D, et al. Long-term succession patterns and driving factors of water quality in a flood-pulse system lake: a case study of Lake Luoma, Jiangsu province[J]. Environmental Science, 2023, 44(1): 219-230.
[2] 陈鹏, 陈晓飞, 李世龙, 等. 2016-2021年江汉平原水质时空变异分析[J]. 广西师范大学学报(自然科学版), 2024, 42(4): 195-202.
Chen P, Chen X F, Li S L, et al. Variability analysis of water quality series in Jianghan plain during 2016-2021[J]. Journal of Guangxi Normal University (Natural Science Edition), 2024, 42(4): 195-202.
[3] 姚敏, 毛晓文, 孙瑞瑞. 洪泽湖水质2010—2020年时空变化特征[J]. 水资源保护, 2022, 38(3): 174-180.
Yao M, Mao X W, Sun R R. Spatio-temporal variation of water quality in Hongze Lake from 2010 to 2020[J]. Water Resources Protection, 2022, 38(3): 174-180.
[4] Shi J H, Ni L X, Liu J M, et al. Spatiotemporal distribution of phytoplankton community structure and its relationship with environmental factors in Hongze Lake, China[J]. Urban Climate, 2023, 52. DOI:10.1016/j.uclim.2023.101746
[5] 杨洋. 黄河三门峡段水质分析评价及预测研究[D]. 郑州: 华北水利水电大学, 2023.
Yang Y. Analytical evaluation and prediction research of water quality in Sanmenxia section of the Yellow River[D]. Zhengzhou: North China University of Water Resources and Electric Power, 2023.
[6] Zhou Y Q, Chen L L, Zhou L, et al. Key factors driving dissolved organic matter composition and bioavailability in lakes situated along the Eastern Route of the South-to-North Water Diversion Project, China[J]. Water Research, 2023, 233. DOI:10.1016/j.watres.2023.119782
[7] 王飞宇, 李肖杨, 贾军伟, 等. 基于不同综合水质评价方法的长江流域水质时空差异性对比分析[J]. 灌溉排水学报, 2023, 42(10): 74-84.
Wang F Y, Li X Y, Jia J W, et al. Comparative analysis of spatiotemporal variability in water quality of the Yangtze river based on different water quality evaluation methods[J]. Journal of Irrigation and Drainage, 2023, 42(10): 74-84.
[8] 尹晓静, 李星豪, 朱道旭, 等. 太湖西北流域水体有机氯及有机磷农药的残留特征、时空分布及生态风险评价[J]. 环境科学学报, 2024, 44(1): 283-298.
Yin X J, Li X H, Zhu D X, et al. Residue characteristics, spatiotemporal distribution and ecotoxicological risk assessment of organochlorine pesticides and organophosphorus pesticides in surface water in northwest Tai Lake Basin[J]. Acta Scientiae Circumstantiae, 2024, 44(1): 283-298.
[9] Chen Y C, Zang L, Liu M D, et al. Ecological risk assessment of the increasing use of the neonicotinoid insecticides along the east coast of China[J]. Environment International, 2019, 127: 550-557. DOI:10.1016/j.envint.2019.04.010
[10] Zeng S, Qin Z H, Ruan B Z, et al. Long-term dynamics and drivers of particulate phosphorus concentration in eutrophic lake Chaohu, China[J]. Environmental Research, 2023, 221. DOI:10.1016/j.envres.2023.115219
[11] He J, Wu X, Zhang Y, et al. Management of water quality targets based on river-lake water quality response relationships for lake basins – A case study of Dianchi Lake[J]. Environmental Research, 2020, 186. DOI:10.1016/j.envres.2020.109479
[12] Shin S, Her Y, Muñoz-Carpena R, et al. Quantifying the contribution of external loadings and internal hydrodynamic processes to the water quality of Lake Okeechobee[J]. Science of the Total Environment, 2023, 883. DOI:10.1016/j.scitotenv.2023.163713
[13] Liang S D, Jia H F, Yang C, et al. A pollutant load hierarchical allocation method integrated in an environmental capacity management system for Zhushan Bay, Taihu Lake[J]. Science of the Total Environment, 2015, 533: 223-237. DOI:10.1016/j.scitotenv.2015.06.116
[14] Chen D X, Yang Z F, Zeng Q H, et al. Analysis of the suitable ecological flow of benthic animals in the lower reaches of Xiangjiaba Reservoir in the upper reaches of the Yangtze River based on the physical habitat model[J]. Journal of Hydrology, 2023, 625. DOI:10.1016/j.jhydrol.2023.130132
[15] Hodgkins L M, Mulligan R P, McCallum J M, et al. Modelling the transport of shipborne per- and polyfluoroalkyl substances (PFAS) in the coastal environment[J]. Science of the Total Environment, 2019, 658: 602-613. DOI:10.1016/j.scitotenv.2018.12.230
[16] Zhou Y L. Real-time probabilistic forecasting of river water quality under data missing situation: Deep learning plus post-processing techniques[J]. Journal of Hydrology, 2020, 589. DOI:10.1016/j.jhydrol.2020.125164
[17] Wan H, Xu R, Zhang M, et al. A novel model for water quality prediction caused by non-point sources pollution based on deep learning and feature extraction methods[J]. Journal of Hydrology, 2022, 612. DOI:10.1016/j.jhydrol.2022.128081
[18] Tripathy K P, Mishra A K. Deep learning in hydrology and water resources disciplines: concepts, methods, applications, and research directions[J]. Journal of Hydrology, 2024, 628. DOI:10.1016/j.jhydrol.2023.130458
[19] 肖明君, 朱逸纯, 高雯媛, 等. 基于不同人工神经网络的水质预测方法对比[J]. 环境科学, 2024, 45(10): 5761-5767.
Xiao M J, Zhu Y C, Gao W Y, et al. Comparative study of water quality prediction methods based on different artificial neural network[J]. Environmental Science, 2024, 45(10): 5761-5767.
[20] Chen K Y, Chen H X, Zhou C L, et al. Comparative analysis of surface water quality prediction performance and identification of key water parameters using different machine learning models based on big data[J]. Water Research, 2020, 171. DOI:10.1016/j.watres.2019.115454
[21] Zhong S F, Zhang K, Bagheri M, et al. Machine learning: new ideas and tools in environmental science and engineering[J]. Environmental Science & Technology, 2021, 55(19): 12741-12754.
[22] Yang K, Yu Z Y, Luo Y, et al. Spatial and temporal variations in the relationship between lake water surface temperatures and water quality - A case study of Dianchi Lake[J]. Science of the Total Environment, 2018, 624: 859-871. DOI:10.1016/j.scitotenv.2017.12.119
[23] Yao J F, Chen S, Ruan X H. Interpretable CEEMDAN-FE-LSTM-transformer hybrid model for predicting total phosphorus concentrations in surface water[J]. Journal of Hydrology, 2024, 629. DOI:10.1016/j.jhydrol.2024.130609
[24] Nguyen X C, Bui V K H, Cho K H, et al. Practical application of machine learning for organic matter and harmful algal blooms in freshwater systems: a review[J]. Critical Reviews in Environmental Science and Technology, 2024, 54(12): 953-975. DOI:10.1080/10643389.2023.2285691
[25] Sattari M T, Feizi H, Colak M S, et al. Surface water quality classification using data mining approaches: Irrigation along the Aladag River[J]. Irrigation and Drainage, 2021, 70(5): 1227-1246. DOI:10.1002/ird.2594
[26] Drucker H, Wu D H, Vapnik V N. Support vector machines for spam categorization[J]. IEEE Transactions on Neural Networks, 1999, 10(5): 1048-1054. DOI:10.1109/72.788645
[27] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324
[28] 张文博, 余香英, 薛弘涛, 等. 基于APCS-MLR模型的九洲江广东段不同水期水质变化特征及污染来源解析[J]. 农业环境科学学报, 2024, 43(2): 401-410.
Zhang W B, Yu X Y, Xue H T, et al. Characteristics of water quality and pollution source apportionment in wet season and dry season based on absolute principal component score-multiple linear regression in Guangdong section of Jiuzhou River[J]. Journal of Agro-Environment Science, 2024, 43(2): 401-410.
[29] Goz E, Yuceer M, Karadurmus E. Total organic carbon prediction with artificial intelligence techniques[J]. Computer Aided Chemical Engineering, 2019, 46: 889-894.
[30] Moradi S, Agostino A, Gandomkar Z, et al. Quantifying natural organic matter concentration in water from climatological parameters using different machine learning algorithms[J]. H2Open Journal, 2020, 3(1): 328-342.
[31] Read E K, Patil V P, Oliver S K, et al. The importance of lake-specific characteristics for water quality across the continental United States[J]. Ecological Applications, 2015, 25(4): 943-955. DOI:10.1890/14-0935.1
[32] Batur E, Maktav D. Assessment of surface water quality by using satellite images fusion based on PCA method in the lake Gala, Turkey[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(5): 2983-2989. DOI:10.1109/TGRS.2018.2879024
[33] Farhi N, Kohen E, Mamane H, et al. Prediction of wastewater treatment quality using LSTM neural network[J]. Environmental Technology & Innovation, 2021, 23. DOI:10.1016/j.eti.2021.101632
[34] Jiang Y Q, Li C L, Sun L, et al. A deep learning algorithm for multi-source data fusion to predict water quality of urban sewer networks[J]. Journal of Cleaner Production, 2021, 318. DOI:10.1016/j.jclepro.2021.128533
[35] Hu Y R, Du W J, Yang C, et al. Source identification and prediction of nitrogen and phosphorus pollution of Lake Taihu by an ensemble machine learning technique[J]. Frontiers of Environmental Science & Engineering, 2023, 17(5). DOI:10.1007/s11783-023-1655-7
[36] Hu M M, Wang Y C, Sun Z Y, et al. Performance of ensemble-learning models for predicting eutrophication in Zhuyi Bay, Three Gorges Reservoir[J]. River Research and Applications, 2021, 37(8): 1104-1114. DOI:10.1002/rra.3739
[37] 王渤权, 金传鑫, 周论, 等. 基于长短期记忆网络的西丽水库水质预测[J]. 长江科学院院报, 2023, 40(6): 64-70.
Wang B Q, Jin C X, Zhou L, et al. Water quality prediction for Xili reservoir based on long-short term memory[J]. Journal of Changjiang River Scientific Research Institute, 2023, 40(6): 64-70.
[38] Lu H, Yang L Y, Fan Y F, et al. Novel simulation of aqueous total nitrogen and phosphorus concentrations in Taihu Lake with machine learning[J]. Environmental Research, 2022, 204. DOI:10.1016/j.envres.2021.111940
[39] Shan K, Ouyang T, Wang X X, et al. Temporal prediction of algal parameters in Three Gorges Reservoir based on highly time-resolved monitoring and long short-term memory network[J]. Journal of Hydrology, 2022, 605. DOI:10.1016/j.jhydrol.2021.127304
[40] 辛苑, 张耀方, 李添雨, 等. 密云水库入库河流微生物群落演替对氮素形态转化的影响[J]. 环境科学, 2023, 44(9): 4985-4995.
Xin Y, Zhang Y F, Li T Y, et al. Effects of nitrogen speciation transformation on microbial community succession in input rivers of Miyun reservoir[J]. Environmental Science, 2023, 44(9): 4985-4995.
[41] Wang S L, Li J S, Zhang B, et al. Trophic state assessment of global inland waters using a MODIS-derived Forel-Ule index[J]. Remote Sensing of Environment, 2018, 217: 444-460. DOI:10.1016/j.rse.2018.08.026
[42] Mishra S, Mishra D R. Normalized difference chlorophyll index: A novel model for remote estimation of chlorophyll-a concentration in turbid productive waters[J]. Remote Sensing of Environment, 2012, 117: 394-406. DOI:10.1016/j.rse.2011.10.016
[43] Guo H W, Zhu X T, Huang J J, et al. An enhanced deep learning approach to assessing inland lake water quality and its response to climate and anthropogenic factors[J]. Journal of Hydrology, 2023, 620. DOI:10.1016/j.jhydrol.2023.129466
[44] Nieto P J G, García-Gonzalo E, Fernández J R A, et al. Water eutrophication assessment relied on various machine learning techniques: A case study in the Englishmen Lake (Northern Spain)[J]. Ecological Modelling, 2019, 404: 91-102. DOI:10.1016/j.ecolmodel.2019.03.009
[45] Martinsen K T, Sand-Jensen K. Predicting water quality from geospatial lake, catchment, and buffer zone characteristics in temperate lowland lakes[J]. Science of the Total Environment, 2022, 851. DOI:10.1016/j.scitotenv.2022.158090
[46] 冯秋园, 吴桐, 万祎, 等. 持久性有机污染物(POPs)在水生生态系统中的环境行为[J]. 北京大学学报(自然科学版), 2017, 53(3): 588-596.
Feng Q Y, Wu T, Wan Y, et al. Environmental behavior of persistent organic pollutants (POPs) in aquatic ecosystem[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2017, 53(3): 588-596.
[47] Nong X Z, Shao D G, Zhong H, et al. Evaluation of water quality in the South-to-North Water Diversion Project of China using the water quality index (WQI) method[J]. Water Research, 2020, 178. DOI:10.1016/j.watres.2020.115781
[48] 邢鹏, 李彪, 韩一萱, 等. 淡水生态系统对全球变化的响应: 研究进展与展望[J]. 植物生态学报, 2020, 44(5): 565-574.
Xing P, Li B, Han Y X, et al. Responses of freshwater ecosystems to global change: research progress and outlook[J]. Chinese Journal of Plant Ecology, 2020, 44(5): 565-574.
[49] 闫晗, 王胜楠, 陈卓, 等. 滇池有机污染物(COD)特征与来源解析[J]. 环境工程, 2024, 42(7): 113-119.
Yan H, Wang S N, Chen Z, et al. Characteristics of organic pollutants (COD) and their source in Dianchi lake[J]. Environmental Engineering, 2024, 42(7): 113-119.
[50] Wang M Z, Xu X W, Wu Z, et al. Seasonal pattern of nutrient limitation in a eutrophic lake and quantitative analysis of the impacts from internal nutrient cycling[J]. Environmental Science & Technology, 2019, 53(23): 13675-13686.
[51] 刘杰, 何云川, 邓建明, 等. 基于贝叶斯网络的太湖叶绿素a影响因素分析[J]. 环境科学, 2023, 44(5): 2592-2600.
Liu J, He Y C, Deng J M, et al. Analysis of influencing factors of chlorophyll-a in lake Taihu based on Bayesian network[J]. Environmental Science, 2023, 44(5): 2592-2600.
[52] Coad P, Cathers B, Ball J E, et al. Proactive management of estuarine algal blooms using an automated monitoring buoy coupled with an artificial neural network[J]. Environmental Modelling & Software, 2014, 61: 393-409.
[53] Zheng L, Wang H P, Liu C, et al. Prediction of harmful algal blooms in large water bodies using the combined EFDC and LSTM models[J]. Journal of Environmental Management, 2021, 295. DOI:10.1016/j.jenvman.2021.113060
[54] Liu M Y, He J Y, Huang Y Z, et al. Algal bloom forecasting with time-frequency analysis: a hybrid deep learning approach[J]. Water Research, 2022, 219. DOI:10.1016/j.watres.2022.118591
[55] Liang Z Y, Zou R, Chen X, et al. Simulate the forecast capacity of a complicated water quality model using the long short-term memory approach[J]. Journal of Hydrology, 2020, 581. DOI:10.1016/j.jhydrol.2019.124432
[56] Park Y, Cho K H, Park J, et al. Development of early-warning protocol for predicting chlorophyll-a concentration using machine learning models in freshwater and estuarine reservoirs, Korea[J]. Science of the Total Environment, 2015, 502: 31-41. DOI:10.1016/j.scitotenv.2014.09.005
[57] Zhu W D, Qian C Y, He N Y, et al. Research on chlorophyll-a concentration retrieval based on BP neural network model—case study of Dianshan Lake, China[J]. Sustainability, 2022, 14(14). DOI:10.3390/su14148894
[58] Li B, Yang G S, Wan R R, et al. Combining multivariate statistical techniques and random forests model to assess and diagnose the trophic status of Poyang Lake in China[J]. Ecological Indicators, 2017, 83: 74-83. DOI:10.1016/j.ecolind.2017.07.033
[59] Conley D J, Paerl H W, Howarth R W, et al. Controlling eutrophication: nitrogen and phosphorus[J]. Science, 2009, 323(5917): 1014-1015. DOI:10.1126/science.1167755
[60] Amano Y, Machida M, Tatsumoto H, et al. Prediction of Microcystis blooms based on TN: TP ratio and lake origin[J]. The Scientific World Journal, 2008, 8(1): 558-572.
[61] 赵巧华, 孙国栋, 王健健, 等. 水温、光能对春季太湖藻类生长的耦合影响[J]. 湖泊科学, 2018, 30(2): 385-393.
Zhao Q H, Sun G D, Wang J J, et al. Coupling effect of water temperature and light energy on the algal growth in Lake Taihu[J]. Journal of Lake Sciences, 2018, 30(2): 385-393.
[62] 刘春光, 金相灿, 孙凌, 等. 水体pH和曝气方式对藻类生长的影响[J]. 环境污染与防治, 2006, 28(3): 161-163.
Liu C G, Jin X C, Sun L, et al. Responses of algae to the variation of pH level and aeration mode[J]. Environmental Pollution & Control, 2006, 28(3): 161-163. DOI:10.3969/j.issn.1001-3865.2006.03.001
[63] Li X, Sha J, Wang Z L. Application of feature selection and regression models for chlorophyll-a prediction in a shallow lake[J]. Environmental Science and Pollution Research, 2018, 25(20): 19488-19498. DOI:10.1007/s11356-018-2147-3
[64] Zhou Y Q, Zhang Y L, Jeppesen E, et al. Inflow rate-driven changes in the composition and dynamics of chromophoric dissolved organic matter in a large drinking water lake[J]. Water Research, 2016, 100: 211-221. DOI:10.1016/j.watres.2016.05.021
[65] 刘善伟, 武钰林, 许明明, 等. 无人机多光谱遥感反演近海fDOM浓度[J]. 海洋技术学报, 2021, 40(6): 33-39.
Liu S W, Wu Y L, Xu M M, et al. Retrieval of offshore fDOM concentration by UAV multispectral remote sensing[J]. Journal of Ocean Technology, 2021, 40(6): 33-39. DOI:10.3969/j.issn.1003-2029.2021.06.005
[66] 王钰, 易滢佳, 史俊, 等. 饮用水中天然有机物的分析与表征方法[J]. 净水技术, 2021, 40(1): 5-12, 36.
Wang Y, Yi Y J, Shi J, et al. Analysis and characterization methods for natural organic matters in drinking water[J]. Water Purification Technology, 2021, 40(1): 5-12, 36.
[67] Yun D, Abbas A, Jeon J, et al. Developing a deep learning model for the simulation of micro-pollutants in a watershed[J]. Journal of Cleaner Production, 2021, 300. DOI:10.1016/j.jclepro.2021.126858
[68] Green M B, Pardo L H, Bailey S W, et al. Predicting high-frequency variation in stream solute concentrations with water quality sensors and machine learning[J]. Hydrological Processes, 2021, 35(1). DOI:10.1002/hyp.14000
[69] Liu D, Yu S J, Xiao Q T, et al. Satellite estimation of dissolved organic carbon in eutrophic Lake Taihu, China[J]. Remote Sensing of Environment, 2021, 264. DOI:10.1016/j.rse.2021.112572
[70] Chen J, Zhu W N, Tian Y Q, et al. Monitoring dissolved organic carbon by combining Landsat-8 and Sentinel-2 satellites: Case study in Saginaw River estuary, Lake Huron[J]. Science of the Total Environment, 2020, 718. DOI:10.1016/j.scitotenv.2020.137374
[71] Erlandsson M, Futter M N, Kothawala D N, et al. Variability in spectral absorbance metrics across boreal lake waters[J]. Journal of Environmental Monitoring, 2012, 14(10): 2643-2652. DOI:10.1039/c2em30266g
[72] Kutser T, Pascual G C, Barbosa C, et al. Mapping inland water carbon content with Landsat 8 data[J]. International Journal of Remote Sensing, 2016, 37(13): 2950-2961. DOI:10.1080/01431161.2016.1186852
[73] Zhang Y T, Cheng X Y, Chen X X, et al. Interannual variation and machine learning simulation of organophosphate esters in Taihu Lake[J]. Journal of Hazardous Materials, 2024, 461. DOI:10.1016/j.jhazmat.2023.132654
[74] Wang Y L, Zhang X T, Guo F, et al. Estimating the temporal and spatial distribution and threats of bisphenol A in temperate lakes using machine learning models[J]. Ecotoxicology and Environmental Safety, 2024, 269. DOI:10.1016/j.ecoenv.2023.115750
[75] Yeon I S, Kim J H, Jun K W. Application of artificial intelligence models in water quality forecasting[J]. Environmental Technology, 2008, 29(6): 625-631. DOI:10.1080/09593330801984456
[76] Lu H F, Ma X. Hybrid decision tree-based machine learning models for short-term water quality prediction[J]. Chemosphere, 2020, 249. DOI:10.1016/j.chemosphere.2020.126169
[77] Mu Y, Tang B B, Cheng X, et al. Source apportionment and predictable driving factors contribute to antibiotics profiles in Changshou Lake of the Three Gorges Reservoir area, China[J]. Journal of Hazardous Materials, 2024, 466. DOI:10.1016/j.jhazmat.2024.133522
[78] Nafsin N, Li J. Prediction of total organic carbon and E. coli in rivers within the Milwaukee River basin using machine learning methods[J]. Environmental Science: Advances, 2023, 2(2): 278-293. DOI:10.1039/D2VA00285J
[79] Guo H, Song Y F, Tang H R, et al. An ensemble deep neural network approach for predicting TOC concentration in lakes along the middle-lower reaches of Yangtze River[J]. Journal of Intelligent & Fuzzy Systems, 2022, 42(3): 1455-1482.
[80] Kim S, Maleki N, Rezaie-Balf M, et al. Assessment of the total organic carbon employing the different nature-inspired approaches in the Nakdong River, South Korea[J]. Environmental Monitoring and Assessment, 2021, 193(7). DOI:10.1007/s10661-021-08907-4
[81] Harkort L, Duan Z. Estimation of dissolved organic carbon from inland waters at a large scale using satellite data and machine learning methods[J]. Water Research, 2023, 229. DOI:10.1016/j.watres.2022.119478
[82] Sun X, Zhang Y L, Zhang Y B, et al. Machine learning algorithms for chromophoric dissolved organic matter (CDOM) estimation based on Landsat 8 images[J]. Remote Sensing, 2021, 13(18). DOI:10.3390/rs13183560
[83] 李晓瑛, 王华, 王屹晴, 等. 基于机器学习的长江口溶解氧预测模型与评估[J]. 环境科学, 2024, 45(12): 7123-7133.
Li X Y, Wang H, Wang Y Q, et al. Machine learning-based dissolved oxygen prediction modeling and evaluation in the Yangtze River estuary[J]. Environmental Science, 2024, 45(12): 7123-7133.
[84] Li Q H, Wang X, Wang J Y, et al. Prediction of dissolved oxygen content in water based on EEMD-Pearson and LSTM hybrid models[J]. IOP Conference Series: Earth and Environmental Science, 2021, 760. DOI:10.1088/1755-1315/760/1/012012
[85] 陈英义, 方晓敏, 梅思远, 等. 基于WT-CNN-LSTM的溶解氧含量预测模型[J]. 农业机械学报, 2020, 51(10): 284-291.
Chen Y Y, Fang X M, Mei S Y, et al. Dissolved oxygen prediction model based on WT-CNN-LSTM[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(10): 284-291. DOI:10.6041/j.issn.1000-1298.2020.10.032
[86] Li X L, Yang J X, Fan Y F, et al. Rapid monitoring of heavy metal pollution in lake water using nitrogen and phosphorus nutrients and physicochemical indicators by support vector machine[J]. Chemosphere, 2021, 280. DOI:10.1016/j.chemosphere.2021.130599
[87] Zou Y W, Lou S, Zhang Z R, et al. Predictions of heavy metal concentrations by physiochemical water quality parameters in coastal areas of Yangtze river estuary[J]. Marine Pollution Bulletin, 2024, 199. DOI:10.1016/j.marpolbul.2023.115951
[88] Li P F, Hua P, Zhang J, et al. Ecological risk and machine learning based source analyses of trace metals in typical surface water[J]. Science of the Total Environment, 2022, 838. DOI:10.1016/j.scitotenv.2022.155944
[89] Yu F B, Hu X G. Machine learning may accelerate the recognition and control of microplastic pollution: Future prospects[J]. Journal of Hazardous Materials, 2022, 432. DOI:10.1016/j.jhazmat.2022.128730
[90] Qiu Y, Li Z J, Zhang T, et al. Predicting aqueous sorption of organic pollutants on microplastics with machine learning[J]. Water Research, 2023, 244. DOI:10.1016/j.watres.2023.120503
[91] Kwon H, Ali Z A, Wong B M. Harnessing semi-supervised machine learning to automatically predict bioactivities of per- and polyfluoroalkyl substances (PFASs)[J]. Environmental Science & Technology Letters, 2023, 10(11): 1017-1022.
[92] Qiu R J, Wang Y K, Rhoads B, et al. River water temperature forecasting using a deep learning method[J]. Journal of Hydrology, 2021, 595. DOI:10.1016/j.jhydrol.2021.126016
[93] Srivastava A, Cano A. Analysis and forecasting of rivers pH level using deep learning[J]. Progress in Artificial Intelligence, 2022, 11(2): 181-191. DOI:10.1007/s13748-021-00270-2
[94] 翟佳伦, 史小红, 刘禹, 等. 乌梁素海冰封期水温与溶解氧浓度变化研究[J]. 干旱区研究, 2021, 38(3): 629-639.
Zhai J L, Shi X H, Liu Y, et al. Change law of water temperature and dissolved oxygen concentration of Wuliangsu Sea in icebound period[J]. Arid Zone Research, 2021, 38(3): 629-639.
[95] 邓雅静, 李一平, 潘泓哲, 等. 基于随机森林的秦淮河流域水体汛期污染强度影响机制[J]. 环境科学, 2025, 46(1): 193-203.
Deng Y J, Li Y P, Pan H Z, et al. Influencing mechanism of precipitation pollution intensity in Qinhuai River basin based on random forest[J]. Environmental Science, 2025, 46(1): 193-203.
[96] Al-Jarrah O Y, Yoo P D, Muhaidat S, et al. Efficient machine learning for big data: a review[J]. Big Data Research, 2015, 2(3): 87-93. DOI:10.1016/j.bdr.2015.04.001
[97] 李国良, 周煊赫, 孙佶, 等. 基于机器学习的数据库技术综述[J]. 计算机学报, 2020, 43(11): 2019-2049.
Li G L, Zhou X H, Sun J, et al. A survey of machine learning based database techniques[J]. Chinese Journal of Computers, 2020, 43(11): 2019-2049.
[98] Zhi W, Appling A P, Golden H E, et al. Deep learning for water quality[J]. Nature Water, 2024, 2(3): 228-241. DOI:10.1038/s44221-024-00202-z