环境科学  2025, Vol. 46 Issue (6): 3315-3328   PDF    
机器学习在空气污染研究方面的应用进展
沙桐1, 李靓青1, 严殊祺2, 杨思雨1, 李扬2, 董自鹏3, 陈庆彩1     
1. 陕西科技大学环境科学与工程学院,西安 710021;
2. 南京气象科技创新研究院,中国气象局交通气象重点开放实验室,南京 210041;
3. 陕西省气象科学研究所,西安 710014
摘要: 空气污染是当前全球面临的严峻挑战之一,研究和改善空气质量具有重要的现实意义. 传统的研究方法多依赖于多源观测数据和基于大气物理与化学理论构建的数值模式,然而以上方法在准确性、时空覆盖范围和计算资源等方面受到限制. 机器学习作为一种强大的数据处理和信息挖掘的工具,已开始被研究者应用于空气污染研究领域,旨在通过大量数据揭示空气污染的变化规律及影响因素,并预测未来空气质量的变化趋势. 综述了近几年机器学习在空气污染研究中的典型应用,主要涉及以下4个方面:基于卫星遥感的大气成分反演与估算、监测与预测;空气质量模拟与预报准确性的提高;空气污染成因分析和多源数据融合. 此外,进一步探讨了当前研究中存在的科学问题和技术难点. 未来研究应重点关注如何将机器学习与传统数值模式相结合,例如开发智能参数化方案和学习模式参数等. 同时,还应探索机器学习在污染源解析、空气质量健康影响评估,以及多源数据融合技术中的应用,可实现更精准的空气质量管理和政策制定.
关键词: 空气污染      机器学习      数值模式      卫星遥感      污染成因      多源数据融合     
Review of Machine Learning in Air Pollution Research
SHA Tong1 , LI Liang-qing1 , YAN Shu-qi2 , YANG Si-yu1 , LI Yang2 , DONG Zi-peng3 , CHEN Qing-cai1     
1. College of Environmental Science and Engineering, Shaanxi University of Science and Technology, Xi'an 710021, China;
2. Key Laboratory of Transportation Meteorology of China Meteorological Administration, Nanjing Joint Institute for Atmospheric Sciences, Nanjing 210041, China;
3. Shaanxi Institute of Meteorological Sciences, Xi'an 710014, China
Abstract: Air pollution is one of the most serious global challenges at present, and it has great practical importance to study and improve air quality. Traditional research methods mostly rely on multi-source observations and numerical models constructed based on atmospheric physics and chemistry theories, although these methods are limited in terms of accuracy, spatial and temporal coverage, and computational resources. As a powerful data processing and information mining tool, machine learning has begun to be applied by researchers in the field of air pollution research, aiming to reveal the changing patterns and influencing factors of air pollution through analyzing large amounts of data and predict future trends in air quality. This study reviews the typical applications of machine learning in air pollution research in recent years, mainly involving the following four aspects: inverting and estimation, monitoring, and prediction of atmospheric composition based on satellite remote sensing; improvement of air quality simulation and forecast accuracy; analysis of air pollution causes; and fusion of multi-source data. In addition, the scientific problems and technical difficulties in the current research are further discussed. Future research should focus on how to combine machine learning with traditional numerical models, such as developing intelligent parameterization schemes and learning model parameters. The application of machine learning in pollution source analysis, air quality health impact assessment, and multi-source data fusion techniques should also be explored to achieve more accurate air quality management and policy making.
Key words: air pollution      machine learning      numerical model      remote sensing      pollution causes      multi-source data fusion     

空气质量是全球公共健康和环境可持续性的关键指标. 随着工业化和城市化的快速发展,大气污染问题日益凸显,不仅危害经济和社会发展,对人类健康也会造成直接影响[12]. 全球每年有大量人口因长期暴露于污染空气中而过早死亡[34]. 尽管部分国家和地区在大气污染治理方面取得了一定进展[56],中国空气质量的改善仍相对缓慢[7]. 空气污染成因十分复杂,且研究内容涉及多个学科领域,是一个新兴的跨学科研究. 空气污染研究常用的方法主要包括:统计模型和大气化学传输模式,外场观测和实验室模拟与分析. 此外,还有源解析技术、受体模型、同位素分析以及卫星遥感技术等. 以上方法相互补充,为空气质量监测、模拟、预测和污染源识别提供了多角度的科学依据. 除了上述传统方法,随着计算机的发展,机器学习凭借其强大的数据处理能力和模式识别能力,在空气污染研究领域中开始被广泛应用. 例如:机器学习算法能够从大量的历史数据中识别污染物浓度变化的潜在规律,从而预测未来的空气污染状况,还可以辅助污染源的识别与追踪,为制定有效的空气质量管理和污染控制策略提供科学依据[8].

本研究通过web of science(WOS)和知网数据库,以“artificial intelligence”,“big data”,“machine learning”,“deep learning”和“air pollution”作为关键词进行文献检索,搜集了有关机器学习在空气污染研究方面应用的已发表论文(图 1,时间截止到2023年12月). 结果显示,自2005年起,有关机器学习与空气污染的论文发表数量呈现增长态势,尤其是2016年之后,这一增长趋势变得尤为显著. 本文根据检索到的近9 000篇已发表的相关文章,综述了近几年机器学习在空气污染领域的研究进展和应用情况,并提出了当前亟待解决的科学和技术问题,以及未来应关注的研究方向,以期为空气质量管理和政策的精准制定提供思路.

图 1 机器学习在空气污染领域应用的发文趋势 Fig. 1 Publication trends of machine learning applications in the field of air pollution

1 机器学习算法发展历程

机器学习是人工智能的重要分支,涉及算法和模型的开发,通常利用已知的输入和对应的输出作为训练样本来建立模型,使得计算机具有从数据中自动学习和改进优化的能力,从而对新数据进行预测或分类. 按照学习方式分类,机器学习可分为监督学习、无监督学习、半监督学习和强化学习. 监督学习通过已知类别的样本训练模型,常用于分类和回归问题. 常用算法包括随机森林(random forest,RF)、支持向量机(support vector machine,SVM)、极端梯度提升树(extreme gradient boosting,XGBoost)、长短期记忆网络(long short-term memory,LSTM)和卷积神经网络(convolutional neural network,CNN). 无监督学习则处理未标记数据,通过算法直接对数据集建模,揭示数据内在结构和规律. 常用于聚类问题,如k均值聚类(k-means clustering,k-means)、层次聚类和自组织映射等. 半监督学习结合了监督学习(完全标记的训练数据)和无监督学习(没有任何标记的训练数据)的特点,利用少量标记数据做参考辅助无标记数据进行规律学习,如自训练和伪标签. 而强化学习则是由外部环境提供的强化信号反馈进行学习,如Q-learning.

尽管机器学习在其他领域应用较早,但在空气污染研究领域的应用起步相对较晚. 早期的研究主要集中在开发和应用相对基础的算法,如决策树和逻辑回归等监督式机器学习算法. 随着21世纪大数据和计算机能力的提升,机器学习能够从海量的空气质量数据中提取出隐藏的模式和关联,通过分析大量污染数据、气象数据和其他相关数据,自动发现并学习其中的非线性关系,尝试理解复杂的大气过程. 空气污染研究领域常用的机器学习算法如表 1所示. 将机器学习与大气化学传输模式相结合,利用机器学习方法替代模式中物理化学过程参数化方案来提高计算效率,或对模式输出结果进行后处理,以上都为空气污染研究领域带来了新的应用前景. 由于机器学习在一定程度上降低了计算时间成本,已成为目前研究空气污染的重要工具之一. 图 2展示了机器学习在空气污染研究领域的典型应用,包括观测数据预处理、资料同化、模拟与预报和数值产品后处理.

表 1 空气污染研究领域常用的机器学习算法 Table 1 Commonly used machine learning algorithms in air pollution research

图 2 机器学习在空气污染研究领域的典型应用 Fig. 2 Typical applications of machine learning in air pollution research

2 机器学习在空气污染研究方面的应用

根据检索到的近9 000篇文献,按照研究内容和具体的算法进行分类,得到机器学习在空气污染领域的主要算法和相关的研究内容(图 3). 可以看出,在算法方面,常规的机器学习算法如SVM、RF、XGBoost和决策树(decision tree,DT)等树模型,以及深度学习如LSTM、CNN和ANN,因其在捕捉污染物及其影响因素间复杂非线性关系方面具有优势,应用最为广泛. 研究内容方面,PM10、PM2.5、NO2和O3等污染物的预报、误差校正、资料同化和污染成因分析,以及数据集构建等是近几年的研究热点. 以上研究热点可以综合概括为基于遥感数据的大气成分反演与估算、监测与预测;空气质量模拟与预报准确性的提高;空气污染成因分析以及数据融合这4个方面. 下面将从这4个方面对机器学习在空气污染研究领域的应用进行综述.

图 3 空气污染领域常用的机器学习算法及相关研究内容 Fig. 3 Commonly used machine learning algorithms and related research content in the field of air pollution

2.1 基于卫星遥感的大气成分反演与估算、监测与预测

卫星遥感监测技术可以快速获取连续的、大范围的大气成分数据,在污染物浓度反演与估算、排放反演、污染监测与异常检测以及污染物传输与预测等方面发挥着重要作用(表 2).

表 2 基于卫星遥感的空气污染主要研究内容和方法1) Table 2 Main research contents and methods of air pollution based on satellite remote sensing

当前针对大气污染物柱浓度和廓线的卫星反演仍存在一定的不确定性. 如对流层NO2柱浓度反演的不确定主要来源于对平流层柱浓度的估算和大气质量因子(air mass factor,AMF)的计算,而AMF的计算主要依赖于辐射传输模拟,其误差在污染地区可达20%~50%[2829]. 尽管O3柱总量和对流层柱浓度反演相对较为成熟,精度分别可达95%和85%,而受卫星数据时空分辨率的限制,以及复杂的化学反应和天气气候条件的影响,O3廓线反演精度相对较低,且不同的卫星载荷与不同的反演算法也会造成反演偏差[9]. 近年来,基于机器学习和深度神经网络学习的污染物柱浓度和廓线反演新算法不仅能够提高计算效率,反演精度也有所提升[10]. Xie等[11]利用MLP神经网络,结合OCO-2卫星光谱数据反演CO2柱浓度,发现机器学习方法不仅提高了检索速度(小于1ms),实现了约0.45%的高反演精度,还有效捕捉了工业排放源附近XCO2浓度的变化. Xu等[12]利用FP-ILM(full-physics inverse learning machine)机器学习方法,结合GOME-2、OMI和TROPOMI等不同卫星观测数据反演O3廓线形状,与传统的最优估计结果相比,FP-ILM方法显现出高效率和高准确性,可将反演误差降低至5%~20%.

近地面污染物浓度的观测主要依赖于地基监测站,然而,受人力与经济等资源的限制,地面监测站点分布不均,难以获得大范围污染物浓度的空间分布信息. 相比之下,卫星遥感由于具有时间连续性高和空间覆盖面广等优势弥补了地面监测站点的不足,常用来估算污染物浓度的时空分布. 但由于受气溶胶和云雾等大气环境和复杂地表的干扰,基于卫星数据估算近地面污染物浓度仍存在很大的不确定性. 因此,越来越多的研究者基于机器学习方法,利用卫星观测数据,结合气象、排放与辐射等多种因素的影响,建立模型估算近地面污染物浓度,有效弥补了地面监测站点数据不足的问题. Wei等[15]利用极度随机树(extremely randomized trees,ERT)模型,结合地面站点观测数据、OMI/Aura O3柱浓度和NO2柱浓度数据、气象再分析数据和MEIC排放清单(multi-resolution emission inventory for China)等,估算了中国2013~2020年近地面O3日均浓度. 周刚等[16]融合地面站点观测数据与TROPOMI/Sentinel-5P观测的NO2柱浓度,以及气象、土地利用和夜间灯光等辅助数据,利用RF、XGBoost和梯度增强决策树(light gradient boosting machine,LightGBM)这3种树模型,以日尺度和月尺度估算了京津冀地区2019~2020年近地面NO2浓度.

此外,卫星反演产品凭借广泛的空间覆盖率和可提供近实时和长时间序列的污染物柱浓度观测数据的优势,逐渐成为自上而下排放清单反演的重要数据来源. 目前发展成熟的反演产品包括NOx、SO2、PM2.5、PM10和BC(black carbon)排放等[17]. 尽管如此,卫星数据不可避免的受气溶胶和云雾的影响会存在缺测值,且基于大气化学传输模式的排放反演算法受模式参数化方案的不确定也难以准确表达卫星观测的柱浓度和地面排放之间的复杂非线性关系. 已有研究通过引入机器学习方法来整合获取的卫星与地面站点观测的污染物浓度数据,改进模型输入的污染物浓度初始场,从而提高对近地面污染物排放的估算精度. 例如,He等[1920]整合了地面观测的NO2浓度和卫星观测的对流层NO2柱浓度,利用CNN模型估算了中国和美国地区NOx排放.

除了在污染物浓度反演和观测方面的应用,机器学习方法结合卫星遥感数据在污染监测或异常事件检测方面,如森林草原火灾、工业生产热点和秸秆焚烧等产生热异常且集中排放的区域监测也有广泛的应用[223031]. 例如,Kang等[22]和Jang等[23]利用Himawari-8高时间分辨率(10 min)的卫星图像数据,结合RF和CNN模型可实时监测森林火灾,监测精度可达89%~93.08%. 此外,在预测大气成分方面,基于卫星反演的污染物浓度数据、站点观测和再分析数据,以及地形特征等多源数据,利用机器学习方法能够显著提高对大气成分预测的鲁棒性[2627]. 然而,由于卫星数据的预处理、校准和验证需要耗费大量时间和精力,不同卫星和不同传感器的数据格式和精度存在差异,增加了数据融合的难度,且卫星反演的污染物浓度也存在一定的不确定性会进一步增加模型预测的不准确性. 因此,机器学习方法在卫星遥感方面的应用多用于污染物柱浓度的反演和近地面浓度的估算上,在预测大气成分方面的应用还相对较少.

2.2 空气质量模拟与预报准确性的提高

空气质量数值模式是实现大气污染物浓度模拟和预报的重要工具. 然而,受气象化学初始场和排放源清单等输入数据的误差与网格分辨率较粗,以及物理化学参数化方案不确定等因素的影响,污染物的模拟和预报准确度仍需进一步提升. 为提高空气质量模拟与预报的准确性,机器学习在空气质量模拟与预报方面的应用主要包括2个方面,一是机器学习被直接用于构建统计模型进行空气质量预报. 二是在数值模式的基础上进行同化和释用来提高预报结果的准确性. 表 3总结了传统的空气质量模拟与预报方法,以及机器学习在提高空气质量模拟与预报方面的常用算法.

表 3 空气质量模拟与预报的常用方法和机器学习算法1) Table 3 Common methods and machine learning algorithms for air quality simulation and forecasting

2.2.1 空气质量模拟与预报

除了需要准确的气象化学初始场和排放源清单以外,空气质量模拟与预报系统还需要能够准确模拟污染物在大气中排放、传输、化学转化和清除等一系列过程的参数化方案. 然而,目前仍存在一些未知的大气污染形成机制,导致模式难以模拟出更贴近真实情况的大气过程[60]. 同时受计算资源的限制,传统的数值模式通常将复杂的物理化学过程用参数化方案来描述[32]. 未知的机制和参数化方案都可能导致模式结果与真实值存在较大误差. 此外,模式中的化学模块频繁被调用和计算也会进一步增加计算耗时. 相比之下,机器学习不需太多的先验知识,依赖数据来弥补未知的映射关系,因此能够节约计算资源,同时在处理和分析大规模、高维度数据集时具有明显优势,被越来越多的研究者直接用于构建模型对空气质量进行预报[35~38]. 随着机器学习各类算法的发展和应用,研究者们开始将重点放在对比不同算法在空气质量预报的性能方面上,还有研究将机器学习模型与数值模式的输出结果进行对比,选择最优结果以提高空气质量的预报效果[3940]. 然而,单一的机器学习预报方法还存在不足,如深度学习方法可以对数据内部隐藏特征进行更深层次的挖掘,但这可能会引入更复杂的模型或特征,相应的其可解释性会降低. 为克服单一方法的局限性,研究者开始探索将机器学习与数值模式相结合的混合模型. 这种混合模型可以集合数值模式和机器学习的优势,提高预报准确度的同时,也可以一定程度上提高模型的可解释性[41~43].

值得注意的是,尽管机器学习模型在短期预报方面表现出良好的性能,但在长期预报和理解深层次的物理化学机制方面仍不如数值模式. 因此,综合利用机器学习和数值模式的优势,如发展智能参数化方案和模式参数学习等,应是未来空气质量模拟与预报的主流发展方向. 例如:已有研究基于机器学习开发了P-NIROM模型,用于模拟污染物的传输过程,改进了数值模式的预报效果[61]. 然而,由于污染物数据的稀缺、源汇以及物理化学过程更为复杂,将机器学习方法应用于改进模式化学模块中的参数化方案相对较少,其应用多集中在气象模块,如对流参数化[6263]、长短波或完整的辐射参数化[6465]和边界层参数化等[66]. 因此,在空气质量模拟与预报领域,尽管机器学习算法提供了强大的数据处理和分析能力,仍不能完全替代传统的空气质量数值模式,将二者结合应用,发挥各自优势,是提高空气质量预报准确度和实时性的主流方法.

2.2.2 资料同化

空气质量数值模式所输入的气象场和化学场不可避免存在偏差,而资料同化的目的是通过整合各类观测资料来修正输入的初始场. 传统的同化方法,如最优插值法、卡尔曼滤波法和变分方法等[44],虽然应用广泛,但它们依赖于一些假设条件,如线性关系、误差符合正态分布和静态的传递函数等. 此外,传统方法在处理大量数据集时计算耗时较长[4546]. 为解决以上问题,有研究者指出可以将机器学习方法作为传统资料同化技术的替代或补充,应用于数值模式中[4748].

随着机器学习算法的不断成熟,研究者开始将其与资料同化技术相结合,优化空气质量数值模式输入的气象和污染物浓度初始场,以及排放清单,从而提高空气质量预报的准确度. 例如:Lee等[49]通过将RF与三维变分资料同化(3D-VAR DA)系统相结合,利用静止卫星(geostationary ocean color imager,GOCI)观测的AOD数据对PM2.5和PM10进行高精度估算,并将其用于修正数值模式的污染物浓度初始场,结果发现PM10的皮尔逊相关系数经修正后由0.29提升到了0.84,PM2.5的皮尔逊相关系数由0.56提升到了0.86. 排放清单的编制通常分为自下而上和自上而下两种方式,对于基于历史数据和统计信息编制的自下而上排放清单,由于数据可能无法及时反映污染源的实时变化和调整,可能会存在一定偏差. 因此,Chen等[50]和Huang等[51]提出将以往的同化方法与机器学习相结合,采用自上而下的方法来改进区域空气质量模式(CMAQ/WRF-CAMx)中的人为排放清单. 相较于传统的资料同化方法,融合机器学习算法的资料同化方法在处理大规模观测数据、适应复杂非线性关系、处理观测误差相关性、提高计算速率和减少模式输入数据的误差方面展现出优势. 尽管如此,机器学习依然需要注意模型选择和调优,过度复杂的模型会导致过拟合问题.

2.2.3 模式结果后处理

空气质量模式如CMAQ、CAMx、WRF-Chem和NAQPMS,因其具有较完善的物理化学过程,依然是空气质量模拟与预报的主要手段. 然而,传统的空气质量数值模式由于系统性偏差,以及空间分辨率相对较粗等问题,导致模拟结果与实际观测存在偏差. 为提高预报的准确性,研究者开始探索使用机器学习方法对数值模式的输出结果进行校正[53~57]. 利用机器学习进行误差校正是通过将数值模式的输出作为输入特征,并结合相应的观测数据训练机器学习模型,使其能够学习如何将输入特征映射到更准确的污染物浓度预测上,从而缩小预测值与观测值之间的差异,当新的气象条件和污染物浓度作为输入数据输入到已训练好的机器学习模型中时,模型能够输出经校正的污染物预测浓度[5667].

然而,截至目前,利用机器学习校正不同浓度范围和不同时空尺度下模拟的污染物的研究还相对较少. 近期有研究基于RF构建了一个校正模型,可以用于校正在不同浓度范围和不同时空尺度下CMAQ模式预测的O3浓度,经校正的O3-1h浓度平均值和O3-max 8h的归一化平均偏差从54%和34%下降到-0.1%和-4%,皮尔逊相关系数也由0.78和0.90提升到0.94和0.95[68]. 此外,集成机器学习模型用于数值模式结果后处理的相关研究也逐渐增多,有效提高了机器学习模型的校正效果[5859]. 需要注意的是,尽管机器学习在校正数值模式输出方面显示出潜力,但其效果很大程度上受到基础数值模式性能的影响. 当模拟值变化趋势与真实情况相差过大时,即使后处理能够学到一定的校正规律,预报结果的准确性也可能受到限制[69]. 因此,一些研究者提出结合实时观测值进行模式预报后处理的方法,如黄泳熙等[70]在WRF-CMAQ校正的基础上,选用前馈神经网络模型进行模式预报后处理,同时结合LSTM引入NO2及气象观测数据的实际变化趋势,进一步提升已有校准模型对NO2浓度的校正效果.

空气质量是一个动态不断变化的过程,模型在预测过程中可能需要不断更新甚至重新训练以适应最新的大气条件,这也增加了计算成本. 因此,消除模式输出与观测值之间的偏差仍是一个持续的挑战. 未来研究将集中在继续探索和优化机器学习在数值模式后处理方面的应用,如使用数据增强技术以及开发动态更新机制等. 还有研究者利用机器学习模型对模式误差进行估计,以实现更高空间分辨率、更准确的污染物浓度预测. 其中,误差定义为数值模式或机器学习模型输出结果与观测值的差值. 通过利用可能影响污染物浓度的地理和环境变量(如归一化植被指数和数字高程地图等)作为预测因子,建立模型预测无观测数据情况下的误差值,再将预测的误差值与模式预测的粗分辨率污染物浓度结果结合,实现降尺度目标. 例如:Huang等[71]利用RF将PM2.5预测结果从1 km分辨率(国家)降到100 m分辨率(城市),提供更高分辨率的PM2.5每日空间分布情况,同时也可以为后续研究局地污染暴露评估和流行性病学研究提供更可靠的数据基础.

2.3 空气污染成因分析

受不利的气象因素、过高的污染排放、区域输送以及复杂的局地化学转化机制的共同影响,中国仍有很多地区面临严重的空气污染问题. 厘清污染成因并明确污染来源,对于进一步提升空气质量,制定更为精准的政策具有重要意义[72~74]. 表 4总结了空气污染的主要成因以及常用的研究方法.

表 4 空气污染的主要成因及研究方法 Table 4 Main causes of air pollution and research methods

2.3.1 量化污染成因

常用的量化空气污染成因方法有大气化学传输模式、源清单法、烟雾箱实验和同位素分析,以及基于多源观测数据的分析研究[80~83]. 其中,大气化学传输模式可以模拟污染物在大气中的传输和转化过程,通过设计敏感性实验改变模式中的参数,以及输入的数据如气象场和排放源清单,定量研究不同因素对污染物浓度的影响效果,揭示其相对重要性和贡献量[757990~92]. 然而,由于模式本身的局限性,以及多组敏感性实验需消耗大量的计算资源,且控制其中一种因素(气象或排放)不变而改变其他因素会导致非线性问题的产生,因此模拟结果往往存在较大的不确定性[7689]. 针对以上问题,已有越来越多的研究利用大量数据和机器学习算法探究污染成因. 例如:基于各种机器学习算法建立污染物与其影响因素之间的相关模型,模拟并量化导致污染物形成的主导因素[93~96]. 大气污染物除了局地生成外,还可以通过水平输送进行远距离传输[97~99],定量研究污染物区域传输的贡献也是至关重要的. Hsu等[85]利用k-means聚类和反向轨迹模型量化中国台湾不同地理位置(城市、郊区、农村和工业园区)中PM2.5金属的来源贡献. Li等[84]基于RF对街道层面的PM2.5和NOx浓度进行了高时空分辨率的预测,同时评估了不同因素(各种类型汽车的排放因素和本地污染、各种气象因素等非排放因素)对PM2.5和NOx浓度的影响. 这也为量化管控措施对排放量和空气污染改善的影响程度,评估政策的有效性提供了数据支持.

2.3.2 污染来源解析

除厘清污染物浓度变化的主要驱动因素以外,识别污染物的来源对于制定科学有效的控制策略同样重要. 已有很多研究针对中国大气污染防治重点城市群开展了污染源解析研究[7274100101]. 传统的源解析方法包括污染源排放清单分析、扩散模式、受体模式和示踪物识别法等[8687]. 目前,大气颗粒物源解析的发展趋势是源清单、扩散模式和受体模式的综合集成应用,同时建立的污染源清单实现动态化,以反映污染源的时空变化规律.

尽管以上方法在源解析中发挥了重要作用,然而由于源解析过程涉及多个变量和未知参数的交互影响,计算复杂度较高,导致源解析的非线性问题依然存在. 此外,传统方法由于通常依赖专家经验、假设的排放源模型或特定的分析框架,其在某些情况下可能存在主观假设,导致源解析的计算存在一定的主观性[102]. 随着大气污染物观测数据的急剧增加,数据挖掘与机器学习方法,特别是CNN,开始在污染源源解析中得到应用. CNN具有独特的结构,包含卷积层、池化层和全连接层. 其中,卷积层可以自动进行特征提取,减少模型训练所需的参数数量,池化层进一步精炼特征,以突出主要特征,并有效预防过拟合现象,全连接层综合局部特征,实现全局决策过程. 这种由局部到整体的多尺度特征分析方法,使得CNN适合用于解决特定类型的主观性和非线性问题[103]. 例如:孟祥来等[88]将CNN用于正定矩阵因子分解(positive matrix factorization,PMF)的源解析因子识别. 考虑到大气颗粒物组成之间存在相似性,有研究者对主要的颗粒物源排放进行金属指纹测量,利用机器学习模型识别和分类单个粒子的质量和指纹,从而确定粒子的来源[104].

然而,简化的机器学习模型可能在训练数据上表现良好,但在模型训练阶段,对于未接触的数据可能无法有效泛化. 这种情况通常是因为模型过于复杂,过分关注训练数据中的噪声和细节,而忽略了更一般性的模式和规律,导致模型在环境条件或污染源特征发生变化时的泛化能力较差. 此外,源解析通常需要识别和利用与污染源相关的特定特征,机器学习模型可能无法捕捉到复杂特征,或无法提供足够的解释性来理解模型的分类和预测机制. 针对以上问题,有研究者将机器学习与传统模型或可解释性工具如部分依赖图(partial dependence plots,PDP)和沙普利加和解释(shapley additive explanations,SHAP)等相结合,亦或利用如XGBoost和RF等可解释性相对较好的机器学习来优化这一问题. 例如:Mishra等[77]利用利用ANN和PMF结合进行VOCs来源归因分析,并将结果作为输入变量用于ANN,评估不同因素对O3污染的敏感性. Zhang等[78]为更好地量化各驱动因子对PM2.5的影响,利用PMF获得的源贡献与气象观测数据作为RF模型的输入数据,引入SHAP方法计算各变量对PM2.5的贡献,并采用PDP进行敏感性分析,发现人为排放对PM2.5形成的影响最大,占比为67%. 值得注意的是,SHAP值借用博弈论的思想来解释模型预测,它假设每个样本的特征变量之间存在一种“博弈”,在这个博弈中,特征变量共同合作来“公平地”分配模型输出的贡献. 而PDP是一种可视化工具,用于在其他特征保持不变的情况下,确定单个或多个特征对模型预测结果的影响.

与机器学习在空气污染的其它领域应用相比,基于机器学习处理源解析的相关研究相对较少,具备良好可解释性的机器学习方法更少,且机器学习在研究二次排放源方面还存在局限性. 然而,由于机器学习具有自适应性和处理大量数据的高效性,使用机器学习进行源解析可以不受各种如线性、非线性、正态和非正态条件的限制,在源解析方面还具有巨大的潜力,有望为环境管理和政策制定提供更加精准的支持.

2.4 基于数据融合技术构建高分辨率数据集

大气污染物监测数据对于准确了解大气污染状况、追踪污染源、评估健康风险和模式评估等方面具有重要意义. 然而,由于监测站点无法覆盖到每个地区,尤其是农村地区或偏远地区,导致空气质量监测数据的空间覆盖不足. 大气化学传输模式作为一种替补方法,能够在有准确排放清单支持的情况下模拟污染物的时空分布趋势[105106]. 然而,由于模式本身的局限性,使得污染物的模拟重现仍存在一定偏差[107108].

卫星数据虽能够提供大范围的数据信息[109110],但受限于云层遮挡和测量不确定性,其数据完整度和准确性仍有待提高[111112]. 为解决此问题,研究者开始利用机器学习方法,如RF和XGBoost等方法结合地面站点监测数据、卫星遥感数据和大气化学传输模式等多源数据,生成时空覆盖范围广与分辨率高的污染物浓度数据集[113~116]. 然而,受地理位置、局地气象条件、人为活动和排放特征等因素影响,污染物空间分布具有显著的时空非均匀性,直接利用机器学习进行预测,致使得到的数据集不能合理反映污染物精细化的空间分布特征[117~120]. 对此,已有研究者开始将时空非均匀性的影响因素纳入模式中,得到了一系列更准确和更完整的污染物数据集[15113121122].

尽管如此,机器学习不可避免地还是具有一定的局限性. 除了对数据质量的依赖问题外,研究中使用了多种数据源,不同数据源之间可能存在差异,尽管以上差异会被处理,但整合和处理过程中还是会不可避免引入误差. 此外,由于参数和变量的增多,机器学习可能会产生过拟合的风险,这为后续模型的建立带来了挑战. 为实现高质量的数据融合,仍需政府和研究人员的进一步努力.

3 机器学习在空气污染研究方面的关键问题

机器学习在空气污染研究中的应用日益增多,尽管取得了积极成果,但仍存在一些局限性.

3.1 模型的泛化能力

基于统计理论的机器学习,如线性回归、DT、RF和SVM等算法在空气质量预报方面主要依赖历史数据来模拟和预测未来趋势,而大气化学成分的变化涉及复杂的物理化学过程,仅依赖历史数据进行模拟可能会导致预测效果较差. 此外,机器学习模型的性能受模型的选择和参数调整影响较大. 截至目前,机器学习尚未开发出一种能够解决所有问题的通用算法或模型. 机器学习模型的表现在很大程度上依赖于训练数据集的质量和特性. 例如:不同污染物可能受到不同因素的影响,如气象条件、地理特征和人为活动,以上因素对不同污染物的影响有差异,从而增加了模型捕捉所有污染物特征的难度. 再者,很多大气污染物的浓度具有明显的季节性特征,机器学习模型在特定季节表现良好,而在其他季节表现不佳[123124],甚至在不同地区污染物浓度可能因地理位置、工业分布和交通状况等因素而有很大空间差异,从而导致模型适用范围受限制[39].

3.2 可解释性问题

随着机器学习算法越来越复杂,数据挖掘的能力也越来越强,然而研究发现模型准确度得到提升的同时其解释能力却有所不足. 因此,不能一味追求高准确性,模型的准确性和可解释性应形成一种平衡. 图 4是机器学习预测准确度与其可解释性的相关性,可以看出,XGBoost和RF等树模型因其以决策树的形式进行建模,可以提供对决策过程的直观理解,是目前可解释性相对较好的机器学习模型. 相比之下,深度学习(如CNN和LSTM)通常由大量的神经元和复杂的层次结构组成,决策过程更加抽象、难以解释,因此在可解释性方面相对较差.

图 4 机器学习各类算法性能和可解释性之间的权衡 Fig. 4 Trade-off between the performance and interpretability of different machine learning algorithms

3.3 过拟合问题

在模型预报速度和精度要求不断提升的背景下,机器学习对数据量的需求也随之激增,多源数据融合提升模型性能的同时也引入了大量模型参数,增加了过拟合的风险. 因此,在进行多源数据融合时,需要谨慎地处理数据源之间的差异,并采取特征缩放、去除异常值、填补缺失值等数据预处理和标准化措施来减少整合过程中可能引入的误差. 同时,为解决由于参数和变量的增多而导致的过拟合风险,可以通过选择适当的模型和正则化技术,并进行充分的模型验证,确保模型的泛化能力和预测准确性.

3.4 高质量数据缺乏

受诸多因素的限制,获取高质量数据相对较难,而且所获得的数据,确保不同来源的数据集质量和标准化也是一个重要问题. 这导致在污染源解析和空气质量健康评估等相关研究领域受到限制,使得建立的机器学习模型不能有效识别污染物的来源. 同时由于环境污染数据和健康相关病例数据涉及个人隐私,数据共享和使用受到一定限制,限制了污染暴露相关病例数据的可用性. 因此,为解决以上问题,需要多方合作和采用综合的方法,如改进数据采集和监测设施、加强数据质量控制和标准化、促进跨领域的数据共享与合作,发展更精确、更可靠的分析方法和模型.

4 展望

机器学习方法与传统的空气污染研究方法相结合,在污染物浓度预测、空气质量模式优化、污染源追溯及多源数据融合等方面已得到广泛应用. 然而,机器学习在空气污染研究领域的应用潜力仍有待深入挖掘. 为此,后续研究可重点关注以下4个方面:

(1)多源数据处理与特征提取  对于海量的多源数据(卫星数据、站点数据和再分析数据等),需进一步优化数据处理与特征提取,提升数据质量和数量. 例如,利用机器学习算法从多源数据中提取出对空气质量预测和污染源追溯最为关键的特征. 这不仅能提高模型的训练效率,还能增强模型在特定空气污染应用中的泛化能力.

(2)优化空气质量模拟与预测模型  后续研究可聚焦于建立更加优化的集成预测模型,例如融合数值模式对物理过程的深入理解和机器学习模型的高效数据处理能力,形成物理过程建模与数据驱动建模相结合的优势互补模型. 此外,还可以通过引入可解释性较强的RF和DT等树模型或利用SHAP和PDP等可解释工具,来平衡模型性能和可解释性问题.

(3)污染时空演化建模  利用时空数据挖掘和机器学习方法,可以更好地刻画和预测空气污染的时空演化规律,从而为精细化的污染防控措施提供科学依据. 后续研究可重点关注建立空间相关性和时间序列分析相结合的污染时空建模框架,以及借助于卷积神经网络和时间序列模型等方法捕捉污染物时空演化的复杂动态特征.

(4)多尺度协同优化  针对不同时空尺度上的空气污染问题,可以建立基于机器学习的多尺度协同优化框架,优化区域性和城市精细化的污染防控措施,从而在不同空间尺度间实现有效耦合与协同,提高防控措施的整体协同效果.

5 结论

(1)机器学习技术在空气污染研究领域展现出显著的潜力和独特的优势. 相较于传统研究方法,机器学习在处理多源数据、实现实时动态适应以及自动化智能化操作方面具有显著优势. 在基于卫星遥感的空气污染研究中,机器学习常用于污染物浓度反演、排放估算、监测预警及预测等方面,机器学习创新算法的引入提高了计算效率和反演精度,但依然存在不确定性和面临数据融合的挑战. 在空气质量模拟与预报方面,机器学习已被证明可以直接用于构建模型进行预测或在数值模式基础上进行同化和释用,来提高空气质量模拟与预报的准确性. 还可利用机器学习算法,如RF、CNN、BPNN、XGBoost和LSTM优化气象化学初始场,以及对数值模式结果进行后处理. 此外,机器学习算法也开始被广泛应用于量化污染成因、污染来源解析以及基于多源观测数据构建高分辨率数据集. 以上方面的应用为空气污染防治政策的制定提供了强有力的依据.

(2)然而,机器学习在源解析和健康评估方面的应用尚处于发展阶段. 鉴于污染物种类繁多、来源复杂性,加之个人健康信息和隐私数据获取受限,以及环境和生物等多种因素的潜在影响,使得机器学习在确定源解析和健康评估中的因果关系面临较大的挑战. 因此,这方面的相关研究还需更多的数据支持,同时应更多关注模式模拟鲁棒性的改善、暴露水平的评估和敏感人群差异分析等方面. 总的来说,机器学习并不能完全取代传统的数值模式. 将机器学习与传统数值模式相结合,集成运用多种模型,发挥它们各自的互补优势,将成为当前和未来研究的主流方向. 这种综合方法能够充分利用机器学习的高效性和数值模式的精确性,可为空气污染治理和政策制定提供更加全面和深入的科学依据.

参考文献
[1] Yang W H, Johnson M B, Liao H S, et al. Combined effect of preconceptional and prenatal exposure to air pollution and temperature on childhood pneumonia: a case-control study[J]. Environmental Research, 2023, 216. DOI:10.1016/j.envres.2022.114806
[2] 孟聪申, 刘静怡, 刘悦, 等. 2018年中国五城市大气细颗粒物暴露所致人群超额死亡风险评估[J]. 卫生研究, 2021, 50(4): 593-599.
Meng C S, Liu J Y, Liu Y, et al. Risk assessment of excess mortality attribute to PM2.5 exposure in 5 cities in China in 2018[J]. Journal of Hygiene Research, 2021, 50(4): 593-599.
[3] 骆雨茜, 陈静, 郝宇杭, 等. 2015~2022年重庆市近地面臭氧的暴露风险及环境影响[J]. 中国环境科学, 2024, 44(5): 2754-2765.
Luo Y Q, Chen J, Hao Y H, et al. Exposure risk assessments and environmental impacts of surface ozone in Chongqing during 2015~2022[J]. China Environmental Science, 2024, 44(5): 2754-2765. DOI:10.3969/j.issn.1000-6923.2024.05.037
[4] India State-Level Disease Burden Initiative Air Pollution Collaborators. The impact of air pollution on deaths, disease burden, and life expectancy across the states of India: the Global Burden of Disease Study 2017[J]. The Lancet Planetary Health, 2019, 3(1): E26-E39. DOI:10.1016/S2542-5196(18)30261-4
[5] Shi Q R, Zheng B, Zheng Y X, et al. Co-benefits of CO2 emission reduction from China's clean air actions between 2013-2020[J]. Nature Communications, 2022, 13(1). DOI:10.1038/s41467-022-32656-8
[6] Lu X, Zhang S J, Xing J, et al. Progress of air pollution control in China and its challenges and opportunities in the ecological civilization era[J]. Engineering, 2020, 6(12): 1423-1431. DOI:10.1016/j.eng.2020.03.014
[7] Liu Z Y, Dong M T, Xue W B, et al. Interaction patterns between climate action and air cleaning in China: a two-way evaluation based on an ensemble learning approach[J]. Environmental Science & Technology, 2022, 56(13): 9291-9301.
[8] Borlaza L J S, Weber S, Jaffrezo J L, et al. Disparities in particulate matter (PM10) origins and oxidative potential at a city scale (Grenoble, France)-Part 2: Sources of PM10 oxidative potential using multiple linear regression analysis and the predictive applicability of multilayer perceptron neural network analysis[J]. Atmospheric Chemistry and Physics, 2021, 21(12): 9719-9739. DOI:10.5194/acp-21-9719-2021
[9] 许健, 张卓, 饶兰兰, 等. 对流层臭氧卫星遥感反演综述[J]. 地球科学进展, 2024, 39(1): 56-70.
Xu J, Zhang Z, Rao L L, et al. Tropospheric ozone retrieval from satellite remote sensing-a review[J]. Advances in Earth Science, 2024, 39(1): 56-70.
[10] 赵少华, 杨晓钰, 李正强, 等. 臭氧卫星遥感六十年进展[J]. 遥感学报, 2022, 26(5): 817-833.
Zhao S H, Yang X Y, Li Z Q, et al. Advances of ozone satellite remote sensing in 60 years[J]. National Remote Sensing Bulletin, 2022, 26(5): 817-833.
[11] Xie F X, Ren T, Zhao C Y, et al. Fast retrieval of XCO2 over east Asia based on Orbiting Carbon Observatory-2 (OCO-2) spectral measurements[J]. Atmospheric Measurement Techniques, 2024, 17(13): 3949-3967. DOI:10.5194/amt-17-3949-2024
[12] Xu J, Schüssler O, Rodriguez D G L, et al. A novel ozone profile shape retrieval using full-physics inverse learning machine (FP-ILM)[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12): 5442-5457. DOI:10.1109/JSTARS.2017.2740168
[13] You R, Meng M, Zhang J, et al. A noble-metal-free SCR-LNT coupled catalytic system used for high-concentration NOx reduction under lean-burn condition[J]. Catalysis Today, 2019, 327: 347-356. DOI:10.1016/j.cattod.2018.03.022
[14] Xu H, Bechle M J, Wang M, et al. National PM2.5 and NO2 exposure models for China based on land use regression, satellite measurements, and universal kriging[J]. Science of the Total Environment, 2019, 655: 423-433. DOI:10.1016/j.scitotenv.2018.11.125
[15] Wei J, Li Z Q, Li K, et al. Full-coverage mapping and spatiotemporal variations of ground-level ozone (O3) pollution from 2013 to 2020 across China[J]. Remote Sensing of Environment, 2022, 270. DOI:10.1016/j.rse.2021.112775
[16] 周刚, 徐彬仁, 徐炜达, 等. 基于Sentinel-5P卫星反演京津冀地区近地面NO2浓度研究[J]. 环境科学研究, 2024, 37(6): 1223-1231.
Zhou G, Xu B R, Xu W D, et al. Retrieval of near-surface NO2 concentration in Beijing-Tianjin-Hebei region based on Sentinel-5P satellite[J]. Research of Environmental Sciences, 2024, 37(6): 1223-1231.
[17] Lin J T, Liu M Y, Xin J Y, et al. Influence of aerosols and surface reflectance on satellite NO2 retrieval: seasonal and spatial characteristics and implications for NOx emission constraints[J]. Atmospheric Chemistry and Physics, 2015, 15(19): 11217-11241. DOI:10.5194/acp-15-11217-2015
[18] Pillai D, Buchwitz M, Gerbig C, et al. Tracking city CO2 emissions from space using a high-resolution inverse modelling approach: a case study for Berlin, Germany[J]. Atmospheric Chemistry and Physics, 2016, 16(15): 9591-9610. DOI:10.5194/acp-16-9591-2016
[19] He T L, Jones D B A, Miyazaki K, et al. Inverse modelling of Chinese NOx emissions using deep learning: integrating in situ observations with a satellite-based chemical reanalysis[J]. Atmospheric Chemistry and Physics, 2022, 22(21): 14059-14074. DOI:10.5194/acp-22-14059-2022
[20] He T L, Jones D B A, Miyazaki K, et al. Deep learning to evaluate US NOx emissions using surface ozone predictions[J]. Journal of Geophysical Research: Atmospheres, 2022, 127(4). DOI:10.1029/2021JD035597
[21] Lin Z Y, Chen F, Niu Z, et al. An active fire detection algorithm based on multi-temporal FengYun-3C VIRR data[J]. Remote Sensing of Environment, 2018, 211: 376-387. DOI:10.1016/j.rse.2018.04.027
[22] Kang Y, Jang E, Im J, et al. A deep learning model using geostationary satellite data for forest fire detection with reduced detection latency[J]. GIScience & Remote Sensing, 2022, 59(1): 2019-2035.
[23] Jang E, Kang Y, Im J, et al. Detection and monitoring of forest fires using Himawari-8 geostationary satellite data in South Korea[J]. Remote Sensing, 2019, 11(3). DOI:10.3390/rs11030271
[24] 周广强, 谢英, 吴剑斌, 等. 基于WRF-Chem模式的华东区域PM2.5预报及偏差原因[J]. 中国环境科学, 2016, 36(8): 2251-2259.
Zhou G Q, Xie Y, Wu J B, et al. WRF-Chem based PM2.5 forecast and bias analysis over the East China Region[J]. China Environmental Science, 2016, 36(8): 2251-2259. DOI:10.3969/j.issn.1000-6923.2016.08.002
[25] Shahraiyni H T, Sodoudi S. Statistical modeling approaches for PM10 prediction in urban areas; a review of 21st-century studies[J]. Atmosphere, 2016, 7(2). DOI:10.3390/atmos7020015
[26] Ahmed A A M, Jui S J J, Sharma E, et al. An advanced deep learning predictive model for air quality index forecasting with remote satellite-derived hydro-climatological variables[J]. Science of the Total Environment, 2024, 906. DOI:10.1016/j.scitotenv.2023.167234
[27] Kibirige G W, Yang M C, Liu C L, et al. Using satellite data on remote transportation of air pollutants for PM2.5 prediction in northern Taiwan[J]. PLoS One, 2023, 18(3). DOI:10.1371/journal.pone.0282471
[28] Liu S, Valks P, Pinardi G, et al. An improved TROPOMI tropospheric NO2 research product over Europe[J]. Atmospheric Measurement Techniques, 2021, 14(11): 7297-7327. DOI:10.5194/amt-14-7297-2021
[29] Lorente A, Boersma K F, Yu H, et al. Structural uncertainty in air mass factor calculation for NO2 and HCHO satellite retrievals[J]. Atmospheric Measurement Techniques, 2017, 10(3): 759-782. DOI:10.5194/amt-10-759-2017
[30] Childs M L, Li J, Wen J, et al. Daily local-level estimates of ambient wildfire smoke PM2.5 for the contiguous US[J]. Environmental Science & Technology, 2022, 56(19): 13607-13621.
[31] Le Brazidec J D, Vanderbecken P, Farchi A, et al. Deep learning applied to CO2 power plant emissions quantification using simulated satellite images[J]. Geoscientific Model Development, 2024, 17(5): 1995-2014. DOI:10.5194/gmd-17-1995-2024
[32] 黄丛吾, 马超群, 王体健, 等. 基于WRF-Chem/DART的硫酸盐化学反应速率同化研究[J]. 中国科学: 地球科学, 2023, 66(10): 2273-2287.
Huang C W, Ma C Q, Wang T J, et al. Study on the assimilation of the sulphate reaction rates based on WRF-Chem/DART[J]. Science China Earth Sciences, 2023, 66(10): 2239-2253.
[33] Cheng F Y, Feng C Y, Yang Z M, et al. Evaluation of real-time PM2.5 forecasts with the WRF-CMAQ modeling system and weather-pattern-dependent bias-adjusted PM2.5 forecasts in Taiwan[J]. Atmospheric Environment, 2021, 244. DOI:10.1016/j.atmosenv.2020.117909
[34] Lin H P, Feng X, Fu T M, et al. WRF-GC (v1.0): online coupling of WRF (v3.9.1.1) and GEOS-Chem (v12.2.1) for regional atmospheric chemistry modeling-Part 1: Description of the one-way model[J]. Geoscientific Model Development, 2020, 13(7): 3241-3265. DOI:10.5194/gmd-13-3241-2020
[35] Hu X F, Belle J H, Meng X, et al. Estimating PM2.5 concentrations in the conterminous United States using the random forest approach[J]. Environmental Science & Technology, 2017, 51(12): 6936-6944.
[36] 张智, 赵玉广, 焦亚音, 等. 基于随机森林算法的石家庄市首要污染物分类预报技术研究[J]. 环境科学与管理, 2023, 48(8): 94-98.
Zhang Z, Zhao Y G, Jiao Y Y, et al. Primary pollutants classification and forecast based on random forecast algorithm in Shijiazhuang[J]. Environmental Science and Management, 2023, 48(8): 94-98. DOI:10.3969/j.issn.1673-1212.2023.08.020
[37] 吴春霖, 李琦, 侯俊雄, 等. 卷积神经网络的PM2.5预报模型[J]. 测绘科学, 2018, 43(8): 68-75.
Wu C L, Li Q, Hou J X, et al. PM2.5 concentration prediction using convolutional neural networks[J]. Science of Surveying and Mapping, 2018, 43(8): 68-75.
[38] Huang K Y, Xiao Q Y, Meng X, et al. Predicting monthly high-resolution PM2.5 concentrations with random forest model in the North China Plain[J]. Environmental Pollution, 2018, 242: 675-683. DOI:10.1016/j.envpol.2018.07.016
[39] 康俊锋, 黄烈星, 张春艳, 等. 多机器学习模型下逐小时PM2.5预测及对比分析[J]. 中国环境科学, 2020, 40(5): 1895-1905.
Kang J F, Huang L X, Zhang C Y, et al. Hourly PM2.5 prediction and its comparative analysis under multi-machine learning model[J]. China Environmental Science, 2020, 40(5): 1895-1905. DOI:10.3969/j.issn.1000-6923.2020.05.005
[40] Ravindiran G, Rajamanickam S, Kanagarathinam K, et al. Impact of air pollutants on climate change and prediction of air quality index using machine learning models[J]. Environmental Research, 2023, 239. DOI:10.1016/j.envres.2023.117354
[41] 黄婕, 张丰, 杜震洪, 等. 基于RNN-CNN集成深度学习模型的PM2.5小时浓度预测[J]. 浙江大学学报(理学版), 2019, 46(3): 370-379.
Huang J, Zhang F, Du Z H, et al. Hourly concentration prediction of PM2.5 based on RNN-CNN ensemble deep learning model[J]. Journal of Zhejiang University (Science Edition), 2019, 46(3): 370-379.
[42] 彭豪杰, 周杨, 胡校飞, 等. 基于深度学习与随机森林的PM2.5浓度预测模型[J]. 遥感学报, 2023, 27(2): 430-440.
Peng H J, Zhou Y, Hu X F, et al. A PM2.5 prediction model based on deep learning and random forest[J]. National Remote Sensing Bulletin, 2023, 27(2): 430-440.
[43] Di Q, Amini H, Shi L H, et al. Assessing NO2 concentration and model uncertainty with high spatiotemporal resolution across the contiguous United States using ensemble model averaging[J]. Environmental Science & Technology, 2020, 54(3): 1372-1384.
[44] Bocquet M, Elbern H, Eskes H, et al. Data assimilation in atmospheric chemistry models: current status and future prospects for coupled chemistry meteorology models[J]. Atmospheric Chemistry and Physics, 2015, 15(10): 5325-5358. DOI:10.5194/acp-15-5325-2015
[45] Wu P, Chang X T, Yuan W Y, et al. Fast data Assimilation (FDA): data assimilation by machine learning for faster optimize model state[J]. Journal of Computational Science, 2021, 51. DOI:10.1016/j.jocs.2021.101323
[46] Lang J L, Qiu F, Wu P. Data assimilation model based on machine learning[J]. Journal of Physics: Conference Series, 2021, 1883. DOI:10.1088/1742-6596/1883/1/012035
[47] Gilbert R C, Richman M B, Trafalis T B, et al. Machine learning methods for data assimilation[J]. Computational Intelligence in Architecturing Complex Engineering Systems, 2010. DOI:10.1115/1.859599.paper14
[48] Gilbert R C, Trafalis T B, Richman M B, et al. A data-driven kernel method assimilation technique for geophysical modelling[J]. Optimization Methods and Software, 2017, 32(2): 237-249. DOI:10.1080/10556788.2016.1257616
[49] Lee S, Park S, Lee M I, et al. Air quality forecasts improved by combining data assimilation and machine learning with satellite AOD[J]. Geophysical Research Letters, 2022, 49(1). DOI:10.1029/2021GL096066
[50] Chen Y A, Fung J C H, Yuan D H, et al. Development of an integrated machine-learning and data assimilation framework for NOx emission inversion[J]. Science of the Total Environment, 2023, 871. DOI:10.1016/j.scitotenv.2023.161951
[51] Huang C W, Niu T, Wu H, et al. A data assimilation method combined with machine learning and its application to anthropogenic emission adjustment in CMAQ[J]. Remote Sensing, 2023, 15(6). DOI:10.3390/rs15061711
[52] Hwang Y, Kim C. A combination and calibration of multi-model ensemble of PyeongChang area using ensemble model output statistics[J]. Atmosphere, 2018, 28(3): 247-261.
[53] Liu J Q, Xing J. Identifying contributors to PM2.5 simulation biases of chemical transport model using fully connected neural networks[J]. Journal of Advances in Modeling Earth Systems, 2023, 15(2). DOI:10.1029/2021MS002898
[54] Liu Z Z, Doherty R M, Wild O, et al. Correcting ozone biases in a global chemistry-climate model: implications for future ozone[J]. Atmospheric Chemistry and Physics, 2022, 22(18): 12543-12557. DOI:10.5194/acp-22-12543-2022
[55] Sayeed A, Lops Y, Choi Y, et al. Bias correcting and extending the PM forecast by CMAQ up to 7 days using deep convolutional neural networks[J]. Atmospheric Environment, 2021, 253. DOI:10.1016/j.atmosenv.2021.118376
[56] Jin J B, Lin H X, Segers A, et al. Machine learning for observation bias correction with application to dust storm data assimilation[J]. Atmospheric Chemistry and Physics, 2019, 19(15): 10009-10026. DOI:10.5194/acp-19-10009-2019
[57] Xu M, Jin J B, Wang G Q, et al. Machine learning based bias correction for numerical chemical transport models[J]. Atmospheric Environment, 2021, 248. DOI:10.1016/j.atmosenv.2020.118022
[58] 张斌, 吕宝磊, 王馨陆, 等. 利用集合深度学习方法订正空气质量数值预报结果——以新疆乌昌石城市群为例[J]. 北京大学学报(自然科学版), 2020, 56(5): 931-938.
Zhang B, Lv B L, Wang X L, et al. Improving air quality forecast accuracy in Urumqi-Changji-Shihezi region using an ensemble deep learning approach[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(5): 931-938.
[59] Zhang Z G, Johansson C, Engardt M, et al. Improving 3-day deterministic air pollution forecasts using machine learning algorithms[J]. Atmospheric Chemistry and Physics, 2024, 24(2): 807-851. DOI:10.5194/acp-24-807-2024
[60] 刘东海, 黄静, 刘娟, 等. 典型中尺度数值预报模式参数化方案的综述与展望[J]. 地球科学进展, 2023, 38(4): 349-362.
Liu D H, Huang J, Liu J, et al. Review and prospect of parameterization schemes of typical mesoscale numerical prediction models at home and abroad[J]. Advances in Earth Science, 2023, 38(4): 349-362.
[61] Xiao D, Fang F, Zheng J, et al. Machine learning-based rapid response tools for regional air pollution modelling[J]. Atmospheric Environment, 2019, 199: 463-473. DOI:10.1016/j.atmosenv.2018.11.051
[62] Rasp S, Pritchard M S, Gentine P. Deep learning to represent subgrid processes in climate models[J]. Proceedings of the National Academy of Sciences of the United States of America, 2018, 115(39): 9684-9689.
[63] Gentine P, Pritchard M, Rasp S, et al. Could machine learning break the convection parameterization deadlock?[J]. Geophysical Research Letters, 2018, 45(11): 5742-5751. DOI:10.1029/2018GL078202
[64] Brenowitz N D, Bretherton C S. Prognostic validation of a neural network unified physics parameterization[J]. Geophysical Research Letters, 2018, 45(12): 6289-6298. DOI:10.1029/2018GL078510
[65] Pal A, Mahajan S, Norman M R. Using deep neural networks as cost-effective surrogate models for super-parameterized E3SM radiative transfer[J]. Geophysical Research Letters, 2019, 46(11): 6069-6079. DOI:10.1029/2018GL081646
[66] Wang J L, Balaprakash P, Kotamarthi R. Fast domain-aware neural network emulation of a planetary boundary layer parameterization in a numerical weather forecast model[J]. Geoscientific Model Development, 2019, 12(10): 4261-4274. DOI:10.5194/gmd-12-4261-2019
[67] 周恒左, 廖鹏, 杨宏, 等. 数值模式及机器学习对兰州市近地面臭氧模拟适用性[J]. 中国环境科学, 2024, 44(1): 15-27.
Zhou H Z, Liao P, Yang H, et al. The applicability of numerical model and machine learning for near-surface ozone simulation in Lanzhou City[J]. China Environmental Science, 2024, 44(1): 15-27.
[68] Xiong K L, Xie X D, Mao J, et al. Improving the accuracy of O3 prediction from a chemical transport model with a random forest model in the Yangtze River Delta region, China[J]. Environmental Pollution, 2023, 319. DOI:10.1016/j.envpol.2022.120926
[69] Sayeed A, Eslami E, Lops Y, et al. CMAQ-CNN: a new-generation of post-processing techniques for chemical transport models using deep neural networks[J]. Atmospheric Environment, 2022, 273. DOI:10.1016/j.atmosenv.2022.118961
[70] 黄泳熙, 朱云, 谢阳红, 等. 空气质量模拟与观测机器学习NO2浓度预报[J]. 中国环境科学, 2023, 43(12): 6225-6234.
Huang Y X, Zhu Y, Xie Y H, et al. Forecast of NO2 concentrations based on coupled air quality model simulations and monitoring data using machine learning method[J]. China Environmental Science, 2023, 43(12): 6225-6234. DOI:10.3969/j.issn.1000-6923.2023.12.001
[71] Huang C H, Hu J L, Xue T, et al. High-resolution spatiotemporal modeling for ambient PM2.5 exposure assessment in China from 2013 to 2019[J]. Environmental Science & Technology, 2021, 55(3): 2152-2162.
[72] 陈楚, 王体健, 李源昊, 等. 濮阳市秋冬季大气细颗粒物污染特征及来源解析[J]. 环境科学, 2019, 40(8): 3421-3430.
Chen C, Wang T J, Li Y H, et al. Pollution characteristics and source apportionment of fine particulate matter in autumn and winter in Puyang, China[J]. Environmental Science, 2019, 40(8): 3421-3430.
[73] 尚永杰, 茅宇豪, 廖宏, 等. 基于随机森林的南京市PM2.5和O3对减排的响应[J]. 环境科学, 2023, 44(8): 4250-4261.
Shang Y J, Mao Y H, Liao H, et al. Response of PM2.5 and O3 to emission reductions in Nanjing based on random forest algorithm[J]. Environmental Science, 2023, 44(8): 4250-4261.
[74] Li L, Xie F J, Li J Y, et al. Diagnostic analysis of regional ozone pollution in Yangtze River Delta, China: a case study in summer 2020[J]. Science of the Total Environment, 2022, 812. DOI:10.1016/j.scitotenv.2021.151511
[75] 胡安琪, 谢晓栋, 龚康佳, 等. 气候变化对中国夏季臭氧影响[J]. 环境科学, 2023, 44(4): 1801-1810.
Hu A Q, Xie X D, Gong K J, et al. Impact of climate change on summer ozone in China[J]. Environmental Science, 2023, 44(4): 1801-1810.
[76] Carmichael G R, Sandu A, Chai T F, et al. Predicting air quality: improvements through advanced methods to integrate models and measurements[J]. Journal of Computational Physics, 2008, 227(7): 3540-3571. DOI:10.1016/j.jcp.2007.02.024
[77] Mishra M, Chen P H, Bisquera Jr W, et al. Source-apportionment and spatial distribution analysis of VOCs and their role in ozone formation using machine learning in central-west Taiwan[J]. Environmental Research, 2023, 232. DOI:10.1016/j.envres.2023.116329
[78] Zhang Z C, Xu B, Xu W M, et al. Machine learning combined with the PMF model reveal the synergistic effects of sources and meteorological factors on PM2.5 pollution[J]. Environmental Research, 2022, 212. DOI:10.1016/j.envres.2022.113322
[79] 董佳奇, 胡冬梅, 闫雨龙, 等. 基于可解释性机器学习的城市O3驱动因素挖掘[J]. 环境科学, 2023, 44(7): 3660-3668.
Dong J Q, Hu D M, Yan Y L, et al. Revealing driving factors of urban O3 based on explainable machine learning[J]. Environmental Science, 2023, 44(7): 3660-3668.
[80] 林鑫, 仝纪龙, 王伊凡, 等. 基于CMAQ和HYSPLIT模式的日照市夏季臭氧污染成因和来源分析[J]. 环境科学, 2023, 44(6): 3098-3107.
Lin X, Tong J L, Wang Y F, et al. Analysis of causes and sources of summer ozone pollution in Rizhao based on CMAQ and HYSPLIT Models[J]. Environmental Science, 2023, 44(6): 3098-3107.
[81] 张凯, 于周锁, 高宏, 等. 兰州盆地人为源大气污染物网格化排放清单及其空间分布特征[J]. 环境科学学报, 2017, 37(4): 1227-1242.
Zhang K, Yu Z S, Gao H, et al. Gridded emission inventories and spatial distribution characteristics of anthropogenic atmospheric pollutants in Lanzhou valley[J]. Acta Scientiae Circumstantiae, 2017, 37(4): 1227-1242.
[82] 温丽容, 江明, 黄渤, 等. 珠三角典型区域臭氧成因分析与VOCs来源解析——以中山为例[J]. 生态环境学报, 2023, 32(3): 500-513.
Wen L R, Jiang M, Huang B, et al. Analysis of ozone pollution causes and source analysis of VOCs in typical areas of Pearl River Delta: a case study of Zhongshan city[J]. Ecology and Environmental Sciences, 2023, 32(3): 500-513.
[83] Ding D, Xing J, Wang S X, et al. Optimization of a NOx and VOC cooperative control strategy based on clean air benefits[J]. Environmental Science & Technology, 2021, 56(2): 739-749.
[84] Liu R Y, Ma Z W, Liu Y, et al. Spatiotemporal distributions of surface ozone levels in China from 2005 to 2017: a machine learning approach[J]. Environment International, 2020, 142. DOI:10.1016/j.envint.2020.105823
[85] Hsu C Y, Soo J C, Lin S L, et al. Using cluster algorithms with a machine learning technique and PMF models to quantify local-specific origins of PM2.5 and associated metals in Taiwan[J]. Environmental Pollution, 2023, 316. DOI:10.1016/j.envpol.2022.120652
[86] Li J, Wang Z, Akimoto H, et al. Near-ground ozone source attributions and outflow in central eastern China during MTX2006[J]. Atmospheric Chemistry and Physics, 2008, 8(24): 7335-7351. DOI:10.5194/acp-8-7335-2008
[87] 唐孝炎, 张远航, 邵敏. 大气环境化学[M]. 北京: 高等教育出版社, 2006, (第二版).
[88] 孟祥来, 孙扬, 廖婷婷, 等. 一种基于卷积神经网络的源解析因子识别方法[J]. 环境科学学报, 2022, 42(8): 117-126.
Meng X L, Sun Y, Liao T T, et al. An identification method of source apportionment factor based on convolutional neural network[J]. Acta Scientiae Circumstantiae, 2022, 42(8): 117-126.
[89] Gao M, Han Z W, Liu Z R, et al. Air quality and climate change, Topic 3 of the model inter-comparison study for Asia phase III (MICS-Asia III)-Part 1: overview and model evaluation[J]. Atmospheric Chemistry and Physics, 2018, 18(7): 4859-4884. DOI:10.5194/acp-18-4859-2018
[90] 谢放尖, 史之浩, 李婧祎, 等. 基于达标约束的南京市环境空气质量情景模拟[J]. 环境科学, 2019, 40(7): 2967-2976.
Xie F J, Shi Z H, Li J Y, et al. Scenario simulation study constrained by the ambient air quality standards in Nanjing[J]. Environmental Science, 2019, 40(7): 2967-2976.
[91] Dang R J, Liao H, Fu Y. Quantifying the anthropogenic and meteorological influences on summertime surface ozone in China over 2012-2017[J]. Science of the Total Environment, 2021, 754. DOI:10.1016/j.scitotenv.2020.142394
[92] 付文星, 黄琳, 丁嘉豪, 等. 基于机器学习方法研究气象及排放变化对长三角地区主要城市大气污染物的影响[J]. 环境科学, 2023, 44(11): 5879-5888.
Fu W X, Huang L, Ding J H, et al. Elucidating the impacts of meteorology and emission changes on concentrations of major air pollutants in major cities in the Yangtze River Delta region using a machine learning de-weather method[J]. Environmental Science, 2023, 44(11): 5879-5888.
[93] Boleti E, Hueglin C, Grange S K, et al. Temporal and spatial analysis of ozone concentrations in Europe based on timescale decomposition and a multi-clustering approach[J]. Atmospheric Chemistry and Physics, 2020, 20(14): 9051-9066. DOI:10.5194/acp-20-9051-2020
[94] Weng X, Forster G L, Nowack P. A machine learning approach to quantify meteorological drivers of ozone pollution in China from 2015 to 2019[J]. Atmospheric Chemistry and Physics, 2022, 22(12): 8385-8402. DOI:10.5194/acp-22-8385-2022
[95] Zhai S X, Jacob D J, Wang X, et al. Fine particulate matter (PM2.5) trends in China, 2013-2018: separating contributions from anthropogenic emissions and meteorology[J]. Atmospheric Chemistry and Physics, 2019, 19(16): 11031-11041. DOI:10.5194/acp-19-11031-2019
[96] Li K, Jacob D J, Shen L, et al. Increases in surface ozone pollution in China from 2013 to 2019: anthropogenic and meteorological influences[J]. Atmospheric Chemistry and Physics, 2020, 20(19): 11423-11433. DOI:10.5194/acp-20-11423-2020
[97] Hsu C Y, Chiang H C, Chen M J, et al. Impacts of hazardous metals and PAHs in fine and coarse particles with long-range transports in Taipei City[J]. Environmental Pollution, 2019, 250: 934-943. DOI:10.1016/j.envpol.2019.04.038
[98] Ly B T, Matsumi Y, Vu T V, et al. The effects of meteorological conditions and long-range transport on PM2.5 levels in Hanoi revealed from multi-site measurement using compact sensors and machine learning approach[J]. Journal of Aerosol Science, 2021, 152. DOI:10.1016/j.jaerosci.2020.105716
[99] Mo J Y, Gong S L, Zhang L, et al. Impacts of long-range transports from Central and South Asia on winter surface PM2.5 concentrations in China[J]. Science of the Total Environment, 2021, 777. DOI:10.1016/j.scitotenv.2021.146243
[100] 陈璞珑, 王体健, 谢晓栋, 等. 基于数值模式的细颗粒物来源解析[J]. 科学通报, 2018, 63(18): 1829-1838.
Chen P L, Wang T J, Xie X D, et al. Source apportionment of fine particles based on combined numerical model and receptor model[J]. Chinese Science Bulletin, 2018, 63(18): 1829-1838.
[101] Fan M Y, Zhang Y L, Lin Y C, et al. Source apportionments of atmospheric volatile organic compounds in Nanjing, China during high ozone pollution season[J]. Chemosphere, 2021, 263. DOI:10.1016/j.chemosphere.2020.128025
[102] Peng Z Z, Zhang B, Wang D W, et al. Application of machine learning in atmospheric pollution research: a state-of-art review[J]. Science of the Total Environment, 2024, 910. DOI:10.1016/j.scitotenv.2023.168588
[103] 刘万军, 梁雪剑, 曲海成. 自适应增强卷积神经网络图像识别[J]. 中国图象图形学报, 2017, 22(12): 1723-1736.
Liu W J, Liang X J, Qu H C. Adaptively enhanced convolutional neural network algorithm for image recognition[J]. Journal of Image and Graphics, 2017, 22(12): 1723-1736. DOI:10.11834/jig.170079
[104] Bland G D, Battifarano M, Liu Q, et al. Single-particle metal fingerprint analysis and machine learning pipeline for source apportionment of metal-containing fine particles in air[J]. Environmental Science & Technology Letters, 2023, 10(11): 1023-1029.
[105] Hammer M S, Van Donkelaar A, Li C, et al. Global estimates and long-term trends of fine particulate matter concentrations (1998-2018)[J]. Environmental Science & Technology, 2020, 54(13): 7879-7890.
[106] Lin C Q, Liu G, Lau A K H, et al. High-resolution satellite remote sensing of provincial PM2.5 trends in China from 2001 to 2015[J]. Atmospheric Environment, 2018, 180: 110-116. DOI:10.1016/j.atmosenv.2018.02.045
[107] Xing J, Mathur R, Pleim J, et al. Observations and modeling of air quality trends over 1990-2010 across the Northern Hemisphere: China, the United States and Europe[J]. Atmospheric Chemistry and Physics, 2015, 15(5): 2723-2747. DOI:10.5194/acp-15-2723-2015
[108] Zheng B, Zhang Q, Zhang Y, et al. Heterogeneous chemistry: a mechanism missing in current models to explain secondary inorganic aerosol formation during the January 2013 haze episode in North China[J]. Atmospheric Chemistry and Physics, 2015, 15(4): 2031-2049. DOI:10.5194/acp-15-2031-2015
[109] Wei J, Huang W, Li Z Q, et al. Cloud detection for Landsat imagery by combining the random forest and superpixels extracted via energy-driven sampling segmentation approaches[J]. Remote Sensing of Environment, 2020, 248. DOI:10.1016/j.rse.2020.112005
[110] Ma Z W, Hu X F, Sayer A M, et al. Satellite-based spatiotemporal trends in PM2.5 concentrations: China, 2004-2013[J]. Environmental Health Perspectives, 2016, 124(2): 184-192. DOI:10.1289/ehp.1409481
[111] Kong L, Tang X, Zhu J, et al. A 6-year-long (2013-2018) high-resolution air quality reanalysis dataset in China based on the assimilation of surface observations from CNEMC[J]. Earth System Science Data, 2021, 13(2): 529-570. DOI:10.5194/essd-13-529-2021
[112] Xiao Q Y, Wang Y J, Chang H H, et al. Full-coverage high-resolution daily PM2.5 estimation using MAIAC AOD in the Yangtze River Delta of China[J]. Remote Sensing of Environment, 2017, 199: 437-446. DOI:10.1016/j.rse.2017.07.023
[113] Xue T, Zheng Y X, Tong D, et al. Spatiotemporal continuous estimates of PM2.5 concentrations in China, 2000-2016: a machine learning method with inputs from satellites, chemical transport model, and ground observations[J]. Environment International, 2019, 123: 345-357. DOI:10.1016/j.envint.2018.11.075
[114] Yu W H, Ye T T, Zhang Y W, et al. Global estimates of daily ambient fine particulate matter concentrations and unequal spatiotemporal distribution of population exposure: a machine learning modelling study[J]. The Lancet Planetary Health, 2023, 7(3): E209-E218. DOI:10.1016/S2542-5196(23)00008-6
[115] Geng G N, Xiao Q Y, Liu S G, et al. Tracking air pollution in China: near real-time PM2.5 retrievals from multisource data fusion[J]. Environmental Science & Technology, 2021, 55(17): 12106-12115.
[116] Liu X, Zhu Y J, Xue L, et al. Cluster-enhanced ensemble learning for mapping global monthly surface ozone from 2003 to 2019[J]. Geophysical Research Letters, 2022, 49(11). DOI:10.1029/2022GL097947
[117] Wei J, Li Z Q, Huang W, et al. Improved 1-km-resolution PM2.5 estimates across China using the space-time extremely randomized trees[J]. Atmospheric Chemistry and Physics, 2020, 20(6): 3273-3289. DOI:10.5194/acp-20-3273-2020
[118] Li K, Jacob D J, Liao H, et al. A two-pollutant strategy for improving ozone and particulate air quality in China[J]. Nature Geoscience, 2019, 12(11): 906-910. DOI:10.1038/s41561-019-0464-x
[119] Wang W, Mao F Y, Pan Z X, et al. Evaluating aerosol optical depth from Himawari‐8 with sun photometer network[J]. Journal of Geophysical Research: Atmospheres, 2019, 124(10): 5516-5538. DOI:10.1029/2018JD028599
[120] Liu N, Zou B, Feng H H, et al. Evaluation and comparison of multiangle implementation of the atmospheric correction algorithm, Dark Target, and Deep Blue aerosol products over China[J]. Atmospheric Chemistry and Physics, 2019, 19(12): 8243-8268. DOI:10.5194/acp-19-8243-2019
[121] Wei J, Li Z Q, Lyapustin A, et al. Reconstructing 1-km-resolution high-quality PM2.5 data records from 2000 to 2018 in China: spatiotemporal variations and policy implications[J]. Remote Sensing of Environment, 2021, 252. DOI:10.1016/j.rse.2020.112136
[122] Wei J, Liu S, Li Z Q, et al. Ground-level NO2 surveillance from space across China for high resolution using interpretable spatiotemporally weighted artificial intelligence[J]. Environmental Science & Technology, 2022, 56(14): 9988-9998.
[123] 陈金车, 迪里努尔·牙生, 王田宇, 等. 基于机器学习的长沙市空气污染物浓度预报研究[J]. 环境保护科学, 2022, 48(4): 103-112.
Chen J C, Dilinuer Y, Wang T Y, et al. Research on air pollutant concentration forecast in Changsha based on machine learning[J]. Environmental Protection Science, 2022, 48(4): 103-112.
[124] 朱珈莹, 安俊琳, 冯悦政, 等. 基于轻量级梯度提升机的南京大气臭氧浓度预测[J]. 环境科学, 2023, 44(7): 3685-3694.
Zhu J Y, An J L, Feng Y Z, et al. Atmospheric ozone concentration prediction in Nanjing based on LightGBM[J]. Environmental Science, 2023, 44(7): 3685-3694.