基于轻量级梯度提升机的南京大气臭氧浓度预测

引用本文

朱珈莹, 安俊琳, 冯悦政, 贺婕, 张玉欣, 王俊秀. 基于轻量级梯度提升机的南京大气臭氧浓度预测[J]. 环境科学, 2023, 44(7): 3685-3694.

ZHU Jia-ying, AN Jun-lin, FENG Yue-zheng, HE Jie, ZHANG Yu-xin, WANG Jun-xiu. Atmospheric Ozone Concentration Prediction in Nanjing Based on LightGBM[J]. Environmental Science, 2023, 44(7): 3685-3694.

基于轻量级梯度提升机的南京大气臭氧浓度预测

朱珈莹¹, 安俊琳¹, 冯悦政¹, 贺婕¹, 张玉欣², 王俊秀³

1. 南京信息工程大学, 中国气象局气溶胶-云-降水重点开放实验室, 南京 210044;
2. 青海省人工影响天气办公室, 西宁 810000;
3. 呼和浩特市气象局, 呼和浩特 010020

收稿日期: 2022-08-11; 修订日期: 2022-10-06

基金项目: 国家自然科学基金项目(42075177); 国家重点研发计划项目(2017YFC0210003); 江苏省高校"青蓝工程"项目

作者简介: 朱珈莹(2000~), 女, 硕士研究生, 主要研究方向为机器学习与大气环境, E-mail: 20211203039@nuist.edu.cn

通信作者: 安俊琳, E-mail: junlinan@nuist.edu.cn

摘要: 采用南京地区2015年1月至2016年12月期间的空气质量数据和常规气象资料数据, 分析了南京地区O₃浓度变化特征, 建立基于轻量级梯度提升机(LightGBM)的O₃浓度预测模型, 并将该模型与支持向量机、循环神经网络和随机森林等3种在空气质量预测方向上常用的机器学习方法进行了对比, 验证模型的有效性和可行性.结果表明, 南京地区O₃浓度变化具有显著的季节性差异, 浓度变化受前期浓度、气象因子和其他空气污染物浓度的共同影响.LightGBM模型较为准确地预测了南京地区地面O₃浓度(R²=0.92), 且该模型的预测精度和计算效率等性能优于其他模型.尤其是在容易出现臭氧污染的高温天气, 该模型预测准确性明显高于其他模型, 模型稳定性较好.LightGBM具有预测准确度高、稳定性好、有良好的泛化能力和运算时间短等特点, 在O₃浓度预测方面具有显著的优势.

关键词: 轻量级梯度提升机(LightGBM) 地面臭氧臭氧浓度预测随机森林(RF) 循环神经网络(RNN)

Atmospheric Ozone Concentration Prediction in Nanjing Based on LightGBM

ZHU Jia-ying¹ , AN Jun-lin¹ , FENG Yue-zheng¹ , HE Jie¹ , ZHANG Yu-xin² , WANG Jun-xiu³

1. Key Laboratory for Aerosol-Cloud-Precipitation of China Meteorological Administration, Nanjing University of Information Science and Technology, Nanjing 210044, China;
2. Weather Modification Office of Qinghai Province, Xining 810000, China;
3. Hohhot Meteorological Bureau, Hohhot 010020, China

Abstract: Based on the air quality data and conventional meteorological data of the Nanjing Region from January 2015 to December 2016, to analyze the characteristics of O₃ concentration changes in the Nanjing Region, a light gradient boosting machine (LightGBM) model was established to predict O₃ concentration. The model was compared with three machine learning methods that are commonly used in air quality prediction, including support vector machine, recurrent neural network, and random forest methods, to verify its effectiveness and feasibility. Finally, the performance of the prediction model was analyzed under different meteorological conditions. The results showed that the variation in O₃ concentration in Nanjing had significant seasonal differences and was affected by a combination of its pre-concentration, meteorological factors, and other air pollutant concentrations. The LightGBM model predicted the ground-level O₃ concentration in the Nanjing area more precisely to a large extent (R²=0.92), and the model outperformed other models in prediction accuracy and computational efficiency. In particular, the model showed a significantly higher prediction accuracy and stability than that of other models under a high-temperature condition that was more likely prone to ozone pollution. The LightGBM model was characterized by its high prediction accuracy, good stability, satisfactory generalization ability, and short operation time, which broaden its application prospect in O₃ concentration prediction.

Key words: light gradient boosting machine (LightGBM) ground-level ozone ozone concentration prediction random forest (RF) recurrent neural networks (RNN)

臭氧(ozone, O₃)是六大空气污染物之一, 主要由光化学反应产生.对流层O₃具有强氧化性^[1], 会对人类健康和植被生产力产生危害^{[2, 3]}.此外, O₃也是一种重要的温室气体, 能影响环境变化^[4].

随着各项污染防治政策的实施, 我国大部分城市细颗粒物浓度逐渐下降, 然而臭氧浓度持续上升^[5].尤其是在京津冀、长三角和珠三角等中心城市, 随着化石燃料消耗量的快速增长, 氮氧化物(NO_x)和挥发性有机物(VOCs)等前体物的排放量急剧增加, 进而导致近地面O₃浓度显著上升^{[2, 6]}. 2014~2018年全国空气质量监测数据表明, 我国中心城市群首要污染物由以细颗粒物为主转变为以臭氧为主, O₃为首要污染物的天数呈上升趋势, 由12.9%增长至28.8%^[7]. O₃污染已经成为污染防治的核心问题, 对O₃浓度的预测研究能为O₃污染防治提供技术支持.

O₃预报方法主要分为数值模式预报和统计预报两大类^[8].数值模式能够反映污染物的变化过程, 但模式预报对于输入数据要求苛刻, 且计算量大, 计算成本高^[9].相比于传统模式预报, 基于数学统计方法的统计预测模型具有预报精度高、运算速度快和资料要求较低等优点^[10].近年来, 也有研究将两种方法结合使用^[11~13].李梓铭等^[11]采用相似集合预报技术对RMAPS-CHEM预报的O₃浓度进行了释用订正, 研究表明该方法明显改善了模式预报效果, 统计预报可以有效提高模式预报的准确性.

随着人工智能技术的快速发展, 机器学习方法已广泛应用于空气质量预测^[14].常用的机器学习方法主要有支持向量机^[15~17]、决策树^{[18, 19]}和人工神经网络^{[20, 21]}等.支持向量机(support vector machine, SVM)能够捕捉预测因子之间的非线性关系^{[15, 16]}.Chelani^[17]将SVM应用于O₃浓度预测, 并获得了较好的预测结果.随机森林(random forest, RF)是一种基于分类树的算法, 能够处理高维数据^{[22, 23]}.马润美等^[24]基于RF方法建立了日最大O₃_8h浓度预测模型, 结果表明, 模型预测性能较好(R²=0.85).循环神经网络(recurrent neural networks, RNN)是常用的神经网络之一, 它在处理具有序列特性的数据时表现优异^[20].Feng等^[21]通过RNN对地面O₃浓度进行了预测, 结果表明该模型预测精度显著高于其他预测模型.

轻量梯度提升机(light gradient boosting machine, LightGBM)是一种集成学习算法, 具有训练速度快, 内存占用小和精度高等优点, 该模型在处理高维数据时有较好的表现^[24~26].LightGBM算法已经成为数据挖掘领域的研究热点, 经常出现在各大数据挖掘竞赛中^[27].在气象领域, 已有学者将该模型用于大气能见度预报^[25]、海面风场反演^[26]和PM_2.5浓度预测^{[24, 28]}, 但鲜见研究将其应用于O₃的预报.地面O₃成因复杂, 影响因素多, 用传统机器学习方法解决这种高维小样本的回归问题容易过度拟合, 且训练时间长^{[29, 30]}.目前, 已有研究证实了LightGBM算法在处理回归问题上准确且高效^{[31, 32]}.如李志生等^[31]和Wei等^[32]应用LightGBM算法建立PM_2.5预测模型, 结果表明模型预测准确度高且运算时间短.因此, 采用LightGBM算法构建地面臭氧浓度预测模型有很好的适用性.本文应用LightGBM算法, 以气象因子和空气污染物浓度为输入变量, 构建了南京地区地面O₃浓度预测模型, 并将所提模型与SVM、RNN和RF这3种在空气质量预测方向上常用的机器学习方法进行了对比, 以验证该模型的有效性和可行性.

1 材料与方法 1.1 观测站点

本文选择2015~2016年南京市浦口环境监测站(32.08°N, 118.62°E)空气质量监测数据和南京信息工程大学内自动气象站(32.20°N, 118.72°E)的地面气象观测数据作为研究数据, 观测站点的位置如图 1所示.气象观测站点位于南京江北工业园区下风向地区的南京信息工程大学, 其周围环境复杂, 站点临近化工厂和交通干道.

图 1 观测站点位置示意 Fig. 1 Observation site location

1.2 实验数据

本研究主要采用了空气质量监测数据和地面气象观测数据, 研究时间为2015年1月至2016年12月.空气质量数据来自中国环境监测总站全国空气质量观测数据网(http://www.cnemc.cn/), 更新频率为1次·h^-1.地面气象观测数据来自CAWSD600型自动气象站的连续观测数据, 时间分辨率为1 h.气象仪器位于南京信息工程大学内的中国气象局综合观测实习基地.累积降水量数据来自校内地面雨量计数据, 时间分辨率为1 h, 雨量分辨率为0.1 mm.

选取的空气质量因子主要包括O₃、PM_2.5、PM₁₀、NO₂、CO和SO₂.气象变量主要包括相对湿度、温度、露点温度、平均气压、最大风速和风向和累积降水量.本研究所使用的空气质量数据按照《环境空气质量标准》(GB 3095-2012)进行质量控制.气象数据按照台站级、省级和国家级进行三级质控.共获得大气环境数据16 790组, 气象数据16 770组, 分别占观测期间总样本的95.70%和95.59%, 最终得到有效数据共14005组.在剔除异常值和缺失值后, 对数据进行归一化处理, 使得输入数据的分布符合标准正态分布, 有利于提高模型的精度和训练速度.为评估模型的泛化能力, 需要对数据集进行划分, 其中80%作为训练集用于训练模型, 剩下的数据用于验证模型性能.这一系列数据处理过程, 是通过Python中的Sklearn和Pandas库实现.

1.3 模型介绍

SVM算法是由Vapnik^[33]提出的, 它通过非线性函数, 将原本低维空间中的非线性问题转化为高维特征空间的线性回归问题, 擅于处理非线性问题.SVM遵循结构风险最小化原则, 有效地避免了过拟合问题, 具有良好的泛化能力.此外, 为了减少计算量, SVM采用核函数来代替高维空间中的内积运算.核函数的选择也会影响模型的性能, 本研究选择的是能够处理非线性数据且具有良好的学习能力的RBF核函数.

RNN是一种与时间序列相关的人工神经网络, 它的主要特点为不同层之间的神经元也通过权重函数相互连接.也就是说, 模型当前输出与前面的输出相关, 网络会记忆前面的信息, 同时将信息传递给下一个网络, 并用于下一时刻输出的计算中^[34].RNN的计算公式为：

(1)

式中, z_t为当前时刻隐藏单元的值, h_t-1为前一时刻的输出, x_t为当前时刻的输入, U和W为权值, b为偏置.

(2)

式中, h_t为当前时刻的输出, f(x)为激活函数, 主要包括Relu函数和Sigmoid函数等, 本研究选用Relu函数作为激活函数.

RF是由Breiman^[35]开发的一种集成学习算法, 它通过Bootstrap有放回的采样方法, 随机选取部分训练样本和变量子集生成多棵决策树.在回归问题中, 模型的最终预测结果为RF中各个决策树预测结果的平均值.RF模型精度高, 具有良好的泛化性, 对于噪声点和离群值更加稳健, 且该算法易于实现.

梯度提升决策树(gradient boosting decision tree, GBDT)是基于弱学习器多次迭代得到最终强学习器的算法, 每次迭代得到的新学习器都是针对前一个学习器的残差进行拟合, 最后将所有树的预测相加, 从而完成预测任务^[36].

首先计算残差r_ni：

(3)

式中, y_i为第i个样本的实测值, f_n-1(x_i)为前一轮学习机的预测值.

对残差进行拟合, 得到一个拟合残差模型h_n(x).

更新回归树：

(4)

LightGBM是微软基于GBDT框架新开发的机器学习方法, 采用了梯度单边采样(gradient-based one-side sampling, GOSS)和互斥特征捆绑(exclusive feature bundling, EFB)技术^[37].LightGBM算法在精度和计算速度等方面均优于GBDT算法^[38].LightGBM支持高效的并行训练, 解决了目前机器学习方法所面临的主要挑战, 即对于特征维数多且数据量大的样本计算效率低和泛化性差的问题^[32].GOSS在保证信息增益的前提下减少了训练样本, 它排除了大部分对计算信息增益没有帮助的小梯度样本, 用剩余的样本来估计信息增益.EFB将相互独立的特征捆绑在一起, 以无损的方式实现了降维, 从而提高了模型的训练速度.该方法可以处理分类和回归任务, 且具有训练速度快, 内存占用小和精度高等优点, 更适用于高维数据, 因此可应用于地面O₃浓度预测.

1.4 模型评估方法

为了比较4种预测模型的综合性能, 本文采用以下3个统计指标对模型进行评估.

平均绝对差值(mean absolute error, MAE)：

(5)

均方根误差(root mean square error, RMSE)：

(6)

决定系数(squared correlation coefficient, R²)：

(7)

式中, n为样本总数量, y_i、y_i和分别为第i个样本的实测值、实测值的平均和预测值.

2 结果与讨论 2.1 O₃浓度变化特征

图 2为南京地区O₃浓度的逐月分布特征, 结果表明, 南京地区O₃浓度变化具有明显的季节性差异, 呈夏季升高冬季降低的变化趋势, 5~9月更容易出现O₃浓度超标的情况.2015~2016年研究区域O₃小时浓度平均值超过国家二级标准限值(200 μg ·m^-3)的天数为84 d, 超标率为11.5%, 其中5~9月超标天数占总体的86.9%. 图 3进一步显示了研究区域内O₃浓度逐月的分布情况.从中可知, 各月中位数和平均值变化趋势一致, 总体呈双峰分布, 5~9月O₃浓度处于较高水平.5月南京地区气温升高, 表明紫外辐射增强, 光化学反应速率加快, 因此O₃浓度在5月达第1个峰值.江淮地区的梅雨季节通常出现在6~7月, 易出现连续的阴雨天气, 光照强度减弱, 不利于O₃生成和累积, 导致6~7月O₃月均浓度偏低^[39].8月出现了O₃浓度的异常高值, 且O₃月均浓度在9月达到第2个峰值, 这可能与8~9月南京地区持续的高温天气有关.南京地区O₃污染问题较为严重, 尤其是夏季最为突出.因此, 为应对该区域O₃问题, 应建立准确的O₃浓度预测模型, 并分季节和分天气状况细化评估预测模型.

超标天数0值表示在对应的时段内没有出现O₃浓度超标的情况图 2 南京地区O₃浓度逐月分布特征和超标情况 Fig. 2 Monthly distribution characteristics and exceedances of O₃ concentration in Nanjing

箱体的上下限分别表示数据的上四分位数和下四分位数, 箱子上方和下方的线分别表示数据的最大值和最小值, 白色圆点表示异常值图 3 南京地区O₃浓度的月变化箱线图 Fig. 3 Boxplots of monthly variation in O₃ concentration in Nanjing

2.2 影响因子分析

本研究在现有数据支持上, 建立了O₃浓度变化影响特征, 如参与光化学反应的前体物浓度, 影响O₃生成和扩散的天气特征, 存在相互影响的其他大气污染物特征, 以及表征O₃浓度累积的O₃前期浓度特征.研究表明预报时刻前几个小时的历史O₃浓度对预报时刻O₃浓度影响较大^[40].相比于多步预测, 将历史O₃浓度作为辅助特征输入到O₃浓度预测模型能够更准确地描述O₃的累积水平.通过模型测试发现选取的前期浓度与预报时刻的时间间隔越小则预测效果越好, 但考虑到预测模型的时效性, 因此在建模时加入预报时刻前6 h的O₃浓度作为输入变量代入模型, 从而在保证模型实用性的前提下有效地提高了模型预报性能.为了方便表达, 文中模式中的输入特征名称采用缩写的形式表示(表 1).

表 1 模型中输入变量的缩写名称及其含义 Table 1 Abbreviated names of input variables in the model and their descriptions

为了解特征与预测量之间的相关关系, 本研究通过RF模型获得特征相对重要性, 结果如图 4所示.空气质量因子中NO₂_1h对O₃浓度预测结果影响最大.研究区域内的NO₂主要来自观测站点周围的工业区和交通干道, NO₂作为主要的前体物之一, 在阳光照射下发生一系列光化学反应生成O₃.此外, 由于NO对O₃有“滴定作用”, NO₂作为该反应的产物, 其浓度水平能够反映O₃的浓度变化.从图 4中可以看出, NO₂_1h的贡献明显大于NO₂的贡献, 这主要是与O₃生成的化学反应速率有关^[41].因此, 将预报时刻前1 h的NO₂浓度加入模型能提高模型预测准确度.在气象因子中T、RH和p对O₃浓度预测贡献较大.将这3个对O₃浓度预测贡献较大的气象因子与O₃进行相关性分析, 相关系数分别为0.42、-0.35和-0.34.这表明在高温、低湿和低压的天气状况下更有利于O₃的生成和累积.预报时刻的降水量贡献最小, 仅占0.01%, 这主要与降水量数据的不连续性有关.为提高模型的计算效率, 去除冗余特征, 故将其剔除.

1.O₃_6h, 2.PM_2.5, 3.PM₁₀, 4.NO₂, 5.NO₂_1h, 6.CO, 7.SO₂, 8.RH, 9. T, 10. T_d, 11. p, 12.WD_max, 13.WS_max, 14.PRE 图 4 O₃-8h预测的RF模型中特征重要性 Fig. 4 Feature importance in the RF model for O₃-8h prediction

2.3 模型精度分析及对比

为检验4种机器学习模型的预测效果, 采用残差(模型预测值与实测值的差值)对模型进行评估, 结果如图 5所示.其中, SVM模型的残差波动范围最大, 在-172.4~66.8 μg ·m^-3波动, 该模型预测值与观测值偏差较大, 模型预测值低于观测值的情况居多.RNN模型的残差在0值下方波动, 波动范围为-130.3~82.5 μg ·m^-3, 且存在较多突变值, 说明该模型普遍低估了O₃浓度水平, 模型预测效果较差.LightGBM与RF模型的残差均在0值附近波动, 这两种预测模型都能够较好地捕捉O₃浓度的变化趋势.LightGBM残差波动范围最小, 为-91.2~82.3 μg ·m^-3, 说明LightGBM模型的性能略优于RF模型.综合以上分析, LightGBM与RF模型预测性能最好, 其次是RNN模型, SVM模型预测性能最差.

图 5 SVM、RNN、RF和LightGBM的残差 Fig. 5 Prediction difference of SVM, RNN, RF, and LightGBM

采用MAE、RMSE和R²这3种统计指标和模型运算时间进一步对4种机器学习模型的性能进行了对比, 结果如表 2所示.各模型的R²处于0.79~0.92之间, RF和LightGBM模型的R²均>0.9, 预测结果较为理想, LightGBM模型的R²值最大, 为0.92.对比各模型的RMSE值, LightGBM模型的RMSE值最低为12.72 μg ·m^-3, RNN的RMSE值最高为25.41 μg ·m^-3.对于MAE指标, LightGBM模型同样是最低的, 为8.96 μg ·m^-3, 相比于SVM预测模型降低了42.8%, 其次为RF模型, 而RNN模型的MAE最大.综合对比4个机器学习模型, LightGBM模型的R²最大且RMSE和MAE值最小, LightGBM模型预测性能最好, 其次为RF模型, 而SVM模型在各模型中表现最差.在计算效率方面, LightGBM运行时间最快(4.18 s), RNN运行时间最慢(407.81 s).图 6为各预测模型的实测值和预测值的散点图, 显示了二者之间的拟合程度.从中可以看出, LightGBM模型的拟合情况明显优于其他模型.

表 2 SVM、RNN、RF和LightGBM的预测结果 Table 2 Evaluation indicators of SVM, RNN, RF, and LightGBM prediction results

N为样本数量, 黑色虚线表示预测值与实测值相等, 拟合直线越靠近黑色虚线表示模型的拟合优度越高图 6 各个模型的预测值和实测值的散点图 Fig. 6 Scatter plots of predicted and observed values for each model

南京地区的O₃浓度变化具有明显的季节性差异, 为评估各模型的预测稳定性, 应对各模型在不同季节的预测结果进行讨论.但由于南京的冬、夏两个季节的持续时间明显比春、秋两季长^[42], 因此根据气温将样本划分为高温(≥28℃)和低温(< 28℃)两种情况进行讨论更合理.利用泰勒图来评估在高温和低温两种不同的天气状况下各模型的预测性能, 图 7中散点表示各模型的误差统计量.泰勒图由预测值与实测值的相关系数(R)、标准差(σ)和均方根误差(RMSE)组成, 图 7(a)为低温情况, 其中4个散点均离基准点较近, 除SVM模型外其余各点之间的间距很小.说明在低温情况下, 4个预测模型的预测结果均较为理想, 其中SVM模型表现最差, 另外3种模型预测误差相近.图 7(b)为高温情况, 其中4个散点比较分散, 说明各模型的性能存在明显差异, 其中蓝色散点(LightGBM模型)最接近基准点, 说明在高温情况下LightGBM模型性能最好.表 3为在高温和低温天气状况下模型预测结果的R²、RSME和MAE, 可直观地看到4个机器学习模型的预测精度在高温情况下均有不同程度地下降.LightGBM、RF、RNN和SVM模型预测值与观测值的R²降低比例分别为36.36%、44.83%、44.32%和66.23%, RMSE分别上升了22.23、24.77、24.71和27.38 μg ·m^-3, MAE分别上升了16.88、18.08、18.60和23.79 μg ·m^-3, 这主要与2016年的异常高温天气有关.长三角地区的研究表明, 2016年是显著的高温热浪年, 观测到的最高温度达41℃^[43].由于缺少这种特殊天气状况下的训练数据, 导致模型预测结果较差.

辐射线表示模型预测值与实测值相关系数的大小, 横坐标表示标准差, 中间的黄色虚线表示均方根误差的大小, 黑色圆点为基准点(R=1, σ=0, RMSE=0), 散点越靠近基准点表示模型的预测准确度越高图 7 各模型在高温和低温两种情况下的预测结果泰勒图 Fig. 7 Taylor diagram of prediction results for each model at high and low temperature conditions

表 3 在高温和低温两种情况下模型的预测结果 Table 3 Evaluation indicators of the model prediction results under high temperature and low temperature

综合以上分析, LightGBM模型性能最优, 其次是RF模型, RNN和SVM模型预测精度较差.LightGBM和RF模型都属于集成学习算法, RNN和SVM模型属于单一的机器学习算法.已有研究表明^{[37, 44, 45]}, 相比于单一机器学习模型, 集成学习模型往往具有更高的准确性、稳定性和泛化性.因此LightGBM和RF模型的预测结果更为准确.相比于RF模型, LightGBM模型泛化性更好, 且计算效率更高, 运算时间更短, 这主要与算法设计有关.RF模型是基于Bagging算法发展而来, 而LightGBM模型是基于Boosting算法.这两种算法的模型效果不同.Bagging采用有放回的采样方法, 能增加弱学习器之间的独立性, 最终预测结果取的是所有弱学习器预测结果的平均, 从而得到一个方差最小的模型.Boosting算法中的各弱学习器之间具有强相关性, 最终训练得到偏差最小的模型.因此, 对于噪声小的数据, LightGBM模型具有更高的预测准确度.LightGBM模型通过直方图算法和带深度限制的叶子生长算法等一系列优化算法, 有效地提高了计算效率, 减少计算时间.LightGBM模型较为准确地预测了南京地区地面O₃浓度, 尤其是在容易出现臭氧污染的高温天气, 该模型预测准确性明显高于其他模型.该模型具有预测准确度高、稳定性好、有良好的泛化能力和运算时间短等特点.除高温热浪等异常天气状况外模型预测效果较好, 这说明LightGBM模型稳定性较好, 在O₃浓度预测方面具有良好的应用前景.但本文构建的基于LightGBM的O₃浓度预测模型还存在一些不足：输入模型的预测因子不够全面; LightGBM算法在高维稀疏特征中难以进行有效的特征空间划分; 评估模型预测稳定性时仅考虑了温度的影响.未来研究将加入NO和VOCs等因素, 采用特征提取方法来提高数据质量, 并评估湿度、局地输送和特殊天气过程等条件对模型稳定性的影响.

3 结论

(1) 南京地区O₃浓度变化具有显著的季节性差异, 浓度变化受前期浓度、气象因子和其他空气污染物浓度的共同影响.

(2) LightGBM模型较为准确地预测了南京地区地面O₃浓度, 且计算效率高, 该模型的性能优于SVM、RNN和RF等3种常用的机器学习模型, 4种机器学习模型的预测精度从高到低依次为：LightGBM>RF>RNN>SVM. R²分别为0.92、0.90、0.83和0.79, RMSE分别为12.72、13.81、25.41和22.77 μg ·m^-3.

(3) 在容易出现臭氧污染的高温天气, 各模型的预测精度均有不同程度地下降, LightGBM、RF、RNN和SVM模型的预测值与观测值的RMSE分别上升了22.23、24.77、24.71和27.38 μg ·m^-3, 其中LightGBM模型的预测精度下降幅度最小, 模型稳定性较好.LightGBM模型具有预测准确度高、稳定性好、有良好的泛化能力和运算时间短等特点, 在O₃浓度预测方面有良好的应用前景.

致谢: 本文使用了中国环境监测总站的空气质量监测数据和南京信息工程大学中国气象局综合观测实习基地的地面气象观测数据, 在此表示感谢.

参考文献

[1]	Zheng X Y, Orellano P, Lin H L, et al. Short-term exposure to ozone, nitrogen dioxide, and sulphur dioxide and emergency department visits and hospital admissions due to asthma: a systematic review and meta-analysis[J]. Environment International, 2021, 150. DOI:10.1016/j.envint.2021.106435
[2]	Feng Z Z, Agathokleous E, Yue X, et al. Emerging challenges of ozone impacts on Asian plants: actions are needed to protect ecosystem health[J]. Ecosystem Health and Sustainability, 2021, 7(1). DOI:10.1080/20964129.2021.1911602
[3]	Lu X, Zhang L, Wang X L, et al. Rapid increases in warm-season surface ozone and resulting health impact in China since 2013[J]. Environmental Science & Technology Letters, 2020, 7(4): 240-247.
[4]	Zhang J F, Wei Y J, Fang Z F. Ozone pollution: a major health hazard worldwide[J]. Frontiers in Immunology, 2019, 10. DOI:10.3389/fimmu.2019.02518
[5]	Jia P C, Cao N W, Yang S B. Real-time hourly ozone prediction system for Yangtze River Delta area using attention based on a sequence to sequence model[J]. Atmospheric Environment, 2021, 244. DOI:10.1016/j.atmosenv.2020.117917
[6]	Tang X, Gao X, Li G L, et al. Study on spatiotemporal distribution of airborne ozone pollution in subtropical region considering socioeconomic driving impacts: a case study in Guangzhou, China[J]. Sustainable Cities and Society, 2020, 54. DOI:10.1016/j.scs.2019.101989
[7]	王未来, 李明艳, 张美航, 等. 我国31个重点城市2014—2018年空气质量变化特征分析[J]. 中国公共卫生管理, 2020, 36(4): 441-445. Wang W L, Li M Y, Zhang M H, et al. Analysis on variation characteristics of air quality in 31 key cities from 2014 to 2018 in China[J]. Chinese Journal of Public Health Management, 2020, 36(4): 441-445.
[8]	朱晏民, 徐爱兰, 孙强. 基于深度学习的空气质量预报方法新进展[J]. 中国环境监测, 2020, 36(3): 10-18. Zhu Y M, Xu A L, Sun Q. New progress for air quality forecasting methods based on deep learning[J]. Environmental Monitoring in China, 2020, 36(3): 10-18.
[9]	石佳超. 基于CMAQ与前馈神经网络的区域大气污染物浓度快速响应研究[D]. 杭州: 浙江大学, 2019. Shi J C. Study on rapid response of regional air pollution concentration based on CMAQ and feed forward neural network[D]. Hangzhou: Zhejiang University, 2019.
[10]	董红召, 王乐恒, 唐伟, 等. 融合时空特征的PCA-PSO-SVM臭氧(O₃)预测方法研究[J]. 中国环境科学, 2021, 41(2): 596-605. Dong H Z, Wang L H, Tang W, et al. Research on PCA-PSO-SVM ozone prediction considering spatial-temporal features[J]. China Environmental Science, 2021, 41(2): 596-605.
[11]	李梓铭, 赵秀娟, 孙兆彬, 等. 基于相似集合预报技术的臭氧预报释用研究[J]. 中国环境科学, 2020, 40(2): 475-484. Li Z M, Zhao X J, Sun Z B, et al. Research on the interpretation and correction of numerical ozone forecast based on Analog Ensemble[J]. China Environmental Science, 2020, 40(2): 475-484.
[12]	熊亚军, 徐敬, 孙兆彬, 等. 基于数据挖掘算法和数值模拟技术的大气污染减排效果评估[J]. 环境科学学报, 2019, 39(1): 116-125. Xiong Y J, Xu J, Sun Z B, et al. Air pollution reduction effect evaluation based on data mining algorithm and numerical simulation technology[J]. Acta Scientiae Circumstantiae, 2019, 39(1): 116-125.
[13]	Sayeed A, Choi Y, Eslami E, et al. A novel CMAQ-CNN hybrid model to forecast hourly surface-ozone concentrations 14 days in advance[J]. Scientific Reports, 2021, 11(1). DOI:10.1038/s41598-021-90446-6
[14]	Cheng Y, He L Y, Huang X F, et al. Development of a high-performance machine learning model to predict ground ozone pollution in typical cities of China[J]. Journal of Environmental Management, 2021, 299. DOI:10.1016/j.jenvman.2021.113670
[15]	Fan J L, Wu L F, Ma X, et al. Hybrid support vector machines with heuristic algorithms for prediction of daily diffuse solar radiation in air-polluted regions[J]. Renewable Energy, 2020, 145: 2034-2045. DOI:10.1016/j.renene.2019.07.104
[16]	苏筱倩. 基于核极限学习机和小波变换的臭氧预测及比较研究[D]. 南京: 南京信息工程大学, 2020. Su X Q. Research on ozone concentration prediction and method comparison based on kernel extreme learning machine and wavelet transform[D]. Nanjing: Nanjing University of Information Science & Technology, 2020.
[17]	Chelani A B. Prediction of daily maximum ground ozone concentration using support vector machine[J]. Environmental Monitoring and Assessment, 2010, 162(1-4): 169-176. DOI:10.1007/s10661-009-0785-0
[18]	Jumin E, Zaini N, Ahmed A N, et al. Machine learning versus linear regression modelling approach for accurate ozone concentrations prediction[J]. Engineering Applications of Computational Fluid Mechanics, 2020, 14(1): 713-725. DOI:10.1080/19942060.2020.1758792
[19]	Eslami E, Salman A K, Choi Y, et al. A data ensemble approach for real-time air quality forecasting using extremely randomized trees and deep neural networks[J]. Neural Computing and Applications, 2020, 32(11): 7563-7579. DOI:10.1007/s00521-019-04287-6
[20]	Kim K, Kim D K, Noh J, et al. Stable forecasting of environmental time series via long short term memory recurrent neural network[J]. IEEE Access, 2018, 6: 75216-75228. DOI:10.1109/ACCESS.2018.2884827
[21]	Feng R, Zheng H J, Zhang A R, et al. Unveiling tropospheric ozone by the traditional atmospheric model and machine learning, and their comparison: a case study in Hangzhou, China[J]. Environmental Pollution, 2019, 252: 366-378. DOI:10.1016/j.envpol.2019.05.101
[22]	Scornet E, Biau G, Vert J P. Consistency of random forests[J]. The Annals of Statistics, 2015, 43(4): 1716-1741.
[23]	马润美, 张亚一, 班婕, 等. 基于随机森林模型的京津冀地区近地面臭氧站点浓度预测[J]. 环境与健康杂志, 2019, 36(11): 954-957. Ma R M, Zhang Y Y, Ban J, et al. Prediction of ground ambient ozone site concentration in Beijing-Tianjin-Hebei region based on random forest model[J]. Journal of Environment and Health, 2019, 36(11): 954-957.
[24]	Zhang Y, Wang Y H, Gao M H, et al. A predictive data feature exploration-based air quality prediction approach[J]. IEEE Access, 2019, 7: 30732-30743. DOI:10.1109/ACCESS.2019.2897754
[25]	余东昌, 赵文芳, 聂凯, 等. 基于LightGBM算法的能见度预测模型[J]. 计算机应用, 2021, 41(4): 1035-1041. Yu D C, Zhao W F, Nie K, et al. Visibility forecast model based on LightGBM algorithm[J]. Journal of Computer Applications, 2021, 41(4): 1035-1041.
[26]	骆黎明, 白伟华, 孙越强, 等. 基于树模型机器学习方法的GNSS-R海面风速反演[J]. 空间科学学报, 2020, 40(4): 595-601. Luo L M, Bai W H, Sun Y Q, et al. GNSS-R sea surface wind speed inversion based on tree model machine learning method[J]. Chinese Journal of Space Science, 2020, 40(4): 595-601.
[27]	刘新伟, 黄武斌, 蒋盈沙, 等. 基于LightGBM算法的强对流天气分类识别研究[J]. 高原气象, 2021, 40(4): 909-918. Liu X W, Huang W B, Jiang Y S, et al. Study of the classified identification of the strong convective weathers based on the LightGBM algorithm[J]. Plateau Meteorology, 2021, 40(4): 909-918.
[28]	黄烈星. 基于Stacking融合模型的PM_2.5浓度时空变化分析及预测[D]. 赣州: 江西理工大学, 2020. Huang L X. PM_2.5 concentration based on Stacking model spatio-temporal variation analysis and prediction[D]. Ganzhou: Jiangxi University of Science and Technology, 2020.
[29]	Wu Q, Liu W Y, Yang Y H. Time series online prediction algorithm based on least squares support vector machine[J]. Journal of Central South University of Technology, 2007, 14(3): 442-446.
[30]	孙荣基, 赵松, 张小琴, 等. 一种基于BP神经网络改进算法的PM_2.5预测方法[J]. 四川环境, 2015, 34(4): 85-90. Sun R J, Zhao S, Zhang X Q, et al. An improved PM_2.5 prediction model based on BP neural network[J]. Sichuan Environment, 2015, 34(4): 85-90.
[31]	李志生, 梁锡冠, 金宇凯, 等. 基于树模型的北京市PM_2.5预测效果对比分析[J]. 环境工程, 2021, 39(6): 106-113. Li Z S, Liang X G, Jin Y K, et al. A comparative study on edictive effect of PM_2.5 in Beijing based on tree models[J]. Environmental Engineering, 2021, 39(6): 106-113.
[32]	Wei J, Li Z Q, Pinker R T, et al. Himawari-8-derived diurnal variations in ground-level PM_2.5 pollution across China using the fast space-time Light Gradient Boosting Machine (LightGBM)[J]. Atmospheric Chemistry and Physics, 2021, 21(10): 7863-7880.
[33]	Vapnik V N. The nature of statistical learning theory (2nd ed.)[M]. New York: Springer, 2000.
[34]	Lu H, Xie M, Liu X R, et al. Adjusting prediction of ozone concentration based on CMAQ model and machine learning methods in Sichuan-Chongqing region, China[J]. Atmospheric Pollution Research, 2021, 12(6). DOI:10.1016/j.apr.2021.101066
[35]	Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[36]	Zhang T N, He W H, Zheng H, et al. Satellite-based ground PM_2.5 estimation using a gradient boosting decision tree[J]. Chemosphere, 2021, 268. DOI:10.1016/j.chemosphere.2020.128801
[37]	Ke G L, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree[A]. In: Proceedings of the 31st International Conference on Neural Information Processing Systems[C]. Long Beach: Curran Associates Inc., 2017. 3149-3157.
[38]	Zou Z Y, Wang L, Chen J, et al. Research on peanut variety classification based on hyperspectral image[J]. Food Science and Technology, 2022, 42. DOI:10.1590/fst.18522
[39]	方欣, 王敏, 胡顺星. 合肥梅雨季节大气污染物分布特征的激光雷达探测[J]. 中国激光, 2019, 46(1). Fang X, Wang M, Hu S X. Distribution characteristics of atmospheric pollutions in Meiyu season observed by Lidar over Hefei[J]. Chinese Journal of Lasers, 2019, 46(1). DOI:10.3788/CJL201946.0110003
[40]	Yafouz A, AlDahoul N, Birima A H, et al. Comprehensive comparison of various machine learning algorithms for short-term ozone concentration prediction[J]. Alexandria Engineering Journal, 2022, 61(6): 4607-4622.
[41]	苏筱倩, 安俊琳, 张玉欣, 等. 支持向量机回归在臭氧预报中的应用[J]. 环境科学, 2019, 40(4): 1697-1704. Su X Q, An J L, Zhang Y X, et al. Application of support vector machine regression in ozone forecasting[J]. Environmental Science, 2019, 40(4): 1697-1704.
[42]	潘航. 近60a来南京季节变化特征分析[J]. 气象科学, 2011, 31(6): 742-746. Pan H. The analysis of seasonal transition characteristics in Nanjing in recent 60 years[J]. Journal of the Meteorological Sciences, 2011, 31(6): 742-746.
[43]	蒲茜. 长三角高温热浪期间臭氧的形成机理及辐射效应研究[D]. 南京: 南京大学, 2017. Pu X. Analysis of elevated ozone formation mechanism and radiative effect during heat waves in Yangtze River Delta[D]. Nanjing: Nanjing University, 2017.
[44]	Mohan S, Saranya P. A novel bagging ensemble approach for predicting summertime ground-level ozone concentration[J]. Journal of the Air & Waste Management Association, 2019, 69(2): 220-233.
[45]	Li J M, Xu G Y, Cheng X Z. Combining spatial pyramid pooling and long short-term memory network to predict PM_2.5 concentration[J]. Atmospheric Pollution Research, 2022, 13(3). DOI:10.1016/j.apr.2021.101309


环境科学 2023, Vol. 44 Issue (7): 3685-3694	PDF