环境科学  2024, Vol. 45 Issue (9): 5188-5195   PDF    
融合类Stacking算法的杭州臭氧浓度预测
董红召1, 郭红梅1, 应方2     
1. 浙江工业大学智能交通(智慧城市)联合研究所, 杭州 310014;
2. 浙江省杭州生态环境监测中心, 杭州 310004
摘要: 针对目前单机器学习模型对臭氧日均浓度预测精度较低的问题, 提出一种融合类Stacking算法的臭氧浓度预测方法(FSOP), 将统计方法普通最小二乘法(OLS)与机器学习算法相融合, 通过集成不同学习器的优势来提高臭氧浓度预测模型的预测精度. 采用杭州市2017年1月至2022年12月臭氧日最大8h浓度平均值的观测数据和气象再分析数据, 根据Stacking算法的原理, 先分别建立基于轻量级梯度提升机(LightGBM)算法、长短期记忆模型(LSTM)和Informer模型的特定臭氧浓度预测模型, 再将以上模型的预测结果作为元特征, 利用OLS算法获取臭氧浓度的预测表达式对臭氧浓度观测值进行拟合. 结果表明, 融合类Stacking算法后的模型预测精度获得提升, 臭氧浓度拟合效果更好. 其中, R2、RMSE和MAE分别为0.84、19.65 μg·m-3和15.50 μg·m-3, 较单个机器学习模型预测精度提升了8%左右.
关键词: 类Stacking算法      轻量级梯度提升机(LightGBM)算法      长短期记忆模型(LSTM)      Informer模型      普通最小二乘法(OLS)     
Predicting Ozone Concentration in Hangzhou with the Fusion Class Stacking Algorithm
DONG Hong-zhao1 , GUO Hong-mei1 , YING Fang2     
1. Joint Institute of Intelligent Transportation (Smart City), Zhejiang University of Technology, Hangzhou 310014, China;
2. Zhejiang Hangzhou Ecological and Environmental Monitoring Center, Hangzhou 310004, China
Abstract: Aiming at the problem that the single machine learning model has low prediction accuracy of daily average ozone concentration, an ozone concentration prediction method based on the fusion class Stacking algorithm (FSOP) was proposed, which combined the statistical method ordinary least squares (OLS) with machine learning algorithms and improved the prediction accuracy of the ozone concentration prediction model by integrating the advantages of different learners. Based on the principle of the Stacking algorithm, the observation data of the daily maximum 8h ozone average concentration and meteorological reanalysis data in Hangzhou from January 2017 to December 2022 were used. Firstly, the specific ozone concentration prediction models based on the light gradient boosting machine (LightGBM) algorithm, long short-term memory model (LSTM), and Informer model were established, respectively. Then, the prediction results of the above models were used as meta-features, and the OLS algorithm was used to obtain the prediction expression of ozone concentration to fit the observed ozone concentration. The results showed that the prediction accuracy of the model combined with the class Stacking algorithm was improved, and the fitting effect of ozone concentration was better. Among them, R2, RMSE, and MAE were 0.84, 19.65 μg·m-3, and 15.50 μg·m-3, respectively, which improved the prediction accuracy by approximately 8% compared with that of the single machine learning model.
Key words: class Stacking algorithm      light gradient boosting machine (LightGBM) algorithm      long short-term memory model (LSTM)      Informer model      ordinary least squares (OLS)     

近地面臭氧主要由大气污染物NOx、VOCs和CO等物质在太阳辐射下经过复杂的光化学反应生成[1, 2]. 臭氧污染会对人体呼吸道、肺、心血管和免疫系统等造成严重影响, 还会造成农作物减产[3 ~ 6], 破坏森林植被[7 ~ 10], 进而影响生态系统. 随着大气污染防治计划的实施, 我国环境空气质量总体得到了明显改善, 但臭氧污染问题却日趋严重[11, 12]. 研究臭氧浓度的精准预测是防治臭氧污染的先决条件, 对助力环境管理部门精准靶向治理臭氧污染具有重要意义.

臭氧浓度预测的方法主要有以下两种[13, 14]:①基于物理化学反应机制的空气质量模型预测方法[15, 16], 主要依据污染源排放清单、气象条件和大气边界条件等, 使用数学方法模拟影响大气污染物扩散与反应的物理和化学过程, 预测过程可解释性高但计算量大且运行成本高. ②基于机器学习算法的数值预测方法, 主要利用决策树[17]、随机森林[18]、支持向量机[19, 20]、轻量级梯度提升机[21, 22]和人工神经网络[23]等模型对大气污染物浓度进行预测, 计算量较小且预测成本低[24], 适合多频次的短期预测.

近年来, 机器学习方法在大气污染预测领域得到了广泛应用[25, 26]. 朱珈莹等[27]建立了基于轻量级梯度提升机(light gradient boosting machine, LightGBM)算法的臭氧浓度预测模型, 计算效率与预测精度较高;陈镇等[28]将SVR和其他机器学习模型应用于臭氧浓度预测, 采用全年MDA8-O3数据集提升了对秋季臭氧日均浓度的预测精度;王凯等[29]将GCN-LSTM耦合模型与单机器学习模型进行对比, 证明了耦合模型在捕获臭氧浓度时空依赖关系上的显著优势, 比单独使用一种模型预测准确性更高.

虽然臭氧浓度预测作为研究热点有了以上一些研究成果, 但目前还存在着臭氧浓度的日尺度预测精度不高的难题. 为了解决这个问题, 提出了融合类Stacking算法的臭氧浓度预测方法(fusion class Stacking ozone prediction, FSOP), 依靠多模型的融合来捕捉臭氧浓度变化的时空特征, 从而集成各学习器的优势提高模型预测精度. FSOP方法在满足模型多样性的前提下, 将LightGBM、LSTM(long short-term memory model)和Informer三大机器学习模型作为Stacking算法的基学习器, 把LightGBM模型的计算效率高、LSTM模型的捕捉数据中长期依赖关系能力强、Informer模型的擅长处理多尺度时序数据等特性集成起来, 同时结合OLS统计方法可解释性强与稳定性高的特点, 利用各基模型初始预测值对臭氧浓度观测值进行最终拟合.

1 材料与方法 1.1 数据获取与处理

主要采用了2017年1月1日至2022年12月31日杭州市环境质量国控站点的污染物观测数据和杭州市气象再分析数据, 包括:O3、PM2.5、PM10、NO2、CO、SO2、最高温度、天气、相对湿度、降水量、能见度、平均气压和太阳辐射总强度等. 以上数据来源分别为:杭州市环境监测中心、慧聚气象数据、中国气象数据天气预报、欧洲中期天气预报中心.

杭州市有12个环境质量国控站点, 采用系统聚类分析对所有国控站点进行相似性评价和分类, 然后根据地理位置与站点周围环境的差异性, 选取其中9个环境质量国控站点作为观测站点, 包括4个靠近居民住宅区的代表观测站点, 2个周围环境为工业区的站点, 以及3个景区站点. 将以上共9个站点的臭氧日最大8 h浓度平均值作为杭州市臭氧浓度观测值的实验数据.

为保证研究的准确性, 需要对数据进行质量控制, 包括异常值剔除、缺失值填补、特征相关性分析、数据归一化处理等, 先利用皮尔逊相关性分析和贡献度排名对输入变量进行初步选择, 再根据3个基学习器的模型特点对各模型的数据集和输入变量进行重构与进一步确定. 其中, 2017~2022年共2192条数据, LightGBM模型与LSTM模型将前80%的数据作为训练集, 后20%作为测试集, Informer模型则按照7∶2∶1将数据划分为训练集、验证集和测试集.

1.2 融合类Stacking算法的臭氧浓度预测方法(FSOP)

采用已有的单一机器学习模型预测臭氧日最大8 h浓度往往精度较低, 针对这个问题, 提出了融合机器学习算法和统计方法的臭氧浓度预测方法(FSOP). 方法的灵感源自于Stacking算法[30, 31]的理念, 使用元学习器来集成不同基学习器的结果, 可以融合各基础模型优势, 从而得到相比于任何一个基学习器都更好的预测效果.

FSOP方法的具体框架体系如图 1所示, 包括如下3个方面.

图 1 融合类Stacking算法的臭氧浓度预测方法(FSOP)框架 Fig. 1 Framework of ozone concentration prediction method that fuse the class Stacking algorithm (FSOP)

(1)根据臭氧生成机制的复杂性和臭氧浓度变化的特殊性, 确定输入变量的专属结构并选择合适的基模型:LightGBM[32]、LSTM[33]和Informer[34]这3个模型.

(2)采用参数寻优算法如SSA(sparrow search algorithm)麻雀寻优算法[35], 利用其较好的适用性和鲁棒性对各基模型进行超参数寻优, 根据输出结果和模型评价指标进行不断调整与优化, 从而得到最优特征子集下的局部最优模型.

(3)将各基模型输出的臭氧浓度预测值进行整合与处理, 作为次级学习器的特征变量, 重新构造由臭氧浓度观测值和各基模型输出的臭氧浓度预测值组成的新数据集, 输入OLS模型[36], 对臭氧浓度观测值进行多元线性拟合, 获得最终的臭氧浓度观测值拟合关系式.

1.2.1 FSOP模型的建立

FSOP模型主要实现了机器学习算法与统计方法的融合, 与传统的Stacking算法不同的是, 它分别使用各局部最优基模型来获得臭氧浓度初始预测值, 这样既解决了小样本数据集下直接使用Stacking算法容易出现的过拟合问题, 又能相对单一机器学习模型提高模型预测精度. 参见图 1, FSOP模型具体结构如下.

FSOP中的基模型(LightGBM模型)是基于梯度提升树(gradient boosting decision tree)的机器学习模型[37], 擅长处理具有高维特征的数据, 通常模型训练速度快、预测精度高, 因此适合多变量的臭氧浓度回归预测.

以臭氧浓度值为回归预测目标, 建立LightGBM回归模型, 基于包含时间特征和气象特征等相关因素的数据对模型进行训练. LightGBM模型利用其单边梯度采样算法和互斥特征捆绑算法[38]在保证模型预测精度的前提下对无用样本进行有效剔除, 减少已输入特征的维度, 以模型输出的特征重要性排序结果和相关评价指标为依据, 多次更新数据集, 且同时使用SSA麻雀寻优算法进行模型超参数的调整, 最终在确保输入变量和模型超参数最优的情况下, 利用LightGBM模型完成对臭氧浓度值的回归预测, 预测结果作为次级学习器的特征变量之一.

FSOP中的基学习器LSTM模型是RNN(recurrent neural network)的改进模式, 模型采用LSTM层替换了RNN中传统的隐藏层, 引入遗忘门、输入门和输出门这3种“门”结构实现信息的有效筛选和长期记忆, 解决了RNN模型长期依赖的问题且在一定程度上缓解了梯度消失, 对长时间序列数据的预测精度更高, 因此适合用于基于历史数据的臭氧浓度值预测, 其基本结构如图 2所示.

Ct-1为上一时刻的细胞状态, ht-1为上一时刻的输出, xt为当前时刻的信息输入, ht为传递到下一时刻的隐藏状态, Ct为当前时刻LSTM单元新的记忆状态, 为候选细胞状态, ftitOt分别为LSTM单元内部输入门、遗忘门和输出门的输出, σ表示激活函数sigmoid, tanh表示激活函数tanh, 其他运算符号分别表示点乘运算与加法运算 图 2 LSTM模型基本结构 Fig. 2 Basic structure of LSTM model

根据LSTM模型结构可知, 基于时间序列数据的预测问题, 目标预测值往往与相关特征的历史值和当前值有关. 将杭州市臭氧浓度日最大8 h均值作为模型预测值, 某时刻数据输入定义为:

(1)

式中, xNtt时刻模型的输入, N表示输入数据的维度, 此处输入数据主要为臭氧浓度及其相关性高的气象因子等特征.

将臭氧浓度预测问题定义为:

(2)

式中, y为臭氧浓度的预测结果, Tin为根据臭氧浓度的自相关性输入的时间窗宽, Xtt时刻的输入特征矩阵. 时间窗宽的选择与输入特征矩阵有直接关系, 也在一定程度上影响着模型的预测精度. LSTM模型特有的3种“门”结构通过相应的运算实现对部分历史数据的遗忘与筛选, 将权值占比大的有用信息进行传递和记忆. 模型中神经元个数、学习率、迭代次数等都通过SSA麻雀寻优算法进行合适值的选取, 模型经多次优化和调整后输出臭氧浓度的预测结果, 该预测值也相应地作为OLS模型中拟合臭氧浓度观测值的特征变量之一.

FSOP中的基学习器Informer模型是在Transformer[39]基础上提出的多步预测模型, 该模型给出了一种稀疏概率自注意力(ProbSparse self-attention)机制来代替传统自注意力机制, 通过筛选出最重要的查询向量(query), 实现了运算时间复杂度从OLQLK)至OLlogL)的变化, 减少了网络规模. Informer模型具有自注意力蒸馏(self-attention distilling)操作[40], 利用正则卷积和池化操作减少维度和网络参数量, 同时使用生成式解码器, 只需一步便可生成全部预测序列, 避免逐步预测造成的误差累计, 缩短了预测时间, 因此对于解决时间序列的臭氧浓度预测问题, Informer模型具有得天独厚的优势, 其整体架构如图 3所示.

图 3 Informer模型整体架构 Fig. 3 Overall structure of Informer model

Informer模型主要采用一种称为“ProbSparse”的自注意力机制使其能够有效处理长时间序列, 无需受固定窗口的限制, 即在处理不同长度的时间序列数据时, 无需事先对数据进行截断或填充处理, 即使无法准确地获取臭氧浓度变化周期, 也不影响使用Informer模型对臭氧浓度进行较高精度的预测. 同时, Informer模型还结合了全局自注意力、局部自注意力机制和多头注意力机制, 使其能够在全局和局部范围内分别捕捉臭氧浓度及其他相关影响因子的长期依赖关系, 获取重要信息, 从而实现高精度、高效率对臭氧浓度进行预测的目标. 臭氧浓度预测结果同样作为OLS模型中的输入变量之一.

FSOP模型的次级学习器是OLS模型, 它是利用一个或多个自变量和因变量之间的关系来进行建模的一种简单回归分析模型, 将机器学习中的有监督学习模型定义为类似如下公式的多项式函数, 即拟合臭氧浓度观测值的多项式函数:

(3)

式中, yi为臭氧浓度观测值;xij为通过LightGBM模型、LSTM模型和Informer模型获得的臭氧浓度初始预测值;βj为回归系数, 是FSOP方法中要求解的模型参数, 由OLS模型将获得的各初始预测值对臭氧浓度观测值进行拟合时得到;i为误差项, 代表观测值yi与初始预测值之间的偏差.

1.2.2 FSOP模型预测流程

采用FSOP模型对臭氧浓度进行预测时, 整体流程如图 4所示. 主要包括以下4个步骤:①数据预处理, 将获取到的污染物历史数据和气象历史数据进行整合、缺失值填补、滤波平滑处理和异常值处理等.②采用皮尔逊相关性分析和随机森林算法等进行特征选择, 初步确定数据集和输入变量. ③选择合适的基模型作为类Stacking算法中的初级学习器, 对各基模型进行训练和参数调整, 以获取臭氧浓度初始预测值. ④将利用基模型获取到的臭氧浓度初始预测值作为次级学习器的特征变量, 臭氧浓度观测值作为目标标量, 使用OLS模型拟合臭氧浓度观测值, 构建多元线性拟合关系式.

图 4 FSOP模型预测流程 Fig. 4 Prediction process of fusion class Stacking ozone prediction model

2 结果与讨论 2.1 FSOP基模型的模型因子选择

已知温度、太阳辐射强度等对臭氧生成具有重要影响[41, 42], 光照时长也是影响臭氧浓度的一大关键因素, 其与臭氧浓度的关系为正相关. 采用皮尔逊相关性分析[43, 44]、各因素贡献度分析和臭氧浓度变化特征分析后, 确定选择预报前1 d的臭氧日最大8 h浓度[(O3-8h)t-1]、最高温度[(temp)t-1]、太阳辐射强度[(rad)t-1]、光照时长[(day)t-1]、天气[(wea)t-1]、预报当天的最高温度[(temp)t]、光照时长[(day)t]、天气[(wea)t]和当前时间所属月份[(mon)t]共9个因素作为基学习器的输入变量. 各因素与臭氧浓度的相关系数如表 1所示. 使用随机森林[45]算法对9因素进行贡献程度分析, 模型输出的各因素贡献度统计如图 5所示.

表 1 待预测日臭氧与各因子的相关系数 Table 1 Correlation coefficient between ozone and each factor on the day to be predicted

图 5 各因素贡献度统计 Fig. 5 Each factor contribution statistics

根据皮尔逊相关系数和贡献度统计结果可知, 太阳辐射强度、最高温度和光照时长等因素都与臭氧浓度有较强相关性, 即臭氧生成与气象条件之间有着不可忽视的关系[46].

因为数据集的质量(输入变量与臭氧浓度的相关性是否较高)对臭氧浓度的预测精度有直接影响, 因此, 采用影响因子相关性分析、贡献度分析等确定了9项最优特征, 这也为模型捕捉臭氧变化规律与气象条件和时间之间的关系奠定了基础.

2.2 FSOP与其他单一模型精度分析及对比

采用RMSE、MAE和R2作为3个单机器学习模型和FSOP模型的评估指标, 为检验采用FSOP模型对提高臭氧浓度预测精度的有效性, 现对各模型的预测效果进行对比. 如表 2所示:3个单一机器学习模型的相关系数R2处于0.75~0.78之间, RMSE平均值为21.6 μg·m-3, 其中Informer模型的预测效果较好. 而FSOP模型相较于3个单一模型中预测精度最高的Informer模型, 其RMSE下降了7%, R2上升了8%, 拟合效果明显提升.

表 2 FSOP与单个模型预测结果 Table 2 Predictions of FSOP model and individual models

为了直观地比较4个模型对于臭氧浓度预测和拟合的效果, 现将各模型的残差(模型预测值与实测值的差值)情况展示如图 6所示. 从中可知, 3个单一机器学习模型中, LightGBM模型的残差波动较小, 更多情况下是预测值低于臭氧观测值, 残差波动范围为-90~56 μg·m-3;LSTM模型预测效果较差, 残差波动较大, 且残差超过60 μg·m-3的情况较多. 3个单一机器学习模型的残差波动范围为-90~80 μg·m-3. FSOP模型的残差波动较3个模型小, 少有残差大于60 μg·m-3的情况, 相较于单一模型拟合效果更佳, 可见融合模型通过集成3个基模型的优势能更好地捕捉臭氧浓度变化的趋势. 图 7为各预测模型的实测值和预测值的散点图, 显示了二者之间的拟合程度. 从中也可以看出, FSOP模型的拟合情况明显优于其他3个单一机器学习模型.

图 6 LightGBM、LSTM、Informer和FSOP模型的残差 Fig. 6 Residual of LightGBM, LSTM, Informer, and FSOP models

红色虚线表示预测值与实测值相等, 拟合直线越靠近红色虚线表示模型的拟合优度越高 图 7 各模型臭氧浓度预测值和实测值的散点图 Fig. 7 Scatter plots of predicted and measured ozone concentrations for each model

为了证明所提出的FSOP方法针对不同的数据集依然有较好地拟合效果, 且进一步体现在臭氧浓度的预测问题上使用类Stacking算法对模型进行融合相对单一模型有较大优势, 现调整为将2019~2022年数据作为3个基模型的训练集, 2017年数据作为测试集, 再使用RMSE、MAE和R2对4个模型的预测结果进行对比分析. 结果表明, FSOP模型相较于3个单一模型中效果最好的Informer模型, 相关系数R2仍然高出10%左右. 图 8为使用调整后的数据集时, 采用FSOP模型和Informer模型进行臭氧浓度预测时的残差对比.

图 8 FSOP模型与Informer模型的残差对比 Fig. 8 Residual comparison between the FSOP model and Informer model

图 8可知, FSOP模型的ρ(O3)残差值在60 μg·m-3左右, 相对于Informer模型残差波动更小, 预测效果更好. 但从图 8也能明显看出, 两者都存在臭氧浓度观测值与预测值相差较大的情况, 对该部分数据进行进一步分析发现:由于天气突变造成的臭氧浓度突变现象较难被模型捕捉, 而FSOP模型因为集成了多模型的优势具有更好的泛化性, 对突变情况下的臭氧浓度预测具有更高的准确性.

3 结论

(1)根据相关性分析、贡献度统计分析等确定模型的输入变量是臭氧浓度预测的关键步骤. 通过特征分析结果与臭氧复杂的生成机制可知, 温度、光照时长、太阳辐射强度等气象因子依然是影响臭氧浓度的重要因素.

(2)提出的FSOP方法借助Stacking算法的理念将机器学习模型与OLS统计方法进行融合来实现臭氧浓度的预测, 在不同的数据集下相较于单个机器学习模型都呈现了更好的拟合效果, 有效提升了臭氧浓度预测精度.

(3)无论是使用单机器学习模型还是使用提出的FSOP方法, 依然有预测值与臭氧浓度观测值残差较大的现象存在, 该部分误差可能由影响臭氧浓度生成的人为因素造成, 亦或者是天气的突变现象导致的极端情况. 未来的研究工作将进一步分析臭氧浓度预测残差较大的原因和机制阐释, 从而实现对模型的优化.

致谢: 本文使用了杭州市环境监测中心、慧聚气象数据、中国气象数据天气预报和欧洲中期天气预报中心的空气质量监测数据与气象再分析数据, 在此表示感谢.

参考文献
[1] 戴上, 周呈祥, 庞小兵, 等. 基于无人机观测研究杭州湾化工园区近地面层臭氧垂直廓线[J]. 中国环境科学, 2022, 42(6): 2514-2522.
Dai S, Zhou C X, Pang X B, et al. Vertical profiles characteristics of near surface layer ozone in Shangyu Economic Development Zone of Hangzhou Bay based on unmanned aerial vehicle[J]. China Environmental Science, 2022, 42(6): 2514-2522.
[2] 于瑞新, 刘旻霞, 李亮, 等. 长三角地区近15年大气臭氧柱浓度时空变化及影响因素[J]. 环境科学学报, 2021, 41(3): 770-784.
Yu R X, Liu M X, Li L, et al. Spatial and temporal variation of atmospheric ozone column concentration and influencing factors in the Yangtze River Delta region in recent 15 years[J]. Acta Scientiae Circumstantiae, 2021, 41(3): 770-784.
[3] Zhao H, Zheng Y F, Zhang Y X, et al. Evaluating the effects of surface O3 on three main food crops across China during 2015-2018[J]. Environmental Pollution, 2020, 258. DOI:10.1016/j.envpol.2019.113794
[4] Peng J L, Shang B, Xu Y S, et al. Effects of ozone on maize (Zea mays L.) photosynthetic physiology, biomass and yield components based on exposure- and flux-response relationships[J]. Environmental Pollution, 2020, 256. DOI:10.1016/j.envpol.2019.113466
[5] Schauberger B, Rolinski S, Schaphoff S, et al. Global historical soybean and wheat yield loss estimates from ozone pollution considering water and temperature as modifying effects[J]. Agricultural and Forest Meteorology, 2019, 265: 1-15. DOI:10.1016/j.agrformet.2018.11.004
[6] Ghosh A, Agrawal M, Agrawal S B. Effect of water deficit stress on an Indian wheat cultivar (Triticum aestivum L. HD 2967) under ambient and elevated level of ozone[J]. Science of the Total Environment, 2020, 714. DOI:10.1016/j.scitotenv.2020.136837
[7] Ainsworth E A, Lemonnier P, Wedow J M. The influence of rising tropospheric carbon dioxide and ozone on plant productivity[J]. Plant Biology, 2020, 22(S1): 5-11. DOI:10.1111/plb.12973
[8] Feng Z Z, Agathokleous E, Yue X, et al. Emerging challenges of ozone impacts on Asian plants: actions are needed to protect ecosystem health[J]. Ecosystem Health and Sustainability, 2021, 7(1). DOI:10.1080/20964129.2021.1911602
[9] Emberson L. Effects of ozone on agriculture, forests and grasslands[J]. Philosophical Transactions of the Royal Society A, 2020, 378(2183). DOI:10.1098/rsta.2019.0327
[10] Paoletti E, Feng Z Z, De Marco A, et al. Challenges, gaps and opportunities in investigating the interactions of ozone pollution and plant ecosystems[J]. Science of the Total Environment, 2020, 709. DOI:10.1016/j.scitotenv.2019.136188
[11] Yang G F, Liu Y H, Li W L, et al. Association analysis between socioeconomic factors and urban ozone pollution in China[J]. Environmental Science and Pollution Research, 2023, 30(7): 17597-17611.
[12] 雷雨, 欧奕含, 张小玲, 等. 2019年8月世警会期间成都平原臭氧污染及其气象成因分析[J]. 环境科学学报, 2021, 41(3): 747-760.
Lei Y, Ou Y H, Zhang X L, et al. Analysis of ozone pollution and meteorological causes over Chengdu Plain during the World Police Conference in August 2019[J]. Acta Scientiae Circumstantiae, 2021, 41(3): 747-760.
[13] 李梓铭, 赵秀娟, 孙兆彬, 等. 基于相似集合预报技术的臭氧预报释用研究[J]. 中国环境科学, 2020, 40(2): 475-484.
Li Z M, Zhao X J, Sun Z B, et al. Research on the interpretation and correction of numerical ozone forecast based on analog ensemble[J]. China Environmental Science, 2020, 40(2): 475-484.
[14] 董红召, 廖世凯, 杨强, 等. 集成AEC和时空特征的工业园区PM2.5浓度预测[J]. 中国环境科学, 2022, 42(10): 4537-4546.
Dong H Z, Liao S K, Yang Q, et al. PM2.5 concentration prediction in industrial parks integrating AEC and spatio-temporal characteristics[J]. China Environmental Science, 2022, 42(10): 4537-4546.
[15] Ryu Y H, Hodzic A, Descombes G, et al. Toward a better regional ozone forecast over CONUS using rapid data assimilation of clouds and meteorology in WRF-Chem[J]. Journal of Geophysical Research: Atmospheres, 2019, 124(23): 13576-13592.
[16] 周广强, 瞿元昊, 余钟奇. 长江三角洲城市臭氧数值预报与释用[J]. 中国环境科学, 2021, 41(1): 28-36.
Zhou G Q, Qu Y H, Yu Z Q. Numerical forecast and improvement of ozone over YRD cities[J]. China Environmental Science, 2021, 41(1): 28-36.
[17] 丁愫, 陈报章, 王瑾, 等. 基于决策树的统计预报模型在臭氧浓度时空分布预测中的应用研究[J]. 环境科学学报, 2018, 38(8): 3229-3242.
Ding S, Chen B Z, Wang J, et al. An applied research of decision-tree based statistical model in forecasting the spatial-temporal distribution of O3 [J]. Acta Scientiae Circumstantiae, 2018, 38(8): 3229-3242.
[18] 杨晓彤, 康平, 王安怡, 等. 基于随机森林模型的四川盆地臭氧污染预测[J]. 环境科学, 2024, 45(5): 2507-2515.
Yang X T, Kang P, Wang A Y, et al. Prediction of ozone pollution in Sichuan Basin based on random forest model[J]. Environmental Science, 2024, 45(5): 2507-2515.
[19] 苏筱倩, 安俊琳, 张玉欣, 等. 支持向量机回归在臭氧预报中的应用[J]. 环境科学, 2019, 40(4): 1697-1704.
Su X Q, An J L, Zhang Y X, et al. Application of support vector machine regression in ozone forecasting[J]. Environmental Science, 2019, 40(4): 1697-1704.
[20] 董红召, 王乐恒, 唐伟, 等. 融合时空特征的PCA-PSO-SVM臭氧(O3)预测方法研究[J]. 中国环境科学, 2021, 41(2): 596-605.
Dong H Z, Wang L H, Tang W, et al. Research on PCA-PSO-SVM ozone prediction considering spatial-temporal features[J]. China Environmental Science, 2021, 41(2): 596-605.
[21] 李一蜚, 秦凯, 李丁, 等. 基于梯度提升回归树算法的地面臭氧浓度估算[J]. 中国环境科学, 2020, 40(3): 997-1007.
Li Y F, Qin K, Li D, et al. Estimation of ground-level ozone concentration based on GBRT[J]. China Environmental Science, 2020, 40(3): 997-1007.
[22] 廖世凯, 董红召, 杨强, 等. 面向多源数据的AQP区域大气污染精准溯源研究[J]. 环境科学学报, 2023, 43(4): 131-141.
Liao S K, Dong H Z, Yang Q, et al. Accurate traceability of air pollution in AQP area for multi-source data[J]. Acta Scientiae Circumstantiae, 2023, 43(4): 131-141.
[23] Jie Y, Ling X X, Gao S, et al. Establishment of a combined model for ozone concentration simulation with stepwise regression analysis and Artificial Neural Network[J]. Atmosphere, 2022, 13(9). DOI:10.3390/atmos13091371
[24] 李颖若, 韩婷婷, 汪君霞, 等. ARIMA时间序列分析模型在臭氧浓度中长期预报中的应用[J]. 环境科学, 2021, 42(7): 3118-3126.
Li Y R, Han T T, Wang J X, et al. Application of ARIMA model for mid-and long-term forecasting of ozone concentration[J]. Environmental Science, 2021, 42(7): 3118-3126.
[25] Cheng Y, He L Y, Huang X F. Development of a high-performance machine learning model to predict ground ozone pollution in typical cities of China[J]. Journal of environmental management, 2021, 299. DOI:10.1016/j.jenvman.2021.113670
[26] Ma R M, Ban J, Wang Q, et al. Statistical spatial-temporal modeling of ambient ozone exposure for environmental epidemiology studies: a review[J]. Science of the Total Environment, 2020, 701. DOI:10.1016/j.scitotenv.2019.134463
[27] 朱珈莹, 安俊琳, 冯悦政, 等. 基于轻量级梯度提升机的南京大气臭氧浓度预测[J]. 环境科学, 2023, 44(7): 3685-3694.
Zhu J Y, An J L, Feng Y Z, et al. Atmospheric ozone concentration prediction in Nanjing based on LightGBM[J]. Environmental Science, 2023, 44(7): 3685-3694.
[28] 陈镇, 刘润, 罗征, 等. 基于机器学习的珠三角秋季臭氧浓度预测[J]. 环境科学, 2024, 45(1): 1-7.
Chen Z, Liu R, Luo Z, et al. Prediction of autumn ozone concentration in the Pearl River Delta based on machine learning[J]. Environmental Science, 2024, 45(1): 1-7.
[29] 王凯, 胡冬梅, 闫雨龙, 等. 基于深度学习的城市臭氧小时浓度预测模型[J]. 环境化学, 2023, 42(8): 2609-2618.
Wang K, Hu D M, Yan Y L, et al. Prediction model of urban ozone hourly concentration based on deep learning[J]. Environmental Chemistry, 2023, 42(8): 2609-2618.
[30] Yu J H, Zhao Y M, Pan R S, et al. Prediction of the critical temperature of superconductors based on two-layer feature selection and the Optuna-Stacking ensemble learning model[J]. ACS Omega, 2023, 8(3): 3078-3090.
[31] 林娜, 潘鹏, 王斌, 等. 基于Stacking集成学习的土壤侵蚀速率计算与主导因子分析——以三峡库区奉节县为例[J]. 中国水土保持科学, 2023, 21(4): 100-112.
Lin N, Pan P, Wang B, et al. Soil erosion rate calculation based on Stacking ensemble learning and leading factor analysis: a case study of Fengjie county in the Three Gorges Reservoir area[J]. Science of Soil and Water Conservation, 2023, 21(4): 100-112.
[32] Wei J, Li Z Q, Pinker R T, et al. Himawari-8-derived diurnal variations in ground-level PM2.5 pollution across China using the fast space-time light gradient boosting machine (LightGBM)[J]. Atmospheric Chemistry and Physics, 2021, 21(10): 7863-7880.
[33] Huang D Y, Liu H, Bi T S, et al. GCN-LSTM spatiotemporal-network-based method for post-disturbance frequency prediction of power systems[J]. Global Energy Interconnection, 2022, 5(1): 96-107.
[34] Zhou H, Zhang S, Peng J, et al. Informer: Beyond efficient transformer for long sequence time-series forecasting[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(12): 11106-11115.
[35] 侯新宇, 鲁海燕, 卢梦蝶, 等. 融合麻雀搜索和随机差分的双向学习平衡优化器算法[J]. 计算机科学, 2023, 50(11): 248-258.
Hou X Y, Lu H Y, Lu M D, et al. Bidirectional learning equilibrium optimizer combining sparrow search and random difference[J]. Computer Science, 2023, 50(11): 248-258.
[36] 于琳琳, 蒋小亮, 巴文岚, 等. 基于PCA-OLS模型的系统等效惯量中长期预测[J/OL]. 电力系统及其自动化学报, 1-9. https://doi.org/10.19635/j.cnki.csu-epsa.001356, 2023-11-22.
Yu L L, Jiang X L, Ba W L, et al. Medium and long-term forecasting of system equivalent inertia based on PCA-OLS model[J/OL]. Proceedings of the CSU-EPSA, 1-9. https://doi.org/10.19635/j.cnki.csu-epsa.001356, 2023-11-22.
[37] Zhu S Y, Xu J, Yu C, et al. Learning surface ozone from satellite columns (LESO): a regional daily estimation framework for surface ozone monitoring in China[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60. DOI:10.1109/TGRS.2022.3184629
[38] Ke G L, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree[A]. Proceedings of the 31st International Conference on Neural Information Processing Systems[C]. Long Beach: Curran Associates Inc., 2017. 3149-3157.
[39] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[A]. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017. 6000-6010.
[40] 李浩阳, 贺小伟, 王宾, 等. 基于改进Informer的云计算资源负载预测研究[J/OL]. 计算机工程, 1-11. https://doi.org/10.19678/j.issn.1000-3428.0066399, 2023-11-22.
Li H Y, He X W, Wang B, et al. Cloud computing resource load prediction based on improved informer[J/OL]. Computer Engineering, 1-11. https://doi.org/10.19678/j.issn.1000-3428.0066399, 2023-11-22.
[41] 赵伟, 高博, 刘明, 等. 气象因素对香港地区臭氧污染的影响[J]. 环境科学, 2019, 40(1): 55-66.
Zhao W, Gao B, Liu M, et al. Impact of meteorological factors on the ozone pollution in Hong Kong[J]. Environmental Science, 2019, 40(1): 55-66.
[42] 龚德才, 杜宁, 王莉, 等. 基于XGBoost-LME模型的京津冀地区近地面臭氧浓度估算[J]. 环境科学, 2024, 45(7): 3815-3827.
Gong D C, Du N, Wang L, et al. Estimation of near-surface ozone concentration in the Beijing-Tianjin-Hebei Region based on XGBoost-LME model[J]. Environmental Science, 2024, 45(7): 3815-3827.
[43] 杨雨佳, 肖庆来, 陈健, 等. 融合空间和统计特征的CNN-GRU臭氧浓度预测模型研究[J]. 南京大学学报(自然科学), 2023, 59(2): 322-332.
Yang Y J, Xiao Q L, Chen J, et al. Research on CNN-GRU ozone prediction considering spatial features and statistical features[J]. Journal of Nanjing University (Natural Sciences), 2023, 59(2): 322-332.
[44] 董红召, 许慧鹏, 卢滨, 等. 城市交通道路氮氧化物浓度的CART回归树预测研究[J]. 环境科学学报, 2019, 39(4): 1086-1094.
Dong H Z, Xu H P, Lu B, et al. A CART-based approach to predict nitrogen oxide concentration along urban traffic roads[J]. Acta Scientiae Circumstantiae, 2019, 39(4): 1086-1094.
[45] 汪力纯, 刘水生. 基于混合采样和特征选择的改进随机森林算法研究[J]. 南京邮电大学学报(自然科学版), 2022, 42(1): 81-89.
Wang L C, Liu S S. An improved random forest algorithm based on hybrid sampling and feature selection[J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition), 2022, 42(1): 81-89.
[46] 王馨陆, 黄冉, 张雯娴, 等. 基于机器学习方法的臭氧和PM2.5污染潜势预报模型——以成都市为例[J]. 北京大学学报(自然科学版), 2021, 57(5): 938-950.
Wang X L, Huang R, Zhang W X, et al. Forecasting ozone and PM2.5 pollution potentials using machine learning algorithms: a case study in Chengdu[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2021, 57(5): 938-950.