环境科学  2024, Vol. 45 Issue (10): 5729-5739   PDF    
基于KZ滤波和LSTM的上海市O3预测模型
吴玲霞1, 安俊琳1, 金丹2     
1. 南京信息工程大学中国气象局气溶胶-云-降水重点开放实验室, 南京 210044;
2. 上海市环境监测中心, 上海 200235
摘要: 针对臭氧长时间序列预测精度及气象特征选择问题, 提出通过Kolmogorov Zurbenko(KZ)滤波分解臭氧(O3)原始序列, 利用支持向量回归(SVR)改进的最大最小冗余(mRMR)方法筛选气象特征, 之后采用长短期记忆网络(LSTM)实现对上海2023年5~8月静安监测站(城市)、浦东川沙(城郊)和淀山湖(郊区)的O3预测.结果表明, 特征筛选得到对O3基准和短期分量的最优组合包括气压、温度、湿度、边界层高度和风向.基于LSTM模型对特征筛选后的不同时间分量进行预测, 静安站、浦东川沙站和淀山湖站R2分别为0.86、0.83和0.85, RMSE分别为18.26、18.74和20.02 μg·m-3, 表明通过分解原始O3序列能够提高预测精度, 特征筛选后的组合能够保持模型的预测性能.
关键词: O3预测      KZ滤波      LSTM      最大最小冗余      灰色关联性      支持向量回归(SVR)     
Predictive Model for O3 in Shanghai Based on the KZ Filtering Technique and LSTM
WU Ling-xia1 , AN Jun-lin1 , JIN Dan2     
1. Key Laboratory for Aerosol-Cloud-Precipitation of China Meteorological Administration, Nanjing University of Information Science and Technology, Nanjing 210044, China;
2. Shanghai Environmental Monitoring Center, Shanghai 200235, China
Abstract: In this study, a Kolmogorov-Zurbenko (KZ) filter was proposed to decompose the original ozone (O3) sequence to improve the accuracy of ozone long-term series prediction and select relevant meteorological features. Furthermore, the enhanced maximal minimal redundancy (mRMR) feature selection technique was combined with the support vector regression (SVR) approach to select the most illuminating meteorological features. Subsequently, from May to August 2023, during high ozone concentration periods, a long short-term memory network (LSTM) was utilized to assess and predict high ozone concentration periods at the monitoring stations of Jingan (urban area), Pudong-Chuansha (suburban area), and Dianshan Lake (suburban area) in Shanghai. The results showed that pressure, temperature, humidity, boundary layer height, and wind direction were the best combinations of O3 baseline and short-term components, as chosen by feature screening. The R2 values for Jingan Station, Pudong-Chuansha Station, and Dianshan Lake Station were 0.86, 0.83, and 0.85, respectively. The RMSE values were 18.26, 18.74, and 20.02 μg·m-3, respectively. These findings suggest that decomposing the original O3 sequence improved the prediction accuracy of ozone concentrations. Additionally, as indicated by the R2 and RMSE values found for every monitoring station, feature screening preserved the model's predictive performance.
Key words: O3 prediction      KZ filter      LSTM      maximal relevance and minimal redundancy      gray correlation      support vector regression (SVR)     

近地面臭氧(O3)作为影响空气质量的主要污染物之一, 主要由大气中氮氧化物(NOx)和挥发性有机物(VOCs)等前体物在光照条件下经光化学反应生成的二次污染产物[1, 2], 瞬时或长时间暴露于高浓度臭氧, 对人体呼吸系统、免疫系统会造成破环从而引起疾病, 并对特殊人群会产生生命威胁[3, 4].目前, 我国O3污染问题逐渐突出[5 ~ 7].

气象因素影响臭氧生成、沉降、传输和稀释过程, 是臭氧污染形成的重要条件.近年来, 众多学者利用线性回归、污染天气分型、滤波和统计模型等方法, 从城市及区域变化[8 ~ 12]、天气模式特征[13, 14]和长时序多因素关联特征[6, 15 ~ 18]等方面展开研究, 揭示了臭氧浓度与气象因素的关联性.在以上方法中, 统计模型包括多元线性回归、SVR和LSTM等机器学习模型.以上模型通过学习一定数量的历史数据, 以此来捕捉污染物与输入参数的非线性关系, 在空气质量预测[19, 20]和非线性建模[21]等方面取得较好应用.

在现有的基于机器学习的臭氧预测模型中, 主要存在以下问题:①臭氧浓度受气候变化等因素影响, 在长时间序列中变化趋势不显著[22, 23], 增加了预测的难度;②不同区域的气象条件对臭氧的生成影响存在差异, O3与气象参数及气象参数之间存在复杂的非线性关系[24], 导致模型输入的气象特征较难确定, 从而影响模型的预测准确性.在以往研究中, 通过KZ滤波污染物进行短期、季节和长期尺度分离, 可以得到关键气象特征对污染物长期变化的影响[25, 26].本研究利用KZ滤波分解O3原始序列, 通过预测不同时间尺度上的O3来提高长时间序列的预测精度.mRMR在筛选特征方面能够从给定的特征集合中寻找与目标类别有最大相关性, 且保证特征的子集之间具有最少冗余性[27].但mRMR方法给出的单一特征不能满足实际应用, 本研究引入SVR方法对mRMR进行改进[28], 以筛选最优特征组合.最后, 利用LSTM模型对不同时间尺度进行预测.

上海市是我国东部沿海经济发达城市, 近几年O3问题突出, 以往研究表明, 天气条件对上海夏季O3浓度影响较大[10, 29 ~ 31].以2018~2023年上海市3种类型的监测站点(城区站、城郊站和郊区站)的O3连续观测资料为基础, 用机器学习方法捕捉O3污染较为严重的时间段(5~8月)与气象参数的关系, 以期为臭氧污染预测提供参考.

1 材料与方法 1.1 研究区域和数据

上海市臭氧小时浓度观测资料来自国家环境空气质量监测网和上海市环境监测中心, 利用2018年1月至2023年8月O3监测数据, 主要选择每年5~8月臭氧高浓度时段进行分析和建模.参考以往研究[32], 选择静安监测站、浦东川沙站和淀山湖站点, 分别代表城市站、城郊站和郊区站(图 1表 1).气象数据来自欧洲中期天气预报中心全球气候的第5代大气再分析数据集(https://cds.climate.copernicus.eu/), 空间分辨率为0.25°× 0.25°.选取的气象参数包括温度(TM)、边界层高度(BLH)、气压(SP)、降雨量(TP)、太阳辐射(SSR)、风速(WS)、风向(WD)、云量(TCC)和湿度(RH).其中湿度利用Magnus-Tetens近似法[33]计算.

图 1 观测站点位置示意 Fig. 1 Location of the observation sites

表 1 站点信息及模型设置 Table 1 Site information and model settings

在数据处理上, 当臭氧小时数据连续7个时间点以下缺失时, 利用线性插值法进行补缺, 否则做删除处理.

1.2 方法介绍

本研究利用KZ滤波方法将臭氧和气象参数的原始时间序列分解为两部分——短期和基准, 利用灰色关联度分析方法研究气象参数在不同时间尺度下对臭氧高浓度时间段的影响.将2018~2022年5~8月臭氧和气象特征进行训练, 基于SVR改进的最大相关最小冗余法(mRMR-SVR)用于挑选LSTM模型的输入特征, 通过对2023年5~8月的两部分时间尺度进行预测, 以此得到最终O3预测结果, 主要流程如图 2所示.

图 2 组合模型流程 Fig. 2 Flow of the combined model

1.2.1 KZ滤波

KZ滤波是由Rao等[22]提出的一种时间序列分析方法, 对长时间序列处理速度快, 能很好地将噪声从原始数据中分离, 在剥离气象条件对不同时间尺度下污染物变化趋势影响方面应用广泛[34]. 本研究主要将原始时间序列y(t)分解为短期分量(yST)和基准分量(yBL), 其中基准分量包含季节和长期变化, 主要表示:

(1)

KZ滤波属于低通滤波, 通过移动平均值的反复迭代产生:

(2)

式中, Yi表示经KZ滤波分解后的时间序列, m表示滑动窗口长度, i表示时间间隔, j表示滑动窗口变量, k表示滑动窗口长度. KZm, p表示在滑动窗口m下经过p次迭代, 其中, 要将波长小于N的高频波去除, 需要满足m × p1/2 ≤ N.利用KZ(15, 5)滤波得到基准分量(yBL), 短期分量用式(1)原始序列减去基准分量得到.O3分解后的基准分量表示为O3-BL, 短期分量表示为O3-ST.以往研究表明[30], 基准分量表征臭氧前体物排放、背景值和气候等因素影响, 而短期分量表征天气影响.

1.2.2 灰色关联度分析

灰色关联度分析是基于灰色系统理论的一种多因素统计分析方法, 利用灰色关联度来描述参考数据和比较数据的几何形状相似性, 以此判断其与参考数据的紧密相关程度, 并对相关性大小进行排序[35], 以此获得影响臭氧浓度的关键因素.在数据处理方面, 灰色系统理论较传统的统计学理论更具优势, 能够充分体现未知系统概率的固有属性[36].本研究将O3小时浓度作为参考序列, 9个气象参数数据用于比较, 首先对所有数据进行均值化处理:

(3)

式中, y(t)表示原始时间序列, y表示均值, x(t)表示均值化后的时间序列.

之后, 计算每个时间tt = 1,2,…,n)下气象参数xmet(t)与臭氧xO3(t) 的关联系数并取平均, 得到每个气象参数的关联度:

(4)

式中, met表示每个气象参数, ρ表示分辨系数, 取0.5.

1.2.3 最大相关最小冗余

最大相关和最小冗余的测度指标分别定义为[27, 28]

(5)
(6)

式中, M和|M|分别表示气象特征集合和包含的特征数目, I(xmetxO3)表示气象特征和臭氧之间的互信息;I(xmetixmetj) 表示气象参数之间的互信息;D表示气象特征集M与臭氧互信息均值, 表征气象特征集和臭氧的相关性;R表示气象特征之间互信息的大小, 表征特征之间的冗余性.

之后, 利用增量搜索算法选择最优特征, 通过对选择包含m - 1个特征的特征子集Mm-1, 从剩余特征M - Mm-1选择第m个特征使得式(7)最大化, 满足下式:

(7)

支持向量回归算法能很好地解决非线性回归问题, 且具有较好的鲁棒性和处理高维数据的能力.为了保证筛选的特征组合最优, 将每次输出的特征组合使用支持向量回归进行验证, 筛选的条件满足最小均方根误差.

特征筛选过程如下(图 2):①通过式(5)和(6)计算每个气象特征与臭氧的相关性和特征之间的冗余性;②计算结果利用式(7)挑选气象组合;③每组特征输入到SVR模型进行计算, 以最小均方根误差值作为最终输出的判断条件.

本研究利用Python中Sklearn包进行计算, 选择径向基函数作为核函数.为保证每组结果可比较, SVR模型所需参数保持一致:错误项惩罚因子(C)设置为1、epsilon设置为0.1, 方法介绍参考以往研究[37, 38].采用k折交叉验证方法(k=2)选取最优模型.

1.2.4 LSTM模型

LSTM模型的基本单元是记忆模块, 包括记忆单元和控制记忆单元的门结构, 分别为遗忘门、输入门和输出门[39].图 2包含了LSTM模型的神经元结构, 其中, xtythtct分别表示当前时间t的输入、输出、隐藏状态向量和记忆细胞. ctht计算如下:

(8)
(9)

式中, ftit表示LSTM神经元根据ht-1xt依照权重门的权重矩阵W和偏置项b利用激活函数σ计算得到的中间值;表示ht-1xt经输出激活函数tanh生成的候选记忆细胞.输出门ot近似为1时, 记忆细胞信息将传递到隐藏状态供输出层使用.本研究利用Python中Keras包来设置网络结构, 主要设置的参数为时间步长、优化函数、激活函数、训练次数和批量大小、输入维度等参数(表 1).模型输入数据用归一化处理来消除数据间的量纲差异.

本研究将应用以上方法分别对臭氧及短期、基准分量数据进行特征筛选和训练, 并预测2023年5~8月臭氧浓度.对于短期和基准分量, 预测结束后对两部分结果相加得到完整臭氧预测值, 以此评估分解后的O3序列数据的预测精度.以上计算均在Python 3.10环境下进行.

1.2.5 评估指标

采用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)这3个指标判断模型性能.

(10)
(11)
(12)

式中, yt'和yt分别表示时间t时的臭氧预测值和监测值, y表示时间长度n内的浓度均值.

2 结果与讨论 2.1 臭氧浓度与气象要素的关系

对2018~2023年8月分解后的短期分量(O3-ST)和基准分量(O3-BL), 浓度高值主要集中在5~8月, 该时段内静安站、浦东川沙和淀山湖站6年ρ(O3)均值分别为84.96、81.84和82.04 μg·m-3.图 3为每年月均值变化特征, 2020~2021年3个站点O3平均浓度较其他年份偏低, 可能与这两年入梅早、出梅晚引起6~7月雨水偏多有关, 其中, 2020年6月9日入梅, 梅雨期长达42 d;2021年6月10日入梅, 7月11日出梅(https://swj.sh.gov.cn/fxft-sqtb/index.html).在2023年7月O3也较其它同时段偏低, 这与上海多次受强降雨云团和台风天气影响有关.雨季大气光化学反应弱, 湿清除作用明显, 不利于臭氧的生成和积累, 使得以上时间段相较往年同时段O3偏低.在2022年臭氧出现反弹回升, 静安监测站和浦东川沙在5月均有ρ(O3)高值, 分别为104.8 μg·m-3和107.4 μg·m-3.

图 3 2018~2023年5~8月臭氧平均浓度变化廓线 Fig. 3 Changes in average ozone concentration from May to August 2018 to 2023

利用方差比计算KZ滤波分解后的短期分量和基准分量对O3的贡献比, 5~8月O3-BL和O3-ST对静安站、浦东川沙站和淀山湖站的贡献O3分别为38%和54%、38%和53%以及26%和66%, 淀山湖站O3受短期贡献大.以静安监测站点为分析对象, 图 4(a)为O3-BL分量年均变化, 整体呈波动下降趋势, 但降幅较小;O3-ST振幅较大[图 4(b)], 5~8月波动最大振幅范围为-113.2~162.3 μg·m-3.浦东川沙和淀山湖短期分量的最大振幅分别为-131.5~180.2 μg·m-3和-149.8~217.6 μg·m-3.淀山湖站短期分量波动幅度相对较大, 表明臭氧高浓度时段短期波动不稳定, 容易受到本地气象条件和排放源的影响.

图 4 静安站2018年1月至2023年8月臭氧和各组分时序变化 Fig. 4 Time series changes of ozone and its components at Jingan monitoring station from January 2018 to August 2023

为了定量识别5~8月影响O3及不同分量的主要气象因素, 基于灰色关联性分析方法计算了每个站点在不同时序变化下与气象参数的灰色关联度和关联顺序(图 5表 2).对于静安监测站, 臭氧原始序列灰色关联性大小顺序为:气压 > 温度 > 湿度 > 边界层高度 > 风速 > 风向 > 云量 > 太阳辐射 > 降雨量;O3-BL分量灰色关联性大小顺序为:气压 > 太阳辐射 > 湿度 > 温度 > 风向 > 边界层高度 > 风速 > 云量 > 降雨量;O3-ST分量灰色关联性大小顺序为:湿度 > 降雨量 > 云量 > 风向 > 气压 > 边界层高度 > 温度 > 风速 > 太阳辐射.浦东川沙站和淀山湖站的O3和O3-BL分量影响较大的气象因素与静安站一致, 为气压、温度、太阳辐射、湿度和风向.以上因素在以往研究臭氧浓度长期变化趋势都表现出重要性, 如Shin等[34] 分析了韩国不同城市的臭氧浓度受气象因素影响贡献范围为66.4%~89.7%;Botlaguduru等[40]讨论并量化了不同气象因素对休斯敦臭氧浓度影响.以上研究表现出不同城市受气象影响程度不同, 本研究选取的城市站、城郊站和郊区站受气象条件影响也各异, 这可能与站点所处地理环境有关.

图 5 O3及分量与气象的灰色关联度值 Fig. 5 Grey relational degree values of O3 and its components with meteorology

表 2 灰色关联度排序 Table 2 Grey relational degree sorting

这种差异性主要从气象与O3-ST分量的灰色关联性中体现(表 2).对于静安站和淀山湖站, 短期分量主要受湿度、降雨量、云量和风向有关, 浦东川沙站主要受降雨量、云量、风向和气压影响.浦东川沙站点相较于其它两个站点更靠近海边, 更容易受到海风的影响, 包括受海陆风辐合影响, 大气处于静稳状态不利于污染物的扩散, 有利于O3的累积[41]. 3个站点O3-ST分量都受到风向、降雨量和云量的影响, 其中降雨量、云量和湿度三者之间对臭氧的影响也较为复杂.有研究表明[42], 温度高、云量少的气象条件下能够促进光化学反应进而促进臭氧的生成, 反之, O3浓度随之降低.温度高、晴朗的天气会出现较低的相对湿度, 当相对湿度越高时降水的概率越高, 湿清除作用也会降低臭氧浓度;当相对湿度增大时, 往往伴随云量增加、风速增大等不利于臭氧生成和污染累积的气象条件[43, 44].风对于近地面大气污染物的消除和污染物的传输等方面起到了重要作用.根据环保部发布的《环境空气质量标准》(GB 3095-2012)[45], O3小时浓度高于160 μg·m-3, 即超过了一级浓度限值.以160 μg·m-3作为小时超标限值, 图 6统计了5~8月O3在不同风向下发生频率, 3个站点在偏南风和东南风影响下O3超过限值的频率高.淀山湖站点较其他站点在不同风向下也易发生浓度超标情况, 这与淀山湖处于江浙沪交界, 位于上海主导风向的下风向, 容易受传输影响有关[32].

圆环百分数表示风向频率区间 图 6 O3风向频率统计 Fig. 6 O3 concentration wind direction frequency statistics

通过对3个站点O3与气象因素的灰色关联度分析, O3基准分量受到的气象因素相似, 反映局地气候变化对O3的影响有一致性. 3个站点的O3-ST分量波动振幅较大, 主要受到雨量、云量和风向等气象条件影响, 表明除需要关注高温对臭氧浓度影响外, 极端暴雨也对臭氧浓度的低值预测带来了挑战.

2.2 模型输入组合

基于mRMR-SVR对O3、O3-BL和O3-ST进行特征筛选, 结果如表 3所示. 3个站点的O3及其组分主要的输入气象特征为温度、太阳辐射、边界层高度、气压和湿度, 其结果与灰色关联分析结果较为一致.此外, 风向特征在长期分量臭氧预测中有重要作用, 表明臭氧浓度长期趋势受气候模式转变影响.对于淀山湖站点, 除上述气象条件外还包括风速特征, 风速较小时有利于O3的累积, 随着风速的不断增大, 水平方向上的输送作用增强有利于O3浓度的稀释, 使得O3降低.结合2.1节分析, 相较于其它站点, 淀山湖站虽位于郊区, 但受风速风向的影响有利于臭氧的传输和累积.

表 3 模型输入的气象特征组合 Table 3 Combination of meteorological features for model input

对于短期序列O3-ST, 静安监测站和淀山湖监测站输入特征相似, 风向特征对浦东川沙站的臭氧浓度预测影响较大, 这与2.1节分析结果一致.此外, O3-ST的特征组合与灰色关联分析结果存在较大差别, 表明特征筛选出的气象组合能够模拟影响O3浓度平均波动变化的非线性组合, 而灰色关联度分析结果反映影响O3极值变化的气象特征.

结合表 3, 静安监测站O3原始序列、O3-BL序列和O3-ST序列RMSE分别下降了3.12、0.37和0.19 μg·m-3;浦东川沙站点RMSE分别降低了0.52、0.85和1.7 μg·m-3;淀山湖站RMSE分别降低了2.44、0.13和1.79 μg·m-3.特征筛选后的3种时序变化的R2介于0.3~0.6之间, RMSE和MAE分别介于20.79~40.93 μg·m-3和16.51~31.34 μg·m-3, 相较于所有特征输入R2变化相对较小, 表明筛选后的气象特征能够解释臭氧浓度变化特征.对于滤波分解的结果, 相较未分解的结果RMSE和MAE分别降低了12.54~19.41 μg·m-3和10.34~14.21 μg·m-3, 其中淀山湖站点基准分量降低更为显著, 浦东川沙站点短期分量下降更为显著.

2.3 模型预测分析 2.3.1 滤波预测结果

图 7是对O3进行KZ滤波分解后的基准和短期观测和预测结果比对.对于基准预测, 特征筛选前后R2均高于0.9, 但特征筛选后的气象组合预测结果RMSE和MAE均上升, 分别为0.08~1.65 μg·m-3和0.2~1.07 μg·m-3, 表明虽然全部气象特征参数能够弥补由于缺少污染物等特征对模型的学习能力的影响, 但筛选后的气象特征能够解释臭氧长期变化趋势.参考以往研究, 长期气象参数对臭氧的贡献影响分析与本研究LSTM模型预测结果较为一致[46].对于3个观测站点的基准序列预测精度大小为:静安监测站 > 浦东川沙站 > 淀山湖站, 结合2.1节和2.2节分析, 可能与站点所处地理位置有关, 淀山湖站点易受到传输影响, 而浦东川沙站邻近海边, 受海风影响较大, 使得预测精度低于静安监测站.静安监测站对臭氧浓度峰值预测结果相对较差[图 7(a)], 特征筛选前后RMSE分别为6.49 μg·m-3和8.13 μg·m-3;淀山湖站能较好模拟峰值变化, 但对低浓度变化模拟结果较差[图 7(e)], 特征筛选前后RMSE分别为7.85 μg·m-3和7.93 μg·m-3.

-obs表示观测值, -pre表示预测值, -A表示输入所有气象特征 图 7 2023年O3-BL序列和O3-ST序列观测和预测比对 Fig. 7 Comparison of observations and predictions between the O3-BL sequence and the O3-ST sequence in 2023

对于短期预测, 3个站点的预测精度大小排序:为静安监测站 > 淀山湖站 > 浦东川沙站.静安监测站特征筛选前后R2分别为0.84和0.80, 筛选后的气象特征组合预测结果相对较差[图 7(b)], RMSE和MAE高出所有气象特征组合1.61 μg·m-3和1.22 μg·m-3.浦东川沙和淀山湖站短期特征筛选前后R2分别为0.75和0.76、0.81和0.82, 筛选后气象特征组合精度提高[图7(d)7(f)], RMSE分别降低0.42 μg·m-3和0.64 μg·m-3.浦东川沙站点短期波动偏差较其它两个站点高, 预测精度较低, 表明浦东川沙站短期分量相较于其它两个站点受气象条件影响相对较小.

综上, 臭氧长期预测精度高于短期预测, 主要是由于短期序列波动大, 除气象影响外, 还包括臭氧前体物排放等因素的直接影响.

2.3.2 站点预测结果

与未经过特征筛选的O3原始序列、O3-BL序列和O3-ST序列相加后的预测结果比对(O3-BL-ST), 验证滤波分解和特征筛选后对2023年5~8月臭氧小时浓度预测效果.

在静安监测站点, 对于分解后的O3预测, 特征筛选后的气象组合臭氧预测R2为0.86, RMSE和MAE分别为18.26 μg·m-3和13.76 μg·m-3[图 8(a)];未分解的O3原始序列在特征筛选前后的R2均为0.84, 特征筛选后RMSE和MAE分别下降了0.09 μg·m-3和0.52 μg·m-3[图 8(d)].特征筛选后的预测精度弱于未筛选特征的预测结果, 其中RMSE和MAE高出2.34 μg·m-3和1.56 μg·m-3.以上分析表明对滤波分解后的O3基准和短期分量分别预测能够提高对臭氧浓度的预测能力;虽然特征筛选后预测精度偏低但差值较小, 表明筛选得到的特征组合能够表征气象要素对城市监测站点臭氧浓度预测的影响.

(a)~(c)中黑色虚线表示1∶1线, 红色实线表示回归拟合线, RMSE和MAE的单位为μg·m-3;(d)~(f)中Obsv.表示观测值的标准偏差, 与观测值构成闭合曲线, -A表示输入所有气象特征 图 8 特征筛选前后的O3原始序列及其分解值(O3-BL-ST)的预测结果评估 Fig. 8 Prediction result evaluation of the O3 original sequence and its decomposition values(O3-BL-ST) before and after feature filtering

对于浦东川沙站点[图8(b)8(e)], 经KZ滤波分解的臭氧预测精度更高, 特征筛选前后的R2均为0.83, RMSE较未分解的预测结果降低了0.22~1.73 μg·m-3, 表明滤波分解后能够提高预测精度.此外, 特征筛选出的最优气象组合能够很好地预测出2023年5~8月臭氧浓度变化, 表明本研究提出的特征筛选方法能够减少由于多特征输入导致模型过拟合情况.

对于淀山湖站点, 特征筛选后的气象组合明显改善了模型预测精度, 滤波分解前后对臭氧的预测精度R2均为0.85, RMSE分别为20.03 μg·m-3和19.79 μg·m-3[图8(c)8(f)];而未筛选特征的O3原始序列和分解序列R2分别为0.83和0.80.从筛选后的气象特征组合来看, 原始序列和基准序列的气象特征组合相似(表 3), 主要气象参数包括温度、太阳辐射、风向和风速等, 表明特征筛选方法通过降低输入数据的维度, 能够保持模型的预测性能.由于臭氧基准序列用于表征季节、长期尺度上的污染时序变化, 反映淀山湖站臭氧浓度在长期变化趋势上更易受气候变化、污染排放和传输等因素影响, 这与以往的研究分析也较为一致[47].

总体而言, 经过特征筛选后的气象组合的预测结果与实际O3浓度变化趋势较为接近, R2均高于0.8, 表明mRMR-SVR特征筛选算法与LSTM模型的结合能够提高模型预测精度, 对于确定模型输入特征、减少模型过拟合和臭氧预测方面上可以开展应用.但也发现, 对于高、低浓度值的预测结果较差, 未来可以与污染物等其它要素结合进一步改进模型预测精度.

3 结论

(1)静安站、浦东川沙和淀山湖5~8月O3基准和短期分量的影响贡献分别为38%和54%、38%和53%以及26%和66%, 淀山湖站点较其它站点短期波动范围相对大, 振动幅度为-149.8~217.6 μg·m-3, 这与淀山湖站点所处地理位置有关.此外, 3个站点短期贡献较高, 表明容易受本地气象条件和排放源的影响.

(2)基于灰色关联度分析, 不同站点之间影响基准分量和短期分量气象特征存在较大差别, 其中短期分量主要受到降雨量、云量等气象特征影响.利用mRMR-SVR方法筛选的特征组合与灰色关联度较一致, 主要为气压、温度、湿度、边界层高度和风向.

(3)静安站、浦东川沙站和淀山湖站R2分别为0.86、0.83和0.85, RMSE分别为18.26、18.74和20.02 μg·m-3, 表明利用LSTM模型对2023年5~8月O3基准和短期分量预测能够提高O3预测精度.

致谢: 感谢上海环境监测中心提供的O3监测数据.

参考文献
[1] Mazzeo N A, Venegas L E, Choren H. Analysis of NO, NO2, O3 and NOx concentrations measured at a green area of Buenos Aires City during wintertime[J]. Atmospheric Environment, 2005, 39(17): 3055-3068. DOI:10.1016/j.atmosenv.2005.01.029
[2] de Souza A, Ozonur D. Statistical behavior of O3, OX, NO, NO2, and NOx in urban environment[J]. Ozone: Science & Engineering, 2019, 42(1): 66-78.
[3] Canella R, Borriello R, Cavicchio C, et al. P-63 - tropospheric ozone effects on chlorine current in lung epithelial cells: an electrophysiological approach[J]. Free Radical Biology and Medicine, 2016, 96: S58-S59.
[4] Silva R A, West J J, Zhang Y Q, et al. Global premature mortality due to anthropogenic outdoor air pollution and the contribution of past climate change[J]. Environmental Research Letters, 2013, 8(3). DOI:10.1088/1748-9326/8/3/034005
[5] Lu X, Hong J Y, Zhang L, et al. Severe surface ozone pollution in China: a global perspective[J]. Environmental Science & Technology Letters, 2018, 5(8): 487-494.
[6] Yu F, Liao H, Yang Y. Interannual and decadal changes in tropospheric ozone in China and the associated chemistry-climate interactions: a review[J]. Advances in Atmospheric Sciences, 2019, 36(9): 975-993. DOI:10.1007/s00376-019-8216-9
[7] Li M M, Wang T J, Shu L, et al. Rising surface ozone in China from 2013 to 2017: a response to the recent atmospheric warming or pollutant controls?[J]. Atmospheric Environment, 2021, 24. DOI:10.1016/j.atmosenv.2020.118130
[8] 安俊琳, 王跃思, 孙扬. 气象因素对北京臭氧的影响[J]. 生态环境学报, 2009, 18(3): 944-951.
An J L, Wang Y S, Sun Y. Assessment of ozone variations and meteorological effects in Beijing[J]. Ecology and Environment Sciences, 2009, 18(3): 944-951. DOI:10.3969/j.issn.1674-5906.2009.03.027
[9] Gong X, Hong S, Jaffe D A. Ozone in China: spatial distribution and leading meteorological factors controlling O3 in 16 Chinese cities[J]. Aerosol and Air Quality Research, 2018, 18(9). DOI:10.4209/aaqr.2017.10.0368
[10] 孙睿, 张红, 汪水兵, 等. 长三角区域典型城市臭氧时空分布及其与气象因素相关性研究[J]. 大气与环境光学学报, 2021, 16(6): 483-494.
Sun R, Zhang H, Wang S B, et al. Temporal and spatial distribution of ozone in typical cities of Yangtze River Delta region and its correlation with meteorological factors[J]. Journal of Atmospheric and Environmental Optics, 2021, 16(6): 483-494.
[11] 周学思, 廖志恒, 王萌, 等. 2013—2016年珠海地区臭氧浓度特征及其与气象因素的关系[J]. 环境科学学报, 2019, 39(1): 143-153.
Zhou X S, Liao Z H, Wang M, et al. Characteristics of ozone concentration and its relationship with meteorological factors in Zhuhai during 2013-2016[J]. Acta Scientiae Circumstantiae, 2019, 39(1): 143-153.
[12] 崔梦瑞, 白林燕, 冯建中, 等. 京津唐地区臭氧时空分布特征与气象因子的关联性研究[J]. 环境科学学报, 2021, 41(2): 373-385.
Cui M R, Bai L Y, Feng J Z, et al. Analysis of temporal and spatial variations of ozone coupling with dynamics of meteorological factors in the Beijing-Tianjin-Tangshan region[J]. Acta Scientiae Circumstantiae, 2021, 41(2): 373-385.
[13] Wang T, Dai J N, Lam K S, et al. Twenty-five years of lower tropospheric ozone observations in Tropical East Asia: the influence of emissions and weather patterns[J]. Geophysical Research Letters, 2019, 46(20): 11463-11470. DOI:10.1029/2019GL084459
[14] Shu L, Wang T J, Huang X, et al. Impact of East Asian summer monsoon on surface ozone pattern in China[J]. Journal of Geophysical Research: Atmospheres, 2018, 123(2): 1401-1411. DOI:10.1002/2017JD027190
[15] Dang R J, Liao H, Fu Y. Quantifying the anthropogenic and meteorological influences on summertime surface ozone in China over 2012-2017[J]. Science of the Total Environment, 2021, 754. DOI:10.1016/j.scitotenv.2020.142394
[16] Li K, Jacob D J, Shen L, et al. Increases in surface ozone pollution in China from 2013 to 2019: anthropogenic and meteorological influences[J]. Atmospheric Chemistry and Physics, 2020, 20(19): 11423-11433. DOI:10.5194/acp-20-11423-2020
[17] Jin X M, Holloway T. Spatial and temporal variability of ozone sensitivity over China observed from the ozone monitoring instrument[J]. Journal of Geophysical Research: Atmospheres, 2015, 120(14): 7229-7246. DOI:10.1002/2015JD023250
[18] Cooper O R, Gao R S, Tarasick D, et al. Long-term ozone trends at rural ozone monitoring sites across the United States, 1990-2010[J]. Journal of Geophysical Research: Atmospheres, 2012, 117(D22). DOI:10.1029/2012jd018261
[19] Patil R M, Dinde H T, Powar S K. A literature review on prediction of air quality index and forecasting ambient air pollutants using machine learning algorithms[J]. International Journal of Innovative Science and Research Technology, 2020, 5(8): 1148-1152.
[20] Madan T, Sagar S, Virmani D. Air quality prediction using machine learning algorithms-a review[A]. In: Proceedings of the 2020 2nd International Conference on Advances in Computing, Communication Control and Networking[C]. Greater Noida: IEEE, 2020.
[21] Lu H C, Chang T S. Meteorologically adjusted trends of daily maximum ozone concentrations in Taipei, Taiwan[J]. Atmospheric Environment, 2005, 39(35): 6491-6501. DOI:10.1016/j.atmosenv.2005.06.007
[22] Rao S T, Zurbenko I G. Detecting and tracking changes in ozone air quality[J]. Air & Waste, 1994, 44(9): 1089-1092.
[23] 秦人洁, 张洁琼, 王雅倩, 等. 基于KZ滤波法的河北省PM2.5和O3浓度不同时间尺度分析研究[J]. 环境科学学报, 2019, 39(3): 821-831.
Qin R J, Zhang J Q, Wang Y Q, et al. Study on different time scales of PM2.5 and O3 concentrations in Hebei province based on KZ filter[J]. Acta Scientiae Circumstantiae, 2019, 39(3): 821-831.
[24] Tao Q, Liu F, Li Y, et al. Air pollution forecasting using a deep learning model based on 1D convnets and bidirectional GRU[J]. IEEE Access, 2019, 7: 76690-76698. DOI:10.1109/ACCESS.2019.2921578
[25] Kuebler J, van den Bergh H, Russell A G. Long-term trends of primary and secondary pollutant concentrations in Switzerland and their response to emission controls and economic changes[J]. Atmospheric Environment, 2001, 35(8): 1351-1363. DOI:10.1016/S1352-2310(00)00401-5
[26] Papanastasiou D K, Melas D, Bartzanas T, et al. Estimation of ozone trend in central Greece, based on meteorologically adjusted time series[J]. Environmental Modeling & Assessment, 2012, 17(4): 353-361.
[27] Peng H C, Long F H, Ding C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8): 1226-1238. DOI:10.1109/TPAMI.2005.159
[28] 李扬, 顾雪平. 基于改进最大相关最小冗余判据的暂态稳定评估特征选择[J]. 中国电机工程学报, 2013, 33(34): 179-186.
Li Y, Gu X P. Feature selection for transient stability assessment based on improved maximal relevance and minimal redundancy criterion[J]. Proceedings of the CSEE, 2013, 33(34): 179-186.
[29] 谈建国, 陆国良, 耿福海, 等. 上海夏季近地面臭氧浓度及其相关气象因子的分析和预报[J]. 热带气象学报, 2007, 23(5): 515-520.
Tan J G, Lu G L, Geng F H, et al. Analysis and prediction of surface O3 concentration and related meteorological factors in summertime in urban area of Shanghai[J]. Journal of Tropical Meteorology, 2007, 23(5): 515-520. DOI:10.3969/j.issn.1004-4965.2007.05.014
[30] 张小娟, 李莉, 王红丽, 等. 2010—2016年上海城区臭氧长时间序列变化特征初探[J]. 环境科学学报, 2019, 39(1): 86-94.
Zhang X J, Li L, Wang H L, et al. Preliminary study on the long-term trends of ozone in urban Shanghai from 2010 to 2016[J]. Acta Scientiae Circumstantiae, 2019, 39(1): 86-94.
[31] 易睿, 王亚林, 张殷俊, 等. 长江三角洲地区城市臭氧污染特征与影响因素分析[J]. 环境科学学报, 2015, 35(8): 2370-2377.
Yi R, Wang Y L, Zhang Y J, et al. Pollution characteristics and influence factors of ozone in Yangtze River Delta[J]. Acta Scientiae Circumstantiae, 2015, 35(8): 2370-2377.
[32] 金丹. 2016~2020年上海臭氧高发季光化学污染特征及敏感性分析[J]. 环境科学, 2024, 45(7): 3779-3807.
Jin D. Analysis of characteristics and sensitivity of photochemical pollution during high ozone season in Shanghai from 2016 to 2020[J]. Environmental Science, 2024, 45(7): 3779-3807.
[33] Demuzere M, van Lipzig N P M. A new method to estimate air-quality levels using a synoptic-regression approach. Part Ⅰ: present-day O3 and PM10 analysis[J]. Atmospheric Environment, 2010, 44(10): 1341-1355. DOI:10.1016/j.atmosenv.2009.06.029
[34] Shin H J, Cho K M, Han J S, et al. The effects of precursor emission and background concentration changes on the surface ozone concentration over Korea[J]. Aerosol and Air Quality Research, 2012, 12(1): 93-103. DOI:10.4209/aaqr.2011.09.0141
[35] Qin S S, Liu F, Wang J Z, et al. Analysis and forecasting of the particulate matter (PM) concentration levels over four major cities of China using hybrid models[J]. Atmospheric Environment, 2014, 98: 665-675. DOI:10.1016/j.atmosenv.2014.09.046
[36] Jia Z Y, Ma J W, Wang F J, et al. Characteristics forecasting of hydraulic valve based on grey correlation and ANFIS[J]. Expert Systems with Applications, 2010, 37(2): 1250-1255. DOI:10.1016/j.eswa.2009.06.003
[37] 苏筱倩, 安俊琳, 张玉欣. 基于支持向量机回归和小波变换的O3预报方法[J]. 中国环境科学, 2019, 39(9): 3719-3726.
Su X Q, An J L, Zhang Y X. Support vector machine regression forecasting of O3 concentrations based on wavelet transformation[J]. China Environmental Science, 2019, 39(9): 3719-3726. DOI:10.3969/j.issn.1000-6923.2019.09.015
[38] Wu L X, Zhang Q J, Li J, et al. Hybrid machine learning model for hourly ozone concentrations prediction and exposure risk assessment[J]. Atmospheric Pollution Research, 2023, 14(11). DOI:10.1016/j.apr.2023.101916
[39] Yuan X H, Chen C, Lei X H, et al. Monthly runoff forecasting based on LSTM-ALO model[J]. Stochastic Environmental Research and Risk Assessment, 2018, 32(8): 2199-2212. DOI:10.1007/s00477-018-1560-y
[40] Botlaguduru V S V, Kommalapati R R, Huque Z. Long-term meteorologically independent trend analysis of ozone air quality at an urban site in the greater Houston area[J]. Journal of the Air & Waste Management Association, 2018, 68(10): 1051-1064.
[41] 何礼, 束炯, 钟方潜, 等. 上海海陆风特征及其对臭氧浓度的影响[J]. 环境监测管理与技术, 2019, 31(3): 17-21.
He L, Shu J, Zhong F Q, et al. Characteristics of sea-land breeze and its impact on ozone concentrations in Shanghai[J]. The Administration and Technique of Environmental Monitoring, 2019, 31(3): 17-21. DOI:10.3969/j.issn.1006-2009.2019.03.005
[42] 耿福海, 刘琼, 陈勇航. 近地面臭氧研究进展[J]. 沙漠与绿洲气象, 2012, 6(6): 8-14.
Geng F H, Liu Q, Chen Y H. Discussion on the research of surface ozone[J]. Desert and Oasis Meteorology, 2012, 6(6): 8-14. DOI:10.3969/j.issn.1002-0799.2012.06.003
[43] 赵伟, 高博, 刘明, 等. 气象因素对香港地区臭氧污染的影响[J]. 环境科学, 2019, 40(1): 55-66.
Zhao W, Gao B, Liu M, et al. Impact of meteorological factors on the ozone pollution in Hong Kong[J]. Environmental Science, 2019, 40(1): 55-66.
[44] Camalier L, Cox W, Dolwick P. The effects of meteorology on ozone in urban areas and their use in assessing ozone trends[J]. Atmospheric Environment, 2007, 41(33): 7127-7137. DOI:10.1016/j.atmosenv.2007.04.061
[45] GB 3095-2012, 环境空气质量标准[S].
[46] Yu Y J, Wang Z, He T, et al. Driving factors of the significant increase in surface ozone in the Yangtze River Delta, China, during 2013-2017[J]. Atmospheric Pollution Research, 2019, 10(4): 1357-1364. DOI:10.1016/j.apr.2019.03.010
[47] Xue J, Wang F T, Zhang K, et al. Elucidate long-term changes of ozone in Shanghai based on an integrated machine learning method[J]. Frontiers of Environmental Science & Engineering, 2023, 17(11). DOI:10.1007/s11783-023-1738-5