环境科学  2024, Vol. 45 Issue (5): 2507-2515   PDF    
基于随机森林模型的四川盆地臭氧污染预测
杨晓彤1, 康平2, 王安怡2, 臧增亮1, 刘浪1     
1. 国防科技大学气象海洋学院, 中国气象局高影响天气重点开放实验室, 长沙 410000;
2. 成都信息工程大学大气科学学院, 高原大气与环境四川省重点实验室, 成都 610225
摘要: 为研究四川盆地臭氧(O3)污染长期变化, 使用四川盆地18个城市的地面O3浓度数据和气象观测数据, 首先分析了2017~2020年间四川盆地O3浓度的时空分布特征, 再利用随机森林模型, 筛选出影响O3浓度变化的主导气象因子, 构建了气象因子和O3浓度之间的统计预测模型, 并对2020年四川盆地城市群的O3污染状况进行预测分析. 结果表明:①2017~2020年间O3浓度呈现波动变化趋势, 2019年出现一个低值, 2020年O3浓度又有所回升. ②气象影响因子中相对湿度、日最高温度和日照时数对O3浓度变化具有重要意义, 而风速、气压和降水量的重要性较低;同时, 气象因子之间也存在着不同的线性关系, 气压与其他气象要素呈现负相关性, 而剩余气象要素之间正相关关系较为明显. ③基于随机森林构建的O3预测模型的拟合优度(R2)较高, 展示出较好的预测性能, 能够较好地预测O3浓度的长时间逐日变化, 具有良好的稳定性和泛化能力. ④通过对四川盆地18城市的O3浓度变化进行预测分析, 结果表明除雅安外, 所有城市预测模型的变量解释率均达到80%以上, 说明随机森林模型能够较为准确地预测O3浓度的变化趋势.
关键词: 随机森林      臭氧污染      预测      四川盆地      气象因子     
Prediction of Ozone Pollution in Sichuan Basin Based on Random Forest Model
YANG Xiao-tong1 , KANG Ping2 , WANG An-yi2 , ZANG Zeng-liang1 , LIU Lang1     
1. High Impact Weather Key Laboratory of China Meteorological Administration, College of Meteorology and Oceanography, National University of Defense Technology, Changsha 410000, China;
2. Plateau Atmosphere and Environment Key Laboratory of Sichuan Province, School of Atmospheric Sciences, Chengdu University of Information Technology, Chengdu 610225, China
Abstract: To study the long-term variation in ozone (O3) pollution in Sichuan Basin, the spatiaotemporal distribution of O3 concentrations during 2017 to 2020 was analyzed using ground-level O3 concentration data and meteorological observation data from 18 cities in the basin. The dominant meteorological factors affecting the variation in O3 concentration were screened out, and a prediction model between meteorological factors and O3 concentration was constructed based on a random forest model. Finally, a prediction analysis of O3 pollution in the Sichuan Basin urban agglomeration during 2020 was carried out. The results showed that: ① O3 concentrations displayed a fluctuating trend during the period from 2017 to 2020, with a downward trend in 2019 and a rebound in 2020. ② The fluctuating trend of O3 concentration was significantly influenced by relative humidity, daily maximum temperature, and sunshine hours, whereas wind speed, air pressure, and precipitation had less impact. The linear relationships between meteorological factors were different. Air pressure was negatively correlated with other meteorological factors, whereas the remaining meteorological factors had a positive correlation. ③ The goodness of fit statistics (R2) between the predicted and actual values of the O3 prediction model constructed based on random forest demonstrated a strong predictive performance and ability to accurately forecast the long-term daily variations in O3 concentration. The random forest O3 prediction model exhibited excellent stability and generalization capability. ④ The prediction analysis of O3 concentrations in 18 cities in the basin showed that the explanation rate of variables in the prediction model reached over 80% in all cities (except Ya'an), indicating that the random forest model predicted the trend of O3 concentration accurately.
Key words: random forest      ozone pollution      prediction      Sichuan Basin      meteorological factors     

国控大气环境质量监测网的监测结果显示, 我国臭氧(O3)污染状况日趋严重[1], O3浓度和超标天数均出现显著增长, 成为了继细颗粒物(PM2.5)之后困扰城市污染治理和环境空气质量改善的重要二次污染物[2 ~ 4]. 根据《四川省生态环境状况公报》 2017~2020年间O3污染数据显示, 四川盆地地区O3日最大8 h滑动平均值(O3浓度)第90分位数呈现波动的变化趋势, 由2017年的140.5 µg·m-3增加至2018年的144.4 µg·m-3, 随后2019年降至134.1 µg·m-3, 2020年有所回升. 2017~2020年, 四川盆地的空气质量正在逐渐改善, 说明近年来, 政府积极推行的大气污染防治政策和措施已取得了初步成效. 然而, O3仍然是仅次于PM2.5的主要污染物, O3污染的防控任务仍然十分重要和艰巨.

近年来, 随机森林、神经网络和支持向量机等机器学习方法[5 ~ 7]在大气污染预测领域得到了广泛的应用和认可. Silibello等[8]开发了一种综合方法, 将化学传输模型(chemical transport model, CTM)与机器学习(machine learning, ML)方法相结合, 实现了性能改进, 确认了ML方法在高时空分辨率下能够准确预测空气污染物浓度水平的潜力. Weng等[9]分析了2015~2019年中国多地O3浓度的增加, 并使用数据驱动的ML算法评估了气象对这一变化的影响, 结果表明, ML算法在预测O3浓度方面优于线性回归方法, 并强调了非线性关系的重要性. Balamurugan等[10]研究探索了ML算法在模拟地表O3浓度方面的潜力, 并强调了考虑O3前体物信息的重要性. 结果显示, ML算法可以有效解释德国慕尼黑以及其他城市的O3变异性. 近地层O3浓度的增加并不单一受人为源排放增加的影响, 也可能取决于气象条件的变化[11 ~ 15], 而随机森林模型具有一些优于其他统计模型的优点[16], 可以很好地解决气象因子非线性影响的拟合:①包括不同变量之间的交互作用, 可以有效地处理具有大量特征的数据集;②通过引入双重随机性(即训练样本随机和分组变量随机), 提高了抗过拟合的能力;③对缺失值、异常值有较强的稳定性, 通过平均所有回归树的结果, 有效降低异常值的影响;④构建模型的所需参数需求相对较少;⑤模型构建的过程中自然包含了对模型的交叉验证[17 ~ 19].

四川盆地位于青藏高原东部, 海拔落差超过4 000 m. 该盆地北部毗邻大巴山和秦岭山脉, 南部受云贵高原的影响, 东部有巫山等, 呈现出典型的深盆地貌, 盆地内部容易形成静小风[20]、高湿度[21]和多层逆温[22]等气象条件. 高原-深盆的地形特征通过降低风速、增加对流层低层的空气温度以及降低盆地内的边界层高度等方式, 导致大气污染物扩散能力弱的同时, 还有利于二次污染物的生成和转化[23], 使污染物产生持续性危害. 除去四川盆地本身的地理位置[24], 气象条件[25], 地形地貌和环流背景等因素外, 近地面O3浓度的变化还与城市化发展迅速[12], 氮氧化物(NOx)和挥发性有机物(VOCs)等前体物人为源排放量增加有关[26, 27]. 四川盆地作为西南地区最重要的城市群区域以及全国经济重要的组成部分, 近年来经济发展迅速、城市化进程加快, 研究盆地城市群O3污染现状以及O3浓度的长短期变化, 不仅有助于科学地认识和理解人类活动与气象因子对大气环境质量的影响及其内部联系[28], 而且对川渝地区的环境规划、城市建设、污染防控及公共卫生事业均有重要的实际应用价值[29]. 基于此, 本文基于随机森林建模对四川盆地近地面O3浓度的变化趋势进行预测研究.

1 材料与方法 1.1 资料概况

本研究的O3浓度数据来自全国城市空气质量实时发布平台(http://106.37.208.233:20035/), 主要包括四川盆地18个城市(巴中、成都、达州、德阳、广安、广元、乐山、泸州、眉山、绵阳、南充、内江、遂宁、雅安、宜宾、重庆、资阳和自贡)国控环境监测站点的O3逐时浓度监测数据, 数据起止时间为2017-01~2020-12(共4 a). 气象观测数据来自中国气象数据共享网的地面气象站逐时观测资料(V3数据集), 数据包括气压、气温、相对湿度、日照时数、降水量等气象要素观测资料(http://cdc.cma.gov.cn).

为了保证研究结果的准确性, 严格参照《环境空气质量标准》(GB3095-2012), 对站点原始数据进行质量控制, 剔除原始数据中O3逐时浓度缺测值以及异常值, 最终筛选出四川盆地18城市的96个国控环境监测站点数据(有效数据共205 489条, 数据缺失率0.12%).

1.2 研究方法

随机森林是树预测器的组合, 因此每棵树都取决于对原始数据进行独立随机向量采样, 且具有相同的分布(Bagging算法). 随机森林算法基于残差平方和(RSS)对每一个自变量选择一个最佳节点, 使得自变量数据在这一节点分开时, 得到的两部分数据的残差最小. 随机森林建模过程中所使用的训练数据集为2017~2019年的O3日最大8 h滑动平均值(O3浓度)逐日数据, 模型预测评估使用的验证数据集为2020年O3浓度逐日数据, 建模流程如图 1所示.

图 1 随机森林建模流程 Fig. 1 Random forest modelling process

(1)数据预处理, 剔除缺失值以及明显异常值, 得到训练数据集D.

(2)对训练数据集D进行Bootstrap重采样, 得到样本子集D*, 样本子集的样本数和训练数据集相同;将训练数据集中未被抽取到的部分定义为D*的OOB数据(袋外数据), 即数据集O*.

(3)根据样本子集D*构建一个子回归树.

(4)重复上述(2)~(3)过程, 构建n棵子回归树, 分别为:D1*, D2*, D3*, …, Dn*;同时得到n个OOB数据集, 分别为:O1*, O2*, O3*, …, On*, 根据OOB误差确定参数ntree.

(5)将ntree代入模型, 遍历mtry取值, (mtry = 1, 2, …, F), 得到模型各节点均方误差(MSE), 取最小MSE对应的mtry作为最优参数.

(6)此时得到确定参数的最终模型, 重复(2)~(5)过程, 最后对n棵子回归树的结果取平均, 得到随机森林模型的最终结果.

2 结果与讨论 2.1 四川盆地臭氧污染的时空变化特征

本研究基于反距离加权插值法(inverse distance weight, IDW)对四川盆地城市群站点O3浓度进行空间插值, 由此探讨2017~2020年间盆地O3浓度的空间分布随时间变化的特征.

图 2可见, O3浓度高值区主要集中在成都、资阳、遂宁和德阳一带, ρ(O3)年均值> 90 µg·m-3, 并且随着时间推移, 高值区有逐渐向南扩展的趋势. 一方面成都及其周边城市处于盆地腹地, 受到封闭地形及静小风天气的影响, 污染物的扩散被抑制. 且O3浓度高值区所对应的地形呈现出西北高东南低, 日间可能会出现由周围地区汇入本地的谷风, 使得O3污染加剧[30]. 另一方面, 成都作为西南经济发展中心, 人口稠密, 据统计, 截至2023年3月底, 成都市汽车保有量614.54万辆, 其中, 国三及以下排放标准汽车36.47万辆(占比5.93%), 民用汽车拥有量较高, 人为排放的NOx和VOCs浓度相比盆地其他城市较高[31].

图 2 2017~2020年四川盆地O3年均浓度空间分布 Fig. 2 Spatial distribution of O3 annual average concentration in the Sichuan Basin from 2017 to 2020

O3浓度低值区则主要集中在重庆北部、巴中、达州一带, ρ(O3)年均值< 75 µg·m-3. 总体来看, O3浓度低值区范围逐渐扩大, 根据2019年《四川省生态环境状况公报》显示O3浓度在2019年有所下降, 这可能与政府部门加强工业排放管控措施有关. 四川盆地东北部(巴中、达州)及重庆地区的地形较为复杂, 气流运动较成都平原地区更丰富, 对于污染物的扩散作用更明显. 而且该区域的工业排放量相对较小, O3污染的人为来源贡献较小[32, 33]. 2020年3月疫情防控期间, 前体物排放显著减少[34], 但重庆市主城区O3浓度同比2019年3月升高8.81 µg·m-3, 气象和排放贡献分别为60.16%和39.84%, 可见在四川盆地大气污染防治措施稳步推进, 前体物排放源相对稳定/甚至减少的情况下, 气象贡献相比人为排放贡献占据主导地位[35].

2.2 随机森林模型的构建——以成都为例 2.2.1 模型参数选择

参数取不同数值时, 模型的预测准确度会受到相应的影响, 为了得到更好的预测结果, 本文对参数取值进行探讨. 随机森林模型的泛化误差会随ntree的增加而逐步收敛并趋于0, 当ntree足够大时, 可保证模型计算时的稳定性, 但是当ntree设置过大, 会导致计算繁琐, 效率降低. 首先, 基于原始数据构建一个完整的随机森林模型, 设置ntree = 1 000, 其余参数为默认值, 结果显示, OOB误差随ntree的增加显著降低, 当ntree = 800时, 误差趋于稳定.

由于mtry的选择影响模型效果, 因此利用模型参数MSE和R2来筛选mtry的值, 令ntree = 800, mtry从1开始遍历, 统计每个mtryii = 1, 2, …, 11)值下的模型均方误差(MSE)和R2. 为了降低不同模型对参数的影响, 利用原始数据重复训练10次, 取所有完整随机森林模型参数的平均值. 经验证, mtry = 8时模型MSE取得最小值(268.90), R2稳定取得最大值(0.87).

2.2.2 变量相关性分析和重要性评估

日照时数、气温、相对湿度、气压、风速和降水量都与O3浓度存在相关性, 并且它们之间的关系具有非线性特征. 在本研究中, 气象因子和O3浓度之间的相关性结果如图 3所示, 日最高温度对O3浓度的影响最为显著. 然而, 需要进一步研究这些气象因子之间的复杂相互作用, 深入理解O3污染的形成机制, 为提供准确的预测建模因子选取提供理论支持.

1.平均气压, 2.平均温度, 3.日最高温度, 4.日最低温度, 5.相对湿度, 6.平均风速, 7.最大风速, 8.极大风速, 9.日照时数, 10.X20时降水(表示当日20:00至次日20:00时段内的降水量), 11.X08时降水(表示当日08:00至次日08:00时段内的降水量), 12.O3浓度;数值范围在-1~1之间, 其中-1表示完全负相关, 1表示完全正相关, 而0则表示没有线性关系;圆的面积表示相关系数绝对值的大小, 颜色深浅表示相关性强弱 图 3 气象因子和臭氧浓度的相关性分析 Fig. 3 Correlation analysis between meteorological factors and ozone concentration

(1)单个气象要素对O3浓度的影响    日照时数直接反映太阳辐射的强弱, 而太阳辐射是影响O3浓度的主要因素. 较长的日照时数能促使NOx光解产生O3, 并加热大气, 促进与O3相关的热化学反应进行[36, 37];平均气温对O3浓度具有重要影响, 较高的平均气温通常伴随强太阳辐射, 这能加快光化学反应速率, 生成更多的O3[38];相对湿度对O3浓度的影响较为复杂, 高相对湿度不利于O3的生成, 可能是由于太阳辐射因消光机制而发生衰减、植物打开气孔有利于O3的干沉降, 以及水汽与自由基参与O3分解反应等原因[39];气压对O3浓度也有一定的影响, 在四川盆地, 低气压条件下, O3易累积升高;高气压条件下, O3易向四周扩散;风速对O3浓度的影响较为复杂. 较小风速条件下, O3浓度随风速增大而升高, 而较大风速条件下, O3浓度随风速增大而减小[40].

(2)气象要素之间的线性关系    相关性系数是用来衡量两个变量之间线性关系的强度和方向的统计量. 结合图 3中所显示的相关性系数, 可以看出, 平均气压与其他气象要素的线性关系为负相关, 相对湿度、日最低温度和降水量之间呈现出较弱的正相关性, 同时相对湿度和其余气象要素之间均呈现出负相关性.

变量重要性是在随机森林模型中选择变量的重要依据[41, 42]. 本文采用相关气象数据作为预选影响因子, 再根据变量重要性剔除相关性弱的冗余变量, 得到精简的预测模型, 提高模型运行的效率.

通过综合考量基于模型均方误差的重要性(%IncMSE)和基于节点区分纯度的重要性(IncNodePurity)两种评估指标, 以成都市为例, 对预选影响因子进行了重要性评估. 如图 4所示, 红色虚线表示评估指标的中间值位置, 这两种指标的中间值主要集中在左下角, 这意味着影响因子越靠右上方, 其重要性越高. 即相对湿度、日照时数和日最高温度与其他气象因子相比, 其重要程度明显更高. 可以得出以下结论:成都市O3浓度的变化对日最高温度、相对湿度和日照时数较为敏感. 可能的原因是日照时数越长, 太阳辐射越强, 导致温度升高, 而温度上升会促使光化学反应的发生, 从而对O3浓度产生影响.

%IncMSE(increase in mean squared error):基于模型均方误差的重要性, 通过计算每个特征在决策树上所有节点上的均方误差来评估每个特征的重要性, IncNodePurity(increase in node purity):基于节点区分纯度的重要性, 通过计算每个特征在决策树上所有节点上的节点不纯度来评估每个特征的重要性 图 4 气象因子的重要性评估 Fig. 4 Importance assessment of meteorological factors

2.2.3 影响因子显著性分析和选取

根据影响因子重要性评估, 可知预测变量的可靠程度. 但是对于目前模型中的影响因子的显著性没有给出明确的解释, 基于%IncMSE的显著性分析(图 5), 气象因子对O3浓度的影响重要性排序显示, O3浓度的变化和相对湿度、日照时数和日最高温度有着明显的相互作用. 其中, 日最低温度、X08时降水(表示当日08:00至次日08:00时段内的降水量)和X20时降水(表示当日20:00至次日20:00时段内的降水量)的显著性水平较低(P >0.01), 为了提高建模因子的显著性水平, 提高模型预测的准确性, 后续的随机森林建模中, 日最低温度、X08时降水和X20时降水将不再作为影响因子参与到模型构建中.

白色菱形标记的气象因子表示为该气象因子通过显著性检验(P < 0.01) 图 5 气象因子显著性检验 Fig. 5 Significance test of meteorological factors

2.3 随机森林模型的验证

以成都为例构建的随机森林O3预测模型评估结果显示, 模型平均相对误差(MRE)= 0.22, 均方误差(MSE)= 234.60, 平均绝对误差(MAE)= 13.50, 拟合优度(R2)= 0.87, 其中MRE接近0, R2趋近于1都说明模型具有良好的预测性能和泛化能力.

2.3.1 模型分析

拟合度分析是对现有预测模型进行分析, 本研究采用线性回归检验[图 6(a)], 将原始数据代入模型可以得到模型的拟合值, 比较拟合结果和实际观测值之间的吻合程度, 从图中可以看出, 预测值与实际值之间存在着较为紧密的线性关系. 数据点大部分集中在回归线附近, 表明预测值和实际值之间的拟合效果较好. 此外, 回归线的斜率接近于1, 说明预测值和实际值之间的比例关系较为准确. 但是, 也存在少量离群点, 这可能是由于未考虑所有气象因子影响因素或者数据的随机误差引起的.

图 6 随机森林模型拟合度分析 Fig. 6 Random forest model fit analysis

残差图可以用来估计模型残差与随机误差是否一致. 图 6(b)为模型预测残差的密度(density plot), 横轴表示残差的数值大小, 纵轴则表示相应残差的密度, 密度的高低能够反映出残差所占比例的大小, 并且可以直观地观察到残差的分布情况, 对模型的拟合效果进行初步判断. 图 6(b)的结果显示, 模型的残差分布呈现出单峰和钟形曲线的形态, 符合正态分布.

2.3.2 模型预测能力评估

为评估随机森林O3模型的预测能力, 同样以成都为例, 以2017~2019年的O3浓度逐日数据用作训练集, 通过模型筛选出的8个影响因子(相对湿度、日照时数、日最高温度、平均气压、极大风速、风速、平均温度和最大风速)对2020年逐日O3浓度进行预测, 得到预测值和观测值对比(图 7). 2020年成都市ρ(O3)观测平均值为101.97 µg·m-3, 预测平均值为103.58 µg·m-3, ρ(O3)在50~150 µg·m-3范围内时, 随机森林模型的预测值和实际值的拟合优度较高, 展示出较好的预测性能, 能够较好地预测成都地区O3浓度的长时间逐日变化. 但是在150~250 µg·m-3和0~50 µg·m-3范围内, 对于极大值和极小值的捕捉能力不足, 模型在极值模拟上仍存在改进空间.

图 7 2020年成都市O3浓度逐日预测值与观测值对比 Fig. 7 Comparison of daily predicted and observed O3 concentrations in Chengdu during 2020

进一步应用压轴回归法(reduced major axis regression, RMA)对模型预测性能进行定量化评估检验. RMA检验综合考虑了预测变量和解释变量之间的拟合关系, 相较于传统的最小二乘法回归分析具有更高的可靠性. RMA的优化原则是将数据点到回归曲线之间所构成的三角形面积最小化, 这使得RMA具有更加直观的几何意义. 如图 8所示, RMA散点图中的数据点均匀地分布在虚线的两侧, 这说明由随机森林模型预测的O3浓度变化与实际观测值之间的偏差较小, 随机森林模型能够很好地解释O3浓度的变化, 并且模型的预测效果较好. 随机森林模型在预测O3浓度方面表现良好, 并且与实际观测值之间的误差较小, 为进一步的研究提供了有力支持.

图 8 2020年成都市O3浓度预测压轴回归检验结果 Fig. 8 Results of the RMA test for predicted O3 concentrations in Chengdu during 2020

2.4 四川盆地18城市臭氧污染的主导气象因子及预测模型对比 2.4.1 四川盆地18城市臭氧污染的主导气象因子

参照对成都市随机森林模型的构建方法, 对四川盆地其余17个城市进行建模分析, 可以得到各个气象因子对不同城市随机森林模型的影响. 图 9中显示出不同城市各个气象要素的重要性评估(基于%IncMSE评分), 范围在0~100之间.

1. X08时降水, 2. X20时降水, 3.风速, 4.极大风速, 5.平均气压, 6.平均温度, 7.日照时数, 8.日最低温度, 9.日最高温度, 10.相对湿度, 11.最大风速;色柱为基于%IncMSE的重要性评分 图 9 四川盆地18城市气象因子重要性评估 Fig. 9 Assessment of the importance of meteorological factors in 18 cities in the Sichuan Basin

由于各个城市的气象条件, 地理位置, 环流背景存在差异, 影响O3浓度的主导气象因子也会有所不同. 整体来看, 相对湿度、日照时数和日最高温度是影响O3浓度变化的3个最主要的气象因素, 在18个城市中, 有12个城市的主导气象因子为相对湿度, 日照时数, 日最高温度. 有7个城市的相对湿度重要性评分>70, 11个城市>50;13个城市的日最高温度的重要性评分>50;14个城市的日照时数重要性评分>50. 高温和强辐射的气象场背景条件有利于O3浓度的增加.

结合O3浓度在2017~2020年间的变化情况, 分析O3浓度高值区(成都、德阳、资阳、内江)和O3浓度低值区(重庆、达州、巴中、雅安)之间气象条件的变化差异. 在O3高值区, 除了资阳之外, 剩下的城市同时受到日照时数、日最高温度和相对湿度的影响, 且3个气象因素的重要性相当, 而在资阳主要是受到了相对湿度的影响. 在O3低值区, 4个城市的主要气象影响因子不同, 重庆和达州主要受到日照时数的影响, 巴中主要受到相对湿度的影响, 雅安则主要受到日最高温度的影响, 虽然低值区城市和高值区城市不同, 4个低值城市很明显地表现出气象条件区域性和不连续性的特点, 但低值区城市的主要气象影响因子仍然为三大气象因子, 进一步说明了温度和辐射强度较高时, 有利于O3污染持续加重.

2.4.2 四川盆地18城市臭氧预测模型精度对比分析

根据已经构建的盆地18城市的随机森林模型精度结果可知(表 1), 模型的准确性和泛化能力得到了验证, 除雅安市之外, 其余城市的预测模型拟合优度(R2)均达到80%以上, 证明了针对不同城市, 随机森林模型依然拥有良好的稳定性. 而雅安市作为高原-盆地过渡区城市, 气象条件的变化更为复杂, 这无疑为模型的构建带来了难度, 也可能是模型精度较低的原因之一.

表 1 四川盆地18城市预测模型精度对比 Table 1 Comparison of prediction model accuracy for 18 cities in the Sichuan Basin

3 结论

(1)本研究分析了四川盆地O3浓度的时空分布变化特征, 在2017~2020年期间, O3浓度呈现波动变化趋势, 2017~2018年波动上升, 2019年下降, 2020年又有所回升, O3浓度升高的原因可能与气象因素有关.

(2)O3浓度变化与气象因子之间均呈现非线性关系, 在气象因子影响重要性分析中, 发现日照时数, 日最高温度, 相对湿度对O3浓度的变化影响较大, 而风速、降水量和气压的影响较小.

(3)O3浓度在50~150 µg·m-3范围内时, 随机森林模型的预测值和实际值的拟合优度较高, 展示出较好的预测性能, 能够较好地预测O3浓度的长时间逐日变化. 对于四川盆地18个城市O3浓度的预测, 除了雅安市外, 所有城市的随机森林模型均达到了80%以上的预测精度, 未来还需要进一步优化模型参数选择, 提高模型的时间分辨率, 以得到更为准确的预测结果.

(4)虽然随机森林模型能够很好地预测O3浓度的长时间逐日变化, 但是对于O3浓度变化极值的捕捉能力不足. 这是由于随机森林模型本质上还是需要依靠大量数据进行建模验证, 极值数据样本量的不足会直接影响模型预测精度. 因此为了更好地开展O3浓度预测, 后续研究中一方面可以结合不同模型来提高机制预测能力, 另一方面可以将该方法与传统机制模型结合, 在降低时间成本的基础上, 得到更为精确的预测结果.

参考文献
[1] 刘长焕, 邓雪娇, 朱彬, 等. 近10年中国三大经济区太阳总辐射特征及其与O3、PM2.5的关系[J]. 中国环境科学, 2018, 38(8): 2820-2829.
Liu C H, Deng X J, Zhu B, et al. Characteristics of GSR of China's three major economic regions in the past 10 years and its relationship with O3 and PM2.5 [J]. China Environmental Science, 2018, 38(8): 2820-2829. DOI:10.3969/j.issn.1000-6923.2018.08.004
[2] 雷雨, 欧奕含, 张小玲, 等. 2019年8月世警会期间成都平原臭氧污染及其气象成因分析[J]. 环境科学学报, 2021, 41(3): 747-760.
Lei Y, Ou Y H, Zhang X L, et al. Analysis of ozone pollution and meteorological causes over Chengdu Plain during the world police conference in August 2019[J]. Acta Scientiae Circumstantiae, 2021, 41(3): 747-760.
[3] Wang T, Xue L K, Brimblecombe P, et al. Ozone pollution in China: a review of concentrations, meteorological influences, chemical precursors, and effects[J]. Science of the Total Environment, 2017, 575: 1582-1596. DOI:10.1016/j.scitotenv.2016.10.081
[4] 鲍捷萌, 曹娟, 高锐, 等. 欧洲环境空气臭氧污染防治历程、经验及对我国的启示[J]. 环境科学研究, 2021, 34(4): 890-901.
Bao J M, Cao J, Gao R, et al. Process and experience of ozone pollution prevention and control in Europe and enlightenment to China[J]. Research of Environmental Sciences, 2021, 34(4): 890-901.
[5] Lu H, Xie M, Liu X R, et al. Adjusting prediction of ozone concentration based on CMAQ model and machine learning methods in Sichuan-Chongqing region, China[J]. Atmospheric Pollution Research, 2021, 12(6). DOI:10.1016/j.apr.2021.101066
[6] Cheng Y, He L Y, Huang X F. Development of a high-performance machine learning model to predict ground ozone pollution in typical cities of China[J]. Journal of Environmental Management, 2021, 299. DOI:10.1016/j.jenvman.2021.113670
[7] Ma R M, Ban J, Wang Q, et al. Statistical spatial-temporal modeling of ambient ozone exposure for environmental epidemiology studies: a review[J]. Science of the Total Environment, 2020, 701. DOI:10.1016/j.scitotenv.2019.134463
[8] Silibello C, Carlino G, Stafoggia M, et al. Spatial-temporal prediction of ambient nitrogen dioxide and ozone levels over Italy using a random forest model for population exposure assessment[J]. Air Quality, 2021, 14(6): 817-829.
[9] Weng X, Forster G L, Nowack P. A machine learning approach to quantify meteorological drivers of ozone pollution in China from 2015 to 2019[J]. Atmospheric Chemistry and Physics, 2022, 22(12): 8385-8402. DOI:10.5194/acp-22-8385-2022
[10] Balamurugan V, Balamurugan V, Chen J. Importance of ozone precursors information in modelling urban surface ozone variability using machine learning algorithm[J]. Scientific Reports, 2022, 12(1). DOI:10.1038/s41598-022-09619-6
[11] 符传博, 徐文帅, 丹利, 等. 2015~2020年海南省臭氧时空变化及其成因分析[J]. 环境科学, 2022, 43(2): 675-685.
Fu C B, Xu W S, Dan L, et al. Temporal and spatial variations in ozone and its causes over Hainan Province from 2015 to 2020[J]. Environmental Science, 2022, 43(2): 675-685.
[12] 钱悦, 许彬, 夏玲君, 等. 2016~2019年江西省臭氧污染特征与气象因子影响分析[J]. 环境科学, 2021, 42(5): 2190-2201.
Qian Y, Xu B, Xia L J, et al. Characteristics of ozone pollution and relationships with meteorological factors in Jiangxi Province[J]. Environmental Science, 2021, 42(5): 2190-2201.
[13] 王聪聪, 张小玲, 卢宁生. 2019~2021年四川盆地污染天气客观分型及典型污染个例研究[J]. 中国环境科学, 2023, 43(5): 2182-2197.
Wang C C, Zhang X L, Lu N S. Objective classification of pollution weather and typical pollution cases in Sichuan Basin from 2019 to 2021[J]. China Environmental Science, 2023, 43(5): 2182-2197. DOI:10.3969/j.issn.1000-6923.2023.05.010
[14] 张蕊, 孙雪松, 王裕, 等. 北京市城区夏季大气VOCs变化特征及臭氧生成潜势[J]. 环境科学, 2023, 44(4): 1954-1961.
Zhang R, Sun X S, Wang Y, et al. Variation characteristics and ozone formation potential of ambient VOCs in urban Beijing in summer[J]. Environmental Science, 2023, 44(4): 1954-1961.
[15] 齐艳杰, 于世杰, 杨健, 等. 河南省臭氧污染特征与气象因子影响分析[J]. 环境科学, 2020, 41(2): 587-599.
Qi Y J, Yu S J, Yang J, et al. Analysis of characteristics and meteorological influence factors of ozone pollution in Henan Province[J]. Environmental Science, 2020, 41(2): 587-599.
[16] 马润美, 张亚一, 班婕, 等. 基于随机森林模型的京津冀地区近地面臭氧站点浓度预测[J]. 环境与健康杂志, 2019, 36(11): 954-957.
Ma R M, Zhang Y Y, Ban J, et al. Prediction of ground ambient ozone site concentration in Beijing-Tianjin-Hebei region based on random forest model[J]. Journal of Environment and Health, 2019, 36(11): 954-957.
[17] Jing X, Luo J G, Wang J M, et al. A multi-imputation method to deal with hydro-meteorological missing values by integrating chain equations and random forest[J]. Water Resources Management, 2022, 36(4): 1159-1173. DOI:10.1007/s11269-021-03037-5
[18] Jacob D J, Logan J A, Gardner G M, et al. Factors regulating ozone over the United States and its export to the global atmosphere[J]. Journal of Geophysical Research: Atmospheres, 1993, 98(D8): 14817-14826. DOI:10.1029/98JD01224
[19] Zhao J, Yuan L J, Sun K, et al. Forecasting fine particulate matter concentrations by in-depth learning model according to random forest and bilateral long- and short-term memory neural networks[J]. Sustainability, 2022, 14(15). DOI:10.3390/su14159430
[20] 郭晓梅. 四川盆地空气质量气候特征及其大地形影响效应的观测模拟研究[D]. 南京: 南京信息工程大学, 2016.
[21] 张晓, 张艳品, 钤伟妙. 石家庄市主城区臭氧污染特征及气象成因分析[J]. 环境科学研究, 2021, 34(2): 245-253.
Zhang X, Zhang Y P, Qian W M. Characteristics of ozone pollution and its meteorological factors in Shijiazhuang urban area[J]. Research of Environmental Sciences, 2021, 34(2): 245-253.
[22] 栗泽苑, 杨雷峰, 华道柱, 等. 2013-2018年中国近地面臭氧浓度空间分布特征及其与气象因子的关系[J]. 环境科学研究, 2021, 34(9): 2094-2104.
Li Z Y, Yang L F, Hua D Z, et al. Spatial pattern of surface ozone and its relationship with meteorological variables in China during 2013-2018[J]. Research of Environmental Sciences, 2021, 34(9): 2094-2104.
[23] 尹晓梅, 蒲维维, 王继康, 等. 北京地区2019年2~3月供暖结束前后两次污染过程特征分析[J]. 环境科学, 2021, 42(5): 2110-2120.
Yin X M, Pu W W, Wang J K, et al. Characteristics of two pollution episodes before and after city heating in Beijing from February to March of 2019[J]. Environmental Science, 2021, 42(5): 2110-2120.
[24] 杨景朝, 赵晓莉, 陶勇, 等. 2016-2019年夏半年成都市区臭氧污染天气特征分析[J]. 环境科学研究, 2021, 34(2): 254-262.
Yang J C, Zhao X L, Tao Y, et al. Characteristics of ozone weather in Chengdu during summer of 2016-2019[J]. Research of Environmental Sciences, 2021, 34(2): 254-262.
[25] 史之浩. 气象条件对中国地区细颗粒物和臭氧污染影响的模拟研究[D]. 南京: 南京信息工程大学, 2022.
[26] 张明棣, 云龙, 李成柳, 等. 基于观测模型量化VOCs对深圳市城区臭氧生成的影响[J]. 环境科学研究, 2021, 34(11): 2599-2608.
Zhang M D, Yun L, Li C L, et al. Quantifying impacts of VOCs on ozone formation in urban area of Shenzhen based on observation-based model[J]. Research of Environmental Sciences, 2021, 34(11): 2599-2608.
[27] 曹小聪, 吴晓晨, 徐文帅, 等. 三亚市大气VOCs污染特征、臭氧生成潜势及来源解析[J]. 环境科学研究, 2021, 34(8): 1812-1824.
Cao X C, Wu X C, Xu W S, et al. Pollution characterization, ozone formation potential and source apportionment of ambient VOCs in Sanya, China[J]. Research of Environmental Sciences, 2021, 34(8): 1812-1824.
[28] 方韬. 基于神经网络的近地面臭氧估算和预测研究[D]. 上海: 上海师范大学, 2020.
[29] 陈俏, 曹根牛, 陈柳. 支持向量机应用于大气污染物浓度预测[J]. 计算机技术与发展, 2010, 20(1): 250-252.
Chen Q, Cao G N, Chen L. Application of support vector machine to atmospheric pollution prediction[J]. Computer Technology and Development, 2010, 20(1): 250-252. DOI:10.3969/j.issn.1673-629X.2010.01.065
[30] 张天岳, 沈楠驰, 赵雪, 等. 2015-2019年成渝城市群臭氧浓度时空变化特征及人口暴露风险评价[J]. 环境科学学报, 2021, 41(10): 4188-4199.
Zhang T Y, Shen N C, Zhao X, et al. Spatiotemporal variation characteristics of ozone and its population exposure risk assessment in Chengdu-Chongqing urban agglomeration during 2015 to 2019[J]. Acta Scientiae Circumstantiae, 2021, 41(10): 4188-4199.
[31] 吴锴, 康平, 王占山, 等. 成都市臭氧污染特征及气象成因研究[J]. 环境科学学报, 2017, 37(11): 4241-4252.
Wu K, Kang P, Wang Z S, et al. Ozone temporal variation and its meteorological factors over Chengdu City[J]. Acta Scientiae Circumstantiae, 2017, 37(11): 4241-4252.
[32] 赵天良, 舒卓智, 郑小波, 等. 四川盆地大气气溶胶污染时空变化的地形影响研究进展[J]. 高原山地气象研究, 2022, 42(4): 1-8.
Zhao T L, Shu Z Z, Zheng X B, et al. Research progress on terrain effects of temporal and spatial variation of atmospheric aerosol pollution in Sichuan Basin[J]. Plateau and Mountain Meteorology Research, 2022, 42(4): 1-8.
[33] 危诗敏, 冯鑫媛, 王式功, 等. 四川盆地多层逆温特征及其对大气污染的影响[J]. 中国环境科学, 2021, 41(3): 1005-1013.
Wei S M, Feng X Y, Wang S G, et al. Characteristics of multi-layer inversions in Sichuan Basin and their influences on air pollution[J]. China Environmental Science, 2021, 41(3): 1005-1013. DOI:10.3969/j.issn.1000-6923.2021.03.002
[34] 旷雅琼, 邹忠, 张秀英, 等. 长三角地区大气污染物对新冠肺炎封城的时空响应特征[J]. 环境科学学报, 2021, 41(4): 1165-1172.
Kuang Y Q, Zou Z, Zhang X Y, et al. Spatial-temporal responses of atmospheric pollutants to the COVID-19 lockdown across the Yangtze River Delta region[J]. Acta Scientiae Circumstantiae, 2021, 41(4): 1165-1172.
[35] 黄鉴涛, 刘婧懿, 徐家炜, 等. 新冠肺炎疫情时期四川盆地大气污染成因分析[J]. 气象科学, 2022, 42(3): 377-389.
Huang J T, Liu J Y, Xu J W, et al. Analysis of air pollution in the Sichuan Basin during the COVID-19 pandemic[J]. Journal of the Meteorological Sciences, 2022, 42(3): 377-389.
[36] 姚青, 孙玫玲, 刘爱霞. 天津臭氧浓度与气象因素的相关性及其预测方法[J]. 生态环境学报, 2009, 18(6): 2206-2210.
Yao Q, Sun M L, Liu A X. Analysis and prediction of surface ozone concentration and related meteorological factors in summer in Tianjin[J]. Ecology and Environmental Sciences, 2009, 18(6): 2206-2210.
[37] 刘晶淼, 丁裕国, 黄永德, 等. 太阳紫外辐射强度与气象要素的相关分析[J]. 高原气象, 2003, 22(1): 45-50.
Liu J M, Ding Y G, Huang Y D, et al. Correlation analyses between intensity of solar ultraviolet radiation and meteorological elements[J]. Plateau Meteorology, 2003, 22(1): 45-50.
[38] 王玫, 郑有飞, 柳艳菊, 等. 京津冀臭氧变化特征及与气象要素的关系[J]. 中国环境科学, 2019, 39(7): 2689-2698.
Wang M, Zheng Y F, Liu Y J, et al. Characteristics of ozone and its relationship with meteorological factors in Beijing-Tianjin-Hebei region[J]. China Environmental Science, 2019, 39(7): 2689-2698.
[39] 余益军, 孟晓艳, 王振, 等. 京津冀地区城市臭氧污染趋势及原因探讨[J]. 环境科学, 2020, 41(1): 106-114.
Yu Y J, Meng X Y, Wang Z, et al. Driving factors of the significant increase in surface ozone in the Beijing-Tianjin-Hebei Region, China, during 2013-2018[J]. Environmental Science, 2020, 41(1): 106-114.
[40] 麦健华, 邓涛, 于玲玲, 等. 中山市2015-2019年臭氧超标特征及其与气象条件的关系[J]. 热带气象学报, 2022, 38(6): 833-844.
Mai J H, Deng T, Yu L L, et al. Characteristics of standard-exceeding ozone and the relationship with meteorological conditions in Zhongshan from 2015 to 2019[J]. Journal of Tropical Meteorology, 2022, 38(6): 833-844.
[41] 陶晔, 杜景林. 基于随机森林的长短期记忆网络气温预测[J]. 计算机工程与设计, 2019, 40(3): 737-743.
Tao Y, Du J L. Temperature prediction using long short term memory network based on random forest[J]. Computer Engineering and Design, 2019, 40(3): 737-743.
[42] 沈培福, 靳全锋, 周雨欣, 等. 浙江省O3浓度时空格局及驱动因子[J]. 环境科学研究, 2022, 35(9): 2136-2146.
Shen P F, Jin Q F, Zhou Y X, et al. Spatial-temporal pattern and driving factors of surface ozone concentrations in Zhejiang Province[J]. Research of Environmental Sciences, 2022, 35(9): 2136-2146.