环境科学  2024, Vol. 45 Issue (7): 3815-3827   PDF    
基于XGBoost-LME模型的京津冀地区近地面臭氧浓度估算
龚德才 , 杜宁 , 王莉 , 张显云 , 李隆 , 张洪飞     
贵州大学矿业学院, 贵阳 550025
摘要: 高时空分辨率的近地面臭氧浓度分布数据对监测和防控大气臭氧污染, 提高人居环境具有重要意义. 使用TROPOMI-L3 NO2、HCHO产品和ERA5-land高分辨率数据作为估算变量, 构建XGBoost-LME模型估算京津冀地区近地面臭氧浓度. 结果表明:①在估算变量中地表 2 m温度(T2M)、2 m露点温度(D2M)、地表太阳向下辐射(SSRD)、对流层甲醛(HCHO)和对流层二氧化氮(NO2)是影响京津冀地区近地面臭氧浓度的重要因素, 其中T2M、SSRD和D2M相关系数分别达到0.82、0.75和0.71. ②XGBoost-LME模型相较其它模型, 其各项指标均为最优, 十折交叉验证R2、MAE和RMSE分别为0.951、9.27 μg·m-3和13.49 μg·m-3, 同时, 该模型在不同时间尺度均表现良好. ③在时间上, 2019年京津冀地区近地面臭氧浓度存在显著的季节性差异, 四季浓度变化为:夏季>春季>秋季>冬季, 2019年该地区近地面臭氧月均浓度总体呈现出先上升后下降的倒“V”趋势, 其中9月呈现小幅上升趋势, 全年最大值出现在7月, 最小值在12月;在空间分布上, 2月和3月京津冀全域近地面臭氧浓度分布基本为同一水平, 1、11和12月呈现出不显著的北高南低的空间分布趋势, 其余月份该地区近地面臭氧浓度空间分布均呈现出南高北低的分布特征, 高值区主要在南部海拔较低、人口密集和工业排放量较大的平原地区, 低值区则主要在北部海拔较高、人口稀疏、植被覆盖率高和工业排放量低的山地地区.
关键词: 近地面臭氧      TROPOMI数据      京津冀地区      XGBoost-LME模型      时空分布     
Estimation of Near-surface Ozone Concentration in the Beijing-Tianjin-Hebei Region Based on XGBoost-LME Model
GONG De-cai , DU Ning , WANG Li , ZHANG Xian-yun , LI Long , ZHANG Hong-fei     
Mining College, Guizhou University, Guiyang 550025, China
Abstract: High spatiotemporal resolution data on near-surface ozone concentration distribution is of great significance for monitoring and controlling atmospheric ozone pollution and improving the living environment. Using TROPOMI-L3 NO2, HCHO products, and ERA5-land high-resolution data as estimation variables, an XGBoost-LME model was constructed to estimate the near-surface ozone concentration in the Beijing-Tianjin-Hebei Region. The results showed that: ① Through correlation analysis, surface 2 m temperature (T2M), 2 m dewpoint temperature (D2M), surface solar radiation downwards (SSRD), tropospheric formaldehyde (HCHO), and tropospheric nitrogen dioxide (NO2) were important factors affecting the near-surface ozone concentration in the Beijing-Tianjin-Hebei Region. Among them, T2M, SSRD, and D2M had strong correlations, with correlation coefficients of 0.82, 0.75, and 0.71, respectively. ② Compared with that of other models, the XGBoost-LME model had the best performance in terms of various indicators. The ten-fold cross-validation evaluation indicators R2, MAE, and RMSE were 0.951, 9.27 μg·m-3, and 13.49 μg·m-3, respectively. At the same time, the model performed well at different time scales. ③ In terms of time, there was a significant seasonal difference in near-surface ozone concentration in the Beijing-Tianjin-Hebei Region in 2019, with the concentration changing in the order of summer > spring > autumn > winter. The monthly average ozone concentration in the region showed an inverted "V" trend, with a slight increase in September. The highest value occurred in July, whereas the lowest value occurred in December. In terms of spatial distribution, the near-surface ozone concentrations in the Beijing-Tianjin-Hebei Region during the months of February and March were generally at the same levels. In January, November, and December, there was a relatively insignificant trend of higher concentrations in the north and lower concentrations in the south. For the remaining months, the spatial distribution of near-surface ozone concentrations in this area predominantly exhibited a pattern of higher concentrations in the south and lower concentrations in the north. High-value areas were predominantly found in the plain regions of the southern part with lower altitudes, dense population, and higher industrial emissions; low-value areas, on the other hand, were primarily located in mountainous areas of the northern part with higher altitudes, sparse population, higher vegetation coverage, and lower industrial emissions.
Key words: near-surface ozone      TROPOMI data      Beijing-Tianjin-Hebei Region      XGBoost-LME model      spatio-temporal distribution     

近地面臭氧(O3)除了少部分来自平流层输送以外, 其主要是通过挥发性有机物(VOCs)和氮氧化物(NOx)等在太阳紫外线的照射下发生光化学反应生成的[1, 2]. 它是一种有害的空气污染物, 过量的地面O3通过损害心血管和呼吸系统对人类健康造成危害, 长时间暴露在高浓度的O3环境下, 也将会造成植被死亡、农作物的减产[3~6].

随着经济的飞速发展, 城镇化进程加速, 在人口密集的城市群, 大量的工业生产生活排放造成空气质量急剧下降, 自2013年《大气污染防治行动计划》实施以来, 我国的环境空气质量已有明显的改善, 以PM2.5为首要污染物的超标天数比例在降低, 空气重污染的天数也明显减少[7~9]. 与此同时, 近年来我国环境空气O3污染问题越发凸显, O3已经成为继PM2.5之后我国环境空气中另一种首要污染物, O3浓度超标天数持续上升, 给人居环境与生态系统带来巨大挑战[10~12]. 尤其在京津冀、长江三角洲和珠江三角洲该问题尤为突出, O3污染已成为该地区空气质量下降的主要原因之一, 近年来, 我国高度重视环境污染问题, 2013~2018年间建立了1 600余座国控站点, 可提供包括O3在内的6项空气质量数据, 但点形式的地面监测站难以提供大范围的、高精度的O3浓度空间分布信息[13].

随着航天遥感技术的发展, 许多高时空分辨率的大气监测遥感卫星升空, 为近地面O3浓度估算提供了数据来源. 依靠其监测灵活、覆盖范围广和空间分辨率高等优点, 通过遥感数据与地面监测站点融合, 利用机器学习强大的拟合泛化能力来估算近地面O3浓度, 已成为该领域研究中最为主要的方式. 李一蜚等[14]基于梯度提升回归树(GBRT)算法, 利用WRF气象数据、MODIS植被归一化指数、高程及人口数据估算了中国地区的近地面O3浓度. Zhan等[15]利用空气质量监测网, 建立随机森林模型, 结合气象、海拔和排放清单数据对中国地区近地面O3浓度进行了估算. 朱珈莹等[16]使用空气质量数据和常规气象资料数据, 通过轻量级梯度提升机(LightGBM)预测南京市大气O3浓度. Wang等[17]使用TROPOMI数据和高分辨率气象数据, 通过机器学习模型估算了美国加利福利亚州近地面O3浓度. Lu等[18]利用长短期记忆循环神经网络结合CMAQ模型对中国川渝地区近地面O3浓度进行估算. Requia等[19]提出一种神经网络、随机森林和梯度增强组合的集成模型, 对美国地区近地面O3浓度进行估算, 取得了较好的结果. 赵楠等[13]采用XGBoost算法, 结合气象、排放清单、TROPOMI数据和人口数据估算了中国地区近地面O3浓度.

近地面O3浓度与各影响因子间存在着不同程度的线性关系和复杂的非线性关系[20, 21]. 上述研究中所采用的机器学习模型并不能充分发挥各影响因子的估算性能. 同时, 部分研究忽略了近地面O3浓度与各影响因子间的时空异质性, 且近地面O3浓度估算的空间分辨率还有待提升. 因此, 本研究运用高分辨遥感数据结合地面监测站点数据, 利用XGBoost模型强大的非线性映射能力以解决近地面O3与各影响因子间复杂的非线性关系, 将地理时间量作为随机效应加入线性混合效应模型(linear mixed effects model, LME)以解决近地面O3与各影响因子间的时空异质性. 最终基于XGBoost-LME组合模型估算得到2019年京津冀地区1 km分辨率近地面O3浓度时空分布图, 并深入探究京津冀地区近地面O3浓度时间变化及空间分布, 以期为京津冀地区O3污染监测和治理提供技术支持.

1 材料与方法 1.1 研究区概况

京津冀地区包括北京市、天津市和河北省, 位于华北平原北部, 介于北纬36°05′~42°37′和东经113°11′~119°45′之间, 见图 1, 面积约为218 000 km2, 人口约1.097亿. 其地貌复杂多样, 高原、山地、丘陵和平原类型齐全, 属于暖温带大陆性季风型气候, 该地区人口稠密, 是我国最重要的经济中心之一.

图 1 研究区及地面监测站示意 Fig. 1 Schematic of the study area and the ground monitoring station

1.2 数据来源及处理 1.2.1 近地面臭氧站点数据

近地面O3监测数据来自于中国环境监测总站(CNEMC, http://106.37.208.233:20035/)2019年1月1日至12月31日逐小时污染物观测数据, 研究区域内共包含78个地面监测站点, 如图 1所示.

1.2.2 对流层高分辨率卫星数据

对流层高分辨率卫星遥感数据来自于Google Earth Engine(GEE)平台提供的对流层监测仪(tropospheric monitoring instrument, TROPOMI)OFFL_L3产品, 空间分辨率为1 113.2 m, 时间分辨率为1 d, 该产品是以TROPOMI OFFL_L2为源数据使用harpconvert工具处理得到, 通过bin_spatial操作过滤源数据以保证产品质量, 其中NO2去除了qa_value<0.75的像元, HCHO去除了qa_value<0.5的像元. Sentinel-5P卫星上搭载的TROPOMI可以有效地观测全球各地大气中痕量气体组分, 包括NO2、O3、SO2、HCHO、CH4和CO等重要的与人类活动密切相关的指标, 并加强了对气溶胶和云的观测. NO2与HCHO是近地面O3形成的重要前体物与近地面O3浓度有较强的关联, 故本研究从GEE平台选取了2019年1月1日至12月31日TROPOMI OFFL_L3_ NO2与OFFL_L3_HCHO产品作为估算变量参与建模, 见表 1.

表 1 研究数据信息 Table 1 Research data information table

1.2.3 气象数据

气象数据来自欧洲中期天气预报中心(European centre for medium-range weather forecasts, ECMWF)发布的ERA5_Land再分析数据集. ERA5-Land提供每小时高分辨率的地表变量信息, 该数据集是ERA5气候再分析数据的陆地分量的重演, 具有更精细的空间分辨率, 其时间分辨率为1 h, 空间分辨率为0.1°× 0.1°. 本研究气象数据选用2019年1月1日至12月31日的ERA5_Land再分析数据, 共选取9种气象变量:地表 2 m温度(T2M)、2 m露点温度(D2M)、地表太阳向下辐射(SSRD)、10 m纬向风(U10)、10 m经向风(V10)、地表气压(SP)、总降水量(TP)、叶面积指数高(Lai_hv)和叶面积指数低(Lai_lv), 见表 1.

1.2.4 数据处理

原始数据在时间与空间分辨率上并不一致, 故需要对原始数据进行匹配. 在时间尺度上, 地面站点O3浓度监测数据为小时尺度, 本研究按照《环境空气质量标准》(GB 3095-2012)[22]选取O3评价指标, 将O3日最大8 h滑动平均浓度(O3_8h)作为日评价指标;ERA5_Land气象数据时间分辨率为小时尺度, 取每日24 h平均值作为该日气象指标;NO2与HCHO数据均为日尺度数据. 在空间尺度上, 利用双线性插值法将ERA5_Land数据重采样至0.01°的格网中, 使之与NO2和HCHO数据空间分辨率一致[14, 23]. 以地面监测站点为基准, 选取距地面站点最近的像元值作为该站点的特征数据, 向量化后以列的形式拼接制作成样本数据集, 经数据筛选最终获得16 190条数据.

1.3 研究方法 1.3.1 相关性分析

本研究采用皮尔逊相关系数对各估算变量进行相关性分析, 皮尔逊相关系数是一种用于衡量两个变量之间线性相关性强弱的统计量[24], 见式(1).

(1)

式中, xy分别表示样本x1, x2, …, xny1, y2, …, yn的平均值, n表示样本数. R取值范围在-1~1之间. 当0 ≤ |R| ≤ 0.4时, 为弱相关;当0.4<|R| ≤ 0.7时, 为中度相关;当0.7<|R|<0.1时, 为强相关. 图 2为O3_8h与各估算变量相关性分析结果.

1. 经度, 2. 纬度, 3. V10, 4. U10, 5. T2M, 6. D2M, 7. Lai_hv, 8. Lai_lv, 9. SP, 10. SSRD, 11. TP, 12. HCHO, 13. NO2, 14. O3_8h 图 2 相关性分析 Fig. 2 Correlation analysis

图 2可知, T2M、SSRD和D2M与O3_8h具有较强的线性相关性, 线性相关度R分别为0.82、0.75和0.71. 前体物NO2和HCHO与O3_8h的线性相关度R分别为-0.41和0.40, 前体物与其余估算变量虽与O3_8h的线性相关性不强, 但它们之间仍具有复杂的非线性关系[25~28].

1.3.2 共线性检验

估算变量间的共线性会影响模型性能, 因此需将存在共线性的变量剔除. 方差膨胀因子(variance inflation factor, VIF)可以检验变量间的共线性程度, 其计算公式为[29, 30]

(2)

式中, Ri2表示自变量i与其余自变量回归的相关系数. 当VIF>5说明变量间存在共线性问题[31]. 本研究中, 由于XGBoost模型能分布式处理高维稀疏特征并具有较强的非线性映射能力, 可无需考虑变量之间的共线性[32, 33], 而对于LME模型变量间的共线性会使其参数估计变得不稳定, 影响模型性能, 故需对输入该模型的变量进行共线性检验. 共线性检验结果见表 2, 变量D2M(VIF=9.24)和T2M(VIF=18.56)的VIF值均大于5, 存在共线性问题, 经逐步回归分析, 当剔除T2M时其余变量VIF值均小于4, 结果最优. 故将变量D2M、SSRD和Pre输入LME模型建模.

表 2 共线性检验结果1) Table 2 Collinearity test results

1.3.3 极端梯度提升模型(XGBoost)

极端梯度提升模型(extreme gradient boosting, XGBoost)是一种高性能、可扩展的机器学习算法, 具有较强的预测表现和非线性映射能力. XGBoost模型基于CART算法来构造每棵树, 由多颗树串联组成, 见图 3. 其可以处理不同类型的数据, 每个结点进行分裂时, 会找到最大的信息增益或最小方差来选择特征进行分裂. 该模型具有较高的预测准确性, 在大气环境研究中被广泛应用[34~36].

图 3 XGBoost示意图 Fig. 3 Schematic of XGBoost

XGBoost模型的目标函数可以表示为[37, 38]

(3)

式中, ftx)表示第t棵树的预测输出结果;yj表示第j个样本的真实输出值;xj表示第j个样本的特征;ft-1x)表示模型当前的预测输出结果;l[yj, ft-1xj)+ftxj)]表示损失函数, 用来衡量模型在第t次训练中的预测误差;Ωft)表示t棵树的复杂度, 用来控制模型的复杂度和泛化能力;式(3)中, 第一项称为训练损失, 第二项称为正则化项.

迭代过程中, XGBoost模型通过使用加权方法来确保每棵树的贡献能够得到有效的利用, 其迭代过程是一个不断增加树的个数, 不断优化模型目标函数和权重, 并通过正则化和特征选择等手段提高模型稳定性和泛化性的过程.

1.3.4 线性混合效应模型(LME)

线性混合效应模型(LME)是一种既考虑了通用的因素, 又允许表示未知的个体差异的特殊线性回归模型, 其特点是在统计建模中同时考虑了固定效应和随机效应, 适合处理变化的和干扰的数据[39]. 固定效应是常规的线性回归部分, 表示所有个体之间的普遍性影响因素;随机效应则用于描述个体之间的差异, 用来生成个体的随机抽样效应的参数, 随机因素可反映时间、地点和其他因素的变化所产生的影响[40].

LME模型公式为[41, 42]

(4)

式中, O3, ij表示第j个个体在第i组中的近地面臭氧浓度观测值;β0表示模型的截距;βpxpij分别表示第p个固定效应系数和对应的自变量;bqzqij分别表示第q个随机效应系数和对应的自变量;εij表示误差项.

LME模型虽考虑了各估算变量间的个体差异, 加入随机效应模型性能有所提升, 但其对于近地面O3浓度与估算变量间的非线性解释能力不足, 故本研究将O3_8h皮尔逊相关系数R>0.7的强相关变量和XGBoost模型估算值经共线性检验后输入该模型, 由于近地面O3分布具有时空异质性, 在时空上表现出不均匀性或变化性, 以经纬度之和表征近地面O3空间分布差异的影响变量, 将其作为地理随机效应项, 时间作为时间随机效应项加入LME模型以解释近地面O3分布所具有的时空异质性.

1.3.5 XGBoost-LME模型构建

XGBoost-LME模型估算近地面O3浓度流程主要步骤包括数据处理、相关性分析、共线性检验和模型构建, 具体流程如图 4所示:①数据处理, 主要包括数据提取、数据清洗和时空匹配;②相关性分析, 采用皮尔逊相关系数法对所有估算变量进行相关性分析;③共线性检验, 将全估算变量输入XGBoost模型训练, 得到初步的估算结果, 对皮尔逊相关系数R>0.7的强相关变量和XGBoost模型估算值进行共线性检验;④模型构建, 将经共线性检验后的变量和时间地理随机效应量输入LME模型, 经模型调参获得最优参数, 训练最终模型估算京津冀地区近地面O3浓度.

图 4 XGBoost-LME模型估算流程 Fig. 4 XGBoost-LME model estimation process

1.3.6 模型评估方法

本研究采用十折交叉验证方法对模型性能进行评估. 使用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)作为评价指标, 各评价指标计算公式, 见式(5).

(5)

式中, O3S表示地面站点O3浓度监测值;O3P表示估算O3浓度值;表示地面站点O3浓度平均值;N表示样本总数.

2 结果与分析 2.1 模型交叉验证

为测试XGBoost-LME模型估算性能, 本研究选取LME、RF、LightGBM、GBDT、XGBoost、RF-LME、LightGBM-LME和GBDT-LME与XGBoost-LME进行对比分析, 使用全数据集进行十折交叉验证评估对比各模型估算性能. 将全数据集按季度划分得到春季、夏季、秋季和冬季数据集, 分别输入XGBoost-LME模型进行十折交叉验证以评估模型的时间稳定性.

2.1.1 模型交叉验证结果

使用十折交叉验证对各模型进行评估, 将全样本数据集等分为10份, 其中9份用于模型训练, 1份用于模型验证, 依次轮流训练验证. 表 3图 5为不同模型十折交叉验证评价指标统计和结果.

表 3 不同模型交叉验证评价指标 Table 3 Evaluation indicators of cross-validation for each model

图 5 不同模型十折交叉验证结果对比 Fig. 5 Comparison of ten-fold cross-validation results for each model

表 3图 5可知, 各模型R2在0.838 ~ 0.951之间, 平均绝对误差(MAE)在16.68 ~ 9.27 μg·m-3之间, 均方根误差(RMSE)在23.30 ~ 13.49 μg·m-3之间. 单个模型中, LME模型评价指标最低, 表现较差, R2、MAE和RMSE分别为0.838、16.68 μg·m-3和23.30 μg·m-3;其余模型由低到高依次分别是RF模型(R2、MAE、RMSE分别为0.875、13.67 μg·m-3、20.54 μg·m-3)、LightGBM模型(R2、MAE、RMSE分别为0.897、12.15 μg·m-3、18.89 μg·m-3)和GBDT模型(R2、MAE、RMSE分别为0.904、11.74 μg·m-3、18.63 μg·m-3);XGBoost模型评价指标最高, R2、MAE和RMSE分别为0.907、11.60 μg·m-3和18.25 μg·m-3. 组合模型评价指标均高于单一模型, 其中RF-LME模型表现相对稍差, R2、MAE和RMSE分别为0.949、9.70 μg·m-3和13.81 μg·m-3;LightGBM-LME模型(R2、MAE和RMSE分别为0.951、9.39 μg·m-3和13.49 μg·m-3)相比GBDT-LME模型(R2、MAE和RMSE分别为0.950、9.35 μg·m-3和13.66 μg·m-3)表现略好;XGBoost-LME模型评价指标最高, 表现最优, R2、MAE和RMSE分别为0.951、9.27 μg·m-3和13.49 μg·m-3.

单个模型在组合LME模型后, 评价指标均得到显著提升, 说明了加入时间和地理随机效应的LME模型, 对RF、LightGBM、GBDT和XGBoost模型估算结果具有时空修正作用, 以解决近地面O3具有的时空异质性, 进一步提高模型估算性能. 综上所述, 利用XGBoost-LME模型估算京津冀地区近地面O3浓度准确性更高.

2.1.2 XGBoost-LME模型四季交叉验证

为测试XGBoost-LME模型在时间上的稳定性, 本研究将全数据集按季节划分为春季(3~5月)、夏季(6~8月)、秋季(9~11月)和冬季(12月、1~2月)四季数据集, 分别输入XGBoost-LME模型进行十折交叉验证, 表 4图 6为XGBoost-LME模型四季十折交叉验证评价指标统计和结果.

表 4 XGBoost-LME模型四季交叉验证评价指标 Table 4 Evaluation index for four-season cross-validation of XGBoost-LME model

图 6 春季、夏季、秋季和冬季模型十折交叉验证结果 Fig. 6 Ten-fold cross-validation results of the models for spring, summer, autumn, and winter

表 4图 6可知, 春季R2、MAE和RMSE分别为0.927、6.95 μg·m-3和10.78 μg·m-3, 夏季R2、MAE和RMSE分别为0.907、12.03 μg·m-3和16.56 μg·m-3, 秋季R2、MAE和RMSE分别为0.965、7.54 μg·m-3和11.23 μg·m-3, 冬季R2、MAE和RMSE分别为0.874、5.33 μg·m-3和7.84 μg·m-3, 该模型四季十折交叉验证评价指标结果较好, 具有良好的时间稳定性.

2.2 近地面臭氧浓度时空分布分析 2.2.1 近地面臭氧浓度估算对比及年均值分析

为进一步验证XGBoost-LME模型估算近地面O3浓度在空间分布上的可靠性. 本研究求取了京津冀地区2019年每个地面监测站点的O3_8h年均值, 并与XGBoost-LME模型估算的京津冀地区1km分辨率近地面O3浓度年均值空间分布进行对比, 如图 7所示.

图 7 地面站点监测年均值分布与模型估算年均值分布 Fig. 7 Distribution of annual mean values monitored at ground stations and estimated by the model

通过计算, 京津冀全域近地面ρ(O3)年均值为106.06 μg·m-3, XGBoost-LME模型估算的京津冀全域近地面ρ(O3)年均值为102.66 μg·m-3, 与地面站点监测结果基本相近, 由于在京津冀北部山地地区地面监测站点分布较为稀疏且分布不均衡, 导致地面站点监测年均值偏高.

图 7可知, 在空间分布上, XGBoost-LME模型估算近地面O3浓度分布与地面站点监测值基本吻合, 近地面O3浓度高值区域主要分布在中部与东南部海拔较低人口密集的北京市东部、廊坊市、唐山市、天津市、沧州市、衡水市、保定市东部、石家庄市、邢台市和邯郸市等平原地区, 主要是因该区域汽车尾气、工业和生活废气排放量大, 为近地面O3形成提供物质来源, 促进近地面O3光化学反应. 低值区则主要分布在北部海拔较高人口稀疏的张家口市和承德市等山地地区, 这是由于该区域工业与生活废气排放量小, 不利于近地面O3形成, 同时, 该区域植被覆盖率高, 对近地面O3有一定吸收作用. 从地形上来看, 京津冀地区近地面O3浓度随着海拔的升高而不断降低.

2.2.2 近地面臭氧浓度季均值分析

京津冀地区春季(3~5月)、夏季(6~8月)、秋季(9~11月)和冬(12月、1~2月)1 km分辨率近地面O3季浓度均值时空分布, 如图 8所示. 结果表明, 本研究模型估算的京津冀地区近地面O3浓度空间分布刻画更加精细, 空间变化趋势特征更为显著、符合实际. 京津冀地区春季、夏季、秋季和冬季近地面ρ(O3)均值(μg·m-3)分别为:114.21(春季)、152.08(夏季)、87.97(秋季)和56.37(冬季), 该地区四季浓度变化为:夏季>春季>秋季>冬季, 这与前人的研究结果基本一致[43, 44].

图 8 春季、夏季、秋季和冬季近地面臭氧季均值空间分布 Fig. 8 Spatial distribution of near-surface ozone in spring, summer, autumn, and winter

京津冀地区春季、夏季、秋季和冬季近地面O3浓度均表现出不同的变化特征, 春季近地面ρ(O3)变化范围为91.07 ~ 136.74 μg·m-3, 夏季近地面ρ(O3)变化范围为91.16 ~ 197.95 μg·m-3, 春夏季近地面O3浓度高值区主要分布于北京市、廊坊市、唐山市、天津市、沧州市、衡水市、保定市、石家庄市、邢台市和邯郸市等平原地区, 而低值区则主要分布在北部海拔较高人口稀疏的张家口市和承德市等山地地区, 相比于春季, 京津冀地区夏季近地面O3浓度高值区与低值区分布范围基本一致, 但近地面O3浓度整体提高, 这主要是因为夏季日照时间长、太阳辐射强和气温高促进了近地面O3光化学反应, 同时, 春夏季京津冀近地面O3浓度高值区经济发达、人口密集、工业排放及城市交通尾气排放量较大, 释放出大量的NOx和VOCs, 在充足的前体物和有利的光化学反应条件下, 促使该区域近地面O3浓度偏高[45].

秋季近地面ρ(O3)变化范围为67.80 ~ 120.68 μg·m-3, 京津冀地区秋季近地面O3浓度较夏季有较大幅度的降低, 高值区分布在南部的邢台市与邯郸市, 并由南向北近地面O3浓度逐渐减少. 冬季近地面ρ(O3)变化范围为38.09 ~ 73.70 μg·m-3, 相较秋季, 冬季近地面O3浓度进一步降低, 为四季最低. 秋冬季近地面O3浓度降低, 主要是因为秋冬季日照时间缩短、太阳辐射强度减弱与气温显著降低, 不利于近地面O3的形成.

2.2.3 近地面臭氧浓度月均值分析

为进一步探究京津冀地区近地面O3浓度时空变化特征, 通过XGBoost-LME模型估算了2019年京津冀地区1 km分辨率近地面O3浓度月均值空间分布, 图 9为近地面O3地面站点监测与模型估算月均值变化, 图 10为近地面O3月均值空间分布.

图 9 近地面臭氧地面站点监测与模型估算月均值变化 Fig. 9 Mean monthly changes in ground site monitoring and model estimation of near-surface ozone

图 10 近地面臭氧月均值空间分布 Fig. 10 Spatial distribution of monthly average near-surface ozone

结果表明, 2019年京津冀地区模型估算的近地面O3浓度月均值变化趋势与地面站点监测月均值呈现的趋势基本一致, 均呈倒“V”型趋势. 其中6月和7月污染最为严重, 达到全年的峰值, 全域近地面ρ(O3)月均值分别为168.10 μg·m-3和170.62 μg·m-3, 超过了我国《环境空气质量标准》(GB 3095-2012)空气污染物O3日最大8 h平均值二级浓度限值(160 μg·m-3). 这主要是由于该时间段气温达到全年最高水平, 日照时间长, 降雨量减少, 近地面O3光化学反应剧烈, 致使近地面O3浓度升高. 同时, 京津冀南部地区人口稠密、汽车尾气和工业排放量大, 为近地面O3生成创造了有利条件, 促使6月和7月该地区近地面O3浓度呈现南高北低的空间分布趋势.

4、5、8和9月京津冀全域近地面ρ(O3)月均值分别为107.80、145.27、117.52和139.74 μg·m-3均达到了空气污染物O3日最大8h平均值一级浓度限值(100 μg·m-3), 在空间分布上, 京津冀地区4、5、8和9月近地面O3分布与6月和7月趋势基本一致, 均呈现南高北低的空间分布趋势, 但近地面O3污染程度相较6月和7月有了明显的减弱, 这主要是该时间段太阳辐射减弱, 气温有所降低, 降雨增加不利于近地面O3光化学反应, 另外, 在9月京津冀地区近地面O3浓度又出现一次峰值, 这主要是9月降水量剧烈减少导致.

1、2、3、10、11和12月京津冀全域近地面ρ(O3)月均值分别为48.84、72.49、89.56、76.24、47.93和47.79 μg·m-3均低于空气污染物O3日最大8 h平均值一级浓度限值(100 μg·m-3), 近地面O3污染相对较轻. 在空间分布上, 2月和3月京津冀全域近地面O3浓度分布基本持平, 10月高值区域主要分布在邢台市和邯郸市, 1、11和12月呈现出不显著的北高南低的空间分布趋势, 这主要是该时间段太阳辐射强度进一步减弱, 气温较低, 日照时间缩短, 减缓了近地面O3形成的光化学反应速率, 阻碍近地面O3的形成. 同时, 由于京津冀北部多为山地地形, 不利于近地面O3的扩散稀释, 而南部为平原地区有利于近地面O3的扩散, 致使该时间段京津冀近地面O3浓度分布北部地区略高于南部地区.

3 结论

(1)本研究构建的XGBoost-LME模型应用于京津冀地区近地面O3浓度估算表现最优, 模型十折交叉验证R2、MAE和RMSE分别为0.951、9.27 μg·m-3和13.49 μg·m-3;同时, 在不同季节仍有较好的表现, 充分表明该模型具有更好的模拟性能, 估算结果可靠性更高. 基于XGBoost-LME模型, 结合高分辨率遥感数据, 估算得到1 km分辨率的京津冀地区近地面O3浓度空间分布, 更加细致地刻画了近地面O3浓度空间分布趋势特征, 可为京津冀地区近地面O3动态监测和防治提供更高精度的时空分布信息, 为空气质量评估及人体暴露风险评价提供更加精准可靠的科学参考.

(2)相关性分析表明, 在京津冀地区所选取的各气象和前体物变量中, 近地面O3与地表 2 m温度、地表太阳辐射和2 m露点温度相关性达到强相关, 分别为0.82、0.75和0.71. 与前体物对京津冀地区近地面O3浓度估算均有较大的影响.

(3)在时间上, 2019年京津冀地区近地面O3浓度四季差异明显, 春季、夏季、秋季和冬季全域近地面ρ(O3)均值分别为:114.21(春季)、152.08(夏季)、87.97(秋季)和56.37 μg·m-3(冬季), 四季浓度变化为:夏季>春季>秋季>冬季. 该地区近地面O3浓度月均值变化呈现倒“V”型趋势, 其中全年峰值出现在7月, 最小值在12月, 这主要是受太阳辐射强度、日照时间、降水和气温等因素的影响.

(4)在空间上, 2月和3月京津冀全域近地面O3浓度分布基本为同一水平, 1、11和12月呈现出不显著的北高南低的空间分布趋势, 其余月份该地区总体呈现南高北低的趋势, 高值区主要分布在南部海拔较低、人口密集、交通尾气和工业排放量较大的平原地区, 低值区则主要分布在北部海拔较高、人口稀疏、植被覆盖率高和工业排放量低的山地地区.

参考文献
[1] Engardt M. Modelling of near-surface ozone over South Asia[J]. Journal of Atmospheric Chemistry, 2008, 59(1): 61-80. DOI:10.1007/s10874-008-9096-z
[2] 余益军, 孟晓艳, 王振, 等. 京津冀地区城市臭氧污染趋势及原因探讨[J]. 环境科学, 2020, 41(1): 106-114.
Yu Y J, Meng X Y, Wang Z, et al. Driving factors of the significant increase in surface ozone in the Beijing-Tianjin-Hebei region, China, during 2013-2018[J]. Environmental Science, 2020, 41(1): 106-114.
[3] 李紫微, 马庆勋, 吕杰. BP神经网络的近地面臭氧估算及时空特征分析[J]. 测绘通报, 2021(6): 28-32, 126.
Li Z W, Ma Q X, Lü J. BP neural network for near-surface ozone estimation and spatial and temporal characteristics analysis[J]. Bulletin of surveying and mapping, 2021(6): 28-32, 126.
[4] 马明亮. 对流层臭氧时空分析影响因素研究及近地面臭氧估算[J]. 测绘学报, 2020, 49(11): 1507.
Ma M L. Temporal and spatial analysis of tropospheric ozone, simulation of influencing factors and surface ozone estimation[J]. Acta Geodaetica et Cartographica Sinica, 2020, 49(11): 1507.
[5] Song G, Li S W, Xing J, et al. Surface UV-assisted retrieval of spatially continuous surface ozone with high spatial transferability[J]. Remote Sensing of Environment, 2022, 274. DOI:10.1016/j.rse.2022.112996
[6] 杨健, 尹沙沙, 于世杰, 等. 安阳市近地面臭氧污染特征及气象影响因素分析[J]. 环境科学, 2020, 41(1): 115-124.
Yang J, Yin S S, Yu S J, et al. Characteristic of surface ozone and meteorological parameters analysis in Anyang city[J]. Environmental Science, 2020, 41(1): 115-124.
[7] 孙金金, 谢晓栋, 秦墨梅, 等. 不同时间尺度上PM2.5与臭氧协同关系及其影响因素分析[J]. 科学通报, 2022, 67(18): 2018-2028.
Sun J J, Xie X D, Qin M M, et al. Analysis of coordinated relationship between PM2.5 and ozone and its affecting factors on different timescales[J]. Chinese Science Bulletin, 2022, 67(18): 2018-2028.
[8] 王馨陆, 黄冉, 张雯娴, 等. 基于机器学习方法的臭氧和PM2.5污染潜势预报模型——以成都市为例[J]. 北京大学学报(自然科学版), 2021, 57(5): 938-950.
Wang X L, Huang R, Zhang W X, et al. Forecasting ozone and PM2.5 pollution potentials using machine learning algorithms: a case study in Chengdu[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2021, 57(5): 938-950.
[9] 张运江, 雷若媛, 崔世杰, 等. 2015~2020年我国主要城市PM2.5和O3污染时空变化趋势和影响因素[J]. 科学通报, 2022, 67(18): 2029-2042.
Zhang Y J, Lei R Y, Cui S J, et al. Spatiotemporal trends and impact factors of PM2.5 and O3 pollution in major cities in China during 2015-2020[J]. Chinese Science Bulletin, 2022, 67(18): 2029-2042.
[10] 李红, 彭良, 毕方, 等. 我国PM2.5与臭氧污染协同控制策略研究[J]. 环境科学研究, 2019, 32(10): 1763-1778.
Li H, Peng L, Bi F, et al. Strategy of coordinated control of PM2.5 and ozone in China[J]. Research of Environmental Sciences, 2019, 32(10): 1763-1778.
[11] 李沈鑫, 邹滨, 张凤英, 等. PM2.5和O3污染协同防控区的遥感精细划定与分析[J]. 环境科学, 2022, 43(10): 4293-4304.
Li S X, Zou B, Zhang F Y, et al. Regionalization and analysis of PM2.5 and O3 synergetic prevention and control areas based on remote sensing data[J]. Environmental Science, 2022, 43(10): 4293-4304.
[12] 赵少华, 杨晓钰, 李正强, 等. 臭氧卫星遥感六十年进展[J]. 遥感学报, 2022, 26(5): 817-833.
Zhao S H, Yang X Y, Li Z Q, et al. Advances of ozone satellite remote sensing in 60 years[J]. National Remote Sensing Bulletin, 2022, 26(5): 817-833.
[13] 赵楠, 卢毅敏. 基于XGBoost算法的近地面臭氧浓度遥感估算[J]. 环境科学学报, 2022, 42(5): 95-108.
Zhao N, Lu Y M. Remote-sensing estimation of near-surface ozone concentration based on XGBoost[J]. Acta Scientiae Circumstantiae, 2022, 42(5): 95-108.
[14] 李一蜚, 秦凯, 李丁, 等. 基于梯度提升回归树算法的地面臭氧浓度估算[J]. 中国环境科学, 2020, 40(3): 997-1007.
Li Y F, Qin K, Li D, et al. Estimation of ground-level ozone concentration based on GBRT[J]. China Environmental Science, 2020, 40(3): 997-1007. DOI:10.3969/j.issn.1000-6923.2020.03.008
[15] Zhan Y, Luo Y Z, Deng X F, et al. Spatiotemporal prediction of daily ambient ozone levels across China using random forest for human exposure assessment[J]. Environmental Pollution, 2018, 233: 464-473. DOI:10.1016/j.envpol.2017.10.029
[16] 朱珈莹, 安俊琳, 冯悦政, 等. 基于轻量级梯度提升机的南京大气臭氧浓度预测[J]. 环境科学, 2023, 44(7): 3685-3694.
Zhu J Y, An J L, Feng Y Z, et al. Atmospheric ozone concentration prediction in Nanjing based on LightGBM[J]. Environmental Science, 2023, 44(7): 3685-3694.
[17] Wang W H, Liu X, Bi J Z, et al. A machine learning model to estimate ground-level ozone concentrations in California using TROPOMI data and high-resolution meteorology[J]. Environment International, 2022, 158. DOI:10.1016/j.envint.2021.106917
[18] Lu H, Xie M, Liu X R, et al. Adjusting prediction of ozone concentration based on CMAQ model and machine learning methods in Sichuan-Chongqing region, China[J]. Atmospheric Pollution Research, 2021, 12(6). DOI:10.1016/j.apr.2021.101066
[19] Requia W J, Di Q, Silvern R, et al. An ensemble learning approach for estimating high spatiotemporal resolution of ground-level ozone in the contiguous United States[J]. Environmental Science & Technology, 2020, 54(18): 11037-11047.
[20] 李光耀, 陈强, 郭文凯, 等. 基于正交试验的臭氧及其前体物的非线性响应及控制方案[J]. 环境科学, 2021, 42(2): 616-623.
Li G Y, Chen Q, Guo W K, et al. Nonlinear response characteristics and control scheme for ozone and its precursors based on orthogonal experimental methods[J]. Environmental Science, 2021, 42(2): 616-623.
[21] 侯梦琪, 王文勇, 明镇洋, 等. 成都市气象因子对臭氧污染的影响分析[J]. 环境科学与技术, 2021, 44(S2): 41-49.
Hou M Q, Wang W Y, Ming Z Y, et al. Analysis on the impact of meteorological factors on ozone pollution in Chengdu[J]. Environmental Science & Technology, 2021, 44(S2): 41-49.
[22] GB 3095-2012, 环境空气质量标准[S].
[23] Li T W, Yang Q Q, Wang Y, et al. Joint estimation of PM2.5 and O3 over China using a knowledge-informed neural network[J]. Geoscience Frontiers, 2023, 14(2). DOI:10.1016/j.gsf.2022.101499
[24] Van Den Heuvel E, Zhan Z Z. Myths about linear and monotonic associations: Pearson's r, Spearman's ρ, and Kendall's τ[J]. The American Statistician, 2022, 76(1): 44-52.
[25] 陆晓波, 王鸣, 丁峰, 等. 2020年和2021年南京城区臭氧生成敏感性和VOCs来源变化分析[J]. 环境科学, 2023, 44(4): 1943-1953.
Lu X B, Wang M, Ding F, et al. Changes in O3-VOCs-NOx sensitivity and VOCs sources at an urban site of Nanjing between 2020 and 2021[J]. Environmental Science, 2023, 44(4): 1943-1953.
[26] 何琰, 林惠娟, 曹舒娅, 等. 城市臭氧污染特征与高影响气象因子: 以苏州为例[J]. 环境科学, 2023, 44(1): 85-93.
He Y, Lin H J, Cao S Y, et al. Characteristics of ozone pollution and high-impact meteorological factors in urban cities: a case of Suzhou[J]. Environmental Science, 2023, 44(1): 85-93.
[27] 胡成媛, 康平, 吴锴, 等. 基于GAM模型的四川盆地臭氧时空分布特征及影响因素研究[J]. 环境科学学报, 2019, 39(3): 809-820.
Hu C Y, Kang P, Wu K, et al. Study of the spatial and temporal distribution of ozone and its influence factors over Sichuan basin based on generalized additive model[J]. Acta Scientiae Circumstantiae, 2019, 39(3): 809-820.
[28] 栗泽苑, 杨雷峰, 华道柱, 等. 2013—2018年中国近地面臭氧浓度空间分布特征及其与气象因子的关系[J]. 环境科学研究, 2021, 34(9): 2094-2104.
Li Z Y, Yang L F, Hua D Z, et al. Spatial pattern of surface ozone and its relationship with meteorological variables in China during 2013-2018[J]. Research of Environmental Sciences, 2021, 34(9): 2094-2104.
[29] Busu M. Measuring the renewable energy efficiency at the European Union level and its impact on CO2 emissions[J]. Processes, 2019, 7(12). DOI:10.3390/pr7120923
[30] Li J Y, Dai Y Z, Zhu Y, et al. Improvements of response surface modeling with self-adaptive machine learning method for PM2.5 and O3 predictions[J]. Journal of Environmental Management, 2022, 303. DOI:10.1016/j.jenvman.2021.114210
[31] Wu Y F, Lin S W, Shi K W, et al. Seasonal prediction of daily PM2.5 concentrations with interpretable machine learning: a case study of Beijing, China[J]. Environmental Science and Pollution Research, 2022, 29(30): 45821-45836.
[32] Liu M H, Luo X L, Qi L A, et al. Simulation of the spatiotemporal distribution of PM2.5 concentration based on GTWR-XGBoost two-stage model: a case study of Chengdu Chongqing economic circle[J]. Atmosphere, 2023, 14(1). DOI:10.3390/atmos14010115
[33] 吴迪, 杜宁, 王莉, 等. 基于GTWR-XGBoost模型的四川省PM2.5小时浓度估算[J]. 环境科学, 2023, 44(7): 3738-3748.
Wu D, Du N, Wang L, et al. Estimation of PM2.5 hourly concentration in Sichuan province based on GTWR-XGBoost model[J]. Environmental Science, 2023, 44(7): 3738-3748.
[34] Wang J J, He L, Lu X M, et al. A full-coverage estimation of PM2.5 concentrations using a hybrid XGBoost-WD model and WRF-simulated meteorological fields in the Yangtze River Delta urban agglomeration, China[J]. Environmental Research, 2022, 203. DOI:10.1016/j.envres.2021.111799
[35] Fan Z Y, Zhan Q M, Yang C, et al. Estimating PM2.5 concentrations using spatially local Xgboost based on full-covered SARA AOD at the urban scale[J]. Remote Sensing, 2020, 12(20). DOI:10.3390/rs12203368
[36] Zhang J X, Zhang H, Wang R, et al. Measuring the critical influence factors for predicting carbon dioxide emissions of expanding megacities by XGBoost[J]. Atmosphere, 2022, 13(4). DOI:10.3390/atmos13040599
[37] 李江涛, 安兴琴, 李清勇, 等. 基于XGBoost算法的WRF-Chem模式优化模拟[J]. 中国环境科学, 2021, 41(12): 5457-5466.
Li J T, An X Q, Li Q Y, et al. Optimization of WRF-Chem model results by XGBoost algorithm[J]. China Environmental Science, 2021, 41(12): 5457-5466.
[38] Ke H B, Gong S L, He J J, et al. A hybrid XGBoost-SMOTE model for optimization of operational air quality numerical model forecasts[J]. Frontiers in Environmental Science, 2022, 10. DOI:10.3389/fenvs.2022.1007530
[39] 杨立娟, 张建霞, 林木生. 中国东部沿海四省一市PM2.5浓度遥感估算方法研究[J]. 遥感技术与应用, 2021, 36(6): 1408-1415.
Yang L J, Zhang J X, Lin M S. Research on methods of remotely sensed PM2.5 concentrations estimation in four provinces and one city along the east coast of China[J]. Remote Sensing Technology and Application, 2021, 36(6): 1408-1415.
[40] 吴宇宏, 杜宁, 王莉, 等. 基于iLME+Geoi-RF模型的四川省PM2.5浓度估算[J]. 环境科学, 2021, 42(12): 5602-5615.
Wu Y H, Du N, Wang L, et al. Estimation of PM2.5 concentration in Sichuan province based on improved linear mixed effect model and geo-intelligent random forest[J]. Environmental Science, 2021, 42(12): 5602-5615.
[41] 周爽, 王春林, 孙睿, 等. 基于LME/BME的珠江三角洲PM2.5星地融合技术研究[J]. 中国环境科学, 2019, 39(5): 1869-1878.
Zhou S, Wang C L, Sun R, et al. Fusion of satellite data and ground observed PM2.5 in Pearl River Delta region with linear mixed effect and Bayesian maximum entropy method[J]. China Environmental Science, 2019, 39(5): 1869-1878.
[42] Fu D S, Song Z J, Zhang X L, et al. Mitigating MODIS AOD non-random sampling error on surface PM2.5 estimates by a combined use of Bayesian maximum entropy method and linear mixed-effects model[J]. Atmospheric Pollution Research, 2020, 11(3): 482-490.
[43] 姚青, 马志强, 郝天依, 等. 京津冀区域臭氧时空分布特征及其背景浓度估算[J]. 中国环境科学, 2021, 41(11): 4999-5008.
Yao Q, Ma Z Q, Hao T Y, et al. Temporal and spatial distribution characteristics and background concentration estimation of ozone in Beijing-Tianjin-Hebei region[J]. China Environmental Science, 2021, 41(11): 4999-5008.
[44] 梁晓霞, 谢东海, 韩宗甫, 等. 基于梯度提升算法的近地面臭氧浓度估算比较[J]. 中国环境科学, 2023, 43(8): 3886-3899.
Liang X X, Xie D H, Han Z F, et al. Comparison of estimation models for near-surface ozone concentration based on gradient boosting algorithm[J]. China Environmental Science, 2023, 43(8): 3886-3899.
[45] 刘小正, 楼晟荣, 陈勇航, 等. 基于OMI数据的中国中东部城市近地面臭氧时空分布特征研究[J]. 环境科学学报, 2016, 36(8): 2811-2818.
Liu X Z, Lou S R, Chen Y H, et al. Spatiotemporal distribution of ground-level ozone in mid-east China based on OMI observations[J]. Acta Scientiae Circumstantiae, 2016, 36(8): 2811-2818.