基于CatBoost-LSTM模型的成渝城市群近地面O<sub>3</sub>浓度估算

引用本文

任明亚, 张显云, 杨正雄, 龙安成, 吴雪. 基于CatBoost-LSTM模型的成渝城市群近地面O₃浓度估算[J]. 环境科学, 2025, 46(6): 3329-3338.

REN Ming-ya, ZHANG Xian-yun, YANG Zheng-xiong, LONG An-cheng, WU Xue. Estimation of Near-surface O₃ Concentration in Chengdu-Chongqing Urban Agglomeration Based on CatBoost-LSTM Model[J]. Environmental Science, 2025, 46(6): 3329-3338.

基于CatBoost-LSTM模型的成渝城市群近地面O₃浓度估算

任明亚, 张显云, 杨正雄, 龙安成, 吴雪

贵州大学矿业学院，贵阳 550025

收稿日期: 2024-05-19; 修订日期: 2024-08-07

基金项目: 贵州省省级科技计划项目（黔科合支撑[2022]一般204，黔科合基础-ZK[2024]一般093）

作者简介: 任明亚（1996~），男，硕士研究生，主要研究方向为资源与环境遥感，E-mail：ren914@qq.com

通信作者: 张显云, E-mail：mec.xyzhang@gzu.edu.cn

摘要: 受臭氧源及影响因子时空差异性的影响，作为大气中重要空气污染物的臭氧（O₃）往往呈现出空间异质性和时域相关性. 为提升O₃的空间分辨率和估算精度，以成渝城市群为研究区，以O₃地面观测站点数据为响应变量，Sentinel-5P TROPOMI离线数据、ERA5再分析气象资料和地形等为解释变量，协同CatBoost和LSTM构建了一种高精度的近地面臭氧浓度估算模型（CatBoost-LSTM模型）. 结果表明：①整体模型中，CatBoost-LSTM模型相较于文中其它模型的估算精度最高，在验证集上的决定系数（R²）、均方根误差（RMSE）和平均绝对误差（MAE）分别为0.965、5.81 μg·m^-3和4.42 μg·m^-3. ②由于顾及了O₃浓度及其影响因子季节上的差异性，基于CatBoost-LSTM的季节模型较CatBoost-LSTM整体模型在验证集上的精度均得到了不同程度的改善，其中冬季模型精度提升最为显著. ③研究区近地面O₃月均浓度整体呈倒“V”趋势，其中在5月份出现小幅度下降趋势，8月O₃浓度达到最高（89.08 μg·m^-3），12月降到最低（29.30 μg·m^-3）；近地面O₃浓度存在明显的季节性差异，由高到低依次为夏季（84.59 μg·m^-3）、春季（72.62 μg·m^-3）、秋季（53.59 μg·m^-3）和冬季（35.23 μg·m^-3）. ④空间分布上，近地面O₃浓度高值区主要分布在西部海拔较高、山脉密布、工业活动频繁、交通密集度高、人口密集和污染源较多的地区. 由于工业活动和交通密集度较低，加之相对较少的污染源排放和较为平坦的地形等原因，东部海拔较低地区的O₃浓度整体较低.

关键词: 近地面O₃ Sentinel-5P TROPOMI数据成渝城市群 CatBoost-LSTM模型时空分布

Estimation of Near-surface O₃ Concentration in Chengdu-Chongqing Urban Agglomeration Based on CatBoost-LSTM Model

REN Ming-ya , ZHANG Xian-yun , YANG Zheng-xiong , LONG An-cheng , WU Xue

Mining College, Guizhou University, Guiyang 550025, China

Abstract: Due to spatio-temporal differences in ozone sources and influencing factors, ozone (O₃), an important air pollutant in the atmosphere, often exhibits spatial heterogeneity and temporal correlations. To enhance the spatial resolution and estimation accuracy of ozone, a high-precision ozone estimation model (CatBoost-LSTM) was constructed by combining CatBoost and LSTM. The model utilized ground-based ozone observations as response variables, Sentinel-5P TROPOMI offline data, ERA5 reanalysis data, and elevation as explanatory variables. The experimental results of Chengdu-Chongqing urban agglomeration showed that: ① In the overall model, CatBoost-LSTM exhibited the highest estimation accuracy compared to that of other models in the study. The coefficient of determination (R²), root mean square error (RMSE), and mean absolute error (MAE) on the verification set were 0.965, 5.81 μg·m^-3, and 4.42 μg·m^-3, respectively. ② Considering the seasonal differences in ozone concentration and its influencing factors, the CatBoost-LSTM seasonal model demonstrated varying levels of improvement in accuracy on the verification set, with the winter model showing the most significant enhancement. ③ The average monthly near-surface ozone concentration in the study area exhibited an inverted "V" trend, with a slight decrease observed in May, followed by reaching its peak concentration in August (89.08 μg·m^-3), and then declining to its lowest level in December (29.3 μg·m^-3). ④ There were obvious seasonal differences in the near-surface ozone concentration, with higher levels observed in summer (84.59 μg·m^-3), followed by those in spring (72.62 μg·m^-3), autumn (53.59 μg·m^-3), and winter (35.23 μg·m^-3). ⑤ In terms of spatial distribution, the areas with higher near-surface ozone concentration were mainly distributed in the western regions characterized by higher elevations, dense mountains, frequent industrial activities, high traffic density, dense population, and numerous pollution sources. Due to the limited intensity of industrial activities and traffic, as well as the relatively minor emissions from pollution sources and the flat topography, the overall ozone concentration in the eastern region at lower altitudes was comparatively lower.

Key words: near-surface ozone Sentinel-5P TROPOMI data Chengdu-Chongqing urban agglomeration CatBoost-LSTM model spatial and temporal distribution

臭氧（O₃）在地球大气中扮演着重要的角色，影响着对流层与平流层之间的大气交换和空气运动^[1~3]. 长时间暴露于高浓度O₃中对人体健康和植被产生严重影响，导致眼睛和呼吸系统受损^[4~6]. O₃已成为我国重要的环境污染物之一，其不仅会影响人类健康，还可能诱发农作物减产、橡胶材料损伤等次生环境问题. O₃浓度的监测有助于揭示O₃的产生原因，深入理解O₃污染的形成机制，O₃浓度的高时空分辨率估算对于监测和防控大气污染以及提高人居环境具有重要意义.

中国地区的O₃污染问题近年来愈发严重^[7]，且不仅局限于人口密集、经济和工业发达的京津冀、珠三角和长三角等地区^[8~12]. 已有研究证明，近地面O₃主要是由汽车尾气、石油化工等排放的氮氧化物（NO_x）和挥发性有机化合物（VOCs）在大气中进行光化学反应而生成的二次污染物^[13~16]. 作为O₃生成的重要前体污染物，VOCs的来源广泛，且不同排放源的VOCs具有不同的成分和特性^[17]. 因此，不同的光化学反应机制对O₃生成的贡献存在差异. O₃浓度的高低不仅与局地光化学反应有关，还与天气系统和气象条件（如光照、温度、风向、风速等）密切相关^[18~20]. 气象要素对O₃光化学过程的影响很大程度上取决于气候特征和污染源的排放. 此外，有研究表明近地面O₃浓度时空上存在差异性. Wang等^[21]研究利用中国10 km分辨率的O₃浓度数据和1 km分辨率的人口密度数据，采用全球Moran's I指数等方法，分析2015~2021年中国及6个重点地区O₃的时空变化、气象影响、聚集特征、暴露风险水平及健康影响，中国空间自相关性在区域间明显，胡焕庸线东西两侧差异显著，呈现出“东高西低”的分布格局. Xuan等^[22]综述分析了2019~2021年黑龙江省13个城市O₃和PM_2.5浓度的时空特征，从时间上看，O₃和PM_2.5浓度均表现出明显的季节性变化，春季和夏季（5月至7月）以及冬季（1月、2月和12月）的峰值明显. 从空间角度看，哈尔滨、大庆、绥化等西南城市O₃浓度升高，西北城市大兴安岭、黑河O₃浓度较低.

近年来，随机森林、神经网络和SVM等机器学习方法^[23~25]在大气污染预测领域得到了广泛地应用和认可. 刘晓咏等^[26]基于59个站点2019~2021年的监测数据，使用4种机器学习方法实现了河南省O₃浓度的估算. Wang等^[27]基于总臭氧柱以及O₃剖面信息，使用机器学习实现了加利福尼亚州10 km空间分辨率的O₃浓度估计. 龚德才等^[28]构建了一种XGBoost-LME近地面O₃浓度估算模型. 梁晓霞等^[5]提出了一种基于梯度提升树优化的近地面O₃浓度估算模型. Pan等^[29]顾及大气污染物的时空效应，结合时空地理加权回归与地理智能随机森林各自的优势，联合Sentinel-5P卫星遥感数据、气象、排放盘查、现场观测、人口和高程等数据，实现了中国地区2020年3月至2021年2月近地面O₃浓度及其时空分布的估算. Wang等^[30]利用机器学习模型对中国地表O₃进行估算. Chen等^[31]基于迭代随机森林（RF）模型、地面O₃监测数据和高分辨率网格气象数据，提升了中国地区近地面O₃估计的准确性. Li等^[32]提出了一种新的框架，基于Landsat 8红外波段地表反射率数据和气象数据，使用深林模型实现了中国地区300 m空间分辨率的O₃浓度估算. Du等^[33]提出一种利用交通和气象测量数据来预测休斯顿地区地面O₃浓度水平的方法. Wang等^[34]以中国汾渭平原为研究区，构建了一种基于机器学习的PM_2.5和O₃浓度预测模型. 为提升O₃浓度的估算精度，并获取一段时间内O₃浓度数据的空间分布. Dai等^[35]提出了一种基于向量自回归（VAR）、克里金法和极限梯度提升（XGBoost）的VAR-XGBoost模型.

上述研究虽一定程度上提升了O₃浓度的估算精度，但大都忽略了其在时域上的相关性. 有鉴于此，顾及O₃浓度的时空差异性和时域相关性，充分发挥CatBoost的高效率、高精度和高鲁棒性等优势，以及LSTM（long short-term memory）在时序数据处理上的卓越性能，本文以成渝城市群为研究区，以哨兵-5P（Sentinel-5P）离线臭氧数据（OFFL O₃）、ERA5气象数据、地面站点O₃浓度监测数据和高程等为主要数据源，提出了一种CatBoost和LSTM组合的近地面O₃浓度估算模型（下称“CatBoost-LSTM”模型），实现了近地面O₃浓度的高精度高空间分辨率估算. 本研究成果有助于更好地掌握研究区O₃浓度的影响因素和时空分布特征，以期为相关部门科学制定应对措施提供参考.

1 材料与方法 1.1 研究区概况

成渝城市群位于中国西南部，介于103°49'~110°11'E和28°10'~32°26'N之间，东西跨度约830 km，南北跨度约560 km，总面积约185 000 km². 区内地形起伏较大，西北部为高原和丘陵，东南部为盆地和平原. 成渝城市群是中国西部经济最发达和最重要的城市带之一. 随着经济的迅猛发展和城市化进程的加快，空气及水污染、环境破坏等生态及次生生态问题也日益凸显.

1.2 数据来源及处理 1.2.1 数据来源

（1）近地面O₃站点数据近地面O₃浓度数据源于中国国家环境监测中心（China National Environmental Monitoring Centre，CNEMC）（http://106.37.208.233:20035/），为2022年1月1日至2022年12月31日的逐日污染物观测数据，由区内117个空气质量地面监测站观测所得. 研究区地理位置、地形和空气质量监测站分布如图 1所示.

图 1 研究区及地面监测站点分布示意 Fig. 1 Distribution of the study area and ground monitoring stations

（2）哨兵-5P臭氧数据 Sentinel-5P卫星是欧洲空间局于2017年10月发射的一颗地球观测卫星，其主要任务是监测大气中的各种污染物和温室气体. Sentinel-5P卫星上搭载有对流层观测仪（tropospheric monitoring instrument，TROPOMI），可以有效地观测全球各地大气中痕量气体组分，包括NO₂、O₃、SO₂和CH₄等. 本文试验所用哨兵-5P臭氧数据源于GEE（Google earth engine）平台提供的TROPOMI L3级offline臭氧产品（OFFL O₃），其空间分辨率为1 113.2 m，时间分辨率为1 d. Chen等^[36]应用创新的机器学习模型（deep forest）与卫星数据（TROPOMI和OMI）以及气象数据相结合，估算疫情期间中国1 km空间分辨率的月度地表O₃. Wang等^[37]利用S5P-TROPOMI和GEOS-FP数据，采用光梯度增强机对中国地区每日全覆盖近地面O₃、CO和NO₂浓度进行估算.

（3）气象数据和植被覆盖度气象数据和植被覆盖度源于欧洲中期天气预报中心（european centre for medium-range weather forecasts，ECMWF）发布的ERA5再分析数据集，时间区间为2022年1月1日至12月31日，包括2 m露点温度（D2M）、2 m地面温度（T2M）、10 m纬向风分量（U₁₀）、10 m经向风分量（V₁₀）、地表太阳向下辐射（SSRD）、气压（SP）、总降水量（TP）、低植被覆盖度（LVC）和高植被覆盖度（HVC）.

（4）高程数据高程（Elevation，ELV）数据源于NASA SRTM（Shuttle Radar Topography Mission）提供的数字高程模型（DEM），通过GEE平台下载获得. 本文试验所用数据相关信息见表 1.

表 1 数据信息 Table 1 Data message

1.2.2 数据预处理

由于Sentinel-5P OFFL O₃数据、ERA5气象数据和高程数据与地面观测站点O₃监测数据在空间分辨率和时间分辨率存在差异，故实验前需进行时空分辨率的统一. 在空间尺度上，首先通过双线性插值将高程和ERA5_Land数据重采样至0.01°的格网中，然后提取各O₃地面观测站点位置处的气象数据、植被覆盖度和高程，并将其作为解释变量. 在时间尺度上，由于Sentinel-5P OFFL O₃数据的时间尺度为1 d，而地面观测站点O₃浓度数据和ERA5气象数据的时间分辨率为1 h，故为实现时间尺度的统一，取O₃浓度数据和ERA5气象数据单日的平均值作为其各自的日值.

1.3 研究方法 1.3.1 相关性分析

针对具体的研究区，已有研究证实了O₃浓度与地表太阳向下辐射、气压、温度、降水和风速等因素之间存在密切关系^[38，39]. 考虑到不同区域O₃浓度产生的机制可能存在差异，故采用皮尔逊相关系数揭示本文研究区O₃浓度与气象因子和高程的相关性，结果见图 2. 皮尔逊相关系数计算公式为：

(1)

1.O_3-24h，2.T2M，3. OFFL O₃，4.D2M，5. U₁₀，6.V₁₀，7.ELV，8.SSRD，9.HVC，10.LVC，11.TP，12.SP，13.经度，14.纬度；椭圆越扁，表示在对应显著性水平下的相关性越强；椭圆长半轴方向表示相关性的正负；*、**和***分别表示在显著性水平P≤0.05、P≤0.01和P≤0.001下显著相关，无星号表示相关性不显著图 2 皮尔逊相关性分析 Fig. 2 Pearson correlation analysis

式中，x为样本x₁，x₂，…，x_n的平均值，y为样本y₁，y₂，…，y_n平均值.

1.3.2 CatBoost模型

CatBoost模型是一种用于处理和优化梯度提升决策树（GBDT）的机器学习算法. 自2017年提出以来，分类提升（CatBoost）作为一种机器学习算法，在性能上优于极致梯度提升（XGBoost）和轻量级梯度提升机（LightGBM）. 相比于传统算法，CatBoost采用对称树、基于排序的学习等方法来减少过拟合风险，以及引入Ordered Boosting方法改变梯度估计方式，从而得到更加准确和鲁棒的模型. 公式为^[40]：

(2)

式中，x_kⁱ为第k个样本的第i个样本特征，x_jⁱ为第k个样本之前第j个样本的第i个类别特征，y_j为第j个样本的标签值，E_k为随机序列中在第k个样本之前的数据集，p为添加的先验值和大于零的权重系数，a为通常大于0的权重系数.

1.3.3 长短期记忆（LSTM）神经网络模型

长短期记忆（long short-term memory，LSTM）神经网络是一种特殊的递归神经网络（RNN）模型，相比传统的RNN，它引入了长短期记忆的概念，并通过门控机制将长期记忆和短期记忆结合起来，有效地解决了传统RNN模型中的长期依赖问题，使得LSTM模型更加稳定和适用于处理序列数据^[41]，其优秀的性能和泛化能力使其成为处理序列数据的首选模型之一^[42~44]. LSTM的结构如图 3所示.

图 3 LSTM模型结构 Fig. 3 LSTM model structure

CatBoost在回归任务中表现优异，尤其在处理类别特征方面，但在处理时间序列数据时表现欠佳；LSTM模型在回归任务中也能取得良好表现，尤其擅长处理时间序列数据，能够捕捉长时间依赖关系；XGBoost在回归和分类任务上性能出色，但在类别特征处理上不如CatBoost模型；RF（随机森林）在回归任务中对于特征提取和降噪有良好表现，但训练速度较慢；LightGBM在大规模数据上的回归任务中训练速度非常快，但在处理类别特征上不如CatBoost. CatBoost-LSTM模型通过融合CatBoost在处理类别特征方面的强大能力和LSTM在处理时间序列数据方面的卓越表现，能够在回归任务中提供更为优越的估算性能，提供更全面的估算性能^{[28，45，46]}.

1.3.4 CatBoost-LSTM模型构建

CatBoost-LSTM模型估算O₃浓度流程的主要步骤包括数据处理、相关性分析、模型构建和验证，具体流程如图 4：①数据处理：主要包括数据提取、时空匹配和异常值的处理等；②相关性分析：通过皮尔逊相关系数方法对估算变量进行皮尔逊相关性分析；③CatBoost-LSTM模型构建和验证：将全估算变量输入CatBoost模型进行训练，使用训练好的CatBoost模型对O₃浓度进行初步估算，得到CatBoost模型估算结果；然后将CatBoost估算结果、时间和地理位置随机效应变量及其余解释变量作为输入，构建LSTM模型，最终得到成渝城市群近地面O₃浓度的估算值. 使用决定系数（R²）、平均绝对误差（MAE）和均方根误差（RMSE）评估模型的稳定性和准确性.

图 4 CatBoost-LSTM模型预测流程 Fig. 4 CatBoost-LSTM model prediction process

1.3.5 模型验证

本研究采用R²、MAE和RMSE作为评价指标. 公式如下：

(3)

(4)

(5)

式中，n为样本总数；O₃为实测O₃浓度；O₃^P为估算O₃浓度；为实测O₃浓度的平均值.

2 O₃估算结果与时空分布 2.1 模型验证结果

为评估CatBoost-LSTM模型O₃浓度估算的精度情况，本研究选取CatBoost、XGBoost、RF、LightGBM、LSTM、XGBoost-LSTM、RF-LSTM和LightGBM-LSTM模型进行对比实验分析. 为防止模型发生过拟合或欠拟合现象，建模时按9∶1划分训练集和验证集，并采用十折交叉验证基于随机网格搜索进行参数调优. 各模型在验证集上的精度统计如下.

2.1.1 整体模型在验证集上的精度情况

图 5和图 6分别为整体模型（年模型）在验证集上的精度统计和精度对比. 可以看出，单模型中LSTM模型的验证精度最低，MAE、RMSE和R²分别为11.75 μg·m^-3、15.08 μg·m^-3和0.754；其余模型精度由低到高依次为RF模型、LightGBM模型、XGBoost模型和CatBoost模型. 考虑时域相关性后，组合模型精度均有不同程度地提升. 其中，RF-LSTM模型的精度最差，MAE、RMSE和R²分别为7.66 μg·m^-3、9.79 μg·m^-3和0.896. 精度最高的3个组合模型分别为LightGBM-LSTM、XGBoost-LSTM和CatBoost-LSTM. 相比于CatBoost，CatBoost-LSTM的MAE、RMSE和R²分别改善了31.15%、34.35%和6.16%；相比于LightGBM-LSTM，CatBoost-LSTM的MAE、RMSE和R²分别改善42.30%、40.65%和1.79%；相比于XGBoost-LSTM，CatBoost-LSTM的MAE、RMSE和R²分别改善了16.60%、16.76%和1.67%

横坐标为地面监测站O₃浓度实测值，纵坐标为模型O₃浓度估算值；MAE和RMSE的单位为μg·m^-3 图 5 年模型在验证集上的精度情况 Fig. 5 Precision of the model on the validation data set

1.CatBoost模型，2.XGBoost模型，3.RF模型，4.LightGBM模型，5.LSTM模型，6.RF-LSTM模型，7.LightGBM-LSTM模型，8.XGBoost-LSTM模型，9.CatBoost-LSTM模型图 6 年模型精度对比 Fig. 6 Comparison of model accuracy

2.1.2 季节模型在验证集上的精度情况

考虑到O₃和影响因子均存在季节差异性，为更好估算近地面的O₃浓度，本文还按季节分别构建了春（3~5月）、夏（6~8月）、秋（9~11月）和冬（12月至次年2月）季节模型. 鉴于CatBoost-LSTM模型的精度最高，限于篇幅，此处仅对CatBoost-LSTM季节模型在验证集上的精度情况进行分析. 图 7和图 8分别为季节尺度模型在验证集上的精度统计和精度对比. 可以看出，尽管季节尺度上验证集的样本数更少，各季节模型较年模型仍取得了更高的验证精度.

横坐标为地面监测站O₃浓度实测值，纵坐标为模型O₃浓度估算值；MAE和RMSE的单位为μg·m^-3 图 7 季节模型的精度 Fig. 7 Precision of seasonal models

图 8 季节模型精度对比 Fig. 8 Precision comparison of seasonal models

由图 7和图 8进一步分析知，各季节模型的精度存在差异，精度由低到高依次为夏季模型、春季模型、秋季模型和冬季模型. 其中，夏季模型精度最低，MAE和RMSE分别为3.86 μg·m^-3和4.67 μg·m^-3；冬季模型精度最高，MAE和RMSE分别为2.24 μg·m^-3和2.97 μg·m^-3. 原因可能是不同季节的臭氧源、植被覆盖和气象因子等存在差异性，导致光化学反应过程不尽相同. 其中，夏季相较于冬季的经济活动更加频繁，植被生长较为旺盛，季节内气象因子（如气温、湿度和风速等）的变化相对较大，导致气象因子与O₃浓度间的关系更为复杂，而这种关系很难被模型充分捕捉；相反，冬季由于光化学反应和大气扩散较少，O₃生成途径单一，气温、湿度和风速等相对较为稳定，气象因子与O₃浓度间的关系更容易被模型捕捉. 此外，季节模型中R²均大于0.97且并不显著，表明各季节模型中解释变量对响应变量均具有较强的解释能力.

2.2 O₃估算结果 2.2.1 臭氧浓度月尺度估算结果

图 9为成渝城市群2022年近地面O₃浓度估算结果的月均值折线图. 可看出近地面O₃浓度月均值整体呈倒“V”型. O₃浓度估算值与实测值具有十分相似的变化特征，二者间的相关系数达0.994. 单从近地面O₃浓度实测值看，8月污染最为严重，达到全年中的最高值（89.08 μg·m^-3），其次是7月（88.20 μg·m^-3）和4月（74.47 μg·m^-3），最低为12月（29.30 μg·m^-3）. 1~4月O₃浓度呈上升趋势，从41.46 μg·m^-3上升至74.47 μg·m^-3. 但1~2月上升比较缓慢，这可能是由于春节期间气象条件通常比较稳定，且与工业生产和交通工具使用减少有关；2~4月增速较快，3个月内增加了29.36 μg·m^-3，这是由于春节过后，气温逐步升高，工业生产及交通运输逐渐变得活跃. 可能因为降雨的清洗和植被释放挥发性有机物，以及环境政策和控制措施等的共同作用，4~5月O₃浓度出现轻微的下降. 5~8月O₃浓度整体上升了17.05 μg·m^-3，这是因为6~8为夏季，气温整体较高，光照强度的增加以及持续的污染排放等原因导致O₃浓度上升. 8~12月O₃浓度开始下降，下降的趋势较快，整体下降了59.78 μg·m^-3.

图 9 O₃浓度月均值变化 Fig. 9 Monthly variation in O₃ concentration

图 10为成渝地区2022年1~12月近地面O₃浓度的月均值空间分布. 可以看出，研究区1月和2月的O₃污染程度整体较轻. 3~8月污染程度显著上升，高污染地区主要集中在成渝城市群的西部地区（包括绵阳市、德阳市、成都市、雅安市、乐山市和眉山市等城市）. 西部地区的工业活动旺、交通密集度高、人口密集度大和污染源较多等因素导致污染程度整体较高. 9~12月整体污染程度逐渐降低，12月为最低，其中绵阳市、德阳市、成都市、雅安市和乐山市等城市的污染程度依旧比其余地区较高. 成渝城市群O₃污染的空间分布整体为西高东低，其中高值区主要分布在成渝城市群的西部，这些城市几乎所有月份的月均O₃浓度超过了80 μg·m^-3，低值区主要集中在成渝城市群的东部，重庆市、南充市和宜宾市等周边城市群均为O₃轻微污染的地区，以上地区的ρ（O₃）月均值基本都低于80 μg·m^-3.

图 10 O₃浓度月尺度空间分布特征 Fig. 10 Monthly spatial distribution characteristics of O₃ concentration

2.2.2 臭氧浓度季节尺度估算结果

研究区2022年3月~次年2月各季节近地面O₃浓度估值空间分布如图 11所示. 可明显看出，成渝城市群O₃污染程度有着明显的季节性差异，春季、夏季、秋季和冬季近地面ρ（O₃）季节均值分别为72.62、84.59、53.59和35.23 μg·m^-3.

图 11 O₃浓度季尺度空间分布特征 Fig. 11 Seasonal spatial distribution characteristics of O₃ concentration

春季近地面O₃浓度高值区主要分布在成渝城市群的西部地区（绵阳市、德阳市、成都市、雅安市、乐山市等城市），低值区主要分布在东部（重庆市和达州市）. 夏季和春季O₃浓度空间分布特征基本相同，但O₃浓度整体上升明显，主要原因是：夏季成渝城市群的温度升高和光照强度增加，促进了光化学反应，导致O₃生成速率增加；大气垂直混合较弱，有利于O₃在低层大气中的累积和积聚；工业排放、交通排放、农业活动等产生的挥发性有机物（VOCs）和氮氧化物（NO_x）等O₃前体物质的增加.

相较于夏季，秋季近地面O₃浓度大幅度降低，高值区集中在乐山市和雅安市地区，其余地区基本都低于60 μg·m^-3，但重庆市东南部地区O₃浓度偏高，主要是因为重庆市东南部地区交通密集度高，且地势较低、地形复杂、山脉环绕，易形成地形逆温，气团较难扩散，导致空气污染物滞留时间较长. 相较于其余三季，冬季O₃浓度最低，原因是冬季成渝地区通常气温较低，大气中的光化学反应速率较慢，污染源如工业生产和交通活动等减少，导致VOCs和NO_x等O₃前体物质的排放量减少，从而降低了O₃的生成速率. 此外，冬季日照时间较短，光照强度减弱，O₃的光化学生成速率相对降低，不利于近地面O₃的形成.

3 结论

（1）本文中9种模型对研究区近地面O₃浓度均具有较好的估算能力. 由于CatBoost-LSTM模型不仅顾及了O₃浓度的空间差异性，而且还顾及了O₃浓度的时域相关性，在验证集上的性能表现为最优，R²、MAE和RMSE分别为0.964、4.58 μg·m^-3和5.94 μg·m^-3.

（2）季节模型中，CatBoost-LSTM同样获得了较好的拟合优度，R²最低值为0.975. 但由于受臭氧源及光化学反应过程等差异性的影响，季节模型在验证集中的精度存在差异. 从MAE和RMSE来看，冬季模型精度最高，MAE和RMSE分别为2.24 μg·m^-3和2.97 μg·m^-3，其余模型精度由高到低依次为秋季模型、春季模型和夏季模型.

（3）基于CatBoost-LSTM模型估算的近地面O₃浓度月均值与实测近地面O₃浓度月均值具有十分相似的变化趋势，二者间的相关系数高达0.994，进一步说明本文所构建的CatBoost-LSTM模型可较好地刻画研究区近地面O₃浓度的变化特征，可实际应用于研究区近地面O₃浓度的高精度高时空分辨率估计，从而为区域空气质量评估和环境污染治理提供更加科学的依据.

（4）受地形、温度、人类活动、臭氧源及光化学反应过程等的影响，研究区近地面O₃浓度月均值表现出较大的差异性，变化趋势整体呈倒“V”字型，其中1月~8月整体表现为上升，而后则迅速下降，至12月降至最低值；季节尺度下，近地面O₃浓度数值上同样存在较大的差异性，其中夏季最高（84.59 μg·m^-3），冬季最低（35.23 μg·m^-3）. 空间分布上，无论是月尺度还是季节尺度，近地面O₃浓度均存在较大的空间差异性，呈现出西部地区整体高于东部地区的分布特征.

参考文献

[1]	Li L G, Liu N W, Shen L D, et al. Ozone concentration at various heights near the surface layer in Shenyang, Northeast China[J]. Frontiers in Environmental Science, 2022, 10. DOI:10.3389/fenvs.2022.1011508
[2]	Li T Y, Wu N G, Chen J Y, et al. Vertical exchange and cross-regional transport of lower-tropospheric ozone over Hong Kong[J]. Atmospheric Research, 2023, 292. DOI:10.1016/j.atmosres.2023.106877
[3]	Mukhtarov P, Miloshev N, Bojilova R. Stratospheric warming events in the period January-March 2023 and their impact on stratospheric ozone in the northern hemisphere[J]. Atmosphere (Basel), 2023, 14(12). DOI:10.3390/atmos14121762
[4]	Capone P, Lancia A, D'Ovidio M C. Interaction between air pollutants and pollen grains: effects on public and occupational health[J]. Atmosphere (Basel), 2023, 14(10). DOI:10.3390/atmos14101544
[5]	梁晓霞, 谢东海, 韩宗甫, 等. 基于梯度提升算法的近地面臭氧浓度估算比较[J]. 中国环境科学, 2023, 43(8): 3886-3899. Liang X X, Xie D H, Han Z F, et al. Comparison of estimation models for near-surface ozone concentration based on gradient boosting algorithm[J]. China Environmental Science, 2023, 43(8): 3886-3899.
[6]	Posadas-Sánchez R, Vargas-Alarcón G, Cardenas A, et al. Long-term exposure to ozone and fine particulate matter and risk of premature coronary artery disease: results from genetics of atherosclerotic disease Mexican study[J]. Biology (Basel), 2022, 11(8). DOI:10.3390/biology11081122
[7]	Lu X, Zhang L, Chen Y F, et al. Exploring 2016-2017 surface ozone pollution over China: source contributions and meteorological influences[J]. Atmospheric Chemistry and Physics, 2019, 19(12): 8339-8361. DOI:10.5194/acp-19-8339-2019
[8]	Wang T, Xue L K, Feng Z Z, et al. Ground-level ozone pollution in China: a synthesis of recent findings on influencing factors and impacts[J]. Environmental Research Letters, 2022, 17(6). DOI:10.1088/1748-9326/ac69fe
[9]	Xia N, Du E Z, Guo Z D, et al. The diurnal cycle of summer tropospheric ozone concentrations across Chinese cities: spatial patterns and main drivers[J]. Environmental Pollution, 2021, 286. DOI:10.1016/j.envpol.2021.117547
[10]	Peng S, Ju T Z, Liang Z H, et al. Analysis of atmospheric ozone in fenwei plain based on remote sensing monitoring[J]. Environmental Monitoring and Assessment, 2022, 194(6). DOI:10.1007/s10661-022-10082-z
[11]	Meng X, Wang W D, Shi S, et al. Evaluating the spatiotemporal ozone characteristics with high-resolution predictions in mainland China, 2013-2019[J]. Environmental Pollution, 2022, 299. DOI:10.1016/j.envpol.2022.118865
[12]	Tian Y R, Wang Y, Han Y, et al. Spatiotemporal characteristics of ozone pollution and resultant increased human health risks in central China[J]. Atmosphere (Basel), 2023, 14(10). DOI:10.3390/atmos14101591
[13]	Jaén C, Udina M, Bech J. Analysis of two heat wave driven ozone episodes in Barcelona and surrounding region: meteorological and photochemical modeling[J]. Atmospheric Environment, 2021, 246. DOI:10.1016/j.atmosenv.2020.118037
[14]	Zhou M G, Li Y H, Zhang F Y. Spatiotemporal variation in ground level ozone and its driving factors: a comparative study of coastal and inland cities in eastern China[J]. International Journal of Environmental Research and Public Health, 2022, 19(15). DOI:10.3390/ijerph19159687
[15]	Ji X T, Hong Y W, Lin Y L, et al. Impacts of synoptic patterns and meteorological factors on distribution trends of ozone in southeast China during 2015-2020[J]. Journal of Geophysical Research: Atmospheres, 2023, 128(14). DOI:10.1029/2022JD037961
[16]	Yu R L, Lin Y L, Zou J H, et al. Review on atmospheric ozone pollution in China: formation, spatiotemporal distribution, precursors and affecting factors[J]. Atmosphere (Basel), 2021, 12(12). DOI:10.3390/atmos12121675
[17]	Chatani S, Kitayama K, Itahashi S, et al. Effectiveness of emission controls implemented since 2000 on ambient ozone concentrations in multiple timescales in Japan: an emission inventory development and simulation study[J]. Science of the Total Environment, 2023, 894. DOI:10.1016/j.scitotenv.2023.165058
[18]	Domínguez-García R, Arellano-Vázquez M. Evaluation of machine learning models for ozone concentration forecasting in the metropolitan valley of Mexico[J]. Applied Science (Basel), 2024, 14(4). DOI:10.3390/app14041408
[19]	Eslami E, Choi Y, Lops Y, et al. A real-time hourly ozone prediction system using deep convolutional neural network[J]. Neural Computing and Applications, 2020, 32(13): 8783-8797. DOI:10.1007/s00521-019-04282-x
[20]	朱媛媛, 刘冰, 桂海林, 等. 京津冀臭氧污染特征、气象影响及基于神经网络的预报效果评估[J]. 环境科学, 2022, 43(8): 3966-3976. Zhu Y Y, Liu B, Gui H L, et al. Characteristics of ozone pollution, meteorological impact, and evaluation of forecasting results based on a neural network model in Beijing-Tianjin-Hebei region[J]. Environmental Science, 2022, 43(8): 3966-3976.
[21]	Wang B, Sun M P, Si L P, et al. Spatio-temporal variation of O₃ concentration and exposure risk assessment in key regions of China, 2015-2021[J]. Atmospheric Pollution Research, 2024, 15(1). DOI:10.1016/j.apr.2023.101941
[22]	Xuan L C, Li L, Wang P J, et al. Characteristics of temporal and spatial changes in ozone and PM_2.5 and correlation analysis in Heilongjiang Province[J]. Atmosphere (Basel), 2023, 14(10). DOI:10.3390/atmos14101526
[23]	Lu H, Xie M, Liu X R, et al. Adjusting prediction of ozone concentration based on CMAQ model and machine learning methods in Sichuan-Chongqing region, China[J]. Atmospheric Pollution Research, 2021, 12(6). DOI:10.1016/j.apr.2021.101066
[24]	Cheng Y, He L Y, Huang X F. Development of a high-performance machine learning model to predict ground ozone pollution in typical cities of China[J]. Journal of Environmental Management, 2021, 299. DOI:10.1016/j.jenvman.2021.113670
[25]	Ma R M, Ban J, Wang Q, et al. Statistical spatial-temporal modeling of ambient ozone exposure for environmental epidemiology studies: a review[J]. Science of the Total Environment, 2020, 701. DOI:10.1016/j.scitotenv.2019.134463
[26]	刘晓咏, 颜俊, 刘航, 等. 2019~2021年河南省区域背景臭氧浓度估算[J]. 环境科学, 2024, 45(8): 4411-4418. Liu X Y, Yan J, Liu H, et al. Estimation of regional background ozone in Henan province from 2019 to 2021[J]. Environmental Science, 2024, 45(8): 4411-4418.
[27]	Wang W H, Liu X, Bi J Z, et al. A machine learning model to estimate ground-level ozone concentrations in california using TROPOMI data and high-resolution meteorology[J]. Environment International, 2022, 158. DOI:10.1016/j.envint.2021.106917
[28]	龚德才, 杜宁, 王莉, 等. 基于XGBoost-LME模型的京津冀地区近地面臭氧浓度估算[J]. 环境科学, 2024, 45(7): 3815-3827. Gong D C, Du N, Wang L, et al. Estimation of near-surface ozone concentration in the Beijing-Tianjin-Hebei Region Based on XGBoost-LME model[J]. Environmental Science, 2024, 45(7): 3815-3827.
[29]	Pan J H, Li X X, Zhu S X. High-resolution estimation of near-surface ozone concentration and population exposure risk in China[J]. Environmental Monitoring and Assessment, 2024, 196(3). DOI:10.1007/s10661-024-12416-5
[30]	Wang X K, Xue Y, Jin C L, et al. Estimation of surface-level ozone mass concentration using TROPOMI data and source-sink analysis over China[A]. In: 2022 IEEE International Geoscience and Remote Sensing Symposium[C]. Kuala Lumpur: IEEE, 2022. 7980-7983.
[31]	Chen G B, Chen J, Dong G H, et al. Improving satellite-based estimation of surface ozone across China during 2008-2019 using iterative random forest model and high-resolution grid meteorological data[J]. Sustainable Cities and Society, 2021, 69. DOI:10.1016/j.scs.2021.102807
[32]	Li M Y, Yang Q Q, Yuan Q Q, et al. Estimation of high spatial resolution ground-level ozone concentrations based on landsat 8 TIR bands with deep forest model[J]. Chemosphere, 2022, 301. DOI:10.1016/j.chemosphere.2022.134817
[33]	Du J B, Qiao F X, Lu P, et al. Forecasting ground-level ozone concentration levels using machine learning[J]. Resources, Conservation and Recycling, 2022, 184. DOI:10.1016/j.resconrec.2022.106380
[34]	Wang S Y, Ren Y, Xia B S. PM_2.5 and O₃ concentration estimation based on interpretable machine learning[J]. Atmospheric Pollution Research, 2023, 14(9). DOI:10.1016/j.apr.2023.101866
[35]	Dai H B, Huang G Q, Wang J J, et al. VAR-tree model based spatio-temporal characterization and prediction of O₃ concentration in China[J]. Ecotoxicology and Environmental Safety, 2023, 257. DOI:10.1016/j.ecoenv.2023.114960
[36]	Chen X Y, Wang Z G, Shangguan Y L, et al. Estimating monthly surface ozone using multi-source satellite products in China based on deep forest model[J]. Atmospheric Environment, 2023, 307. DOI:10.1016/j.atmosenv.2023.119819
[37]	Wang Y, Yuan Q Q, Li T W, et al. Estimating daily full-coverage near surface O₃, CO, and NO₂ concentrations at a high spatial resolution over China based on S5P-TROPOMI and GEOS-FP[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 175: 311-325. DOI:10.1016/j.isprsjprs.2021.03.018
[38]	Kang Y, Choi H, Im J, et al. Estimation of surface-level NO₂ and O₃ concentrations using TROPOMI data and machine learning over East Asia[J]. Environmental Pollution, 2021, 288. DOI:10.1016/j.envpol.2021.117711
[39]	Mu X, Wang S C, Jiang P, et al. Estimation of surface ozone concentration over Jiangsu province using a high-performance deep learning model[J]. Journal of Environmental Sciences, 2023, 132: 122-133. DOI:10.1016/j.jes.2022.09.032
[40]	Zhou F R, Pan H, Gao Z Y, et al. Fire prediction based on catBoost algorithm[J]. Mathematical Problems in Engineering, 2021, 2021. DOI:10.1155/2021/1929137
[41]	Lin R G, Yu Y W, Wang H W, et al. Remaining useful life prediction in prognostics using multi-scale sequence and long short-term memory network[J]. Journal of Computational Science, 2022, 57. DOI:10.1016/j.jocs.2021.101508
[42]	Song X J, Huang J J, Song D W. Air quality prediction based on LSTM-Kalman model[A]. In: Proceedings of 2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC)[C]. Chongqing: IEEE, 2019. 695-699.
[43]	Ding W F, Sun H H. Prediction of PM_2.5 concentration based on the weighted RF-LSTM model[J]. Earth Science Informatics, 2023, 16(4): 3023-3037. DOI:10.1007/s12145-023-01111-7
[44]	Li Y R, Zhu Z F, Kong D Q, et al. EA-LSTM: evolutionary attention-based lstm for time series prediction[J]. Knowledge-Based Systems, 2019, 181. DOI:10.1016/j.knosys.2019.05.028
[45]	Bentéjac C, Csörgő A, Martínez-Muñoz G. A comparative analysis of gradient boosting algorithms[J]. Artificial Intelligence Review, 2021, 54(3): 1937-1967. DOI:10.1007/s10462-020-09896-5
[46]	Van Houdt G, Mosquera C, Nápoles G. A review on the long short-term memory model[J]. Artificial Intelligence Review, 2020, 53(8): 5929-5955. DOI:10.1007/s10462-020-09838-1


环境科学 2025, Vol. 46 Issue (6): 3329-3338	PDF