基于GTWR-XGBoost模型的四川省PM<sub>2.5</sub>小时浓度估算

引用本文

吴迪, 杜宁, 王莉, 吴宇宏, 张少磊, 周彬, 张显云. 基于GTWR-XGBoost模型的四川省PM_2.5小时浓度估算[J]. 环境科学, 2023, 44(7): 3738-3748.

WU Di, DU Ning, WANG Li, WU Yu-hong, ZHANG Shao-lei, ZHOU Bin, ZHANG Xian-yun. Estimation of PM_2.5 Hourly Concentration in Sichuan Province Based on GTWR-XGBoost Model[J]. Environmental Science, 2023, 44(7): 3738-3748.

基于GTWR-XGBoost模型的四川省PM_2.5小时浓度估算

吴迪, 杜宁, 王莉, 吴宇宏, 张少磊, 周彬, 张显云

贵州大学矿业学院, 贵阳 550025

收稿日期: 2022-07-17; 修订日期: 2022-09-12

基金项目: 贵州省省级科技计划项目(黔科合支撑[2022]一般204)

作者简介: 吴迪(1996~), 男, 硕士研究生, 主要研究方向为资源与环境遥感, E-mail: 1290225517@qq.com

通信作者: 杜宁, E-mail: ndu1@gzu.edu.cn

摘要: 卫星气溶胶光学厚度(AOD)和气象数据已被广泛用于估算空气动力学直径≤2.5 μm的地表颗粒物(PM_2.5)浓度.研究高时间分辨率、高精度的PM_2.5浓度估算方法, 对及时准确的空气质量预报和大气污染的预防及缓解具有重要意义.使用Himawari-8 AOD小时产品和ERA5气象再分析资料作为估算变量, 提出GTWR-XGBoost组合模型, 对四川省PM_2.5小时浓度进行估算.结果表明: 1提出的组合模型运用于全数据集的性能优于KNN、RF、AdaBoost、GTWR、GTWR-KNN、GTWR-RF和GTWR-AdaBoost模型, 拟合精度指标R²、MAE和RMSE分别为0.96、3.43 μg ·m^-3和5.52 μg ·m^-3, 验证精度指标R²、MAE和RMSE分别为0.9、4.98 μg ·m^-3和7.92 μg ·m^-3.2该模型作用于PM_2.5浓度小时估算上, 具有较高的拟合优度(全数据集的R²为0.96, 不同时刻的R²介于0.91~0.98之间), 表明该模型对于小时估算具有较好的时间稳定性, 能为区域空气质量评估提供精准的估算信息.3在时间上年均PM_2.5小时浓度估算变化总体上呈现"倒U"型趋势, 09:00开始升高至11:00达到峰值[ρ(PM_2.5)为44.56 μg ·m^-3]后逐渐降低; 且季节性变化非常明显, 呈现冬季>春季>秋季>夏季的趋势.4在空间分布上总体呈现东高西低和局部污染程度较高的特点, 高值区主要分布在城市快速发展和人口密集的东部地区, 低值区主要分布在经济发展落后和人口稀疏的西部地区.

关键词: PM_2.5 Himawari-8 AOD GTWR-XGBoost模型机器学习时空分布

Estimation of PM_2.5 Hourly Concentration in Sichuan Province Based on GTWR-XGBoost Model

WU Di , DU Ning , WANG Li , WU Yu-hong , ZHANG Shao-lei , ZHOU Bin , ZHANG Xian-yun

Mining College, Guizhou University, Guiyang 550025, China

Abstract: Aerosol optical depths of satellites and meteorological factors have been widely used to estimate concentrations of surface particulate matter with an aerodynamic diameter ≤2.5 μm. Research on a high time resolution and high-precision PM_2.5 concentration estimation method is of great significance for timely and accurate air quality prediction and air pollution prevention and mitigation. Himawari-8 AOD hour product and ERA5 meteorological reanalysis data were used as estimation variables, and a GTWR-XGBoost combined model was proposed to estimate hourly PM_2.5 concentration in Sichuan Province. The results showed that: ① the performance of the proposed combination model was better than that of the KNN, RF, AdaBoost, GTWR, GTWR-KNN, GTWR-RF, and GTWR-AdaBoost models in the full dataset; the fitting accuracy indexes R², MAE, and RMSE were 0.96, 3.43 μg·m^-3, and 5.52 μg·m^-3, respectively; and the verification accuracy indexes R², MAE, and RMSE were 0.9, 4.98 μg·m^-3, and 7.92 μg·m^-3, respectively. ② The model had a high goodness of fit (R² of the whole dataset was 0.96, and R² of different times ranged from 0.91 to 0.98) when applied to the estimation of PM_2.5 concentration hour. It showed that the model had good time stability for hourly estimation and could provide accurate estimation information for regional air quality assessment. ③ In terms of time, the annual average PM_2.5hourly concentration estimation showed an inverted U-shaped trend. It began to increase gradually at 09:00 am to a peak of 44.56 μg·m^-3 at 11:00 and then gradually decreased. Moreover, the seasonal variation was very obvious, with winter>spring>autumn>summer. ④ In terms of spatial distribution, it showed the characteristics of high in the east and low in the west and a high degree of local pollution.

Key words: PM_2.5 Himawari-8 AOD GTWR-XGBoost model machine learning spatial and temporal distributions

随着经济全球化的潮流, 我国城市化率快速提升, 而大量聚集的工业生产和人类生活排放引起PM_2.5等空气污染问题日益突出^[1].PM_2.5是指空气动力学直径不超过2.5μm的颗粒物, 对全球气候、大气环境质量和人体健康等有着重要影响^[2].近地表空气中的PM_2.5可能被吸入人的肺部, 从而导致人体呼吸系统, 心血管系统, 生殖系统或血液系统出现严重的健康问题^[3].目前对PM_2.5的监测主要是通过地面监测和遥感监测.地面监测虽然可以获取实时的高精度数据, 但受限于地面站点数量和监测覆盖范围, 缺乏空间上的延续性, 从而难以提供丰富的监测结果^[4].相较于地面监测, 遥感监测具有空间分辨率高、监测范围广、速度快、成本低和全天候实时监测的特点, 可以弥补地面监测的不足^[5~7].

遥感监测PM_2.5主要是以AOD和气象数据为自变量, 建立回归模型估算PM_2.5浓度^[8~10].但PM_2.5的化学成分和光学特性是不均匀的, 具有显著的非线性特征, 简单的线性模型难以正确估算其浓度.机器学习算法(K最邻近值、随机森林和boost算法等)计算速度快, 对异常值和噪声容忍度高, 适用于解决非线性问题.已有许多学者尝试使用机器学习模型应用于空气质量估算, 克服了空气质量与气象变量之间非线性关系的困难^{[11, 12]}.Li等^[13]在GWR中融合AOD数据和DMSP/OLS夜间灯光影像数据, 对美国东北部地区的PM_2.5浓度进行估算.He等^[14]结合空间分辨率为3 km的AOD数据, 运用改进的地理时间加权回归模型(GTWR)估算中国大陆地区的PM_2.5日均浓度.侯俊雄等^[15]提出了一种融合了随机森林算法和WRF大气模式的PM_2.5浓度实时预报方法.Pan^[16]采用XGBoost模型对小时PM_2.5浓度进行估算, 获得较好结果.Zhai等^[17]提出一种AdaBoost、XGBoost和遗传算法(GA-MLP)集成的堆叠模型, 对北京PM_2.5日均值进行了估算, 结果表明集合模型的异变解释能力优于单个模型.Chen等^[18]利用Himawari-8号卫星数据, 结合AdaBoost、XGBoost和随机森林(RF)这3个机器学习的子模型建立一种堆叠模型, 其性能优于单一模型.以上研究存在以下问题：①虽均以连续的AOD、PM_2.5数据做估算, 但时间分辨率较粗; ②研究区域的选择大多是东部沿海地区, 对内陆地区的研究较少; ③以上这些研究使用的模型考虑到了数据源的非线性问题, 但忽略了时空异质性问题.因此对作用于内陆地区、达到小时估算分辨率且同时考虑时空异质性和非线性的组合模型研究, 有助于大气污染联防联控与公众环境空间质量信息服务的改善.

本研究将2017年Himawari-8 AOD小时产品、地面监测站点PM_2.5小时质量浓度和ERA5气象数据结合, 在分析了气象变量对PM_2.5浓度影响的基础上, 提出了GTWR和XGBoost结合的PM_2.5估算模型, 对四川省PM_2.5小时浓度进行估算, 以期为区域空气质量评估提供精准参考.

1 材料与方法 1.1 研究区域概况

四川省位于中国西南腹地, 属于中国大陆地势第一阶梯和第二阶梯, 介于97°21′~108°33′E和26°03′~34°19′N之间, 地势复杂, 东西高低悬殊, 域内面积48.6万km².以龙门山-大凉山一线为界, 东部为四川盆地及盆缘山地, 西部为川西高山高原及川西南山地, 域内最高点位于贡嘎山, 海拔7556 m, 最低点位于广安市邻水县的御临河出省处, 海拔仅184 m, 高差约7300 m, 见图 1.因四川盆地独特的地理位置, 冷空气易沿盆周向底部运动, 在盆地底部聚集, 形成典型的地形逆温现象, 又因人口集中于川东盆地地区, 人类生产生活密集, 加之盆地风向受反气旋控制明显, 全年静风较多, 不利于污染物扩散, 造成污染物积聚, 使得四川省中东部成为空气污染较为严重的地区.

图 1 研究区域及地面监测站分布示意 Fig. 1 Research area and distribution of ground monitoring stations

1.2 数据来源及处理 1.2.1 PM_2.5站点数据

PM_2.5数据为中国环境监测总站(CNEMC, http://106.37.208.233:20035/)2017年空气质量监测站逐小时的污染物监测数据, 研究区范围内共包括94个站点.PM_2.5研究区域及地面监测站分布见图 1.

1.2.2 Himawari-8 AOD数据

Himawari-8卫星是2015年7月7日正式运行的新一代静止气象卫星, 该卫星具有最高500 m的空间分辨率及全盘扫描每次10 min的时间分辨率.Zang等^[19]的研究将Himawari-8 AOD产品与中国及其周边多地区的42个AERONET站点的地面实际观测结果进行分析, 结论得出两者之间具有较高相关性; Chen等^[18]的研究利用Himawari-8卫星数据结合模型对中国中东部地区进行了逐时性的PM_2.5浓度估算, 与地面站点实测小时浓度验证得到较高的拟合精度.综合前者研究表明Himawari-8 AOD小时产品可用于对地面PM_2.5浓度进行小时估算.本文使用Himawari-8 AOD产品中置信度为“非常好”的Level-3小时产品, 通过日本宇航局的P-Tree系统(http://www.eorc.jaxa.jp/ptree/)下载.

1.2.3 气象数据

气象数据采用欧洲中期天预报中心(European centre for medium-range weather forecasts, ECMWF)发布的ERA5再分析数据集(https://www.ecmwf.int/en/forecasts/datasets/), ERA5是继前身ERA-Interim之后ECMWF对全球气候的第五代大气再分析, 相较于ERA-Interim, ERA5的空间分辨率达到了0.125°, 时间分辨率达到了1 h, 同化了更多的观测变量.本研究选用四川省地区2017年ERA5气象数据, 气象变量包括边界层高度(BLH)、低植被覆盖指数(CVL)、高植被覆盖指数(CVH)、气压(SP)、2 m地面温度(T2M)、2 m露点温度(D2M)、10 m风速u分量(U₁₀)、10 m风速v分量(V₁₀)、总降水量(RAIN)和相对湿度(RH), 下文中均用缩写表示.

1.2.4 数据匹配

由于卫星过境时并非准点时刻, 获得的Himawari-8 AOD数据与ERA5再分析数据存在时间与空间上的差异, 所以要对两种数据进行时空匹配处理.时间上, 以Himawari-8 AOD数据为基准, 取卫星过境时间前后1h的PM_2.5站点数据均值与Himawari-8 AOD数据匹配, 得到AOD过境时的PM_2.5浓度, 取与Himawari-8卫星过境时刻最邻近的ERA5数据作为AOD过境时的气象数据; 空间上, 采用改进的重采样方法对ERA5数据做降尺度处理, 将ERA5的空间分辨率调整到与Himawari-8 AOD一致^[20].

1.3 研究方法 1.3.1 PM_2.5浓度与气象因素相关性分析

本文将气象因子作为PM_2.5浓度预测的重要影像因素, 已有研究证实了PM_2.5浓度与边界层高度、气压、温度、湿度和风速等因素之间具有密切关系^[21~23].对研究区内PM_2.5浓度与气象因素进行皮尔逊相关性分析, 分析结果见表 1, 其中所示PM_2.5浓度与SP和RH呈正相关关系, 与BLH、CVH、T2M、D2M、U₁₀、V₁₀和RAIN呈负相关关系.

表 1 PM_2.5与气象因素的皮尔逊相关系数 Table 1 Pearson correlation coefficient of PM_2.5 concentration and meteorological factors

1.3.2 多重线性回归分析共线性

本研究收集的气象变量较多, 估算变量之间的线性关系会隐蔽变量的显著性, 增加参数估计的误差, 影响模型预测的性能, 因此需诊断各变量之间是否存在线性关系.用多重线性回归分析计算标准化系数和VIF(方差膨胀因子)系数作为共线性诊断的重要指标.当VIF≥10说明变量间存在多重共线性问题, 5≤VIF < 10说明变量间可能存在多重共线性关系, VIF < 5说明变量间不存在多重共线性关系^[24]; 标准化系数越接近1(或-1)对于因变量的正向影响(或负向影响)越显著.多重线性回归分析结果见表 2, 表中RAIN(VIF=48.056)、V₁₀(VIF=36.901)、D2M(VIF=24.385)和T2M(VIF=17.149)这4个变量VIF值超过10应该剔除, 结合标准化系数T2M(-0.039)、RH(0.047), 经多次回归分析, 当剔除T2M、V₁₀和RH时各变量的VIF值均小于2, 结果最优.故将剔除T2M、V₁₀和RH变量的数据集输入GTWR模型训练; 因XGBoost模型能分布式处理高维稀疏特征, 无需考虑变量之间的共线性关系, 可将T2M、V₁₀和RH变量加入XGBoost拟合.

表 2 多重线性回归分析结果¹⁾ Table 2 Analysis results of multiple linear regression

1.3.3 地理时间加权回归模型(GTWR)

Brunsdon等^[25]在总结前人提出的局部回归分析和变参数研究的基础上提出了地理加权回归方法(GWR), 用于检验自变量和因变量之间的空间差异关系.Huang等^[26]在GWR的基础上引入时间纬度, 拓展为地理时间加权回归模型(GTWR), 用于检验自变量和因变量之间的时空异质性关系.之后, 众多学者对GTWR的时空异质性进行研究, 验证了GTWR能够有效地解决空间数据的时空非平稳性问题^{[27, 28]}.GTWR的基本公式见式(1)：

(1)

式中, i为空间点的索引; y_i为样本点的因变量值; (u_i, v_i, t_i)为时空点的坐标; β₀(u_i, v_i, t_i)为样本点的回归常数; x_ik为样本点的第k个解释变量.此时的关键问题是估计自变量k在每个时空位置的回归系数β_k(u_i, v_i, t_i), 采用矩阵的方式, β_k(u_i, v_i, t_i)的估计可以用式(2)表示：

(2)

式中, W(u_i, v_i, t_i)=diag(α_i1, α_i2, …, α_in)为时空权重矩阵; n为观测值总数; 对角元素α_ij(1≤j≤n)为观测点i附近回归时空位置(u, v, t)相对于该点的时空距离函数^[29].

1.3.4 极端梯度提升模型(XGBoost)

XGBoost(extreme gradient boosting)算法由Chen等^[30]提出, 是一种基于GBDT(gradient boosting decision tree)的改进boost模型, 是用多个弱分类器组合成一个强分类器(图 2), 广泛应用于股票金融、房价、顾客行为和企业经济预测等方向.具有高准确度、不易过拟合和可扩展性等特点, 能分布式处理高维稀疏特征^[31]及非线性映射能力.XGBoot集成了多棵分类回归树(CART)以弥补单棵CART无法满足预测精度的不足, 预测结果等于所有CART的得分总和^[32].模型表达公式见式(3)：

(3)

图 2 XGBoost示意 Fig. 2 Schematic of XGBoost

式中, i为样本点数量; 为样本预测值; k为回归树数量; x_i为数据的特征向量; F为CART树的集合空间.

XGBoost通过对代价函数进行二阶泰勒展开, 使用一阶和二阶导数, 在训练集上可以更快收敛, 有效提高训练速度, 并且将正则化项加到损失函数上, 可以降低模型的复杂度和过拟合的风险^[33].

输入XGBoost模型的变量包含GTWR模型的估算值、T2M、RH、V₁₀和时空信息.考虑到PM_2.5在大气中的传输过程及其具有时间自相关的特性, PM_2.5监测站点附近n个站点和同站点前m天的PM_2.5观测值对于估算PM_2.5具有参考意义.分别以S-PM_2.5和T-PM_2.5表示空间信息项及时间信息项^[20], 其中时空信息项表示为：

(4)

(5)

式中, m和n均为3; PM_2.5, p为在空间上靠近该站点的第p个站点的PM_2.5观测值; PM_2.5, q为同一站点之前第q天的PM_2.5观测值; ws_p和wt_q分别为空间上靠近该站点的第p个站点的距离加权系数和同一站点之前第q天的时间加权系数; ds_p和dt_q分别为空间上靠近该站点的第p个站点与该站点的空间距离和同一站点之前第q天与该站点观测时刻的时间间隔.

1.3.5 模型构建

GTWR-XGBoost组合预测模型构建流程见图 3, 包括数据预处理、变量分析和模型构建.

图 3 GTWR-XGBoost模型预测流程 Fig. 3 GTWR-XGBoost model prediction process

(1) 数据预处理主要包括数据清洗、时空匹配和归一化处理.

(2) 变量分析计算所有估算变量的标准化系数和VIF值, 经过逐步多重线性回归分析, 得到应用于模型所需保留的变量.

(3) 模型构建将保留的气象估算变量输入GTWR模型预测, 从GTWR中剔除的变量同S-PM_2.5、T-PM_2.5加入XGBoost模型拟合, 再使用GTWR-XGBoost组合模型估算2017年四川省PM_2.5浓度分布.

1.3.6 模型验证

本文使用决定系数(R²)、平均绝对误差(MAE)和均方根误差(RMSE)作为评价模型估算精度的指标, 对比KNN、RF、AdaBoost、XGBoost、GTWR、GTWR-KNN、GTWR-RF、GTWR-AdaBoost和GTWR-XGBoost模型的拟合效果, 并采用十折交叉验证方法^[34]对各模型进行验证, 各指标计算见式(6)：

(6)

式中, N为样本总数; PM_2.5^obs为实测PM_2.5浓度; PM_2.5^pre为估算PM_2.5浓度; PM_2.5^obs为实测PM_2.5浓度的平均值.

2 结果与讨论 2.1 模型拟合及交叉验证

使用全数据集进行训练考察模型的拟合效果, 通过十折交叉验证考察模型的估算与泛化能力.

2.1.1 模型拟合结果对比与分析

为了验证组合模型GTWR-XGBoost的精度, 本研究选取单一KNN、RF、AdaBoost、XGBoost和GTWR以及相应组合模型GTWR-KNN、GTWR-RF和GTWR-AdaBoost作为对比实验.图 4和表 3为不同模型拟合值和实测值的回归分析图及评价指标统计表.

图 4 模型拟合结果对比 Fig. 4 Comparison of model fitting results

表 3 模型拟合结果评价指标统计 Table 3 Statistical table of evaluation index of model fitting results

结合图 4和表 3可知, 单一模型中, KNN(R²为0.72)拟合能力较差, RF、AdaBoost、XGBoost和GTWR模型R²分别为0.81、0.83、0.84和0.93; 在将单一拟合能力较好且具有解释时空异质性能力的GTWR模型与其余单一模型结合后, 组合模型拟合性能较原单一模型均有显著提升, GTWR-KNN模型R²、MAE和RMSE分别达到了0.91、7.44 μg·m^-3和10.21 μg·m^-3, GTWR-RF模型R²、MAE和RMSE分别为0.94、4.35 μg·m^-3和6.75 μg·m^-3, GTWR-AdaBoost模型R²、MAE和RMSE分别为0.95、4.17 μg·m^-3和6.11 μg·m^-3, GTWR-XGBoost模型R²、MAE和RMSE分别达到0.96、3.43 μg·m^-3和5.52 μg·m^-3.总体说明, GTWR-XGBoost模型对于PM_2.5浓度的变异解释能力最强, 估算PM_2.5浓度与实测PM_2.5浓度符合程度最高, 误差最小, 具有最佳的拟合能力.

2.1.2 模型验证结果对比与分析

使用十折交叉验证方法用于9种模型的验证.图 5和表 4为不同模型交叉验证值和实测值的回归分析图及评价指标统计表.结果表明, 这9种模型的交叉验证R²介于0.41~0.9之间, MAE范围在4.98~12.78 μg·m^-3之间, RMSE范围在7.92~21.44 μg·m^-3之间.

图 5 模型交叉验证结果对比 Fig. 5 Comparison of model cross-validation results

表 4 模型交叉验证结果评价指标统计 Table 4 Statistical table of evaluation index of model cross-validation results

结合图 5和表 4可知, 单一模型验证结果的精度均下降明显, 其中KNN模型(R²为0.41)的验证结果较差, 下降最为显著, RF模型R²为0.65, AdaBoost模型R²为0.69, XGBoost模型R²为0.67, GTWR模型(R²为0.78)即便具有解释时空异质性的能力, 但验证结果同样明显下降.在相同条件下, 组合模型的验证结果普遍优于单一模型.除GTWR-KNN模型(R²、MAE和RMSE分别为0.78、8.92 μg·m^-3和12.61 μg·m^-3)验证结果稍差, 其余组合模型均保持着较好的验证精度, GTWR-RF模型R²、MAE和RMSE分别为0.88、5.34 μg·m^-3和8.39 μg·m^-3, GTWR-AdaBoost模型R²、MAE和RMSE分别为0.89、5.22 μg·m^-3和8.11 μg·m^-3, 拟合精度最佳的GTWR-XGBoost模型验证精度依旧最佳, R²、MAE和RMSE分别为0.9、4.98 μg·m^-3和7.92 μg·m^-3.综上所述, 对PM_2.5浓度进行小时估算采用GTWR-XGBoost模型的精度最优.

2.2 PM_2.5时空分布分析 2.2.1 模型PM_2.5浓度估算时间变化分析

为验证GTWR-XGBoost模型的稳定性, 使用该模型对研究区内PM_2.5浓度小时尺度估算值与实测值进行拟合分析, 结果如图 6所示.从中可知, GTWR-XGBoost模型具有较高的拟合优度(全数据集的R²为0.96, 不同时刻的R²介于0.91~0.98之间), 表明该模型对于小时估算具有较好的时间稳定性.且该模型在中午和下午时段内性能较好, 在15:00性能最佳, R²、MAE和RMSE分别为0.98、3.14 μg·m^-3和4.46 μg·m^-3, 这一发现与Chen等^[18]和Zang等^[35]研究的结果一致.该现象是由于中午温度较高, 行星边界层向上延伸, 促进了粒子在垂直方向上的混合, 从而有利于细颗粒物浓度的估算^[36].

图 6 09:00~16:00模型拟合结果 Fig. 6 The 09:00-16:00 model fitting results

2.2.2 模型PM_2.5浓度估算时空分布

四川省近地表不同时刻(09:00~16:00)年均PM_2.5浓度估算值时空分布, 见图 7所示.从空间上可以看出, 低值区主要分布在西部的阿坝、甘孜、凉山和攀枝花等地, 全年ρ(PM_2.5)均值为15.27 μg·m^-3, 高值区主要分布在东部的成都、德阳、绵阳、广元、巴中、达州和眉山等地, 全年ρ(PM_2.5)均值为45.63 μg·m^-3.形成这一时空分布特征, 从人口经济方面分析是由于西部人烟稀少、交通不便、工业生产分散, 而东部人口密集、工业生产积聚、交通发达, 从而污染排放高; 从地理环境方面分析是由于四川盆地独特的地形, 致使大气环流受限, 大气输送受阻, 污染物聚集, 从而PM_2.5浓度较高^[37].

图 7 09:00~16:00 PM_2.5时空分布 Fig. 7 The 09:00-16:00 spatial and temporal distributions of PM_2.5

基于四川省地表不同时刻PM_2.5浓度估算值空间分布求取所有栅格的平均值, 即为四川省09:00~16:00时段小时PM_2.5浓度均值, 见图 8所示.2017年四川省年均PM_2.5小时浓度估算变化总体上呈现“倒U”型趋势, 从09:00开始升高至11:00达到峰值[ρ(PM_2.5)为44.56 μg·m^-3], 随后逐渐降低.09:00~11:00时段PM_2.5浓度升高可能是由于正值上班高峰期, 汽车尾气排放量大, 人们生活和工业生产活动增加, 同时这个时段正是太阳升起的时刻, 近地面大气温度比上层大气温度低, 容易出现逆温现象, 从而污染物积聚.11:00~16:00时段PM_2.5浓度逐渐下降是因为各类活动降低, 汽车排放量减少, 同时光照强, 上下大气温差大, 容易形成对流, 有利于污染物向高空扩散.

图 8 年均PM_2.5小时浓度变化 Fig. 8 Annual hourly concentration change in PM_2.5

为更精准地验证模型对PM_2.5小时浓度估算的空间分布变化, 将估算结果分为春季(3~5月)、夏季(6~8月)、秋季(9~11月)和冬季(12至次年2月)这4个季节, 分析季均PM_2.5小时浓度变化, 如图 9所示(由于时空分布图数量较多, 此处仅展示季均PM_2.5小时浓度变化折线图).

图 9 季均PM_2.5小时浓度变化 Fig. 9 Seasonal average hourly concentration change in PM_2.5

由图 9可知：①PM_2.5浓度的季节性变化非常明显.冬季污染最为严重[ρ(PM_2.5)均值为58.49 μg·m^-3, 变化范围43.38~65.96 μg·m^-3], 这主要因为冬季燃煤采暖的大范围使用, 加之温度低, 气压高, 降雨量少和逆温现象, 导致近地面大气湍流作用弱, 扩散条件差, 所以污染物难以扩散而堆积^{[23, 38]}; 春季[ρ(PM_2.5)均值为37.54 μg·m^-3, 变化范围29.31~47.84 μg·m^-3]与秋季[ρ(PM_2.5)均值为34.04 μg·m^-3, 变化范围26.49~40.24 μg·m^-3]污染次之; 夏季污染最轻[ρ(PM_2.5)均值为24.69 μg·m^-3, 变化范围19.39~30.99 μg·m^-3], 这主要因为夏季降水量增多使空气湿度变大, 地面尘土和工业排放的污染物等不易悬浮扩散^[39], 又因地表温度高, 导致上升气流为主, 有利于空气中悬浮的污染物扩散, 难以在空气中堆积, 所以夏季PM_2.5浓度值最低.②四季PM_2.5小时浓度估算的变化虽不尽相同, 但基本符合“倒U”趋势.四季的PM_2.5小时浓度估算均从09:00开始上升, 春季和冬季在11:00达到峰值, 夏季在10:00达到峰值, 秋季在13:00达到峰值, 随后下降过程中均略有浮动.四季的不同趋势变化可能是当季的太阳照射时长、光照强度、环境温度、空气湿度以及人类活动时间等不同因素共同影响.

3 结论

(1) 提出的GTWR-XGBoost组合模型运用于全数据集对PM_2.5浓度的小时估算性能最优, 拟合精度指标R²、MAE和RMSE分别为0.96、3.43 μg·m^-3和5.52 μg·m^-3, 验证精度指标R²、MAE和RMSE分别为0.9、4.98 μg·m^-3和7.92 μg·m^-3.明显优于其他8组对照模型.充分表明GTWR-XGBoost模型对四川省小时PM_2.5浓度估算效果最好, 精度最高, 结果最接近地面站点测量的真实值, 能够为区域空气质量评估提供精准估算信息.

(2) 该模型作用于PM_2.5浓度小时估算上, 具有较高的拟合优度(全数据集的R²为0.96, 不同时刻的R²介于0.91~0.98之间), 在中午和下午性能较好, 于15:00达到性能最佳, R²、MAE和RMSE分别为0.98、3.14 μg·m^-3和4.46 μg·m^-3.表明该模型在小时PM_2.5浓度估算中具有优异的时间稳定性.

(3) 从时间上看, 年均PM_2.5小时浓度估算变化总体上呈现“倒U”型趋势, 上午9:00开始升高至11:00达到峰值[ρ(PM_2.5)为44.56 μg·m^-3], 随后逐渐降低, 季均PM_2.5小时浓度估算变化虽不尽相同, 但基本符合“倒U”趋势; 且季节性变化非常明显, 为：冬季>春季>秋季>夏季.

(4) 从空间分布上看, 总体上呈现东高西低和局部污染程度较高的特点, 高值区主要分布在城市快速发展和人口密集的东部地区, 低值区主要分布在经济发展落后和人口稀疏的西部地区.

(5) 本文仍存在不足.由于缺乏夜间的AOD数据, 文中仅对白天的PM_2.5浓度做出估算研究.在未来的工作中, 可将地面站点观测值、夜间灯光数据与卫星AOD产品整合, 以获得更高时间范围和更高精度的数据集用于估算研究.

参考文献

[1]	Kim Y, Manley J, Radoias V. Medium- and long-term consequences of pollution on labor supply: evidence from Indonesia[J]. IZA Journal of Labor Economics, 2017, 6(1). DOI:10.1186/s40172-017-0055-2
[2]	Li S X, Chen L L, Huang G, et al. Retrieval of surface PM_2.5 mass concentrations over North China using visibility measurements and GEOS-Chem simulations[J]. Atmospheric Environment, 2020, 222. DOI:10.1016/j.atmosenv.2019.117121
[3]	Pope Ⅲ C A, Hansen J C, Kuprov R, et al. Vascular function and short-term exposure to fine particulate air pollution[J]. Journal of the Air & Waste Management Association, 2011, 61(8): 858-863.
[4]	于雪, 赵文吉, 孙春媛, 等. 大气PM_2.5遥感反演研究进展[J]. 环境污染与防治, 2017, 39(10): 1153-1158. Yu X, Zhao W J, Sun C Y, et al. Progress study on remote sensing retrieval of atmospheric PM_2.5 concentration[J]. Environmental Pollution & Control, 2017, 39(10): 1153-1158.
[5]	何秀, 邓兆泽, 李成才, 等. MODIS气溶胶光学厚度产品在地面PM₁₀监测方面的应用研究[J]. 北京大学学报(自然科学版), 2010, 46(2): 178-184. He X, Deng Z Z, Li C C, et al. Application of MODIS AOD in surface PM10 evaluation[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2010, 46(2): 178-184.
[6]	Wang Z F, Chen L F, Tao J H, et al. Satellite-based estimation of regional particulate matter (PM) in Beijing using vertical-and-RH correcting method[J]. Remote Sensing of Environment, 2010, 114(1): 50-63. DOI:10.1016/j.rse.2009.08.009
[7]	王静, 杨复沫, 王鼎益, 等. 北京市MODIS气溶胶光学厚度和PM_2.5质量浓度的特征及其相关性[J]. 中国科学院研究生院学报, 2010, 27(1): 10-16. Wang J, Yang F M, Wang D Y, et al. Characteristics and relationship of aerosol optical thickness and PM_2.5 concentration over Beijing[J]. Journal of the Graduate School of the Chinese Academy of Sciences, 2010, 27(1): 10-16.
[8]	赵佳楠, 徐建华, 卢德彬, 等. 基于RF-LUR模型的PM_2.5空间分布模拟——以长江三角洲地区为例[J]. 地理与地理信息科学, 2018, 34(1): 18-23. Zhao J N, Xu J H, Lu D B, et al. The spatial distribution simulation of PM_2.5 concentration based on RF-LUR model: a case study of Yangtze River delta[J]. Geography and Geo-information Science, 2018, 34(1): 18-23. DOI:10.3969/j.issn.1672-0504.2018.01.004
[9]	Kloog I, Nordio F, Coull B A, et al. Incorporating local land use regression and satellite aerosol optical depth in a hybrid model of spatiotemporal PM_2.5 exposures in the mid-Atlantic states[J]. Environmental Science & Technology, 2012, 46(21): 11913-11921.
[10]	何文通. 基于GWR模型的PM_2.5质量浓度遥感分析方法研究[D]. 北京: 中国科学院大学, 2015. He W T. Study on remote sensing analysis method of PM_2.5 mass concentration based on GWR model[D]. Beijing: University of Chinese Academy of Sciences, 2015.
[11]	Bai Y, Li Y, Wang X X, et al. Air pollutants concentrations forecasting using back propagation neural network based on wavelet decomposition with meteorological conditions[J]. Atmospheric Pollution Research, 2016, 7(3): 557-566. DOI:10.1016/j.apr.2016.01.004
[12]	Jiang Z F, Mao B, Meng X X, et al. An air quality forecast model based on the BP neural network of the samples self-organization clustering[A]. In: IEEE 2010 Sixth International Conference on Natural Computation[C]. Yantai: IEEE, 2010. 1523-1527.
[13]	Li X K, Zhang C R, Li W D, et al. Evaluating the use of DMSP/OLS nighttime light imagery in predicting PM_2.5 concentrations in the northeastern United States[J]. Remote Sensing, 2017, 9(6). DOI:10.3390/rs9060620
[14]	He Q Q, Huang B. Satellite-based mapping of daily high-resolution ground PM_2.5 in China via space-time regression modeling[J]. Remote Sensing of Environment, 2018, 206: 72-83. DOI:10.1016/j.rse.2017.12.018
[15]	侯俊雄, 李琦, 朱亚杰, 等. 融机器学习与WRF大气模式的PM_2.5预报方法[J]. 测绘科学, 2018, 43(2): 114-120, 141. Hou J X, Li Q, Zhu Y J, et al. PM_2.5 forecasting method based on machine learning and WRF hybrid model[J]. Science of Surveying and Mapping, 2018, 43(2): 114-120, 141.
[16]	Pan B Y. Application of XGBoost algorithm in hourly PM_2.5 concentration prediction[J]. IOP Conference Series: Earth and Environmental Science, 2018, 113. DOI:10.1088/1755-1315/113/1/012127
[17]	Zhai B X, Chen J G. Development of a stacked ensemble model for forecasting and analyzing daily average PM_2.5 concentrations in Beijing, China[J]. Science of the Total Environment, 2018, 635: 644-658. DOI:10.1016/j.scitotenv.2018.04.040
[18]	Chen J P, Yin J H, Zang L, et al. Stacking machine learning model for estimating hourly PM_2.5 in China based on Himawari 8 aerosol optical depth data[J]. Science of the Total Environment, 2019, 697. DOI:10.1016/j.scitotenv.2019.134021
[19]	Zang L, Mao F Y, Guo J P, et al. Estimating hourly PM₁concentrations from Himawari-8 aerosol optical depth in China[J]. Environmental Pollution, 2018, 241: 654-663. DOI:10.1016/j.envpol.2018.05.100
[20]	吴宇宏, 杜宁, 王莉, 等. 基于iLME+Geoi-RF模型的四川省PM_2.5浓度估算[J]. 环境科学, 2021, 42(12): 5602-5615. Wu Y H, Du N, Wang L, et al. Estimation of PM_2.5 concentration in Sichuan province based on improved linear mixed effect model and geo-intelligent random forest[J]. Environmental Science, 2021, 42(12): 5602-5615. DOI:10.3969/j.issn.1000-6923.2021.12.015
[21]	方晓婷, 段华波, 胡明伟, 等. 气象因素对大气污染物影响的季节差异分析及预测模型对比——以深圳为例[J]. 环境污染与防治, 2019, 41(5): 541-546. Fang X T, Duan H B, Hu M W, et al. The seasonal differential effects of meteorological parameters on atmospheric pollutants and the prediction model comparison: a case study of Shenzhen[J]. Environmental Pollution & Control, 2019, 41(5): 541-546.
[22]	胡译文, 臧增亮, 马晓燕, 等. 气象资料同化对PM_2.5预报影响的模拟分析[J]. 中国环境科学, 2019, 39(2): 523-532. Hu Y W, Zang Z L, Ma X Y, et al. Research on the effects of assimilation meteorological observation data on aerosol concentration[J]. China Environmental Science, 2019, 39(2): 523-532. DOI:10.3969/j.issn.1000-6923.2019.02.010
[23]	金囝囡, 杨兴川, 晏星, 等. 京津冀及周边MAIAC AOD和PM_2.5质量浓度特征及相关性分析[J]. 环境科学, 2021, 42(6): 2604-2615. Jin J N, Yang X C, Yan X, et al. MAIAC AOD and PM_2.5 mass concentrations characteristics and correlation analysis in Beijing-Tianjin-Hebei and surrounding areas[J]. Environmental Science, 2021, 42(6): 2604-2615.
[24]	Retalis A, Sifakis N. Urban aerosol mapping over Athens using the differential textural analysis (DTA) algorithm on MERIS-ENVISAT data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2010, 65(1): 17-25. DOI:10.1016/j.isprsjprs.2009.08.001
[25]	Brunsdon C, Fotheringham A S, Charlton M E. Geographically weighted regression: a method for exploring spatial nonstationarity[J]. Geographical Analysis, 1996, 28(4): 281-298.
[26]	Huang B, Wu B, Barry M. Geographically and temporally weighted regression for modeling spatio-temporal variation in house prices[J]. International Journal of Geographical Information Science, 2010, 24(3): 383-401. DOI:10.1080/13658810802672469
[27]	肖燕婷, 田铮, 郭文艳. 时空地理加权模型回归关系的非平稳性Bootstrap检验[J]. 统计与决策, 2014, 30(9): 8-12. Xiao Y T, Tian Z, Guo W Y. Nonstationary Bootstrap test for regression relationship of spatio-temporal geographically weighted model[J]. Statistics & Decision, 2014, 30(9): 8-12.
[28]	杨毅. 顾及时空非平稳性的地理加权回归方法研究[D]. 武汉: 武汉大学, 2016. Yang Y. Research on geographically and temporally weighted regression for spatial and temporal nonstationarity[D]. Wuhan: Wuhan University, 2016.
[29]	杨东阳. 基于分层时空建模的长江三角洲地区PM_2.5浓度估算研究[D]. 上海: 华东师范大学, 2019. Yang D Y. Estimating PM_2.5 concentrations using a hierarchical spatio-temporal model in the Yangtze River Delta[D]. Shanghai: East China Normal University, 2019.
[30]	Chen T Q, Guestrin C. XGBoost: a scalable tree boosting system[A]. In: 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C]. San Francisco, CA: Association for Computing Machinery, 2016. 785-794.
[31]	叶倩怡, 饶泓, 姬名书. 基于Xgboost的商业销售预测[J]. 南昌大学学报(理科版), 2017, 41(3): 275-281. Ye Q Y, Rao H, Ji M S. Sales prediction of stores based on Xgboost algorithm[J]. Journal of Nanchang University (Natural Science), 2017, 41(3): 275-281. DOI:10.3969/j.issn.1006-0464.2017.03.015
[32]	Wu Y C, Qi S F, Hu F, et al. Recognizing activities of the elderly using wearable sensors: a comparison of ensemble algorithms based on boosting[J]. Sensor Review, 2019, 39(6): 743-751.
[33]	康俊锋, 谭建林, 方雷, 等. XGBoost-LSTM变权组合模型支持下短期PM_2.5浓度预测——以上海为例[J]. 中国环境科学, 2021, 41(9): 4016-4025. Kang J F, Tan J L, Fang L, et al. Short-term PM_2.5 concentration prediction based on XGBoost and LSTM variable weight combination model: a case study of Shanghai[J]. China Environmental Science, 2021, 41(9): 4016-4025.
[34]	郝静, 孙成, 郭兴宇, 等. 京津冀内陆平原区PM_2.5浓度时空变化定量模拟[J]. 环境科学, 2018, 39(4): 1455-1465. Hao J, Sun C, Guo X Y, et al. Simulation of the Spatio-temporally resolved PM_2.5 aerosol mass concentration over the inland plain of the Beijing-Tianjin-Hebei region[J]. Environmental Science, 2018, 39(4): 1455-1465.
[35]	Zang L, Mao F Y, Guo J P, et al. Estimation of spatiotemporal PM_1.0 distributions in China by combining PM_2.5 observations with satellite aerosol optical depth[J]. Science of the Total Environment, 2019, 658: 1256-1264.
[36]	Guo J P, Miao Y C, Zhang Y, et al. The climatology of planetary boundary layer height in China derived from radiosonde and reanalysis data[J]. Atmospheric Chemistry and Physics, 2016, 16(20): 13309-13319.
[37]	Zhang L, Guo X M, Zhao T L, et al. A modelling study of the terrain effects on haze pollution in the Sichuan Basin[J]. Atmospheric Environment, 2019, 196: 77-85.
[38]	袁杨森, 刘大锰, 车瑞俊, 等. 北京市秋季大气颗粒物的污染特征研究[J]. 生态环境, 2007, 16(1): 18-25. Yuan Y S, Liu D M, Che R J, et al. Research on the pollution situation of atmospheric particulates during Autumn in Beijing city[J]. Ecology and Environment, 2007, 16(1): 18-25.
[39]	杨晓辉, 宋春杰, 范丽行, 等. 京津冀地区高分辨率PM_2.5浓度时空变化模拟与分析[J]. 环境科学, 2021, 42(9): 4083-4094. Yang X H, Song C J, Fan L H, et al. High-resolution Estimation of Spatio-temporal Variation in PM_2.5 concentrations in the Beijing-Tianjin-Hebei region[J]. Environmental Science, 2021, 42(9): 4083-4094.


环境科学 2023, Vol. 44 Issue (7): 3738-3748	PDF