基于注意力机制的Transformer模型预测PM<sub>2.5</sub>浓度

引用本文

刘敏毅, 崔博文, 王宇坤, 张伟鑫, 曾雨. 基于注意力机制的Transformer模型预测PM_2.5浓度[J]. 环境科学, 2024, 45(12): 6993-7002.

LIU Min-yi, CUI Bo-wen, WANG Yu-kun, ZHANG Wei-xin, ZENG Yu. Prediction of PM_2.5 Concentration by Transformer Model Based on Attention Mechanism[J]. Environmental Science, 2024, 45(12): 6993-7002.

基于注意力机制的Transformer模型预测PM_2.5浓度

刘敏毅¹, 崔博文¹, 王宇坤¹, 张伟鑫¹, 曾雨²

1. 福建理工大学生态环境与城市建设学院, 福州 350118;
2. 福建省环境影响评价技术中心, 福州 350024

收稿日期: 2023-11-16; 修订日期: 2024-03-08

基金项目: 国家自然科学基金项目（52108198）；福建省自然科学基金引导性项目（2023H0016）

作者简介: 刘敏毅（1984~）, 女, 博士, 副教授, 主要研究方向为环境污染数值模拟, E-mail：19841522@fjut.edu.cn

摘要: 采用北京市12个空气监测站点2013年3月至2016年12月期间的监测数据以及气象数据, 利用皮尔逊系数方法探究影响PM_2.5浓度的关键因素, 构建一种基于多头注意力机制的改进Transformer模型对PM_2.5浓度进行长期预测, 并引入卷积神经网络模型（ResNet50）和长短期记忆网络模型（LSTM）进行比较, 选用解释性方差（EVS）、决定系数（R²）、均方误差（MSE）和平均绝对误差（MAE）这4个指标对模型性能进行评价.结果表明, 皮尔逊相关系数结果显示与PM_2.5浓度极强相关的参数为PM₁₀、SO₂、NO₂、CO和大气压力（PRES）, 强相关的参数为露点温度（DEWP）, 这与Transformer模型自动筛选的偏好设置一致.Transformer模型的MSE和R²分别为0.009 μg·m^-3和0.925, 与ResNet50和LSTM比较, MSE分别降低了91.09%和30.77%, R²分别提高了38.05%和4.65%.Transformer模型可以更好地捕捉因气象条件突变影响产生的短期污染变化和具有显著季节变化的长期趋势, 拟合效果在几个模型中表现优异, 为实现PM_2.5浓度的长期预测提供了一种新的方法.此外, 根据消融实验发现在数据输入或人为设置偏好后, Transformer的R²增幅较小, 分别为2.31%和1.51%, 说明Transformer模型对同源性PM₁₀数据有较强的抗干扰能力.

关键词: PM_2.5预测多头注意力机制 Transformer 同源性

Prediction of PM_2.5 Concentration by Transformer Model Based on Attention Mechanism

LIU Min-yi¹ , CUI Bo-wen¹ , WANG Yu-kun¹ , ZHANG Wei-xin¹ , ZENG Yu²

1. School of Ecological Environment and Urban Construction, Fujian University of Technology, Fuzhou 350118, China;
2. Fujian Provincial Environmental Impact Assessment Technology Center, Fuzhou 350024, China

Abstract: An improved transformer model based on a multi-head attention mechanism was constructed for long-term prediction of PM_2.5 concentration. The monitoring data and meteorological data from 12 air monitoring stations in Beijing from March 2013 to December 2016 were collected and used in the transformer model. The Pearson coefficient was used to explore the key factors affecting PM_2.5 concentration. A convolutional neural network model (ResNet50) and long short-term memory network model (LSTM) were introduced for comparison and explanatory variance (EVS), coefficient of determination (R²), mean square error (MSE), and mean absolute error (MAE) were selected to evaluate the performance of the model. The Pearson coefficient results showed that PM₁₀, SO₂, and NO₂, CO, and atmospheric pressure (PRES) were highly correlated with PM_2.5 concentration, and dew point temperature (DEWP) was strongly correlated with PM_2.5 concentration, which was consistent with the preference setting of the model's automatic screening. The MSE and R² of the transformer model are 0.009 μg·m^-3 and 0.925, respectively, which decreased by 91.09% and 30.77% of MSE and increased by 38.05% and 4.65% of R², respectively, when compared with ResNet50 and LSTM. The transformer model could capture short-term pollution changes caused by sudden changes in meteorological conditions and long-term trends with significant seasonal changes. The fitting effect of the transformer was excellent among several models, providing a novel method for long-term prediction of PM_2.5 concentration. In addition, ablation experiments revealed that the increase in R² of the transformer was relatively small after data input or manually setting preferences, with only a 2.31% and 1.51% increase, respectively, indicating that the transformer model had strong anti-interference ability for PM₁₀ homologous data.

Key words: PM_2.5 forecasting multi-head attention mechanism Transformer homology

细颗粒物（PM_2.5）作为重要的大气污染物, 因其比表面积大、停留时间长、输送距离远、协效酸雨和光化学烟雾产生等问题而引起广泛关注^[1~7]. 2013年1月, 北京市发生了持续性、大范围且高浓度的空气重污染, 当月ρ（PM_2.5）月均值接近160 μg·m^-3；当年, ρ（PM_2.5）年均值为89.5μg·m^-3, 超出国家二级标准限值155.7%；PM₁₀年均浓度为108.1 μg·m^-3, 超标54.4%；全年重污染天数58 d, 占全年的15.9%, 相当于平均每周有一天重污染天气^[8].2013年9月, 我国全面启动《大气污染防治行动计划》.直至2017年, 北京市的大气污染治理取得了良好的效果, PM_2.5年均浓度呈逐年递减态势, 但是相较于《环境空气质量标准》（GB 3095-2012）二级标准, 仍存在一定的差距^[9~13].在PM_2.5的防治工作中, 准确预测PM_2.5浓度对空气质量管理、空气污染防治和人类生活健康都有着重要的意义^[14~19].

PM_2.5浓度预测经历物理模型预测、传统统计学预测的阶段, 随着人工神经网络的发展, 深度学习模型如卷积神经网络（CNN）和循环神经网络（RNN）, 对复杂非线性的时空序列问题具备较强的解决能力^[20~24].相比较来说, CNN更擅长处理空间特征任务, 而RNN则在时间序列问题上更具优势^{[25, 26]}.在RNN基础上发展的长短期记忆网络（LSTM）则通过引入门控机制有选择性地保留前序信息, 避免长序列运算中特征信息的损失, 解决了RNN梯度不稳定以致长期预测失效的问题^[27].注意力机制（attention）^[28]是一种基于全局信息与局部信息特征关注与提取的深度学习法, 在解决局部信息特征获取上有突出表现.

李明明等^[29]结合太原市PM_2.5浓度的变化特征以及湿度、降水、风和混合层厚度等气象条件对PM_2.5浓度的影响, 建立基于LSTM神经网络的PM_2.5浓度预报模型, 获得较好的预测结果.但是, 单个模型的表达能力是有限的, 一些研究者提出了基于时空序列预测的混合深度学习模型来提高预测能力.Lu等^[30]提出了一种CNN-BiLSTM的组合模型短期预测天津市污染物浓度, 并应用贝叶斯优化算法获得模型超参数的最优组合, 从而增强了模型的泛化能力.Xu等^[31]提出了一种基于LSTM网络、回归树和多层前馈网络（BP）的PM_2.5浓度短时序列预测方法, 可获得时间尺度为1 h、空间尺度为1 km²的全天PM_2.5浓度.尽管这些研究对PM_2.5的预测有很大贡献, 但在同时实现PM_2.5浓度与其他影响因素实时关联, 时间信息统一建模, 长时序预测与并行计算上仍有不足.

因此, 本项目基于2013年3月至2016年12月北京市12个空气监测站点小时大气污染物和气象监测数据, 对2017年北京市PM_2.5浓度进行预测.针对PM_2.5具有显著季节变化的长期趋势, 同时会受到气象条件突变影响产生短期浓度波动的非平稳序列特点, 拟引入以注意力机制为核心的改进Transformer模型.模型提出的多头注意力机制将全局与局部信息聚合, 对数据污染特征进行并行计算, 提高了计算效率.应用皮尔逊相关系数方法分析影响PM_2.5浓度的因素, 并与模型自行筛选的偏好设置对比, 以验证模型对复杂影响因素的有效识别能力.通过是否将PM₁₀作为模型输入数据或者人为偏好设置与否的数据消融实验, 以验证模型对同源性PM₁₀的抗干扰能力.改进的Transformer模型实现了多因素耦合影响下多区块组合区域的长期PM_2.5浓度精准预测, 以期为治理空气污染和改善空气质量提供方法支持.

1 材料与方法 1.1 研究区域

北京位于东经115.7°~117.4°, 北纬39.4°~41.6°, 地处中国北部、华北平原北部, 东与天津市毗连, 其余均与河北省相邻.北京市地势西北高、东南低, 西部、北部和东北部三面环山, 东南部是一片缓缓向渤海倾斜的平原.十二个城区大气环境评价监测站点包括：东城东四、东城天坛、西城官园、西城万寿西宫、朝阳奥体中心、朝阳农展馆、海淀万柳、石景山古城、顺义新城、昌平区、怀柔区和昌平定陵, 其在地图上的分布如图 1所示.

图 1 监测站点分布示意 Fig. 1 Meteorological monitoring stations

1.2 数据来源

本研究从北京市环境保护监测中心（http://zx.bjmemc.com.cn/）获取2013年3月至2016年12月PM_2.5、SO₂、O₃、PM₁₀、NO₂和CO逐小时的监测数据.并同步收集对应站点的逐小时的温度（TEMP）、压力（PRES）、露点（DEWP）、雨水（RAIN）、风强（WSPM）和风向（WD）的气象监测数据.

1.3 污染物相关性分析

采用皮尔逊相关系数评估北京市不同污染物的线性相关程度, 以便于模型参数筛选.两变量之间的皮尔逊相关系数可定义为两变量之间的协方差和标准差的商, 其值介于-1~1之间, 计算公式如式（1）.

(1)

式中, cov为协方差, σ为标准差, E为期望, μ_X和μ_Y分别为变量X和Y的期望值, X和Y分别为不同的变量.

皮尔逊相关系数常用r表示, 计算公式如式（2）.

(2)

式中, X_i和Y_i分别为变量的第i个值, X和Y分别表示两变量的样本均值, n为变量的总数.

通常, |r|的值介于0.0~0.2、0.2~0.4、0.4~0.6、0.6~0.8和0.8~1.0, 分别表示两者为极弱相关、弱相关、中等程度相关、强相关和极强相关.

1.4 Transformer模型 1.4.1 建模任务

（1）PM_2.5受多种因素影响, 包括多个气象参数与污染物数据, 预测过程中需捕获多因素影响下局部特征之间的相关性.

（2）PM_2.5小时浓度往往会出现异常数据, 本文所使用的数据集中异常数据或数据缺失情况占总数据集的1.47%, 模型需要综合异常值的上下游关系进行判断和预测.

（3）探究模型是否有效捕捉污染物随时间产生的长期依赖性.

1.4.2 Transformer模型 1.4.2.1 Transformer模型架构

Transformer是基于自我注意力机制构建的序列到序列模型.基于北京地区2013年1月至2017年2月12个监测站的空气质量数据和气象数据, 本研究在传统Transformer模型架构的基础上进行改进以更好地捕捉PM_2.5的季节性特征, 其模型架构如图 2所示.其中时间序列部分用c和h表示当前时间点向前或向后的时间步大小, c和h均为整数.输入值中的“?”表示缺失值.

红点和红线分别用于强调模型中信息传递的关键节点和编码器与解码器的关联图 2 Transformer模型结构 Fig. 2 Transformer model structure

改进的Transformer模型会对编码器和解码器的输入序列添加位置编码向量, 位置编码可以体现当前数据的位置并衡量不同数据之间的距离, 使模型能够在处理序列信息时同时关注多个位置, 有效建立污染物与气象因素的复杂关联.

其次, 模型在编码器和解码器引入局部交叉注意力和全局交叉注意力模块实现对每个时间步长独有变量的加强关注.在局部交叉注意力机制下, 每个令牌首先集中于其所处时间步长的独有变量.这一策略确保了在考虑全局序列信息之前, 每个时间步长的独特性得到充分理解和表示.这种方法有效地强化了模型对时间序列数据中的季节性和周期性模式的捕捉能力.

为了进一步提高模型的性能, 模型还引入动态注意力权重调整和时间敏感的层归一化.动态注意力权重调整允许模型在不同的时间步长中自动调整其关注点, 而时间敏感的层归一化则有助于模型更有效地处理时间序列数据中不同尺度的变化.

以上的模型优化使得模型在预测空气质量时, 能够更准确地识别和适应突变性波动和其他时间相关因素的影响, 从而提供更加精确和可靠的预测结果.

1.4.2.2 编码器

Transformer具有N= 6个同构层堆叠而成的编码器结构, 每个编码器都采用了局部交叉注意力和全局交叉注意力.其中每个子层使用残差连接和层归一化相连, 每个子层的输出公式LayerNorm[y+Sublayer(y)], 其中Sublayer(x|是子层实现的函数.为了确保模型内所有子层（包括嵌入层）产生统一维度的输出以使信息在模型的各个部分之间顺畅地传递, 设定维度D=dmodde=256.

1.4.2.3 解码器

同时, Transformer具有N = 6个同构层堆叠而成的高效解码器结构, 在每个解码器都引入了掩码多头注意力、多头注意力、局部交叉注意力和全局交叉注意力.每个子层的输出都会经过残差连接, 然后进行归一化.如公式（3）所示：

(3)

式中, y为子层的输入, Sublayer（y）为子层对其输入y执行的操作后得到的输出.

（1）掩码多头注意力掩码多头注意力对当前预测数据之后的所有数据进行掩码, 以避免解码器在当前时间步之后访问到未来的信息, 从而泄露数据的上下文信息^[32].

（2）多头注意力多头注意力机制是Transformer模型中的关键部分, 由多个自我注意力组合而成, 多头注意力机制原理如图 3所示.自我注意力机制可以接收输入或上一层的输出, 每个注意力头都有自己的权重矩阵W_i, 接收到的数据与权重矩阵相乘可得到每个注意力头的查询矩阵（Q）、键矩阵（K）和值矩阵（V）, 公式（4）可以通过计算Q和K之间的相似度来决定注意力权重的大小.

(4)

图 3 多头注意力-并行运行的多个并行运行的注意力层 Fig. 3 Multi-head attention consists of several attention layers running in parallel

每个注意力头可以同时独立地进行注意力的计算, 捕捉输入序列之间的关联信息, 计算公式如式（5）.

(5)

式中, W_i^Q、W_i^K和W_i^V分别表示第i个注意力头中Q、K和V对应的权重矩阵.

多个注意力头并行计算的结果最终通过Concat函数进行拼接, 使模型综合考虑多个注意力头的计算结果, 充分捕捉输入序列中的相关性关系, 计算公式如式（6）.

(6)

多头注意力可以使模型捕捉到长距离的依赖关系, 提高并行计算能力, 从而可以处理PM_2.5小时浓度预测的长时序预测任务^[33].

（3）局部交叉注意力局部交叉注意力识别并定位输入的具有特定意义或重要性的序列段.在处理序列段时考虑其他相关序列的信息, 模型计算序列中每个令牌（token）与其邻近令牌之间的注意力权重, 根据注意力权重, 调整后的序列被用于生成输出某个特定元素的预测.

（4）全局交叉注意力全局交叉注意力计算每个序列中的令牌与其他所有令牌之间的注意力权重, 捕捉整个输入序列的全局信息.这个过程通常涉及对序列中每个令牌的嵌入表示进行点积的相似性度量, 以确定其与其他令牌的关联程度.根据计算出的注意力权重, 聚焦于那些对当前任务最重要的令牌, 经过权重调整后的序列被用于生成输出.^[33]

1.4.3 模型训练与调优

选取2013年1月至2015年1月的空气质量数据和气象数据的小时浓度作为训练集, 用于模型的学习和参数调优；使用2015年2月至2016年6月的数据作为验证集, 用于调整模型超参数, 以避免过拟合并评估模型的泛化能力；2016年7月至2017年2月的数据则被用作测试集, 模型输出这8个月PM_2.5小时浓度, 用于评估模型的预测性能.为了避免在验证集上的性能最佳.同时为了避免过拟合, 本研究对模型涉及的超参数（如层数、注意力头数和学习率等）进行手动调优.

1.4.4 评价指标

本研究选取ResNet50、LSTM与Transformer模型进行对比实验, 并使用解释方差（EVS）、决定系数（R²）、均方误差（MSE）、平均绝对误差（MAE）和Loss损失函数对模型性能进行评价.计算公式如式（7）~（12）, 其中EVS和R²的范围为[0, 1], EVS越接近于1, 说明模型对数据集波动的解释程度越高；R²可以衡量模型对目标变量的拟合程度, R²越接近于1, 说明模型的拟合程度越好；此外, MSE表示预测值和观测值之间误差的平方和的平均值（均方误差）, MAE表示预测值和观测值之间绝对误差的平均值, 二者可分别衡量模型预测结果与真实值之间的平均差异与绝对差异, 数值越小, 说明模型预测效果越好；Loss损失值是对估计值和真实值之差取绝对值, 对偏离真实值的输出不敏感, 因此在观测中存在异常值时有利于保持模型稳定, RMSE表示预测值与真实值之间差值平方均值的平方根, 对特大或者特小误差反应敏感.

(7)

(8)

(9)

(10)

(11)

(12)

式中, n为样本数量, 为模型的预测值, y为真实值, y为平均值, Var为方差, ω(θ)为真实值的权重.

2 结果与讨论 2.1 PM_2.5时空分布规律

图 4展示了北京市2013~2016年各污染物的年均浓度. 2013年9月发布了《大气污染防治行动计划》之后, 2014年北京市ρ(PM_2.5|和ρ(PM₁₀|年均值分别达到90.0 μg·m^-3和121.7 μg·m^-3, 2014年之后PM_2.5和PM₁₀的浓度和超标天数均逐年降低, 污染逐渐减轻, 但仍超过《环境空气质量标准》（GB 3095-2012）的二级标准（35 μg·m^-3）；2013~2016年, NO₂年均浓度相对稳定, 但均超过二级标准（40 μg·m^-3）, 直至2016年才出现显著下降, 降幅与往年相比达到20.52%；SO₂的浓度逐年降低, 到2016年, 下降至10.8 μg·m^-3, 说明《大气污染防治行动计划》在脱硫目标达成上初见成效；CO浓度趋于稳定, 但在2015年CO浓度较高, 达到了1 404.5 μg·m^-3；O₃的浓度超标天数均逐年增加, 污染趋势加重, 最高达到了63.9 μg·m^-3.

图 4 2013~2016年北京市各污染物年均浓度 Fig. 4 Average annual concentration of pollutants in Beijing from 2013 to 2016

根据北京市12个监测站点的2013~2016年的春（3~5月）、夏（6~8月）、秋（9~11月）和冬（12~2月）这4个季节的PM_2.5月均浓度, 使用ArcMap10.8软件进行普通克里金（ordinary Kriging）空间插值, 绘制北京市PM_2.5浓度的空间分布, 如图 5所示.从中可以看出：因监测站点所在地理位置和地形特征的不同, 也会对污染物传输产生影响.石景山古城、昌平定陵、昌平镇和怀柔镇这4个监测站点位于北京的西部或北部, 紧邻太行山和燕山.作为自然屏障的太行山和燕山会对西北风起着一定的净化作用, 并且这些监测站点周边人口密度低、排放量少, 所以临近山脉的监测站点PM_2.5浓度比城区总体较低.以昌平和顺义的南部行政区划为界, 其他8个监测站点则较为集中地分布在北京各城区, 其中东城区、西城区、朝阳区和海淀区均属于城市的中心地带, 人口密度高, 交通污染较为严重, 因此这些区域的监测站点PM_2.5浓度较高^[34]；其次, PM_2.5浓度呈显著的季节变化趋势, 春夏浓度相对较低, 秋冬季浓度高, 尤其是在冬季, 12个监测点最高实测小时浓度近450 μg·m^-3.

图 5 北京市PM_2.5四季浓度空间插值 Fig. 5 Spatial interpolation of PM_2.5 concentration in Beijing in four seasons

2.2 PM_2.5影响因素的相关性与模型偏好设置

本研究计算北京市12个站点各污染物的年均浓度, 获取2013~2016年12个站点PM_2.5的年均浓度, 用以分析北京市PM_2.5与各大气污染物和气象要素之间的相关性关系.

通过图 6中各参数的相关性, 本文可以得出PM₁₀ （P < 0.01, R = 0.94）、SO₂ （P < 0.01, R = 0.88）、NO₂ （P < 0.01, R = 0.94）、CO（P < 0.01, R = 0.96）和PRES（P < 0.01, R = 0.85）这5个参数与PM_2.5存在极强相关, 而DEWP（P < 0.01, R = 0.78）与PM_2.5强相关.

图 6 北京市大气污染物和气象要素影响相关性 Fig. 6 Correlation between air pollutants and meteorological factors in Beijing

PM_2.5与O₃之间的相关系数为-0.76, 根据PM_2.5与O₃污染既有关联性和部分同源性, 也存在时间和空间分异性的复杂作用机制, 初步判断2013~2016年期间PM_2.5与O₃有显著的负相关, 当PM_2.5浓度处于较低水平且太阳辐射的增强可能会促进臭氧的生成, 而PM_2.5浓度处于较高水平时, 由于增加了太阳的散射, 从而造成臭氧生成的减少^[35].

其次, PM_2.5与SO₂、PM₁₀、NO₂和CO的浓度关系均呈极强相关.PM_2.5与CO的相关性最高, 二者相关系数为0.96, 因为CO主要来自于如煤和石油等化石燃料的不完全燃烧以及机动车尾气的排放, CO的浓度增高意味着PM_2.5和PM₁₀等颗粒物有更多的燃烧来源^[36].

PM_2.5与SO₂和NO₂的相关性分别为0.88和0.94, 这可能是由于SO₂和NO₂在传输过程中进行二次转化, 生成硫酸盐和硝酸盐等PM_2.5的前体物质, 成为PM_2.5的二次来源^[37~39].

此外, 根据Liu等^[40]对同期污染数据采用小波变换相干分析的方法证实, DEWP是影响PM_2.5浓度变化的重要单一气象因素之一.因此, Transformer模型的偏好数量设置即选定为6个偏好.根据多头多注意力机制运行结果, 模型运行过程中自行筛选的6个偏好分别为PM₁₀、SO₂、O₃、PM₁₀、NO₂和CO, 这与皮尔逊相关系数的筛选结果一致.

2.3 模型性能评价

PM_2.5和PM₁₀的浓度变化趋势有较强的相关性和同源性, PM₁₀数据的引入可能会提高模型捕捉全局关系的能力, 但模型预测过程中若以PM₁₀预测PM_2.5则难免进入自我预测的陷阱.因此, 本研究设计并进行了3组不同的数据消融实验：①原始数据去除PM₁₀且偏好确定为无偏好；②原始数据未去除PM₁₀ 且偏好确定无PM₁₀；③原始数据未去除PM₁₀且偏好确定设为PM₁₀；消融实验有助于验证PM₁₀数据输入或偏好设置与否对模型预测精度的影响.

根据表 1的模型性能可知, 相比ResNet50和LSTM, Transformer的模型性能表现更为优异, 在数据输入和人为偏好设置的情况下, Transformer的R²、MSE和MAE分别为0.925、0.009 μg·m^-3和0.011 μg·m^-3. MSE分别比ResNet50和LSTM模型低91.09%和30.77%；MAE分别比ResNet50和LSTM模型低93.68%和79.63%.因MSE对离群点更敏感, 因此更低的数值表明Transformer模型的离群点数量较少^{[41, 42]}；而MAE越低则反映Transformer模型预测值误差较小.其次, Transformer模型的EVS为0.946, 在3个模型中最接近1, 分别比ResNet50和LSTM模型高37.53%和4.97%, 表明模型解释的方差最多, 性能最优异；而Transformer模型的R²分别比ResNet50和LSTM模型高38.05%和4.65%, 则表明Transformer模型具有较好的拟合效果.由此可见Transformer模型具有较强的PM_2.5预测性能, 比其他模型更加有效地完成预测工作.

表 1 数据消融实验结果 Table 1 Results of data ablation experiments

其次, 在模型无偏好设定的情况下, 对ResNet50、LSTM和Transformer这3个模型而言, 原始数据未删除PM₁₀后的模型指标比删除PM₁₀的R²分别上升了17.39%、1.38%和2.31%；在保留PM₁₀数据的基础上, 人为将PM₁₀确定为偏好时, 模型R²分别上升了3.66%、1.25%和1.51%.以上结果说明PM₁₀的数据输入与人为偏好设定与否确实会对深度学习模型的性能产生一定的影响, 尤其是保留PM₁₀的数据输入比人为偏好设置对模型精度的影响更大；其次, 数据输入与人为偏好设定对ResNet50的模型性能提高有更重要的作用, 而这种操作对Transformer模型的性能提升不显著, LSTM则最不敏感.

因此, 可以认为Transformer模型在预测PM_2.5可以逃离因PM₁₀的同源性数据而造成的自我预测陷阱.这主要是因为Transformer模型会自动捕捉数据集中各特征间的依赖关系并自动设置偏好特征.在PM₁₀未被输入模型情况下, Transformer仍然可以分析邻间关系并自动选择权重关系仅次于PM₁₀的特征因子；而在输入数据但未设置偏好后, 模型性能仍会因多头注意力机制, 合理分配模型关注点.总而言之, PM₁₀数据的存在为模型捕捉全局关系提供了便利, 对模型预测性能提升有积极作用；而且Transformer可以在保持优异的模型性能的同时, 因多头注意力机制有效避免数据同源性问题可能发生的自我预测.

图 7为Loss损失值和RMSE随Transformer模型训练次数的变化.二者均可以体现模型预测结果的准确性, Loss和RMSE值越小, 说明模型预测值与实际值的拟合效果越好.在模型训练过程中, 不断进行调参, 随着训练次数增加到1 000次, Loss和RMSE逐渐降低且稳定到较小的数值, 这表明模型在具有较高预测性能的同时, 也避免了过拟合的现象, 进一步说明模型已收敛且具有泛化能力.总之, 数据集和模型学习结果呈螺旋式上升关系, 超参、循环与迭代的次数和维度都与数据的质量有着不可分割的关系.

图 7 模型性能指标与训练次数对比结果 Fig. 7 Results of model performance metrics vs. number of training sessions

2.4 PM_2.5浓度预测结果

北京市2016年7月至2017年2月的PM_2.5小时浓度预测结果如图 8所示, 从上到下展示内容依次为真实PM_2.5小时浓度、ResNet50模型预测值、LSTM模型预测值和Transformer模型预测值.通过图 8可以发现ResNet50模型2016年7月至2016年9月的小时预测浓度严重失真, 预测值比真实值高2~5倍, 后期预测结果才逐渐趋近真实值范围, 但对于PM_2.5浓度的突发变化无法精准捕获；LSTM模型预测能够较好地捕捉PM_2.5的长时波动, 但对PM_2.5浓度峰值、峰值发生时间、浓度波动发展的捕获都与真实值存在一定的偏差；而Transformer模型在整个时间范围内对PM_2.5的局部峰值出现的时间和浓度都有较为精准的预测效果, 仅个别浓度峰值存在较小误差, 这可能与北京市该日PM_2.5浓度变化受到除了气象条件和大气污染的6个参数以外的偶发因素影响所致.

蓝色虚线圈出的数据用于模型预测结果与真实值的对比图 8 北京市2016年7月至2017年2月真实PM_2.5小时与ResNet50、LSTM和Transformer模型预测结果 Fig. 8 Comparison of predicted and actual PM_2.5 concentrations in Beijing between July 2016 and February 2017

ResNet50模型使用的卷积结构不能很好地提取时间序列之间的相关性, 导致时间序列特征无法得到充分捕捉, 且卷积结构的每一层都需要计算前一层的输出^[43], 这种逐层计算方式缺乏Transformer模型中多头注意力机制的并行计算能力；LSTM模型可以很好地捕捉时间序列中的长期依赖性关系^[44], 但并不能充分解释样本数据的全局相关性；而Transformer模型独特的编码器-解码器结构, 以及将局部自我注意力机制与全局交叉注意力机制相结合, 使得模型在提取局部相关性特征时有良好表现, 且可以与全局依赖性关系相结合^[45].因此, Transformer模型对长时预测PM_2.5浓度具有较高的准确性、稳定性和高效性, 可以作为PM_2.5浓度预测的有效工具.

3 结论

（1）考虑到PM_2.5浓度影响因素的复杂性, 本文提出了基于注意力机制的Transformer改造模型, 使用局部交叉注意力机制、全局交叉注意力机制和多头注意力机制, 用于构建PM_2.5浓度的长时预测模型.

（2）Transformer模型以北京2013年3月至2016年12月数据为例, 通过皮尔逊相关系数明确偏好个数为6, 并验证了模型调参时自动筛选的6个参数（PM₁₀、SO₂、NO₂、CO、PRES和DEWP）与皮尔逊相关系数筛选的一致性.

（3）引入ResNet50和LSTM与Transformer模型进行对比, 结果显示, Transformer模型的MSE分别比ResNet50和LSTM模型低91.09%和30.77%；MAE分别比ResNet50和LSTM模型低93.68%和79.63%；R²分别比ResNet50和LSTM模型提高38.05%和4.65%. Transformer模型的拟合效果较为优异, 有着很好的稳定性与准确性, 同时还能快速精准地并行计算, 提高运算效率.

（4）通过数据消融实验验证模型对同源性数据PM₁₀的抗干扰能力.Transformer模型分析邻间关系并设置偏好时会选择权重关系仅次于PM_2.5的特征因子, 在输入PM₁₀或者人为偏好设置后R²仅有小幅度的提升, 说明Transformer具有优异的抗干扰能力.

参考文献

[1]	Meng F H, Wang J, Li T N, et al. Pollution characteristics, transport pathways, and potential source regions of PM_2.5 and PM₁₀ in Changchun City in 2018[J]. International Journal of Environmental Research and Public Health, 2020, 17(18). DOI:10.3390/ijerph17186585
[2]	Lepistö T, Lintusaari H, Oudin A, et al. Particle lung deposited surface area (LDSA^al) size distributions in different urban environments and geographical regions: towards understanding of the PM_2.5 dose–response[J]. Environment International, 2023, 180. DOI:10.1016/j.envint.2023.108224
[3]	Gong K J, Li L, Li J Y, et al. Quantifying the impacts of inter-city transport on air quality in the Yangtze River Delta urban agglomeration, China: implications for regional cooperative controls of PM_2.5 and O₃[J]. Science of the Total Environment, 2021, 779. DOI:10.1016/j.scitotenv.2021.146619
[4]	Ha Chi N N, Kim Oanh N T. Photochemical smog modeling of PM_2.5 for assessment of associated health impacts in crowded urban area of Southeast Asia[J]. Environmental Technology & Innovation, 2021, 21. DOI:10.1016/j.eti.2020.101241
[5]	Sawlani R, Agnihotri R, Sharma C. Chemical and isotopic characteristics of PM_2.5 over New Delhi from September 2014 to May 2015: evidences for synergy between air-pollution and meteorological changes[J]. Science of the Total Environment, 2021, 763. DOI:10.1016/j.scitotenv.2020.142966
[6]	Lai H C, Dai Y T, Le L P, et al. Estimation the effect of accumulated long-range transported pollutants during a PM_2.5 event in Taiwan[J]. Atmospheric Pollution Research, 2023, 14(6). DOI:10.1016/j.apr.2023.101758
[7]	Huang H J, Qian C H. Modeling PM_2.5 forecast using a self-weighted ensemble GRU network: method optimization and evaluation[J]. Ecological Indicators, 2023, 156. DOI:10.1016/j.ecolind.2023.111138
[8]	中华人民共和国生态环境部. 综合施策全面治理坚决打赢首都蓝天保卫战北京2013—2018年大气污染治理历程[EB/OL]. https://www.mee.gov.cn/ywgz/xcjy/shxc/201909/t20190909_733022.shtml, 2019-09-24.
[9]	王莹. 京津冀PM_2.5减排驱动因素分析及效益评估[D]. 北京: 北京化工大学, 2021. Wang Y. Analysis of driving factors and benefit evaluation of PM_2.5 emission reduction in Beijing-Tianjin-Hebei[D]. Beijing: Beijing University of Chemical Technology, 2021.
[10]	Yu Y J, Dai C, Wei Y G, et al. Air pollution prevention and control action plan substantially reduced PM_2.5 concentration in China[J]. Energy Economics, 2022, 113. DOI:10.1016/j.eneco.2022.106206
[11]	Feng Y Y, Ning M, Lei Y, et al. Defending blue sky in China: effectiveness of the "Air Pollution Prevention and Control Action Plan" on air quality improvements from 2013 to 2017[J]. Journal of Environmental Management, 2019, 252. DOI:10.1016/j.jenvman.2019.109603
[12]	Zhang Q, Zheng Y X, Tong D, et al. Drivers of improved PM_2.5 air quality in China from 2013 to 2017[J]. Proceedings of the National Academy of Sciences of the United States of America, 2019, 116(49): 24463-24469.
[13]	Yang X H, Yang X Y, Zhu J A, et al. Synergic emissions reduction effect of China's "Air Pollution Prevention and Control Action Plan": benefits and efficiency[J]. Science of the Total Environment, 2022, 847. DOI:10.1016/j.scitotenv.2022.157564
[14]	Cui B W, Liu M Y, Li S Q, et al. Deep learning methods for atmospheric PM_2.5 prediction: a comparative study of transformer and CNN-LSTM-attention[J]. Atmospheric Pollution Research, 2023, 14(9). DOI:10.1016/j.apr.2023.101833
[15]	Goel V, Kumar A, Jain S, et al. Spatiotemporal variability and health risk assessment of PM_2.5 and NO₂ over the Indo-Gangetic Plain: a three years long study (2019-21)[J]. Environmental Monitoring and Assessment, 2023, 195(8). DOI:10.1007/s10661-023-11558-2
[16]	Ali M A, Huang Z W, Bilal M, et al. Long-term PM_2.5 pollution over China: identification of PM_2.5 pollution hotspots and source contributions[J]. Science of the Total Environment, 2023, 893. DOI:10.1016/j.scitotenv.2023.164871
[17]	Biancofiore F, Busilacchio M, Verdecchia M, et al. Recursive neural network model for analysis and forecast of PM₁₀ and PM_2.5[J]. Atmospheric Pollution Research, 2017, 8(4): 652-659. DOI:10.1016/j.apr.2016.12.014
[18]	Pei H Y, He Z M, DU R, et al. PM_2.5 exposure aggravates acute liver injury by creating an inflammatory microenvironment through Kupffer cell[J]. Ecotoxicology and Environmental Safety, 2023, 263. DOI:10.1016/j.ecoenv.2023.115264
[19]	Wang R, Kang N N, Zhang W, et al. The developmental toxicity of PM_2.5 on the early stages of fetal lung with human lung bud tip progenitor organoids[J]. Environmental Pollution, 2023, 330. DOI:10.1016/j.envpol.2023.121764
[20]	Rakholia R, Le Q, Vu K, et al. AI-based air quality PM_2.5 forecasting models for developing countries: a case study of Ho Chi Minh City, Vietnam[J]. Urban Climate, 2022, 46. DOI:10.1016/j.uclim.2022.101315
[21]	Khan N, Haq I U, Khan S U, et al. DB-Net: a novel dilated CNN based multi-step forecasting model for power consumption in integrated local energy systems[J]. International Journal of Electrical Power & Energy Systems, 2021, 133. DOI:10.1016/j.ijepes.2021.107023
[22]	Zhu M Y, Xie J. Investigation of nearby monitoring station for hourly PM_2.5 forecasting using parallel multi-input 1D-CNN-biLSTM[J]. Expert Systems with Applications, 2023, 211. DOI:10.1016/j.eswa.2022.118707
[23]	Zhang X L, Zhong C K, Zhang J J, et al. Robust recurrent neural networks for time series forecasting[J]. Neurocomputing, 2023, 526: 143-157. DOI:10.1016/j.neucom.2023.01.037
[24]	Kanakala V R, Mohan K J, Reddy V K. Modelling a deep network using CNN and RNN for accident classification[J]. Measurement: Sensors, 2023, 27. DOI:10.1016/j.measen.2023.100794
[25]	Cinar Y G, Mirisaee H, Goswami P, et al. Period-aware content attention RNNs for time series forecasting with missing values[J]. Neurocomputing, 2018, 312: 177-186. DOI:10.1016/j.neucom.2018.05.090
[26]	Duan Z, Luo X L, Zhang T P. Combining transformers with CNN for multi-focus image fusion[J]. Expert Systems with Applications, 2024, 235. DOI:10.1016/j.eswa.2023.121156
[27]	Gao X, Li W D. A graph-based LSTM model for PM_2.5 forecasting[J]. Atmospheric Pollution Research, 2021, 12(9). DOI:10.1016/j.apr.2021.101150
[28]	刘恩海, 付英健, 张智, 等. 联合Transformer注意力机制的PM_2.5浓度预测网络研究[J]. 安全与环境学报, 2023, 23(10): 3760-3768. Liu E H, Fu Y J, Zhang Z, et al. PM_2.5 recurrent prediction network combined with transformer attention mechanism[J]. Journal of Safety and Environment, 2023, 23(10): 3760-3768.
[29]	李明明, 王雁, 闫世明, 等. 太原市PM_2.5浓度的气象特征影响分析及预报[J]. 环境科学, 2023, 44(2): 611-25. Li M M, Wang Y, Yan S M, et al. Meteorological characteristics, influence analysis and prediction of PM_2.5 concentration in Taiyuan city[J]. Environmental Science, 2023, 44(2): 611-625.
[30]	Lu Y N, Li K. Multistation collaborative prediction of air pollutants based on the CNN-BiLSTM model[J]. Environmental Science and Pollution Research, 2023, 30(40): 92417-92435. DOI:10.1007/s11356-023-28877-z
[31]	Xu X D, Tong T, Zhang W, et al. Fine-grained prediction of PM_2.5 concentration based on multisource data and deep learning[J]. Atmospheric Pollution Research, 2020, 11(10): 1728-1737. DOI:10.1016/j.apr.2020.06.032
[32]	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[A]. In: Proceedings of the 31st International Conference on Neural Information Processing Systems[C]. Long Beach, California, USA: Curran Associates Inc., 2017. 6000-6010.
[33]	Han K, Xiao A, Wu E H, et al. Transformer in transformer[C]. Proceedings of the 35th Conference on Neural Information Processing Systems, Sydney, Australia. 2021. 15908-15919.
[34]	曹阳, 王陈婧, 景宽, 等. 北京城区不同组分PM_2.5散射特性及来源分析[J]. 环境科学, 2023, 44(2): 658-669. Cao Y, Wang C J, Jing K, et al. Characteristics and sources of PM_2.5 and its light-scattering properties with different chemical compositions in urban area of Beijing[J]. Environmental Science, 2023, 44(2): 658-669.
[35]	Luo Y H, Zhao T L, Yang Y J, et al. Seasonal changes in the recent decline of combined high PM_2.5 and O₃ pollution and associated chemical and meteorological drivers in the Beijing-Tianjin-Hebei region, China[J]. Science of the Total Environment, 2022, 838. DOI:10.1016/j.scitotenv.2022.156312
[36]	Liu M Y, Chen H, Wei D, et al. Nonlinear relationship between urban form and street-level PM_2.5 and CO based on mobile measurements and gradient boosting decision tree models[J]. Building and Environment, 2021, 205. DOI:10.1016/j.buildenv.2021.108265
[37]	肖致美, 徐虹, 蔡子颖, 等. 天津市"十三五"期间PM_2.5减排效果评估[J]. 环境科学, 2023, 44(6): 3054-3062. Xiao Z M, Xu H, Cai Z Y, et al. Assessment of emission reduction effect of major air pollution control measures on PM_2.5 concentrations during 13th five-year period in Tianjin[J]. Environmental Science, 2023, 44(6): 3054-3062.
[38]	肖致美, 李亚菲, 高璟赟, 等. 2013~2020年天津市PM_2.5-O₃污染变化趋势和影响因素分析[J]. 环境科学, 2023, 44(8): 4211-4219. Xiao Z M, Li Y F, Gao J Y, et al. Analysis of change trend and influencing factors of PM_2.5-O₃ pollution in Tianjin from 2013 to 2020[J]. Environmental Science, 2023, 44(8): 4211-4219.
[39]	Wang X Q, Duan W J, Zhu J X, et al. Nonlinear influence of winter meteorology and precursor on PM_2.5 based on mathematical and numerical models: a COVID-19 and Winter Olympics case study[J]. Atmospheric Environment, 2022, 278. DOI:10.1016/j.atmosenv.2022.119072
[40]	Liu N J, Li S, Zhang F T. Multi-scale spatiotemporal variations and drivers of PM_2.5 in Beijing-Tianjin-Hebei from 2015 to 2020[J]. Atmosphere, 2022, 13(12). DOI:10.3390/atmos13121993
[41]	Wood D A. Hourly-averaged solar plus wind power generation for Germany 2016: long-term prediction, short-term forecasting, data mining and outlier analysis[J]. Sustainable Cities and Society, 2020, 60. DOI:10.1016/j.scs.2020.102227
[42]	Dash C S K, Behera A K, Dehuri S, et al. An outliers detection and elimination framework in classification task of data mining[J]. Decision Analytics Journal, 2023, 6. DOI:10.1016/j.dajour.2023.100164
[43]	Zhang B, Zou G J, Qin D M, et al. RCL-Learning: ResNet and convolutional long short-term memory-based spatiotemporal air pollutant concentration prediction model[J]. Expert Systems with Applications, 2022, 207. DOI:10.1016/j.eswa.2022.118017
[44]	Bai Y, Zeng B, Li C, et al. An ensemble long short-term memory neural network for hourly PM_2.5 concentration forecasting[J]. Chemosphere, 2019, 222: 286-294.
[45]	Liu H, Cui S W, Zhao X H, et al. Detection of obstructive sleep apnea from single-channel ECG signals using a CNN-transformer architecture[J]. Biomedical Signal Processing and Control, 2023, 82. DOI:10.1016/j.bspc.2023.104581


环境科学 2024, Vol. 45 Issue (12): 6993-7002	PDF