基于机器学习的长三角农业区PM<sub>2.5</sub>中重金属浓度预测

引用本文

张鸿燕, 靳浩, 莫迎平, 张海鸥, 潘超, 樊建凌. 基于机器学习的长三角农业区PM_2.5中重金属浓度预测[J]. 环境科学, 2025, 46(8): 5013-5022.

ZHANG Hong-yan, JIN Hao, MO Ying-ping, ZHANG Hai-ou, PAN Chao, FAN Jian-ling. Prediction of Heavy Metal Concentrations in PM_2.5 in the Agricultural Area of Yangtze River Delta Region Based on Machine Learning[J]. Environmental Science, 2025, 46(8): 5013-5022.

基于机器学习的长三角农业区PM_2.5中重金属浓度预测

张鸿燕¹, 靳浩¹, 莫迎平¹, 张海鸥¹, 潘超², 樊建凌¹

1. 南京信息工程大学环境科学与工程学院，江苏省大气环境监测与污染控制高技术研究重点实验室，江苏省大气环境与装备技术协同创新中心，南京 210044;
2. 国家能源集团科学技术研究院有限公司，清洁高效燃煤发电与污染控制国家重点实验室，南京 210023

收稿日期: 2024-07-10; 修订日期: 2024-10-11

基金项目: 清洁高效燃煤发电与污染控制国家重点实验室开放课题项目（D2022FK099）；江苏省碳达峰碳中和科技创新项目（BE2022302）；江苏省研究生科研与实践创新计划项目（SJCX24 0487）

作者简介: 张鸿燕（2000~），女，硕士研究生，主要研究方向为大气污染防治，E-mail：202212120014@nuist.edu.cn

通信作者: 樊建凌, E-mail：jlfan@nuist.edu.cn

摘要: PM_2.5中重金属对空气质量、人体健康和生态环境等均有重要影响，但当前对农业区域PM_2.5中重金属的研究与关注较少. 搜集了长三角区域2000~2020年PM_2.5中重金属浓度观测数据，构建了基于机器学习的大气PM_2.5中重金属浓度预测模型，预测并分析了长三角农业区PM_2.5中Pb、Cu、As、Cd、Zn和Ti共6种重金属元素的区域污染特征. 结果表明，随机森林（RF）、支持向量机（SVM）和梯度提升机（GBM）这3种机器学习模型单独预测PM_2.5中各重金属元素时均未表现出良好的预测效果（近一半模型R² < 0.66）；将3种模型进行加权平均融合后均表现有较大改善（R²均 > 0.66），对6种金属元素浓度均达到可定量预测的能力（RPD > 1.4）；对长三角农业区PM_2.5中重金属元素浓度的预测结果发现，6种重金属元素浓度平均值（ng·m^-3）大小为：Zn > Pb > Cu/Ti > As > Cd，但各元素时空分布差异较大，2015~2017年Pb、Cd、As和Zn的浓度均逐年递减，而Cu和Ti的浓度则未出现明显时间变化. 空间分布上，Pb、Cu和Ti这3种元素在长三角农业区北方大气PM_2.5中浓度较高，在南方则较低；As和Cd元素则在安徽北部和浙江西部山区的PM_2.5中浓度分布较高；而Zn元素在各农业区均有较高浓度的分布. 研究结果可为预测区域大气颗粒物中重金属浓度提供一种有效方法，并为了解长三角农业区大气颗粒物污染特征及区域污染减排工作提供参考依据.

关键词: 大气PM_2.5 随机森林（RF）支持向量机（SVM）梯度提升机（GBM）机器学习模型融合区域重金属污染

Prediction of Heavy Metal Concentrations in PM_2.5 in the Agricultural Area of Yangtze River Delta Region Based on Machine Learning

ZHANG Hong-yan¹ , JIN Hao¹ , MO Ying-ping¹ , ZHANG Hai-ou¹ , PAN Chao² , FAN Jian-ling¹

1. Jiangsu Key Laboratory of Atmospheric Environment Monitoring and Pollution Control, Jiangsu Collaborative Innovation Center of Atmospheric Environment and Equipment Technology, School of Environmental Science and Engineering, Nanjing University of Information Science and Technology, Nanjing 210044, China;
2. State Key Laboratory of Clean and Efficient Coal-fired Power Generation and Pollution Control, China Energy Science and Technology Research Institute Co., Ltd., Nanjing 210023, China

Abstract: Heavy metals in PM_2.5 can considerably impact air quality, human health, and the ecological environment. However, studies on heavy metals in PM_2.5 in agricultural areas are relatively limited. In this study, observational data on heavy metal concentrations in PM_2.5 in the Yangtze River Delta Region from 2000 to 2020 were collected. Three machine learning-based prediction models for heavy metal concentrations in PM_2.5 were constructed to predict and analyze the regional pollution characteristics of six heavy metal elements (Pb, Cu, As, Cd, Zn, and Ti) in PM_2.5 in agricultural areas of the Yangtze River Delta. The results showed that none of the three machine learning models, random forest (RF), support vector machine (SVM), or gradient boosting machine (GBM), exhibited good prediction performance when individually predicting the concentrations of heavy metal elements in PM_2.5 (R² < 0.66 in nearly half of the models). However, the performance improved significantly after integrating the three models with weighted averaging (R² > 0.66 in all models), which achieved quantitative prediction capabilities for the concentrations of the six metal elements (RPD > 1.4). The prediction results for the concentrations of heavy metals in PM_2.5 in agricultural areas of the Yangtze River Delta revealed that the average mass concentrations (ng·m^-3) of the six heavy metal elements were in the order of Zn > Pb > Cu/Ti > As > Cd, but significant differences were observed in their spatial-temporal distributions. The concentrations of Pb, Cd, As, and Zn in PM_2.5 decreased from 2015 to 2017, while the concentrations of Cu and Ti did not show significant temporal changes. Spatially, the concentrations of Pb, Cu, and Ti in PM_2.5 were higher in the northern areas of the Yangtze River Delta Region but lower in the south. The concentrations of As and Cd were higher in the mountainous areas of northern Anhui and western Zhejiang, while Zn concentrations were relatively high across all agricultural areas. These results provide an effective method for predicting regional heavy metal concentrations in atmospheric particulate matter and offer a reference basis for understanding the characteristics of atmospheric particulate matter pollution and regional pollution reduction efforts in agricultural areas of the Yangtze River Delta.

Key words: atmospheric PM_2.5 random forest (RF) support vector machine (SVM) gradient boosting machines (GBM) machine learning model fusion regional heavy metal pollution

大气颗粒物不仅会直接对空气质量和人体健康产生危害，而且会对土壤环境、农作物产量及质量产生影响^[1~3]. 当前，PM_2.5是大气颗粒物研究中的热点话题之一^[4~6]. PM_2.5的成分主要包括各种微量金属元素、含碳物质和水溶性无机离子等^[7]. 目前对PM_2.5的研究大多数集中在城区，尤其是工业型城市，对农业区域PM_2.5的研究较少^[2，8，9]. 有研究表明，农业区PM_2.5有多种来源，主要包括二次污染源、生物质燃烧源、燃煤燃油源、柴油车尾气和土壤源，表明农业区细颗粒物污染受到工业、农业与自然排放的多重影响，由于PM_2.5具有较强的长距离传输性，因此农业区面临的PM_2.5污染问题不可小觑^[9]. 其中值得关注的是，虽然大气细颗粒物（PM_2.5）中重金属元素占比非常低（约2%~8%）^[8，10]，但其危害很大，不仅可以直接随PM_2.5进入人体呼吸系统及全身血液循环而危害人体健康^[11]，在农业区域，作物从大气沉降的颗粒物中吸收重金属后富集到籽实中，还可以通过食物链进入人体，对人体健康产生间接影响^[12，13]. 因此亟需对农业区域大气颗粒物中重金属元素的浓度及其时空分布特征进行深入研究.

另外，当前对区域大气颗粒物重金属污染的研究多为单点^[14，15]或不同功能区多点^[16~18]的观测，这并不能充分代表整个区域的污染状况. 部分国家也较早开始了大范围的区域人工观测，英国环境食品与农村事务部（Department for Environment Food & Rural Affairs）重金属观测网络^[19]逐渐成形，该网络可以监测空气中的污染物浓度以及城市、工业和农村地区各种金属元素的沉积速率，并且几乎所有监测点都可对As、Cd、Cr、Co、Cu、Fe、Mn、Ni、Pb（PM₁₀中Pb）、Se、V和Zn进行监测. 虽然我国逐步开始推广大气重金属在线监测，但由于设备昂贵，且监测正处于起步阶段，普及率较低；国内对于区域的大范围的长期观测仍然缺乏^[20，21]，因此，开发一种可以有效评价区域大气重金属污染的方法模型是很有必要的.

近年来机器学习在空气质量预测和污染物浓度估算等领域得到了广泛地应用^[22]. Li等^[23]和Leng等^[24]研究发现，以气象数据及颗粒物浓度数据或大气污染物监测数据作为输入参数，使用多元线性回归、BP-神经网络和支持向量机等方法可以很好地对采样点颗粒物中重金属浓度进行预测. 在区域污染物浓度的预测方面，Li等^[25]利用随机森林模型对1973~2014年中国SO₂历史水平进行估算，结果显示1973~2003年华北平原年均ρ（SO₂）从（34.32±3.05）μg·m^-3增至（37.46±3.20）μg·m^-3，到2014年降低至（36.13±3.48）μg·m^-3. 文献[26]利用时空随机森林模型，结合能见度以及其他观测数据对中国1980~2019年度PM_2.5时空变化进行了预测，模型性能良好，决定系数（R²）达到0.95，为研究与气溶胶相关的年际及年代际环境和气候影响提供了有效的手段. 由此可见，机器学习模型可以作为一种预测区域大气颗粒物中重金属浓度的有效方法.

作为中国经济发展的排头兵之一，长江三角洲已逐渐从传统的农业区演化成了典型的工农业并举的长三角城市群^[27]，但与此同时，环境污染问题也越来越严重，特别是大气污染问题^[19]. 尽管近年来环境保护力度持续加大，大气颗粒物污染也日渐减弱，但是江苏^[28]和安徽^[29]部分地区仍然面临着较大的挑战，PM_2.5浓度年均值仍未全部达到国家二级标准（GB 3095-2012，浓度年均值小于35 μg·m^-3），优良天数占比还有很大的进步空间.

本文以长三角农业区为研究对象，通过对已有研究进行调研，搜集长三角区域2000~2020年PM_2.5中重金属浓度数据，构建基于机器学习的大气PM_2.5中重金属浓度预测模型，对长三角农业区大气PM_2.5中重金属污染状况进行预测，分析长三角农业区大气PM_2.5中重金属的时空分布特征，以期为深入了解长三角农业区大气颗粒物污染特征及区域污染减排工作提供参考依据.

1 材料与方法 1.1 研究区概况

《长江三角洲区域一体化发展规划纲要》^[30]指出，长江三角洲规划区域包含上海、江苏、浙江和安徽全域，总面积35.80万km². 全域人口约2.35亿人，约占全国16.70%，经济总量约占全国1/4，是中国经济快速发展的主要地区之一. 长三角地处长江下游，主要受亚热带季风气候影响，四季分明，温暖湿润，雨热同期，是我国主要的粮食产地之一. 据统计，区域内耕地面积约9.81万km²，以“稻麦轮作”为主要的耕作方式，水稻和小麦的种植面积分别达到5.45万km²和5.37万km²^[31]. 长江三角洲区域耕地类型如图1所示.

图 1 长江三角洲区域耕地类型、气象站、空气污染物监测点及已有研究数据点分布 Fig. 1 Distribution of cultivated land types，meteorological stations，air pollutant monitoring sites，and published data sites in Yangtze River Delta Region

1.2 数据来源

长江三角洲区域大气颗粒物中金属浓度数据，通过CNKI和Web of Science数据库进行相关文献检索. CNKI关键词搜索为“大气颗粒物/PM_2.5 + 重金属”，发表时间段选择2000~2020年，共获得文献（期刊、硕博论文和会议论文）340篇；Web of Science关键词搜索为“particulate matter or PM_2.5 and heavy metal”，发表时段选择2000~2020年，国家和地区设置为中国，共获得英文文献153篇. 经过地域和文章内容筛选，排除采样周期小于一周、特殊污染天气（如新年短时燃放鞭炮）和排放源附近（如垃圾焚烧厂）等与本文研究目的相关性不大的文献，共获得中文文献89篇，英文文献71篇. 最终获得长江三角洲区域PM_2.5采样点数据185个（如图1），不同时段重金属浓度数据487个，通过文献中对采样点的介绍，提取经纬度信息，方便后续数据的匹配.

空气质量数据来源于中华人民共和国生态环境部数据中心^[32]，2013年前的国标《环境空气质量标准》（GB3095-1996）中仅要求了PM₁₀、SO₂和NO₂，并且没有连续的公开数据发布，因此本文通过搜集各市2000~2013年的历史环境公报数据对数据进行补全；而PM_2.5历史数据通过Xue等^[33]的数据集进行匹配. 由于O₃和CO数据可获取性的限制，本研究并未收集. 2013年后随着新标准《环境空气质量标准》（GB 3095~2012）的发布，空气质量数据更加丰富，数据的可获取行性更加多元. 本研究通过ArcGIS中近邻分析工具为文献中每个采样点匹配最近的空气质量站点（如图1），并根据已有研究中的采样时间匹配相应时段的空气质量数据均值.

气象数据来源于国家气象科学数据中心^[34]，获取了2000~2020年305个气象站点的逐小时气象数据（如图1），包括温度（t）、气压（p）、相对湿度（RH）、风速（u）和风向（WD）；通过ArcGIS中近邻分析工具为文献中每个采样点匹配最近的气象站点，并根据采样时段匹配相应时段的气象数据（其中风向取该时段内主导风向）.

土地利用类型数据来源于中国科学院地理科学与资源研究所资源环境科学与数据中心^[35]，为2018年江苏、安徽、浙江和上海土地利用遥感监测1 km栅格数据.

排放清单数据来自中国多尺度排放清单模型（MEIC v1.4）^[36，37]，覆盖2000~2019年，提供SO₂、NO_x、CO、NMVOC、NH₃、PM₁₀、PM_2.5、BC、OC和CO₂共10种污染物，电力、工业、民用、交通和农业这5个部门的来源数据. 本研究中使用的数据集时间分辨率为全年，排放部门为农业，空间分辨率为0.25°×0.25°，VOC化学机制为carbon bond mechanism Ⅳ（CBIV）^[38].

1.3 机器学习模型构建

结合已有研究中相应采样时间段的空气污染数据、气象数据和排放清单数据，利用机器学习建立长江三角洲区域大气PM_2.5中重金属浓度模型. 将收集得到的数据划分为训练集和测试集，其中75%数据作为训练集，25%数据作为测试集.

使用随机森林（random forests，RF）、支持向量机（support vector machines，SVM）和梯度提升机（gradient boosting machines，GBM）这3种机器学习模型进行数据的模拟预测. 重要性变量使用5次十折交叉验证的随机森林模型进行选择，以降低计算量、加快运算，避免过拟合.

随机森林（RF）模型是决策树算法的一种改进，将多棵决策树进行组合，每棵树都依赖于独立采样的随机向量的值，并且森林中的所有决策树都具有相同的分布，森林的泛化误差随着森林中树的数量的增加而收敛到一个极限，其泛化误差取决于森林中单个树的强度和它们之间的相关性. 算法通过自助法（Boot-Strap）重采样技术，从原始训练样本集N中有放回地随机抽取k个样本生成新的训练样本集，然后根据自助样本集生成k个决策树组成随机森林^[39]. 本研究使用R语言中“randomForest”包进行随机森林建模.

支持向量机（SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面^[40，41]. 基本思想是基于Mercer核展开定理，通过非线性映射ϕ，把样本空间映射到一个高维乃至于无穷维的特征空间（Hilbert空间），使在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题^[42]. 本研究使用R语言中“e1071”包进行支持向量机建模.

梯度提升机（GBM）是一种集成学习算法，通过迭代方式将弱预测模型组合成一个强预测模型^[43]. 其主要思想是，先建立一个某种形式的初始模型（线性、样条、决策树或其他），称为基学习器；然后检查残差，在残差的基础上围绕损失函数拟合模型^[44]. 本研究使用R语言中“gbm”包进行梯度提升机建模.

1.4 模型性能评价

模型性能评价采用决定系数（R²）、均方根误差（RMSE）、平均绝对误差（MAE）和相对分析误差（RPD）进行评价.

决定系数（R²）：

R^{2} = 1 - \frac{\sum_{i = 1}^{n} (f_{i} - y_{i})^{2}}{\sum_{i = 1}^{n} (f_{i} - {\bar{y}}_{i})^{2}}

(1)

式中，f_i为真实值，y_i为预测值， ${\bar{y}}_{i}$ 为真实值的平均值.

均方根误差（RMSE）：

R M S E = \sqrt[]{\frac{1}{n} \sum_{i = 1}^{n} (f_{i} - y_{i})^{2}}

(2)

平均绝对误差（MAE）：

M A E = \sqrt[]{\frac{1}{n} \sum_{i = 1}^{n} |f_{i} - y_{i}|}

(3)

相对分析误差（RPD）：

R P D = \frac{S D}{R M S E}

(4)

式中，SD为标准差.

上述评价指标中，R²越大，RMSE和MAE越小，则模型的性能越好. R²的判断标准为：R²>0.90表示预测结果出色；R²在0.81~0.90之间表示预测结果很好；R²在0.66~0.80之间为预测结果一般；R²<0.66表示预测结果很差. RPD的判断标准为：RPD<1.00表示模型预测非常差，不推荐使用；1.0≤RPD<1.4之间表示模型预测不佳；1.4≤RPD<2.00之间表示可以进行定量预测；2.00≤RPD<2.50之间表示模型具有较好的定量预测能力；RPD≥2.50表示模型具有极好的预测能力^[27，28].

将长三角区域的气象、空气污染和排放清单的栅格数据作为模型输入变量，估算整个长三角区域的PM_2.5中重金属时空变化. 最后根据土地利用类型，提取农业区域的大气PM_2.5中重金属污染状况.

1.5 空间分布

通过比较各机器学习模型的预测结果，对不同模型进行加权融合，提高融合模型预测性性能. 将长三角区域的气象、空气污染和排放清单的栅格数据作为模型输入变量，估算整个长三角区域的PM_2.5中重金属时空变化. 对融合模型输出的预测数据利用ArcGIS进行空间插值绘图，基于中国科学院地理科学与资源研究所资源环境科学与数据中心提供的土地利用类型数据（2018年），提取农业区域大气PM_2.5中重金属的浓度分布，绘制时空分布图.

2 结果与讨论 2.1 不同模型对PM_2.5中金属元素浓度预测结果比较

通过对已有研究中获取的数据进行数据清洗和变量重要性筛选，本研究针对6种元素分别选择了3种机器学习模型，模型结果如表1所示. 对于训练集，就R²而言，除Cu-SVM（R²=0.75）、Ti-SVM（R²=0.77）和Ti-GBM（R²=0.37）未达到0.80外，其余元素各模型的R²均大于0.80甚至大于0.90，建模结果很出色. 但是对于测试集，本研究中的3种模型均未表现出良好的预测效果，就R²而言，近一半的模型预测结果一般（0.66<R²<0.80），其余模型表现出较差的预测效果（R²<0.66）. 就RPD而言，与R²的评估结果相似，近一半的模型预测能力不佳（RPD<1.40），其他模型具备定量预测的能力（RPD>1.40）.

表 1 不同模型对6种重金属元素预测效果比较 Table 1 Comparison of prediction effect of different models on six types of heavy metals

从测试集的观测值与预测值的比较中可以发现（如图2），大气PM_2.5中金属元素浓度普遍处在低值区，但是6种元素的各模型对于低值区结果的预测都出现了不同程度的高估；而对于高值区结果的预测，各模型也出现了不同程度的低估. 特别是GBM和SVM模型对Ti元素浓度的预测中，预测值与真实值表现出了很大的偏离.

虚线为1∶1线，阴影部分为95%置信区间图 2 不同模型对测试集中不同重金属元素预测值与观测值比较 Fig. 2 Comparison between predicted and observed values of different heavy metals for different models in the test dataset

2.2 机器学习模型的整合及结果评价

各模型对测试数据集的预测能力一般，说明建立的3种机器学习模型对大气PM_2.5中重金属元素浓度的预测泛化能力有限. 模型融合是机器学习集成不同模型特色、提高融合模型泛化能力的常用手段^[45~47]. 本研究中分别对6种重金属元素的RF、GBM和SVM模型进行了加权平均（如表2）. 加权融合模型的训练集结果显示，Pb和Cu的建模结果很好（0.80<R²≤0.90），As、Cd、Zn和Ti的建模结果出色（R²>0.90）；测试集的预测结果也有较大改善，就R²而言，所有元素的融合模型预测能力均有提高（R²>0.66）. 就RPD而言，6种元素的融合模型均可进行定量预测（RPD>1.40），其中As和Cd元素的融合模型具备较好的预测能力（RPD>2.0）.

表 2 加权融合模型对6种金属元素预测效果比较 Table 2 Comparison of the prediction effect of weighted fusion model on six types of heavy metals

通过对各元素融合模型对测试集的预测结果与真实值的比较可以发现（如图3），模型对低值的高估和对高值的低估仍然存在，但是相对加权融合之前模型的预测能力均有不同程度的提高. 杨长春等^[48]研究也发现，将先知时间序列分解算法（Prophet）和极限梯度提升树（XGBoost）机器学习模型相结合，可使模型预测结果的R²从单一模型的0.56提升到融合模型的0.66，可以实现对PM_2.5浓度更好地预测.

虚线为1∶1线，阴影部分为95%置信区间图 3 加权融合模型对测试集中不同金属元素预测值与观测值比较 Fig. 3 Comparison between the predicted and observed values of different heavy metals by the weighted fusion model in the test dataset

2.3 长三角农业区大气PM_2.5中金属元素时空分布特征

利用加权融合模型对2015~2017年长三角农业区大气PM_2.5中Pb、As、Cu、Cd、Zn和Ti共6种金属元素浓度进行了预测，并利用ArcGIS进行了空间插值绘图，6种重金属元素浓度的时空分布如图4所示.

图 4 长江三角洲农业区大气PM_2.5中不同重金属元素浓度时空分布 Fig. 4 Spatial and temporal distribution of different heavy metals in atmospheric PM_2.5 in the agricultural area of Yangtze River Delta Region

大气PM_2.5中ρ（Pb）在2015~2017年3 a间呈现出递减规律[如图4（a）]，浓度平均值由2015年的74.90 ng·m^-3（45.30~94.90 ng·m^-3）下降到2017年的61.20 ng·m^-3（44.10~76.10 ng·m^-3）. 空间分布上，大气PM_2.5中Pb元素浓度表现为北高南低，在江苏中北部和安徽中北部出现了大面积的高值分布，在浙江沿海及内陆山区则表现为低浓度. PM_2.5中ρ（As）同样表现为2015~2017年3 a间递减规律[如图4（b）]，浓度平均值由2015年的14.00 ng·m^-3（6.25~31.3 ng·m^-3）下降到2017年的11.50 ng·m^-3（3.76~31.20 ng·m^-3）. 在空间分布上，与Pb元素不同的是，As元素在长三角平原区浓度较低，在安徽南部和浙江西部山区则表现为高值. PM_2.5中ρ（Cu）在3 a间并未表现出明显的变化趋势[2015年：（42.50±7.75）ng·m^-3；2016年：（41.80±7.84）ng·m^-3；2017年：（41.60±7.86）ng·m^-3，如图4（c）]. 但在空间分布上，Cu元素却表现出了明显的南北差异，以北纬32°为分界线，北部普遍为高值分布，而南部则为低值分布，在上海、苏州和杭州的农业区表现为最低. PM_2.5中ρ（Cd）在2015~2017年总体也呈现下降态势[如图4（d）]，浓度平均值从2015年的2.81 ng·m^-3（0.94~5.20 ng·m^-3）下降到2017年的2.38 ng·m^-3（0.37~5.71 ng·m^-3）. 在空间分布上，Cd元素与As元素类似，在安徽南部和浙江西部的山区农业区出现高值分布；值得注意的是，在上海市，Cd元素也表现出高值分布；在江苏南通和盐城Cd元素则表现为低值. PM_2.5中ρ（Zn）在2015~2016年出现了较为明显的下降[如图4（e）]，浓度平均值由2015年的258.70 ng·m^-3（166.60~341.70 ng·m^-3）下降到2016年的246.50 ng·m^-3（158.70~322.30 ng·m^-3）；2017年的浓度（242.60 ng·m^-3）与2016年相比变化不大. 空间分布上，除上海和浙江北部外，长三角大部分农业区的PM_2.5中Zn元素浓度均较高. PM_2.5中Ti元素浓度在2015~2017年3 a间基本持平，未见明显的变化[2015年：（48.40±11.00）ng·m^-3；2016年：（48.90±11.30）ng·m^-3；2017年：（48.20±11.50）ng·m^-3，如图4（f）]. 空间分布上，长江以北农业区大气PM_2.5中Ti元素浓度表现为普遍的高值分布，而在长江以南，特别是上海和浙江杭州湾及沿海地区表现为明显的低值分布.

王橹玺等^[49]收集并总结了近30 a中国不同地区大气PM_2.5中重金属污染的研究成果，发现2011年杭州市近城市背景点的PM_2.5中ρ（Pb）、ρ（As）、ρ（Cd）和ρ（Zn）分别为134.7、13.20、3.60和592.60 ng·m^-3，略高于本研究预测的2015年对应地区相应重金属浓度. 董世豪等^[50]通过扬州市不同功能区PM_2.5定位采样分析发现，2016年扬州市PM_2.5中年均ρ（Pb）、ρ（As）和ρ（Cd）分别为64.41、6.36和3.34 ng·m^-3，与本研究预测的2016年相应重金属浓度较接近.

3 结论

（1）本研究利用RF、SVM和GBM等3种机器学习模型对长三角农业区PM_2.5中Pb、As、Cu、Cd、Zn和Ti共6种元素浓度进行了预测，不同模型的预测结果差异明显，普遍存在对高值区的低估，均未达到较好的预测效果.

（2）通过加权平均融合后的模型表现有较大改善（R²>0.66），对6种金属元素浓度均达到可定量预测的能力（RPD>1.4），因此，机器学习多模型加权融合是一种高效预测PM_2.5中重金属元素浓度的有效途径.

（3）对农业区PM_2.5中重金属元素浓度的预测发现，2015~2017年Pb、Cd、As和Zn的浓度均在逐年递减，而Cu和Ti的浓度则未出现明显变化. 空间分布上，Pb、Cu和Ti 3种元素在长三角农业区北方大气PM_2.5中浓度较高，在南方则较低；As和Cd元素则在安徽北部和浙江西部山区的PM_2.5中浓度分布较高；而Zn元素在各农业区均有较高浓度的分布.

参考文献

[1]	Vasilatou V, Diapouli E, Abatzoglou D, et al. Characterization of PM_2.5 chemical composition at the Demokritos suburban station, in Athens Greece. The influence of Saharan dust[J]. Environmental Science and Pollution Research, 2017, 24(12): 11836-11846.
[2]	石晓兰, 宗政, 彭辉, 等. 近10年华北背景大气PM_2.5中重金属健康风险及污染来源的变化[J]. 环境科学, 2023, 44(10): 5335-5343. Shi X L, Zong Z, Peng H, et al. Changes in health risks and pollution sources of atmospheric PM_2.5-bound metals in a background site in North China[J]. Environmental Science, 2023, 44(10): 5335-5343. DOI:10.13227/j.hjkx.202211119
[3]	谢放尖, 郑新梅, 窦焘焘, 等. 南京地区细颗粒物污染输送影响及潜在源区[J]. 环境科学, 2023, 44(6): 3071-3079. Xie F J, Zheng X M, Dou T T, et al. Transport influence and potential sources of PM_2.5 pollution for Nanjing[J]. Environmental Science, 2023, 44(6): 3071-3079. DOI:10.13227/j.hjkx.202206256
[4]	Ji X, Yao Y X, Long X L. What causes PM_2.5 pollution? Cross-economy empirical analysis from socioeconomic perspective[J]. Energy Policy, 2018, 119: 458-472.
[5]	He F F, Lu J J, Li Z Y, et al. Characteristics of environmentally persistent free radicals in PM_2.5 and the influence of air pollutants in Shihezi, northwestern China[J]. Toxics, 2022, 10(7). DOI:10.3390/toxics10070341
[6]	Sun X Y, Zhao T L, Bai Y Q, et al. Meteorology impact on PM_2.5 change over a receptor region in the regional transport of air pollutants: observational study of recent emission reductions in central China[J]. Atmospheric Chemistry and Physics, 2022, 22(5): 3579-3593.
[7]	周菁清, 余磊, 陈书鑫, 等. 浙江省大气颗粒物PM_2.5化学组分污染特征分析[J]. 环境科学, 2023, 44(3): 1297-1309. Zhou J Q, Yu L, Chen S X, et al. Pollution characteristics of PM_2.5 chemical composition in Zhejiang Province[J]. Environmental Science, 2023, 44(3): 1297-1309. DOI:10.13227/j.hjkx.202203118
[8]	刘翠英, 靳浩, 樊建凌. 南京近郊农田大气颗粒物及金属干沉降输入特征[J]. 环境科学, 2023, 44(4): 1873-1881. Liu C Y, Jin H, Fan J L. Input characteristics of dry deposition of atmospheric particulates and metals in farmland in the suburb of Nanjing[J]. Environmental Science, 2023, 44(4): 1873-1881. DOI:10.13227/j.hjkx.202206224
[9]	曹宇坤, 温天雪, 张小玲, 等. 华北典型农业区PM_2.5组分分析与来源解析[J]. 大气科学, 2021, 45(4): 819-832. Cao Y K, Wen T X, Zhang X L, et al. Component and source analyses of PM_2.5 in typical agricultural regions of North China[J]. Chinese Journal of Atmospheric Sciences, 2021, 45(4): 819-832.
[10]	Ge X L, Li L, Chen Y F, et al. Aerosol characteristics and sources in Yangzhou, China resolved by offline aerosol mass spectrometry and other techniques[J]. Environmental Pollution, 2017, 225: 74-85.
[11]	Pan Y, Mei J, Jiang J P, et al. PFAS in PMs might be the escalating hazard to the lung health[J]. Nano Research, 2023, 16(12): 13113-13133.
[12]	刘鹏, 胡文友, 黄标, 等. 大气沉降对土壤和作物中重金属富集的影响及其研究进展[J]. 土壤学报, 2019, 56(5): 1048-1059. Liu P, Hu W Y, Huang B, et al. Advancement in researches on effect of atmospheric deposition on heavy metals accumulation in soils and crops[J]. Acta Pedologica Sinica, 2019, 56(5): 1048-1059.
[13]	Huang H, Jiang Y, Xu X Y, et al. In vitro bioaccessibility and health risk assessment of heavy metals in atmospheric particulate matters from three different functional areas of Shanghai, China[J]. Science of the Total Environment, 2018, 610-611: 546-554.
[14]	Xu J S, Xu H H, Xiao H, et al. Aerosol composition and sources during high and low pollution periods in Ningbo, China[J]. Atmospheric Research, 2016, 178-179: 559-569.
[15]	Yu Y Y, He S Y, Wu X L, et al. PM_2.5 elements at an urban site in Yangtze River Delta, China: high time-resolved measurement and the application in source apportionment[J]. Environmental Pollution, 2019, 253: 1089-1099.
[16]	Idani E, Geravandi S, Akhzari M, et al. Characteristics, sources, and health risks of atmospheric PM₁₀-bound heavy metals in a populated middle eastern city[J]. Toxin Reviews, 2020, 39(3): 266-274.
[17]	Niu L L, Ye H J, Xu C, et al. Highly time- and size-resolved fingerprint analysis and risk assessment of airborne elements in a megacity in the Yangtze River Delta, China[J]. Chemosphere, 2015, 119: 112-121.
[18]	Wu L C, Luo X S, Li H B, et al. Seasonal levels, sources, and health risks of heavy metals in atmospheric PM_2.5 from four functional areas of Nanjing city, Eastern China[J]. Atmosphere, 2019, 10(7). DOI:10.3390/atmos10070419
[19]	Heavy Metals Network-Defra, UK[EB/OL]. https://uk-air.defra.gov.uk/networks/network-info?view=metals, 2023-08-12.
[20]	Li J, Crooks J, Murdock J, et al. A nested machine learning approach to short-term PM_2.5 prediction in metropolitan areas using PM_2.5 data from different sensor networks[J]. Science of the Total Environment, 2023, 873. DOI:10.1016/j.scitotenv.2023.162336
[21]	Zheng M M, Xu C H, Wan Z L, et al. Reduction potential of ammonia emissions and impact on PM_2.5 in a megacity of central China[J]. Environmental Pollution, 2024, 343. DOI:10.1016/j.envpol.2023.123172
[22]	Tang D, Zhan Y, Yang F M. A review of machine learning for modeling air quality: overlooked but important issues[J]. Atmospheric Research, 2024, 300. DOI:10.1016/j.atmosres.2024.107261
[23]	Li H M, Dai Q, Yang M, et al. Heavy metals in submicronic particulate matter (PM₁) from a Chinese metropolitan city predicted by machine learning models[J]. Chemosphere, 2020, 261. DOI:10.1016/j.chemosphere.2020.127571
[24]	Leng X, Wang J H, Ji H B, et al. Prediction of size-fractionated airborne particle-bound metals using MLR, BP-ANN and SVM analyses[J]. Chemosphere, 2017, 180: 513-522.
[25]	Li R, Cui L L, Liang J H, et al. Estimating historical SO₂ level across the whole China during 1973-2014 using random forest model[J]. Chemosphere, 2020, 247. DOI:10.1016/j.chemosphere.2020.125839
[26]	Li H M, Yang Y, Wang H L, et al. Constructing a spatiotemporally coherent long-term PM_2.5 concentration dataset over China during 1980-2019 using a machine learning approach[J]. Science of the Total Environment, 2021, 765. DOI:10.1016/j.scitotenv.2020.144263
[27]	吴蒙. 长三角地区土地利用变化的生态系统服务响应与可持续性情景模拟研究[D]. 上海: 华东师范大学, 2017. Wu M. Study on the responses of ecosystem services to land use change and the scenario simulation of land use sustainability in Yangtze River Delta[D]. Shanghai: East China Normal University, 2017.
[28]	靳浩, 张佳颖, 张传红, 等. 江苏省大气颗粒物及其重金属干沉降通量研究[J]. 环境科学与技术, 2022, 45(4): 100-108. Jin H, Zhang J Y, Zhang C H, et al. Dry deposition flux of atmospheric particulate matter and heavy metals in Jiangsu Province[J]. Environmental Science & Technology, 2022, 45(4): 100-108.
[29]	Jia L, Sun J P, Fu Y F. Spatiotemporal variation and influencing factors of air pollution in Anhui Province[J]. Heliyon, 2023, 9(5). DOI:10.1016/j.heliyon.2023.e15691
[30]	中共中央, 国务院. 中共中央国务院印发《长江三角洲区域一体化发展规划纲要》[EB/OL]. https://m.mofcom.gov.cn/article/b/g/202001/20200102931567.shtml, 2020-01-19.
[31]	国家统计局. 中国统计年鉴-2023[M]. 北京: 中国统计出版社, 2023.
[32]	中国环境监测总站. 全国城市空气质量实时发布平台[EB/OL]. https://air.cnemc.cn: 18007/, 2020-12-31.
[33]	Xue T, Zheng Y X, Tong D, et al. Spatiotemporal continuous estimates of PM_2.5 concentrations in China, 2000-2016: a machine learning method with inputs from satellites, chemical transport model, and ground observations[J]. Environment International, 2019, 123: 345-357.
[34]	国家气象科学数据中心. 中国地面气候标准值数据集(气温月值数据)[EB/OL]. https://data.cma.cn/data/cdcdetail/dataCode/A.0053.0002.S004.html, 2020-12-31.
[35]	徐新良, 刘纪远, 张树文, 等. 中国多时期土地利用遥感监测数据集(CNLUCC)[EB/OL]. https://doi.org/10.12078/2018070201, 2018-07-02.
[36]	Zhang Q, Streets D G, Carmichael G R, et al. Asian emissions in 2006 for the NASA INTEX-B mission[J]. Atmospheric Chemistry and Physics, 2009, 9(14): 5131-5153.
[37]	Liu F, Zhang Q, Tong D, et al. High-resolution inventory of technologies, activities, and emissions of coal-fired power plants in China from 1990 to 2010[J]. Atmospheric Chemistry and Physics, 2015, 15(23): 13299-13317.
[38]	Zheng B, Huo H, Zhang Q, et al. High-resolution mapping of vehicle emissions in China in 2008[J]. Atmospheric Chemistry and Physics, 2014, 14(18): 9787-9805.
[39]	Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[40]	Li M, Zhang Q, Streets D G, et al. Mapping Asian anthropogenic emissions of non-methane volatile organic compounds to multiple chemical mechanisms[J]. Atmospheric Chemistry and Physics, 2014, 14(11): 5617-5638.
[41]	Lai X C, Li H, Pan Y. A combined model based on feature selection and support vector machine for PM_2.5 prediction[J]. Journal of Intelligent & Fuzzy Systems, 2021, 40(5): 10099-10113.
[42]	陈永义, 俞小鼎, 高学浩, 等. 处理非线性分类和回归问题的一种新方法(Ⅰ)——支持向量机方法简介[J]. 应用气象学报, 2004, 15(3): 345-354. Chen Y Y, Yu X D, Gao X H, et al. A new method for non-linear classify and non-linear regression Ⅰ: introduction to support vector machine[J]. Journal of Applied Meteorological Science, 2004, 15(3): 345-354.
[43]	朱珈莹, 安俊琳, 冯悦政, 等. 基于轻量级梯度提升机的南京大气臭氧浓度预测[J]. 环境科学, 2023, 44(7): 3685-3694. Zhu J Y, An J L, Feng Y Z, et al. Atmospheric ozone concentration prediction in Nanjing based on LightGBM[J]. Environmental Science, 2023, 44(7): 3685-3694. DOI:10.13227/j.hjkx.202208095
[44]	Natekin A, Knoll A. Gradient boosting machines, a tutorial[J]. Frontiers in Neurorobotics, 2013, 7. DOI:10.3389/fnbot.2013.00021
[45]	Wei X X, Wang X K, Zhu T, et al. Fusion prediction model of atmospheric pollutant based on self-organized feature[J]. IEEE Access, 2021, 9: 8110-8120.
[46]	王雅晓. 基于Stacking融合模型的郑州市PM_2.5浓度研究[D]. 郑州: 郑州大学, 2022. Wang Y X. Research on PM_2.5 concentration in Zhengzhou city based on stacking fusion model[D]. Zhengzhou: Zhengzhou University, 2022.
[47]	沙桐, 李靓青, 严殊祺, 等. 机器学习在空气污染研究方面的应用进展[J]. 环境科学, 2025, 46(6): 3315-3328. Sha T, Li L Q, Yan S Q, et al. Review of machine learning in air pollution research[J]. Environmental Science, 2025, 46(6): 3315-3328. DOI:10.13227/j.hjkx.202405208
[48]	杨长春, 聂倩倩. 面向PM_2.5预测的时间序列分解与机器学习融合模型[J]. 安全与环境学报, 2023, 23(12): 4600-4608. Yang C C, Nie Q Q. Fusion model of time series decomposition and machine learning for PM_2.5 forecasting[J]. Journal of Safety and Environment, 2023, 23(12): 4600-4608.
[49]	王橹玺, 李慧, 张文杰, 等. 大气PM_2.5载带重金属的区域污染特征研究[J]. 环境科学研究, 2021, 34(4): 849-862. Wang L X, Li H, Zhang W J, et al. Regional pollution characteristics of heavy metals in PM_2.5 [J]. Research of Environmental Sciences, 2021, 34(4): 849-862.
[50]	董世豪, 谢扬, 皇甫延琦, 等. 扬州市PM_2.5中重金属来源及潜在健康风险评估[J]. 环境科学, 2019, 40(2): 540-547. Dong S H, Xie Y, Huangfu Y Q, et al. Source apportionment and Heath risk quantification of heavy metals in PM_2.5 in Yangzhou, China[J]. Environmental Science, 2019, 40(2): 540-547. DOI:10.13227/j.hjkx.201805083


环境科学 2025, Vol. 46 Issue (8): 5013-5022	PDF