环境科学  2025, Vol. 46 Issue (8): 5229-5236   PDF    
基于机器学习算法和受体模型联用的土壤重金属溯源解析
马杰1,2, 李名升2, 封雪2     
1. 重庆市生态环境监测中心,重庆 401147;
2. 中国环境监测总站,北京 100012
摘要: 以重庆市煤矸山周边土壤为研究对象,运用决策树(DT)、随机森林(RF)和支持向量机(SVM)等3种机器学习算法开展土壤重金属影响因素分析,并将机器学习算法和绝对因子得分-多元线性回归(APCS-MLR)受体模型联用,开展土壤重金属溯源解析. 土壤表层ω(Cd)、ω(Hg)、ω(As)、ω(Pb)、ω(Cr)、ω(Cu)、ω(Ni)和ω(Zn)均值分别为0.44、0.18、9.92、32.3、129、100、72.8和148 mg·kg-1,结合剖面数据分析,研究区Cd、Hg、As、Pb、Cr、Cu、Ni和Zn含量受不同程度人为活动影响. 机器学习算法表明,随机森林(RF)算法优于决策树(DT)和支持向量机(SVM)算法,Cd、Hg、As、Pb、Cr、Cu、Ni和Zn拟合度(R2)分别为0.783、0.728、0.528、0.753、0.753、0.853、0.822和0.756. 煤矸山堆存量(X1)、土壤点位与煤矸山相对高差(X2)和与煤矸山距离(X3)是影响土壤重金属含量的首要人为因素. 结合受体模型源解析表明,研究区受自然源、矿业源和混合源(大气沉降、农业生产、生活、交通排放等)影响,贡献率分别为42.5%、37.1%和20.4%. 机器学习和受体模型联用,可以使源解析结果更加全面、准确和可靠.
关键词: 土壤      重金属      APCS-MLR受体模型      机器学习      源解析     
Source Apportionment of Heavy Metals in Soils Based on Machine Learning Algorithms and Receptor Model
MA Jie1,2 , LI Ming-sheng2 , FENG Xue2     
1. Chongqing Ecological and Environmental Monitoring Center, Chongqing 401147, China;
2. China National Environmental Monitoring Centre, Beijing 100012, China
Abstract: To analyze the source apportionment and influence factors of heavy metals in soils surrounding a coal gangue heap in Chongqing, three machine learning algorithms (decision tree (DT), random forest (RF), and support vector machine (SVM)) and the absolute principal component scores-multiple linear regression (APCS-MLR) receptor model were used. The surface soil results showed that the average values of Cd, Hg, As, Pb, Cr, Cu, Ni, and Zn were 0.44, 0.18, 9.92, 32.3, 129, 100, 72.8, and 148 mg·kg-1. Combined profile soil data showed that Cd, Hg, As, Pb, Cr, Cu, Ni, and Zn were affected by human activities to varying degrees. Using machine learning algorithms analysis, RF was better than DT and SVM, and R2 values of Cd, Hg, As, Pb, Cr, Cu, Ni, and Zn were 0.783, 0.728, 0.528, 0.753, 0.753, 0.853, 0.822, and 0.756. "The number of coal gangue units" (X1), "the vertical height difference between the sampling point and coal gangue heap" (X2), and "the distance between the sampling point and the coal gangue heap" (X3) were the key driving factors by human activities. Combined with APCS-MLR model analysis, the soil in the study area was affected by natural sources, mining sources, and mixed sources (including atmospheric deposition, agricultural production, life and traffic emissions, etc.), with contribution rates of 42.5%, 37.1%, and 20.4%, respectively. The combined application of the machine learning algorithms and receptor model can make the results of source apportionment more comprehensive, accurate, and reliable.
Key words: soil      heavy metals      APCS-MLR receptor model      machine learning      source apportionment     

土壤重金属污染具有毒性大、隐蔽性强和难降解等特点,对生态环境、粮食安全和人体健康等方面已构成潜在威胁[1~4]. 根据《全国土壤污染状况调查公报》,重金属是造成我国土壤污染的首要污染物,Cd、Hg、As、Pb、Cr、Cu、Ni和Zn超标率分别为7.0%、1.6%、2.7%、2.1%、1.5%、1.1%、0.9%和4.8%,不同土地利用类型中耕地土壤污染占比最高[5]. 然而土壤重金属来源广泛,除受成土母质风化等自然因素影响外,还受污水灌溉、化肥农药施用、交通排放、工业和矿业活动等人为因素影响[6~10]. 尤其是随着经济社会的快速发展,人为因素不容忽视[1112]. 因此,开展土壤重金属溯源解析,对土壤污染管控、耕地安全利用和保障人体健康至关重要.

近年来,受体模型因不需提前构建源成分谱,且具备操作简便,运行高效等优点,在土壤重金属定量溯源解析方面得到广泛应用,其中常用的包括绝对因子得分-多元线性回归(absolute principal component scores-multiple linear regression,APCS-MLR)受体模型和正定矩阵因子分解(Positive matrix factorization,PMF)受体模型[13~15]. APCS-MLR受体模型是以主成分分析(PCA)结果为基础,计算绝对因子得分(APCS),再利用多元线性回归(MLR)计算污染源贡献率[16];PMF受体模型则是将数据集当作一个矩阵,通过加权最小二乘法将数据矩阵分解为因子矩阵和残差矩阵,得到最小目标函数,获取污染源贡献率[17]. 然而两种受体模型也存在较大局限性,如易受到异常值影响,进而影响到协方差和相关矩阵的估算结果,尤其是土壤重金属含量易受点源污染和背景值影响,更易出现异常值,使源解析结果出现偏差[18~20]. 此外,研究学者需结合现场调查、文献资料和自身经验等方面,对受体模型源解析结果作出推断,以确定各污染源类型,往往主观性较强,结论缺少支撑[21]. 因此,受体模型通常与同位素示踪和GIS成图等其他方法结合使用,以提高源解析结果的科学性[2223].

机器学习(machine Learning)是一门多领域交叉的学科,其本质是让计算机在数据中学习规律,预测因变量和自变量之间的非线性关系,因其精度高、数据处理能力强、能避免过拟合等优点,在研究人为活动与土壤重金属积累关系方面得到广泛的应用[24~26]. 如Zhang等[27]利用随机森林算法发现,合肥地区土壤Zn、Pb、Cu、Cd和Hg含量与城市建成区面积等人为因素有关,而土壤As、Ni和Cr含量与Fe2O3、Al2O3和SiO2等自然成土因素有关. 李珊等[28]利用Catboost算法发现,矿区周边农田土壤Cd和Hg含量与选矿、尾矿暴露等矿业活动有关,城市郊区农田Hg与商业、工业和交通运输业等人为活动有关,其他农田土壤Cd则与农药化肥施用和大型器械化耕作等农业活动有关. 因此,通过机器学习能定量识别不同环境变量因子对土壤重金属的影响程度,确定影响土壤重金属污染的主要驱动因素,能更好的辅助受体模型对污染源的合理推断,减少主观干扰,使解析结果更加全面、真实和可靠. 当前,将机器学习算法和受体模型联用的土壤重金属溯源解析鲜见报道.

有研究表明,煤矸山长期堆存会对周边土壤造成一定程度污染,总体而言,距煤矸山越近,重金属污染程度越重[29~31]. 本文选取重庆市煤矸山周边土壤为研究对象,测定土壤重金属Cd、Hg、As、Pb、Cr、Cu、Ni和Zn含量,考虑煤矸山堆存量、土壤点位与煤矸山相对高差、与煤矸山、居民点和主干道距离等5个环境变量因子,运用决策树(decision tree,DT)、随机森林(random forest,RF)和支持向量机(support vector machine,SVM)等机器学习算法,开展土壤影响因素分析,并结合APCS-MLR受体模型开展土壤重金属溯源解析,以期为研究区土壤污染防治提供科学支撑,并为土壤污染溯源解析提供研究思路.

1 材料与方法 1.1 研究区概况

研究区位于重庆南部綦江和南川区(图 1). 属亚热带湿润季风气候,雨热同季,以丘陵山地为主,海拔在350~700 m,降雨量在1 200 mm左右. 区内选取8座历史遗留煤矸山(M1~M8),均堆存20~25 a,2010年因煤矿关闭,停止排矸. 通过实地调查,煤矸山周边土地利用类型以耕地为主,主要种植玉米和蔬菜,土壤以紫色土为主,煤矸山3 km范围内无其他大型工矿企业.

图 1 研究区煤矸山分布示意 Fig. 1 Distribution of the coal gangue heaps in the study area

1.2 样品采集和测定

在煤矸山周边1 km范围内易受地表径流影响的耕地区域,按照150 m×150 m网格布设土壤采样点. 根据耕地分布情况,每座煤矸山周边布设8~21个,合计115个. 利用双对角线5点混合法采集0~20 cm的表层土壤. 此外,每座煤矸山采集一个土壤剖面,合计8个,采样深度分别为表层(0~20 cm)、中间层(20~60 cm)和底层(60~100 cm). 样品经自然风干后,将测定Cd和Hg土壤过0.150 mm孔径筛,经HCl-HF-HNO3-HClO4消解,用石墨炉火焰原子吸收分光光度计测定Cd含量[32];经HNO3-HCl混合试剂在沸水浴中加热消解后,用原子荧光光度计测定Hg含量[33]. 将测定As、Pb、Cr、Cu、Zn和Ni的土壤过0.075 mm孔径筛,用X荧光光波谱仪测定其含量[34].

1.3 研究框架

首先,初步识别影响土壤重金属含量的人为环境因素,包括确定因子和不确定因子. 本文影响土壤重金属含量的确定因子主要来自煤矸山,故选择煤矸山堆存量(X1)、土壤点位与煤矸山相对高差(X2)和土壤点位与煤矸山距离(X3)等3个因子. 此外,农村生活生产和交通因素也能造成土壤重金属污染[152835],故将土壤点位与居民点距离(X4)和与主要干道距离(X5)等2个因子,作为影响土壤重金属含量的不确定因子. 通过机器学习算法定量获取影响土壤重金属含量的主要环境因子. 其次,利用受体模型开展定量溯源解析,结合土壤监测数据和周边调查情况,区分人为源和自然源. 最后,结合机器学习算法结果,确定影响土壤重金属含量的人为源类型及其贡献率(图 2).

图 2 研究框架 Fig. 2 Research framework

1.4 研究方法 1.4.1 APCS-MLR受体模型

APCS-MLR受体模型是将PCA和MLR相结合的受体模型,以PCA结果作为基础,然后计算APCS,再结合MLR计算污染源贡献率[16]. 为消除模型负数影响,使源解析结果更加准确,相关学者对模型进行了修正[3637],公式如下:

$ C_{p i}=\frac{\left|b_{i 0}\right|}{\left|b_{i 0}\right|+\left|\sum\limits_{p=1}^P\left(b_{p i} \times \overline{\operatorname{APCS}_p}\right)\right|} \times 100 \% $ (1)

未知源公式如下:

$ C_{p i}=\frac{\left|b_{p i} \times \overline{\mathrm{APCS}_p}\right|}{\left|b_{i 0}\right|+\left|\sum\limits_{p=1}^P\left(b_{p i} \times \overline{\mathrm{APCS}_p}\right)\right|} \times 100 \% $ (2)

式中, C p i 表示i种重金属在污染源p的贡献量, b i 0 表示i种重金属多元回归常数项, b p i 表示i种重金属对污染源p的回归系数, A P C S p ¯ 表示污染源p的绝对主成分因子平均得分.

1.4.2 机器学习算法

决策树(DT)是Quinlan提出的一种以树形数据结构来表示决策规则和回归结果的算法,由一个根节点、一组内部子节点、一组叶节点和多条有向边组成[38]. 构建决策树是一个递归过程,根据选定的特征将样本划分为若干个子集,每次划分都会生成一个新的节点,直到满足停止条件(如达到最大深度、样本数量小于阈值等),从根节点到叶节点对应着一条合取规则[39].

随机森林(RF)是Breiman提出的一种基于决策树改进的算法,利用Bootstrap抽样重复且有放回的从样本中随机选取部分样本组成一个子集构建决策树,最后将形成的多个决策树集合为随机森林,并求取平均值输出[40].

支持向量机(SVM)是Vapnik提出的一种基于核函数的机器学习算法,核函数的选择取决于样本特征和非线性关系,通过将样本数据映射到高维特征空间,构建一个最优超平面,使离该超平面最近的样本点函数间隔最大化[41]. 本研究使用径向基函数作为SVM算法的核函数,具体见文献[42].

本研究从115个样本数据中随机选取70%(80个)作为建模集,30%(35个)作为验证集,利用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)对算法精度进行验证. 其中RMSE和MAE越小,R2越接近1时,算法精度越高[43]. 具体公式如下:

$ \text { MAE }=\frac{1}{n} \sum\limits_{i=1}^n\left|P_i-O_i\right| $ (3)
$ \text { RMSE }=\sqrt{\frac{1}{n} \sum\limits_{i=1}^n\left(O_i-P_i\right)^2} $ (4)
$ R^2=\frac{\sum\limits_{i=1}^n\left(P_i-\overline{O_i}\right)^2}{\sum\limits_{i=1}^n\left(O_i-\overline{O_i}\right)^2} $ (5)

式中,Pi Oi 分别表示样本i的预测值和实测值; O i ¯ 表示实测值的平均值;n表示样本数量.

1.4.3 环境因子获取和数据处理

考虑数据获取的难易程度,本文选取与人为活动有关的5个环境因子,包括与煤矸山有关的3个确定因子,包括煤矸山堆存量(X1)、土壤点位与煤矸山相对高差(X2)和土壤点位与煤矸山距离(X3). 除煤矸山外的2个不确定因子,包括土壤点位与居民点距离(X4)和与主要干道距离(X5). 数据通过卫星图像和实地调查获取. 机器学习算法利用matlab R2022a软件编程分析,APCS-MLR受体模型利用SPSS 24.0软件分析.

2 结果与讨论 2.1 土壤重金属含量特征

研究区土壤重金属含量如表 1所示. ω(Cd)、ω(Hg)、ω(As)、ω(Pb)、ω(Cr)、ω(Cu)、ω(Ni)和ω(Zn)均值分别为0.44、0.18、9.92、32.3、129、100、72.8和148 mg·kg-1. 变异系数能反映变量的分散程度,变异系数越大,说明土壤受人为活动影响越大[44]. 研究区土壤重金属变异系数表现为:As(53.1%) > Cd(52.7%) > Hg(40.1%) > Cu(37.8%) > Pb(34.9%) > Ni(29.4%) > Zn(21.6%) > Cr(16.5%). 根据Wilding对变异程度的划分[45],As、Cd、Hg和Cu为高变异水平(CV > 36%),Pb、Ni、Zn、Cr为中变异水平(15% < CV≤36%),从土壤剖面数据看,Cd、Hg、As、Pb、Cr、Cu、Ni和Zn均表现为表层(0~20 cm)均值含量最高,分别是底层(60~100 cm)均值含量的2.57、1.60、1.34、1.73、1.04、1.21、1.10和1.33倍,说明8项重金属受到不同程度的人为活动影响,其中Cr因变异系数相对最小,表层(0~20 cm)均值含量与底层(60~100 cm)含量接近,初步推测受人为因素影响最小.

表 1 土壤重金属含量统计情况1) Table 1 Statistical characteristics of heavy metal concentrations in soil

2.2 机器学习算法解析

图 3所示,3种机器学习算法结果基本一致,煤矸山堆存量(X1)是影响土壤Cd、Hg、Cu、Ni和Zn含量的首要人为因素,解释度在0.605~0.982之间;土壤点位与煤矸山相对高差(X2)是影响土壤Pb和Cr含量的首要因素,解释度在0.677~0.961之间;土壤点位与煤矸山距离(X3)是影响As含量的首要人为因素,解释度在0.823~0.874之间. 反之,土壤点位与居民点距离(X4)和与主要干道距离(X5)解释度相对较低,解释度分别在0.008~0.406和0.003~0.465之间,说明影响研究区重金属含量的首要人为因素与煤矸石的长期堆存密不可分. 因为煤矸石长期大量堆存会通过大气沉降、雨水淋滤和自然风化等方式向周边环境释放重金属[152946]. 相关学者研究表明,距煤矸山越近,土壤重金属污染越重[141547].

图 3 环境因子对土壤重金属重要性 Fig. 3 Importance of environmental factors to soil heavy metals

从3种机器学习算法精度上看(表 2),8项重金属的均方根误差(RMSE)和决定系数(R2)均表现为随机森林(RF)算法最优,Cd、Cu、Ni和Zn的平均绝对误差(MAE)表现为随机森林(RF)算法最优,Hg、As、Pb和Cr的平均绝对误差(MAE)表现为支持向量机(SVM)算法最优. 总体而言,本研究中随机森林(RF)算法优于决策树(DT)和支持向量机(SVM)算法. 其原因可能是随机森林(RF)算法具有较强的抗噪声和泛化能力,能较好地处理土壤重金属含量和环境因子之间复杂的非线性关系,并能防止过拟合,当然不同算法的性能也与研究区所选环境因子和数据集大小等有关[434849].

表 2 3种算法对研究区土壤重金属精度评价 Table 2 Precision evaluation of soil heavy metalsby three algorithms in this study

2.3 APCS-MLR受体模型解析

APCS-MLR受体模型分析结果表明,Cd、Hg、As、Pb、Cr、Cu、Ni和Zn拟合度(R2)分别为0.537、0.578、0.651、0.748、0.576、0.712、0.833和0.648,均高于0.5,说明拟合效果较好. 各污染源和金属贡献率如图 4所示,源1、源2和未知源贡献率分别为42.5%、37.1%和20.4%. 源1中Cr、Cu、Ni和Zn贡献率最高,分别为78.4%、62.1%、67.2%和76.6%. 从剖面数据看,Cr、Cu、Ni和Zn表层(0~20cm)均值含量是底层(60~100 cm)含量均值的1.04、1.21、1.10和1.33倍,低于Cd、Hg、As和Pb. 从变异系数看,Cr、Ni和Zn属于中变异水平. 尤其是Cr,变异系数远低于其他7项重金属,且剖面各层含量基本一致,说明Cr主要受地质背景影响,这与相关学者研究重庆土壤重金属来源结论基本一致[82450]. 因此,推测源1为自然源,Cr、Cu、Ni和Zn主要受成土母质影响. 结合前述机器学习算法结果,Cr主要受土壤点位与煤矸山相对高差(X2)影响,Cu、Ni和Zn主要受煤矸山堆存量(X1)影响,均与煤矸山有关. 因此,人为源是影响Cr、Cu、Ni和Zn的次要因素,与煤矸山长期堆存有关.

图 4 APCS-MLR受体模型土壤重金属污染源贡献率 Fig. 4 Source contribution ratios of heavy metals in soil based on APCS-MLR receptor model

源2中Cd、Hg、As和Pb贡献率最高,分别为76.4%、59.0%、45.2%和77.3%. 从剖面数据看,Cd、Hg、As和Pb表层(0~20 cm)均值含量是底层(60~100 cm)均值含量2.57、1.60、1.34和1.73倍. 从变异系数看,Cd、Hg和As属于高变异水平,说明受到人为因素影响相对较大,源2为人为源. 然而影响土壤重金属含量人为因素过多,仅依靠受体模型难以准确溯源[21],故结合前述机器学习算法结果,Cd和Hg主要受煤矸山堆存量(X1)影响,Pb主要受土壤点位与煤矸山相对高差(X2)影响,As主要受土壤点位与煤矸山距离(X3)影响,均与煤矸山有关. 因此,Cd、Hg、As和Pb与煤矸山长期堆存有关.

未知源中Cd、Hg、As、Pb、Cr、Cu、Ni和Zn贡献率分别为16.9%、34.2%、30.4%、5.1%、19.1%、24.2%、13.2%和20.4%. Hg的贡献率相对最高,与其他7项重金属不同,Hg主要来源于燃煤排放等工业活动,通过大气沉降在土壤中富集[51]. 研究区位于重庆南部,煤炭资源丰富,早期煤矿开采利用可能导致土壤中Hg的富集. 此外,结合前述机器学习算法结果,虽然土壤点位与居民点距离(X4)和与主要干道距离(X5)解释度相对较低,但也可能对土壤造成一定富集. 研究表明,临近居民点和交通设施完善的耕地区域更容易被村民利用[155253]. 因此,推测未知源为混合源,主要受大气沉降、农业生产、生活和交通排放等影响.

3 结论

(1)研究区表层土壤As、Cd、Hg和Cu为高变异水平,Pb、Ni、Zn和Cr为中变异水平,从剖面数据看,Cd、Hg、As、Pb、Cr、Cu、Ni和Zn均表现为表层(0~20 cm)均值含量最高,分别是底层(60~100 cm)均值含量的2.57、1.60、1.34、1.73、1.04、1.21、1.10和1.33倍,说明8项重金属受到不同程度的人为活动影响.

(2)机器学习算法表明,3种算法结果基本一致,随机森林(RF)算法优于决策树(DT)和支持向量机(SVM)算法,煤矸山堆存量(X1)、土壤点位与煤矸山相对高差(X2)和与煤矸山距离(X3)是影响研究区土壤重金属含量的首要人为因素.

(3)结合受体模型解析表明,研究区受自然源、矿业源、混合源(大气沉降、农业生产、生活和交通排放等)影响,贡献率分别为42.5%、37.1%和20.4%. 机器学习和受体模型联用,可以使解析结果更加全面、准确和可靠.

参考文献
[1] Al-Swadi H A, Usman A R A, Al-Farraj A S, et al. Sources, toxicity potential, and human health risk assessment of heavy metals-laden soil and dust of urban and suburban areas as affected by industrial and mining activities[J]. Scientific Reports, 2022, 12(1). DOI:10.1038/s41598-022-12345-8
[2] Qin G W, Niu Z D, Yu J D, et al. Soil heavy metal pollution and food safety in China: effects, sources and removing technology[J]. Chemosphere, 2021, 267. DOI:10.1016/j.chemosphere.2020.129205
[3] 马杰, 葛淼, 王胜蓝, 等. 基于源导向的农用地土壤重金属健康风险评估及优先控制因子分析[J]. 环境科学, 2024, 45(1): 396-406.
Ma J, Ge M, Wang S L, et al. Health risk assessment and priority control factors analysis of heavy metals in agricultural soils based on source-oriented[J]. Environmental Science, 2024, 45(1): 396-406.
[4] Yang L Y, Wei T C, Li S W, et al. Immobilization persistence of Cu, Cr, Pb, Zn ions by the addition of steel slag in acidic contaminated mine soil[J]. Journal of Hazardous Materials, 2021, 412. DOI:10.1016/j.jhazmat.2021.125176
[5] 环境保护部, 国土资源部. 全国土壤污染状况调查公报[R]. 北京: 环境保护部, 国土资源部, 2014.
[6] Liu X Y, Jing M, Bai Z K. Heavy metal concentrations of soil, rock, and coal gangue in the geological profile of a large openpit coal mine in China[J]. Sustainability, 2022, 14(2). DOI:10.3390/su14021020
[7] Wang S, Cai L M, Wen H H, et al. Spatial distribution and source apportionment of heavy metals in soil from a typical county-level city of Guangdong Province, China[J]. Science of the Total Environment, 2019, 655: 92-101.
[8] Ma J, Chu L J, Sun J, et al. Health risk assessment of trace metal(loid)s in agricultural soils based on Monte Carlo simulation coupled with positive matrix factorization model in Chongqing, southwest China[J]. Journal of Mountain Science, 2024, 21(1): 100-112.
[9] Atafar Z, Mesdaghinia A, Nouri J, et al. Effect of fertilizer application on soil heavy metal concentration[J]. Environmental Monitoring and Assessment, 2010, 160(1-4): 83-89.
[10] Liu P, Wu Q M, Hu W Y, et al. Effects of atmospheric deposition on heavy metals accumulation in agricultural soils: evidence from field monitoring and Pb isotope analysis[J]. Environmental Pollution, 2023, 330. DOI:10.1016/j.envpol.2023.121740
[11] Sun J X, Zhao M L, Huang J L, et al. Determination of priority control factors for the management of soil trace metal(loid)s based on source-oriented health risk assessment[J]. Journal of Hazardous Materials, 2022, 423. DOI:10.1016/j.jhazmat.2021.127116
[12] 马杰, 王胜蓝, 秦启荧, 等. 基于源导向的锰矿尾矿库周边土壤重金属风险评估[J]. 环境科学, 2024, 45(12): 7166-7176.
Ma J, Wang S L, Qin Q Y, et al. Risk assessment of heavy metals in soil surrounding manganese's tailings pond based on source-oriented[J]. Environmental Science, 2024, 45(12): 7166-7176.
[13] 陈雅丽, 翁莉萍, 马杰, 等. 近十年中国土壤重金属污染源解析研究进展[J]. 农业环境科学学报, 2019, 38(10): 2219-2238.
Chen Y L, Weng L P, Ma J, et al. Review on the last ten years of research on source identification of heavy metal pollution in soils[J]. Journal of Agro-Environment Science, 2019, 38(10): 2219-2238.
[14] 马杰, 沈智杰, 张萍萍, 等. 基于APCS-MLR和PMF模型的煤矸山周边耕地土壤重金属污染特征及源解析[J]. 环境科学, 2023, 44(4): 2192-2203.
Ma J, Shen Z J, Zhang P P, et al. Pollution characteristics and source apportionment of heavy metals in farmland soils around the gangue heap of coal mine based on APCS-MLR and PMF receptor model[J]. Environmental Science, 2023, 44(4): 2192-2203.
[15] 马杰, 秦启荧, 王胜蓝, 等. 基于APCS-MLR模型和地理探测器的煤矸山周边土壤污染溯源解析和影响因素分析[J]. 环境科学, 2024, 45(12): 7157-7165.
Ma J, Qin Q Y, Wang S L, et al. Source apportionment and influence factors analysis of heavy metals in soils around a coal gangue heap with the APCS-MLR model and GeoDetector[J]. Environmental Science, 2024, 45(12): 7157-7165.
[16] Thurston G D, Spengler J D. A quantitative assessment of source contributions to inhalable particulate matter pollution in metropolitan Boston[J]. Atmospheric Environment, 1985, 19(1): 9-25.
[17] Paatero P, Tapper U. Positive matrix factorization: a non-negative factor model with optimal utilization of error estimates of data values[J]. Environmetrics, 1994, 5(2): 111-126.
[18] Qu M K, Wang Y, Huang B, et al. Source apportionment of soil heavy metals using robust absolute principal component scores-robust geographically weighted regression (RAPCS-RGWR) receptor model[J]. Science of the Total Environment, 2018, 626: 203-210.
[19] Lv J S. Multivariate receptor models and robust geostatistics to estimate source apportionment of heavy metals in soils[J]. Environmental Pollution, 2019, 244: 72-83.
[20] Zhi Y Y, Li P, Shi J C, et al. Source identification and apportionment of soil cadmium in cropland of Eastern China: a combined approach of models and geographic information system[J]. Journal of Soils and Sediments, 2016, 16(2): 467-475.
[21] Shi H Y, Wang P, Zheng J T, et al. A comprehensive framework for identifying contributing factors of soil trace metal pollution using Geodetector and spatial bivariate analysis[J]. Science of the Total Environment, 2023, 857. DOI:10.1016/j.scitotenv.2022.159636
[22] Wang H J, Zhao M L, Huang X M, et al. Improving prediction of soil heavy metal(loid) concentration by developing a combined Co-kriging and geographically and temporally weighted regression (GTWR) model[J]. Journal of Hazardous Materials, 2024, 468. DOI:10.1016/j.jhazmat.2024.133745
[23] 刘靖宇, 李若怡, 梁永春, 等. 基于特征优选和机器学习的塔里木盆地东缘绿洲土壤镉元素含量预测及健康风险评价[J]. 环境科学, 2024, 45(8): 4802-4811.
Liu J Y, Li R Y, Liang Y C, et al. Soil Cadmium prediction and health risk assessment of an oasis on the eastern edge of the Tarim basin based on feature optimization and machine learning[J]. Environmental Science, 2024, 45(8): 4802-4811.
[24] Yao C, Yang Y D, Li C X, et al. Heavy metal pollution in agricultural soils from surrounding industries with low emissions: assessing contamination levels and sources[J]. Science of the Total Environment, 2024, 917. DOI:10.1016/j.scitotenv.2024.170610
[25] Song H Y, Hu K L, An Y, et al. Spatial distribution and source apportionment of the heavy metals in the agricultural soil in a regional scale[J]. Journal of Soils and Sediments, 2018, 18(3): 852-862.
[26] Palansooriya K N, Li J, Dissanayake P D, et al. Prediction of soil heavy metal immobilization by biochar using machine learning[J]. Environmental Science & Technology, 2022, 56(7): 4187-4198.
[27] Zhang H, Yin S H, Chen Y H, et al. Machine learning-based source identification and spatial prediction of heavy metals in soil in a rapid urbanization area, eastern China[J]. Journal of Cleaner Production, 2020, 273. DOI:10.1016/j.jclepro.2020.122858
[28] 李珊, 杨济妮, 苏贵金, 等. 基于Catboost算法的中国典型农业区重金属污染特征及影响因素分析[J]. 环境化学, 2024, 43(10): 3377-3387.
Li S, Yang J N, Su G J, et al. Analysis of heavy metal pollution characteristics and influencing factors in China's typical agricultural areas based on Catboost algorithm[J]. Environmental Chemistry, 2024, 43(10): 3377-3387.
[29] Ma J, Shen Z J, Wang S L, et al. Source apportionment of heavy metals in soils around a coal gangue heap with the APCS-MLR and PMF receptor models in Chongqing, southwest China[J]. Journal of Mountain Science, 2023, 20(4): 1061-1073.
[30] Alekseenko V A, Bech J, Alekseenko A V, et al. Environmental impact of disposal of coal mining wastes on soils and plants in Rostov Oblast, Russia[J]. Journal of Geochemical Exploration, 2018, 184: 261-270.
[31] Ge H, Feng Y, Li Y, et al. Heavy metal pollution diagnosis and ecological risk assessment of the surrounding soils of coal waste pile at Naluo coal mine, Liupanshui, Guizhou[J]. International Journal of Mining, Reclamation and Environment, 2016, 30(4): 312-318.
[32] GB/T 17141-1997, 土壤质量铅、镉的测定石墨炉原子吸收分光光度法[S].
[33] GB/T 22105.1-2008, 土壤质量总汞、总砷、总铅的测定原子荧光法第1部分: 土壤中总汞的测定[S].
[34] HJ 780-2015, 土壤和沉积物无机元素的测定波长色散X射线荧光光谱法[S].
[35] 赵元, 胡月明, 张新长, 等. 农村居民点耕作距离空间分布特征估测分析[J]. 地理科学, 2016, 36(5): 760-765.
Zhao Y, Hu Y M, Zhang X C, et al. Pattern of farming distance in rural area using ESDA[J]. Scientia Geographica Sinica, 2016, 36(5): 760-765.
[36] Gholizadeh H M, Melesse A M, Reddi L. Water quality assessment and apportionment of pollution sources using APCS–MLR and PMF receptor modeling techniques in three major rivers of South Florida[J]. Science of the Total Environment, 2016, 566-567: 1552-1567.
[37] Cheng G W, Wang M J, Chen Y, et al. Source apportionment of water pollutants in the upstream of Yangtze River using APCS–MLR[J]. Environmental Geochemistry and Health, 2020, 42(11): 3795-3810.
[38] Quinlan J R. Induction of decision trees[J]. Machine Learning, 1986, 1(1): 81-106.
[39] 罗可, 林睦纲, 郗东妹. 数据挖掘中分类算法综述[J]. 计算机工程, 2005, 31(1): 3-5, 11.
Luo K, Lin M G, Xi D M. Review of classification algorithms in data mining[J]. Computer Engineering, 2005, 31(1): 3-5, 11.
[40] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[41] Vapnik V N. Statistical learning theory[M]. Hoboken: John Wiley, 1998.
[42] 李程, 杨忠芳, 张起钻, 等. 基于机器学习的高镉地质背景区成土母质类型识别[J]. 环境科学, 2025, 46(6): 3261-3271.
Li C, Yang Z F, Zhang Q Z, et al. Use of machine learning methods to identify soil parent materials in a high-cadmium geological background area[J]. Environmental Science, 2025, 46(6): 3261-3271.
[43] 解雪峰, 郭炜炜, 濮励杰, 等. 基于多源辅助变量和随机森林模型的耕地土壤重金属含量空间分布预测[J]. 环境科学, 2024, 45(1): 386-395.
Xie X F, Guo W W, Pu L J, et al. Prediction of spatial distribution of heavy metals in cultivated soil based on multi-source auxiliary variables and random forest model[J]. Environmental Science, 2024, 45(1): 386-395.
[44] Delbari M, Afrasiab P, Gharabaghi B, et al. Spatial variability analysis and mapping of soil physical and chemical attributes in a salt-affected soil[J]. Arabian Journal of Geosciences, 2019, 12(3). DOI:10.1007/s12517-018-4207-x
[45] Wildling L P. Spatial variability: its documentation, accommodation and implication to soil survey[M]. Wageningen: Pudoc Publishers, 1985.
[46] Tang Q, Li L Y, Zhang S, et al. Characterization of heavy metals in coal gangue-reclaimed soils from a coal mining area[J]. Journal of Geochemical Exploration, 2018, 186: 1-11.
[47] Jiang X, Lu W X, Zhao H Q, et al. Potential ecological risk assessment and prediction of soil heavy-metal pollution around coal gangue dump[J]. Natural Hazards and Earth System Sciences, 2014, 14(6): 1599-1610.
[48] 苗瑞雪, 贺银海, 刘孝阳, 等. 利用机器学习模型预测土壤重金属空间分布的研究进展[J]. 环境科学研究, 2025, 36(6): 72-76.
Miao R X, He Y H, Liu X Y, et al. Predicting the spatial distribution of heavy metals in soil using machine learning models: a review[J]. Research of Environmental Sciences, 2025, 36(6): 72-76.
[49] 咸阳, 宋江辉, 王金刚, 等. 基于环境变量筛选与机器学习的土壤养分含量空间插值研究[J]. 农业机械学报, 2024, 55(10): 379-391.
Xian Y, Song J H, Wang J G, et al. Study on spatial interpolation of soil nutrients content based on environmental variables screening and machine learning[J]. Transactions of the Chinese Society for Agricultural Machinery, 2024, 55(10): 379-391.
[50] Dong R Z, Jia Z M, Li S Y. Risk assessment and sources identification of soil heavy metals in a typical county of Chongqing Municipality, Southwest China[J]. Process Safety and Environmental Protection, 2018, 113: 275-281.
[51] Cai L M, Jiang H H, Luo J. Metals in soils from a typical rapidly developing county, southern China: levels, distribution, and source apportionment[J]. Environmental Science and Pollution Research, 2019, 26(19): 19282-19293.
[52] 角媛梅, 胡文英, 速少华, 等. 哀牢山区哈尼聚落空间格局与耕作半径研究[J]. 资源科学, 2006, 28(3): 66-72.
Jiao Y M, Hu W Y, Su S H, et al. Spatial pattern and farming radius of Hani's settlements in Ailao mountain using GIS[J]. Resources Science, 2006, 28(3): 66-72.
[53] 唐丽静, 王冬艳, 王霖琳. 基于耕作半径合理布局居民点研究——以山东省沂源县城乡建设用地增减挂钩项目区为例[J]. 中国人口·资源与环境, 2014, 24(6): 59-64.
Tang L J, Wang D Y, Wang L L. Rational distribution of rural settlements based on farming radius —a case study in rural-urban construction land in Yiyuan County, Shandong Province[J]. China Population, Resources and Environment, 2014, 24(6): 59-64.