Use of Machine Learning Methods to Identify Soil Parent Materials in a High-cadmium Geological Background Area
近年来西南岩溶地质高背景区的土壤镉(Cd)异常受到了广泛关注[1~3]. 前人研究表明, 地质高背景地区土壤中的Cd异常是由碳酸盐岩风化和成土过程导致的, 与人为活动关系较小[4, 5]. 有研究发现岩溶地区的土壤中Cd总量较高, 但是其主要形态是残渣态, 生物活性较弱, 使得Cd很难被植物吸收[2, 6]. 相反, 碎屑岩等非岩溶地区土壤Cd总量较低, 但是生物活性偏高, 导致仅根据总量和pH值对土壤进行划分的现有土壤环境质量标准在高背景地区并不适用[7]. 因此, 了解地质高背景区母岩分布有助于辅助农耕区土壤Cd高风险的精准识别和土地资源安全利用. 然而, 在热带和亚热带地区土壤风化作用剧烈, 土壤厚度高达几米甚至几十米, 岩石裸露较少, 难以获取准确的土壤母质信息[8]. 因此, 需开发一种便捷的方法用以判断土壤母质的分布, 这将有助于理解土壤Cd的分布模式和推动农业用地的可持续发展.
自然风化条件下土壤理化性质和元素含量通常具有较好的母岩继承性[9, 10]. 随着地球化学数据量的增加和土壤化学元素的复杂性, 需要找到一种有效的方法提取多变量数据集中母岩的控制因素, 而热点分析方法恰好可以有效地揭示元素在空间上隐藏的分布模式, 有助于提取有用的地球化学信息[11, 12]. 该项技术目前已广泛应用于犯罪率分析、交通事故分析、流行病学和人口统计学等领域, 并取得良好的效果[13, 14]. 另一方面, 随机森林(random forest, RF)、支持向量机(support vector machine, SVM)和人工神经网络(artificial neural network, ANN)等新兴的机器学习方法, 因其强大的拟合能力, 可以识别岩性和土壤性质之间的复杂非线性关系, 从而获得可靠的成土母质预测结果. 前人研究已经利用机器学习模型结合遥感影像和便携式荧光光谱仪成功识别土壤母质[15, 16]. 不过, 现阶段通过表层土壤大数据识别成土母质的研究较少, 且不同方法的预测性能可能因土壤复杂的环境、数据集的大小和输入的变量发生变化, 从而导致在区域尺度上挑选出合适的预测模型仍具有挑战性.
本研究通过对横州市典型地质高背景区不同成土母质区表层土壤样品的土壤理化性质、Cd含量和Cd活性的分析, 利用热点分析等手段, 找出控制成土母质空间分布的关键土壤地球化学参数, 确定不同母质之间土壤Cd活性的影响因素, 建立并比较SVM、RF和ANN土壤母质预测模型, 最终挑选出最优模型用以预测土壤成土母质. 本研究通过大数据驱动机器学习模型的方法, 以期为地质高背景地区的岩性识别和风险评估提供科学依据, 并对农用地的可持续发展具有重要意义.
1 材料与方法
1.1 研究区概况
研究区位于广西茉莉花之都横州市, 坐标北纬22°08′~23°30′, 东经108°48′~109°37′, 覆盖面积大约为1 070 km2, 气候湿润, 年均气温22.3℃, 降雨量1 350 mm, 属热带季风气候. 研究区主要岩性为碳酸盐岩、碎屑岩和第四系沉积物, 为开展不同成土母质类型土壤的识别奠定了研究基础.
1.2 样品采集和测试
基于《土地质量地球化学评价规范》(DZ/T 0295-2016)[17], 2013年10月至2014年10月在研究区开展了1∶5万比例尺的土壤地球化学调查, 总共采集农用地表层土壤样品12 351件, 平均采样密度为9件·km-2, 所有采样点远离明显的人为污染源(图 1). 每个采样点包括5个分样品(约1.0 kg), 将其混合后装入布袋中. 所有土壤样品在阴凉处自然晾干, 再通过10目尼龙筛除去植物残留物、碎片和岩石, 最后将其储存在塑料袋中备用.
所有土壤样品均送至广西矿产分析和测试研究中心进行分析. 根据《生态地球化学评价样品分析方法和技术要求》, 对表层土壤样品分析全Fe(TFe2O3)、CaO、有机碳(TOC)、pH、Mn、N、P和Cd等8项指标. 土壤样品分析准确度和精密度主要由国家参考标准物质(GSS-17、GSS-19、GSS-24和GSS-28)和重复样控制, 样品测试分析方法和检出限见表 1. 标准样的回收率在95%~103%之间, 重复样的相对标准偏差在5% ~ 10%之间, 表明土壤样品测试符合质量标准.
表 1
(Table 1)
表 1 土壤元素分析方法与检出限
Table 1 Element analysis methods and detection limit
指标 |
分析方法 |
检出限 |
TFe2O3 |
X射线荧光光谱分析 |
0.01% |
CaO |
X射线荧光光谱分析 |
0.02% |
TOC |
容量分析法 |
0.05% |
pH |
离子选择性电极 |
0.1(无量纲) |
Mn |
电感耦合等离子体原子发射光谱 |
5 mg·kg-1 |
N |
容量分析法 |
15 mg·kg-1 |
P |
X射线荧光光谱分析 |
8 mg·kg-1 |
Cd |
电感耦合等离子体质谱 |
0.02 mg·kg-1 |
|
表 1 土壤元素分析方法与检出限
Table 1 Element analysis methods and detection limit
|
1.3 土壤活性Cd提取法
本研究在碳酸盐岩区、碎屑岩区和第四系沉积物区分别采集35件、14件和13件表层土壤样品, 采用中国地质调查局制定的七步连续提取法测定土壤Cd形态组成. 该方法将土壤Cd分为7种形态, 包括水溶态(F1)、离子交换态(F2)、碳酸盐岩结合态(F3)、弱有机结合态(F4)、Fe/Mn氧化物结合态(F5)、强有机结合态(F6)和残渣态(F7), 其中F1~F3为潜在生物可利用形态, 活性因子(MF)常被用于评价土壤中重金属的活性和生物有效性[式(1)][18].
|
(1) |
将Cd各组分(F1~F7)的浓度之和与总Cd浓度进行比较, 用以验证连续提取法的可靠性. 在本研究中, 土壤样品的回收率在85%~103%之间, 表明实验结果符合《生态地球化学评价样品分析技术要求》(DD 2005-03)质量标准.
1.4 热点分析
热点分析(Getis-Ord Gi*)是一种根据样本之间的距离揭示隐藏空间分布模式的制图技术, 可以识别出某一地区内具有统计学意义的高值和低值位置[19]. 该技术通过计算某个变量(如Cd或pH)每个样点及其周围点的特征值, 与全局样本做比较, 返回数据集中所有样点的z得分和p值, 来确定热点和冷点的存在. 若一个特征拥有较高的z值和较小的p值, 则表明其是一个显著的热点(高值集群). 相反, 若特征p值较小而z值为较低的负值时, 表明其是一个显著的冷点(低值集群). 具体计算如下所示:
|
(2) |
|
(3) |
|
(4) |
式中, X和S分别为数据集的平均值和标准差;i为局部地区的中心样点;xj为样点j的某地球化学参数值;wi, j为采样点i和j之间的空间权重;n为采样点总数. 若Gi*值为正值, 则说明该地区属于高值区;若Gi*为负值, 则说明该地区属于低值区.
1.5 预测模型
1.5.1 模型方法
本研究以土壤地球化学性质为输入变量, 采用RF、SVM和ANN模型来预测土壤成土母质类型(图 1). 在建立模型时, 将12 351件表层土壤样本以4∶1的比例随机分为训练样本集和验证样本集, 训练样本集用于揭示输入变量与预测类型之间的相关关系, 验证样本集用来评估预测模型的泛化能力. 为了减少异常值的影响和缩短计算时间, 在建模之前, 将数据归一化为0~1之间的值[式(5)][15]:
|
(5) |
式中, zi为样品i归一化数值;xi为实测变量的含量;max(x)和min(x) 分别为数据集中的最大值和最小值.
RF是Breiman[20]提出的一种基于决策树算法改进的集成算法, 可以同时处理多个输入变量, 通过bootstrap重采样技术, 随机重复采样K次, 从所有样本中生成固定数量的子训练集(K为生成树的数量). 对于训练集, 只抽取固定数量的属性变量, 随后每个随机选择的子训练集及其相应的属性变量生成回归树, 最终根据所有回归树的平均投票得分得到最后结果. 作为一种基于多决策树的集成机器学习方法, RF模型对过拟合、多重共线性和缺失数据不敏感, 具有强大的非线性拟合能力[21]. 在训练过程中, 采用网格搜索方法对决策树数量(Ntree)和每个节点的最大特征数(mtry)等多个超参数进行调试[22]. 其函数表达式为:
|
(6) |
式中, F(x)为RF模型的最终预测结果;Ik(x)为第k棵决策树的预测结果.
SVM模型是由Vapnik[23]提出的一种基于核函数的机器学习算法, 它是一种基于统计学习理论的非线性建模方法, 其利用训练样本中的支持向量来设计最优决策边界. 它不仅可以处理线性和非线性的分类问题, 还可以解决回归建模问题. 这种机器学习方法可以使用核函数将输入数据映射到高维特征空间. 与其他模型相比, SVM具有全局最优解和训练速度快等特点, 在处理高维和小样本数据方面表现更好. 本研究使用径向基函数作为SVM模型的核函数, 同时对超参数惩罚因子和γ(决定核函数宽度的参数)进行调试. 具体公式如下:
|
(7) |
式中, gj(x)、j=1和m为非线性变换的集合, b为偏差项. 高斯核函数公式如下:
|
(8) |
其参数γ调节了模型的平滑程度, γ值越低, 模型的平滑度越高.
在过去的20 a中, 使用最多的人工智能模型是ANN模型. 该模型以模拟生物神经元的方式工作, 整体结构包括输入层、隐藏层和输出层. 每一层由单个或多个神经元组成, 这些神经元通过权值和激活函数连接到下一层的每个神经元. 通过反向传播算法, 将输出层的预测值与实测值进行比较, 调整权重, 最终使误差达到最小. 本研究采用Sigmoid激活函数和弹性传播(RPROP)神经网络进行数据预测和验证. 与传统反向神经网络相比, RPROP只考虑导数的符号来表示权值更新的方向, 消除了偏导数的大小对权值步长的不利影响[24]. 目前, 没有明确的规则来规定这些超参数的调整. 为了防止过拟合, 大部分研究一般使用单个隐藏层解决问题[25]. 为了进一步提高模型精度也可采用两个隐藏层搭建模型[26], 因此本研究采用两个隐藏层作为ANN模型的框架. Sigmoid激活函数公式如下:
|
(9) |
1.5.2 模型性能评价
在本研究过程中, 对训练集进行了10倍交叉验证, 以确定模型结构和验证模型稳定性与可预测性. 采用混淆矩阵中的用户精度(producer's accuracy)、生产者精度(user's accuracy)、总体精度(overall accuracy)和Kappa系数评估上述分类预测模型精度[式(6)~(12)]:
|
(10) |
|
(11) |
|
(12) |
式中, Xi为正确分类点的个数;Xj为混淆矩阵的列(生产者精度)或行(用户精度)中某一土壤母质类型的样本总数;Po为预测总体精度;Pe为预测随机一致性的概率, 预测性能可根据Kappa系数分为6个级别:非常差(< 0)、差(0.01~0.2)、一般(0.21~0.4)、良好(0.41~0.6)、非常好(0.61~0.8)和极好(0.81~1)[27].
1.6 数据处理
数据前期整理和转换利用Microsoft Excel 2015和SPSS 20完成, 图件绘制通过CorelDRAW X4、R语言4.2.3和ArcGIS 10.0完成, RF、SVM和ANN预测模型的建立分别通过R语言中的“randomForest”、“e1071”和“neuralnet”包完成.
2 结果与分析
2.1 土壤地球化学参数描述性统计与相关性分析
研究区不同母质表层土壤地球化学参数如表 2所示. 研究区土壤整体呈现酸性和弱酸性, pH范围3.61~8.93, 碳酸盐岩、碎屑岩和第四系pH平均值分别为5.89、5.58和5.64, 变异系数分别为14%、13%和14%, 表明空间分布较均匀. 岩溶区土壤CaO含量平均值(0.39%)高于其他两种成土母质, 变异系数为168%, 表现出较强的空间分异. 碳酸盐岩发育的土壤中TFe2O3和Mn平均值高于碎屑岩、第四系和广西土壤背景值. 随着风化程度加剧, 碳酸盐岩K、Ca和Mg等大量元素淋失, Al、Fe和Mn等元素形成次生Fe氧化物、Al氧化物和Fe/Mn结核留在原地, 从而导致土壤中TFe2O3和Mn含量增高[28]. 碳酸盐岩地区土壤中富含有机质和营养元素, 其TOC、N和P的平均含量同样高于非岩溶区, 这与Tu等[29]研究的结果一致.
表 2
(Table 2)
表 2 研究区不同母质表层土壤参数统计1)
Table 2 Soil properties and Cd statistics of topsoil among different soil parent materials
区域 |
统计 |
TFe2O3 |
CaO |
TOC |
pH |
Mn |
N |
P |
Cd |
碳酸盐岩地区(N=5 096) |
最小值 |
1.03 |
0.01 |
0.19 |
4.06 |
6 |
219 |
188 |
0.03 |
最大值 |
41.33 |
18.46 |
4.21 |
8.50 |
12 789 |
4 706 |
5 935 |
24.10 |
平均值 |
12.94 |
0.39 |
1.47 |
5.89 |
1 059 |
1 380 |
992 |
0.59 |
中位数 |
12.86 |
0.27 |
1.46 |
5.82 |
735 |
1 329 |
961 |
0.39 |
变异系数 |
46 |
168 |
34 |
14 |
95 |
35 |
36 |
133 |
碎屑岩区(N=5 602) |
最小值 |
0.50 |
0.01 |
0.09 |
3.90 |
14 |
190 |
59 |
0.01 |
最大值 |
21.16 |
6.91 |
4.18 |
8.45 |
8 317 |
13 811 |
2 492 |
8.22 |
平均值 |
4.09 |
0.25 |
1.06 |
5.58 |
194 |
1 026 |
609 |
0.15 |
中位数 |
3.62 |
0.20 |
0.98 |
5.52 |
139 |
904 |
561 |
0.11 |
变异系数 |
56 |
122 |
47 |
13 |
141 |
51 |
48 |
134 |
第四系沉积物区(N=1 653) |
最小值 |
1.29 |
0.05 |
0.14 |
3.62 |
36 |
288 |
324 |
0.06 |
最大值 |
31.13 |
6.30 |
7.62 |
8.93 |
3 810 |
14 472 |
4 032 |
3.97 |
平均值 |
7.35 |
0.31 |
1.46 |
5.64 |
394 |
1 459 |
1 108 |
0.34 |
中位数 |
6.12 |
0.27 |
1.42 |
5.62 |
245 |
1 406 |
1 067 |
0.26 |
变异系数 |
58 |
99 |
40 |
14 |
111 |
44 |
34 |
76 |
广西土壤背景值2) |
| 3.63 |
0.17 |
1.29 |
5.15 |
159 |
— |
— |
0.14 |
1) TFe2O3和CaO单位为%;变异系数单位为%;重金属含量单位为mg·kg-1;pH无量纲;2) 数据来自中国土壤地球化学参数[28], “—”表示无数据 |
|
表 2 研究区不同母质表层土壤参数统计1)
Table 2 Soil properties and Cd statistics of topsoil among different soil parent materials
|
碳酸盐岩地区表层土壤ω(Cd)平均值为0.59 mg·kg-1, 显著高于碎屑岩区(0.15 mg·kg-1)、第四系沉积物区(0.34 mg·kg-1)和广西土壤背景值(0.14 mg·kg-1). 表层土壤Cd在碳酸盐岩地区和碎屑岩地区变异系数分别为133%和134%, 空间离散程度较高, 在第四系地区变异系数为76%, 表现出中等空间分异. 根据环保部新发布的农用地土壤污染风险管控标准(GB 15618-2018)[30], 碳酸盐岩、碎屑岩和第四系沉积物地区土壤Cd超过风险筛选值的比例分别为47.96%、2.80%和29.22%, 表面岩溶区土壤Cd富集程度较高. 但大量研究表明, 由于土壤中Cd总量与其生物有效性和活性之间没有显著关系, 导致现有的标准可能无法对地质高背景地区土地准确地安全管理[4, 31]. 因此, 在区域上快速识别碳酸盐岩高背景区, 有利于协助农耕地的精准分级分类管理.
为了深入理解表层土壤Cd的地球化学行为, 进一步分析土壤Cd与其他地球化学参数的Spearman相关关系(图 2). 土壤TFe2O3(0.75)和Mn(0.78)对土壤Cd的影响最大, 呈显著正相关关系(P < 0.01), 表明Fe/Mn氧化物在土壤中有利于Cd的累积. CaO、TOC、pH、N和P也均与土壤Cd表现出不同程度的正相关关系(P < 0.01).
2.2 土壤性质和Cd空间分布模式
本研究利用ArcGIS中Getis-Ord Gi*热点分析方法观察表土地球化学参数的空间聚类模式, 为探究高背景地区土壤Cd迁移与积累提供了依据(图 3). 分析开始之前, 通过对数据进行转换和调整带宽以减少空间异常值和数据非正态分布对空间分析的影响[14, 15]. 原始数据经正态得分变换后, 在1.5 km距离范围内热点和冷点显著增加, 显示了高背景地区土壤地球化学参数的空间聚类模式.
土壤Cd热点主要集中在碳酸盐岩广泛分布的研究区东部, 而冷点主要集中在西部的碎屑岩地区和少部分第四系沉积物地区. TFe2O3和Mn的空间分布模式与Cd基本类似, 表明它们在控制Cd的积累和迁移中起着至关重要的作用. 土壤pH和CaO的空间分布类似, 热点主要集中在西部的碳酸盐岩地区和东部的少部分碎屑岩地区, 冷点主要分布在碎屑岩和第四系沉积物中. 有研究发现在酸性土壤中使用CaO提高土壤pH值是降低南方Cd污染土壤生态风险的一种有效的补救措施, 这可能是部分碎屑岩区土壤CaO值较高的原因[32]. TOC、N和P的冷热点也与岩性有较高的空间吻合度, 一方面石灰石和白云岩的磷灰石矿物都含有高含量磷, ω(P)在1.5~2.8 g·kg-1之间, 同时也富含N, 较高的风化速率导致岩溶区土壤中N含量高于非岩溶区[33]. 另一方面, 碳酸盐岩风化的土壤质地较细腻, 有机质含量较高, 保持了土壤的肥力[34]. 总体来说, 地质高背景地区表层土壤地球化学参数的空间分布主要受成土母质的风化和成土作用控制.
2.3 不同母质Cd赋存形态与风险评估
土壤Cd的生物有效性与Cd的地球化学形态密切相关, 本研究采用七步连续提取法测定的表层土壤中Cd的组分在不同成土母质之间存在差异(图 4). 在碳酸盐岩和碎屑岩地区, 土壤Cd形态主要为残渣态, 其次为可交换态和铁锰氧化物结合态. 在第四系沉积物地区, 土壤Cd离子可交换态的平均占比最高(26.19%), 其次为残渣态和Fe/Mn氧化物结合态.
活性因子MF在碳酸盐岩、碎屑岩和第四系地区中分别为6.53%~61.62%(均值28.14%)、21.41%~67.06%(均值41.36%)和24.91%~72.70%(均值42.58%), 表明岩溶区土壤Cd总量虽高, 但活性显著低于非岩溶区, 这与吴超等[18]研究的结果一致. Nemati等[35]将F2和F3的占比作为风险评估指标(RAC)并分为5个等级:无风险(< 1%)、低风险(< 1%)、中风险(< 1%)、高风险(< 1%)和极高风险(< 1%). RAC指标显示, 碳酸盐岩地区土壤整体处于中风险等级, 平均值为21%, 碎屑岩和第四系沉积物土壤则处于高风险等级, 平均值分别为36.82%和42.23%. 研究结果再次说明, 尽管碳酸盐岩地区土壤Cd总量富集, 但是生态风险较低, 而非岩溶地区尽管土壤Cd大部分低于风险筛选值, 但是生态风险不可忽视.
2.4 预测模型性能
为了在区域上快速识别岩溶低风险区和非岩溶高风险区, 本研究评价了3种机器学习模型的预测性能, 以确定最佳的预测模型. 使用网格搜索的方法, 通过训练集数据的Kappa系数, 确定了ANN、SVM和RF模型的结构和关键的超参数(图 5).
混淆矩阵通常用于确定分类模型的准确度和精密度(图 6). 3种机器学习模型在预测碳酸盐岩和碎屑岩的生产者精度和用户精度均在0.80以上, 证明模型在区分碳酸盐岩和碎屑岩时效果较好, 但在预测第四系沉积物时精度较低, 这可能与沉积物形成时物质来源复杂和人为活动影响有关[16, 36, 37]. 总体而言, RF模型的分类预测精度较好, 总体精度和Kappa系数分别达到0.82和0.69(表 3), 其次是SVM模型, Kappa系数和总体精度分别为0.67和0.81. 前人利用不同机器学习算法对巴西和美国西部土壤母质进行预测, 也发现RF算法的分类性能最优[15, 38]. 模型较好地性能也再次证实了表层土壤地球化学参数的空间分布受土壤岩性控制.
表 3
(Table 3)
表 3 ANN、SVM和RF模型性能汇总
Table 3 Performance of models using the ANN, SVM, and RF algorithms
模型 |
性能指标 |
碎屑岩 |
碳酸盐岩 |
第四系沉积物 |
ANN |
生产者精度 |
0.90 |
0.82 |
0.28 |
用户精度 |
0.80 |
0.81 |
0.56 |
总体精度 |
0.78 |
Kappa系数 |
0.63 |
SVM |
生产者精度 |
0.93 |
0.80 |
0.39 |
用户精度 |
0.80 |
0.85 |
0.65 |
总体精度 |
0.81 |
Kappa系数 |
0.67 |
RF |
生产者精度 |
0.92 |
0.82 |
0.43 |
用户精度 |
0.83 |
0.84 |
0.63 |
总体精度 |
0.82 |
Kappa系数 |
0.69 |
|
表 3 ANN、SVM和RF模型性能汇总
Table 3 Performance of models using the ANN, SVM, and RF algorithms
|
此外, 通过平均杂质减少法可以确定RF模型中每个输入参数的相对重要性[39]. 如图 7所示, 所有参数重要性占比均超过5%, TFe2O3、Mn和Cd是最重要的影响因子, 重要性占比分别达到24.82%、16.65%和16.42%, 其他变量对分类贡献则呈中等或较弱的水平.
3 讨论
3.1 表层土壤Cd活性影响因素
本研究发现碳酸盐岩地区土壤Cd生态风险低于非岩溶区. 表层土壤的地球化学参数空间分布和Cd形态研究证明, 地质高背景地区母岩是控制Cd地球化学行为的主要因素. 在本研究中, 土壤TFe2O3、Mn和Cd含量与成土母质分布相关性最好且对母质预测贡献最大, 这归因于碳酸盐岩风化过程中形成的Fe/Mn氧化物及其对Cd的固定作用. 前人研究发现, 在碳酸盐岩风化早期, Fe/Mn结核在交替氧化还原反应下形成, 在后期成土作用中, Fe/Mn结核因风化强度增大而逐渐暴露于地表[40]. Ji等[41]发现在岩溶区粒径小于2 mm的Mn结核和Fe/Mn结核分别占土壤质量的13.32%和14.18%, 且结核中Cd含量远高于土壤, 只有在强酸条件下Cd才会活化, 这也是岩溶区土壤Cd含量高活性低的原因.
由于碳酸盐岩中含有较多的碳酸盐矿物(如方解石和白云石), 使碳酸盐岩区表层土壤中CaO的含量高于非碳酸盐岩区. 土壤中的Ca2+是影响表层土壤pH值的主要因素之一, 当土壤中CaO含量低于1%时, 土壤会迅速酸化, 同时土壤Cd可交换态含量增加[42, 43]. 研究表明提高CaO水平是南方酸性水稻土中固定可交换性和生物有效态Cd的一种经济、方便的方法[44]. 本研究中CaO和pH相对重要性较低, 可能是因为人为施用CaO弱化了它们对岩性分类的影响.
TOC、N和P是土壤中的肥力指标, 在预测模型中也展示了较高的贡献率. 对于Cd活性而言, 碳酸盐岩为母质的土壤具有较高的TOC含量, 可通过与有机官能团的络合和螯合进一步提高TOC对Cd的吸附能力[45]. 此外, 在不同成土母质类型的土壤中, 施肥水平因土壤性质而异. 例如, 碳酸盐岩土壤养分丰富, 化肥用量少, 而碎屑岩或页岩的土壤质地松散, 肥力较差, 通常需要更多的肥料, 而过量施用磷肥和复合肥会增加Cd的总量和活性, 长期使用会增大非岩溶区Cd生态风险[29, 42].
3.2 不同机器学习模型的性能对比
本研究结果表明, RF模型的预测性能优于ANN和SVM模型. 有研究发现, 不同模型的性能与研究区域的范围、采样密度、不同的目标变量或数据集大小有关[46, 47]. 例如, Sakizadeh等[48]和Zhang等[46]发现RF和SVM模型在预测土壤重金属含量方面比ANN模型准确性更好, Xu等[49]发现人工神经网络模型在垃圾场的建模和预测能力方面优于其他方法. 有研究发现, RF在提高泛化性能和通过优化超参数防止过拟合方面优势明显[50]. 而ANN模型虽然可以灵活地用于解决相对复杂的非线性问题, 但它过于复杂的结构会引发过拟合、缺乏网络优化、通用性差、迭代失败和结果不一致等问题[51]. 对于SVM模型而言, 简单的结构、全局最优解和管理大维度输入空间的能力是其突出的优点, 但是其超参数敏感性过高, 在大数据集处理方面不如其他结构复杂的机器学习模型[52].
经上述验证, 3种模型在区分碳酸盐岩和碎屑岩时效果较好, 而对第四系沉积物的区分欠佳. 第四系沉积物预测效果较差可能有以下3点原因:①风化物质来源复杂与其他母质高度相似, 通常冲积物物质来源都是源于上游成土母岩;②人为影响严重, 南方水稻主要种植区都集中在第四系沉积物中, 人为活动弱化了成土母质的贡献;③数据量和输入参数不够. 前人研究发现, 由于土壤风化作用越强与母质的相似性就越弱, 故在未来的研究中加入深层土壤指标可能会提高模型的预测准确性[12]. 尽管如此, 本研究对岩溶区和非岩溶区的预测结果非常准确, 为风化剧烈和岩石露头较少的热带地区提供了一种获得土壤母质信息的便捷方法, 同时对地质高背景区土壤Cd生态风险的识别和土地安全利用管理提供了新的思路和方向.
4 结论
(1)研究区属于典型地质高背景地区, 表层土壤地球化学参数分布主要受母岩控制, 与碎屑岩和第四系沉积物相比, 碳酸盐岩为母质的土壤Cd总量异常富集, 47.96%的样品超过筛选值, 但是Cd形态主要为残渣态, 生态风险较低.
(2)研究区土壤中Fe/Mn氧化物是控制Cd总量和活性的主要因素, 而碎屑岩和第四系沉积物地区土壤CaO、pH和肥力较低, 人为活动影响较高, 可能是导致非岩溶区土壤Cd生态风险增高的主要原因.
(3)由于第四系沉积物复杂的物质来源和人为影响导致模型的预测效果不佳, 未来研究中可以通过新增输入参数和细化沉积物分类来提高预测模型的准确性.
(4)在3种预测模型中, RF模型由于其优秀的抗过拟合能力在预测成土母质方面取得最优表现, 可以为地质高背景区的母岩区分和风险识别提供科学依据和指导.
致谢: 广西壮族自治区地质矿产勘查开发局为样品和原始数据采集提供帮助, 广西地质调查院对野外工作的大力支持, 广西壮族自治区分析测试研究中心对实验提供帮助, 以及所有为之付出努力的参与者表示由衷感谢.