基于机器学习的高镉地质背景区成土母质类型识别

引用本文

李程, 杨忠芳, 张起钻, 郑国东, 蒋忠诚, 刘绍华, 杨烨宇, 李航. 基于机器学习的高镉地质背景区成土母质类型识别[J]. 环境科学, 2025, 46(5): 3261-3271.

LI Cheng, YANG Zhong-fang, ZHANG Qi-zuan, ZHENG Guo-dong, JIANG Zhong-cheng, LIU Shao-hua, YANG Ye-yu, LI Hang. Use of Machine Learning Methods to Identify Soil Parent Materials in a High-cadmium Geological Background Area[J]. Environmental Science, 2025, 46(5): 3261-3271.

基于机器学习的高镉地质背景区成土母质类型识别

李程^1,2, 杨忠芳³, 张起钻⁴, 郑国东⁵, 蒋忠诚^1,2, 刘绍华^1,2, 杨烨宇^1,2, 李航^1,2

1. 中国地质科学院岩溶地质研究所, 广西岩溶资源环境工程技术研究中心, 联合国教科文组织国际岩溶研究中心, 桂林 541004;
2. 广西平果喀斯特生态系统国家野外科学观测研究站, 平果 531406;
3. 中国地质大学（北京）地球科学与资源学院, 北京 100083;
4. 中国地质调查局天津地质调查中心, 天津 300170;
5. 广西地质调查院, 南宁 530023

收稿日期: 2024-05-19; 修订日期: 2024-07-02

基金项目: 中国地质调查局地质调查项目（DD2023045, DD20243174）；中国地质科学院岩溶地质研究所基本科研业务费项目（2023002）；国家资助博士后研究人员计划项目（GZB20230687）

作者简介: 李程（1993~）, 男, 博士（后）, 主要研究方向为环境地球化学大数据挖掘与土壤污染防治, E-mail：lichengyrs@mail.cgs.gov.cn

通信作者: 蒋忠诚, E-mail：jzhongcheng@mail.cgs.gov.cn

摘要: 中国南方岩溶地质高背景区土壤镉（Cd）高含量和低活性的特点近年来受到广泛关注. 成土母质类型是理解土壤Cd地球化学行为和识别土壤生态风险的关键, 但南方热带气候导致岩石露头较少, 很难准确获得母质信息. 为了明确影响岩性空间分布和控制土壤Cd活性的主要土壤参数, 并利用以上参数和机器学习方法识别地质高背景区不同母质类型, 以广西横州市为研究区, 在碳酸盐岩、碎屑岩和第四系沉积物地区分别采集了5 096、5 602和1 653件表层土壤（0~20 cm）作为研究对象, 通过热点分析和形态分析发现, 土壤性质和Cd的空间分布模式受下伏基岩控制, 非岩溶区土壤Cd生态风险显著高于岩溶区；通过相关性分析和重要性分析发现, 地质高背景区Cd的含量和活性主要受铁锰（Fe/Mn）氧化物、有机碳（TOC）、氧化钙（CaO）和pH等因素控制. 随后基于大面积表层土壤样品, 建立了神经网络（ANN）、随机森林（RF）和支持向量机（SVM）成土母质预测模型, 通过对比不同模型的泛化性能发现RF模型的Kappa系数（0.69）和总体精度（0.82）均高于ANN和SVM模型, 表明RF模型在预测土壤母质方面性能更优. 研究可为地质高背景区绘制岩性分布图和识别土壤Cd生态风险提供了一种新的思路和方法.

关键词: 地质高背景土壤镉（Cd）机器学习模型成土母质空间分析

Use of Machine Learning Methods to Identify Soil Parent Materials in a High-cadmium Geological Background Area

LI Cheng^1,2 , YANG Zhong-fang³ , ZHANG Qi-zuan⁴ , ZHENG Guo-dong⁵ , JIANG Zhong-cheng^1,2 , LIU Shao-hua^1,2 , YANG Ye-yu^1,2 , LI Hang^1,2

1. Guangxi Karst Resources and Environment Research Center of Engineering Technology, International Research Centre on Karst under the Auspices of UNESCO, Institute of Karst Geology, Chinese Academy of Geological Sciences, Guilin 541004, China;
2. Pingguo Guangxi, Karst Ecosystem, National Observation and Research Station, Pingguo 531406, China;
3. School of Earth Sciences and Resources, China University of Geosciences, Beijing 100083, China;
4. Tianjin Center, China Geological Survey, Tianjin 300170, China;
5. Guangxi Institute of Geological Survey, Nanning 530023, China

Abstract: Recently, the characteristics of high Cd content and low Cd mobility in karstic soil of a high geological background area in south China have received extensive attention. Parent material type is crucial for understanding soil Cd geochemical behavior and identifying soil ecological risk. However, the southern tropical climate leads to fewer rock outcrops, and it is difficult to obtain accurate parent material information. The aim of this study was to identify the main soil parameters that control the spatial distribution of lithology and affect soil Cd activity and ultimately uses these characteristics and machine learning methods to predict different soil parent materials in the high geological background area. In total, 5 096, 5 602, and 1 653 surface soil samples were collected from the carbonate rock, clasolite, and quaternary sediment regions, respectively. Hot spot analysis and the sequential extraction test showed that the spatial distribution patterns of soil properties and Cd were controlled by the underlying bedrock, and the ecological risk of soil Cd in the non-karst region was significantly higher than that in the karst region. Correlation analysis and importance analysis indicated that the content and mobility of Cd in the high geological background were mainly controlled by Fe/Mn oxides, total organic carbon (TOC), CaO, and pH. Based on the big data of surface soil samples, the soil parent materials were then predicted using artificial neural network (ANN), random forest (RF), and support vector machine (SVM) models. The RF model had higher Kappa coefficients and overall accuracies than those of the ANN and SVM models, suggesting that RF has the potential to predict soil parent materials from big data, which provides a new idea and method for mapping lithology distribution and identifying soil Cd ecological risk in high background areas.

Key words: high geological background soil cadmium(Cd) machine learning models parent material spatial analysis

近年来西南岩溶地质高背景区的土壤镉（Cd）异常受到了广泛关注^[1~3]. 前人研究表明, 地质高背景地区土壤中的Cd异常是由碳酸盐岩风化和成土过程导致的, 与人为活动关系较小^{[4, 5]}. 有研究发现岩溶地区的土壤中Cd总量较高, 但是其主要形态是残渣态, 生物活性较弱, 使得Cd很难被植物吸收^{[2, 6]}. 相反, 碎屑岩等非岩溶地区土壤Cd总量较低, 但是生物活性偏高, 导致仅根据总量和pH值对土壤进行划分的现有土壤环境质量标准在高背景地区并不适用^[7]. 因此, 了解地质高背景区母岩分布有助于辅助农耕区土壤Cd高风险的精准识别和土地资源安全利用. 然而, 在热带和亚热带地区土壤风化作用剧烈, 土壤厚度高达几米甚至几十米, 岩石裸露较少, 难以获取准确的土壤母质信息^[8]. 因此, 需开发一种便捷的方法用以判断土壤母质的分布, 这将有助于理解土壤Cd的分布模式和推动农业用地的可持续发展.

自然风化条件下土壤理化性质和元素含量通常具有较好的母岩继承性^{[9, 10]}. 随着地球化学数据量的增加和土壤化学元素的复杂性, 需要找到一种有效的方法提取多变量数据集中母岩的控制因素, 而热点分析方法恰好可以有效地揭示元素在空间上隐藏的分布模式, 有助于提取有用的地球化学信息^{[11, 12]}. 该项技术目前已广泛应用于犯罪率分析、交通事故分析、流行病学和人口统计学等领域, 并取得良好的效果^{[13, 14]}. 另一方面, 随机森林（random forest, RF）、支持向量机（support vector machine, SVM）和人工神经网络（artificial neural network, ANN）等新兴的机器学习方法, 因其强大的拟合能力, 可以识别岩性和土壤性质之间的复杂非线性关系, 从而获得可靠的成土母质预测结果. 前人研究已经利用机器学习模型结合遥感影像和便携式荧光光谱仪成功识别土壤母质^{[15, 16]}. 不过, 现阶段通过表层土壤大数据识别成土母质的研究较少, 且不同方法的预测性能可能因土壤复杂的环境、数据集的大小和输入的变量发生变化, 从而导致在区域尺度上挑选出合适的预测模型仍具有挑战性.

本研究通过对横州市典型地质高背景区不同成土母质区表层土壤样品的土壤理化性质、Cd含量和Cd活性的分析, 利用热点分析等手段, 找出控制成土母质空间分布的关键土壤地球化学参数, 确定不同母质之间土壤Cd活性的影响因素, 建立并比较SVM、RF和ANN土壤母质预测模型, 最终挑选出最优模型用以预测土壤成土母质. 本研究通过大数据驱动机器学习模型的方法, 以期为地质高背景地区的岩性识别和风险评估提供科学依据, 并对农用地的可持续发展具有重要意义.

1 材料与方法 1.1 研究区概况

研究区位于广西茉莉花之都横州市, 坐标北纬22°08′~23°30′, 东经108°48′~109°37′, 覆盖面积大约为1 070 km², 气候湿润, 年均气温22.3℃, 降雨量1 350 mm, 属热带季风气候. 研究区主要岩性为碳酸盐岩、碎屑岩和第四系沉积物, 为开展不同成土母质类型土壤的识别奠定了研究基础.

1.2 样品采集和测试

基于《土地质量地球化学评价规范》（DZ/T 0295-2016）^[17], 2013年10月至2014年10月在研究区开展了1∶5万比例尺的土壤地球化学调查, 总共采集农用地表层土壤样品12 351件, 平均采样密度为9件·km^-2, 所有采样点远离明显的人为污染源（图 1）. 每个采样点包括5个分样品（约1.0 kg）, 将其混合后装入布袋中. 所有土壤样品在阴凉处自然晾干, 再通过10目尼龙筛除去植物残留物、碎片和岩石, 最后将其储存在塑料袋中备用.

图 1 研究区岩性简图与采样点位示意 Fig. 1 Simplified bedrock geology and sampling sites of the study area

所有土壤样品均送至广西矿产分析和测试研究中心进行分析. 根据《生态地球化学评价样品分析方法和技术要求》, 对表层土壤样品分析全Fe（TFe₂O₃）、CaO、有机碳（TOC）、pH、Mn、N、P和Cd等8项指标. 土壤样品分析准确度和精密度主要由国家参考标准物质（GSS-17、GSS-19、GSS-24和GSS-28）和重复样控制, 样品测试分析方法和检出限见表 1. 标准样的回收率在95%~103%之间, 重复样的相对标准偏差在5% ~ 10%之间, 表明土壤样品测试符合质量标准.

表 1 土壤元素分析方法与检出限 Table 1 Element analysis methods and detection limit

1.3 土壤活性Cd提取法

本研究在碳酸盐岩区、碎屑岩区和第四系沉积物区分别采集35件、14件和13件表层土壤样品, 采用中国地质调查局制定的七步连续提取法测定土壤Cd形态组成. 该方法将土壤Cd分为7种形态, 包括水溶态（F1）、离子交换态（F2）、碳酸盐岩结合态（F3）、弱有机结合态（F4）、Fe/Mn氧化物结合态（F5）、强有机结合态（F6）和残渣态（F7）, 其中F1~F3为潜在生物可利用形态, 活性因子（MF）常被用于评价土壤中重金属的活性和生物有效性[式（1）]^[18].

(1)

将Cd各组分（F1~F7）的浓度之和与总Cd浓度进行比较, 用以验证连续提取法的可靠性. 在本研究中, 土壤样品的回收率在85%~103%之间, 表明实验结果符合《生态地球化学评价样品分析技术要求》（DD 2005-03）质量标准.

1.4 热点分析

热点分析（Getis-Ord G_i^*）是一种根据样本之间的距离揭示隐藏空间分布模式的制图技术, 可以识别出某一地区内具有统计学意义的高值和低值位置^[19]. 该技术通过计算某个变量（如Cd或pH）每个样点及其周围点的特征值, 与全局样本做比较, 返回数据集中所有样点的z得分和p值, 来确定热点和冷点的存在. 若一个特征拥有较高的z值和较小的p值, 则表明其是一个显著的热点（高值集群）. 相反, 若特征p值较小而z值为较低的负值时, 表明其是一个显著的冷点（低值集群）. 具体计算如下所示：

(2)

(3)

(4)

式中, X和S分别为数据集的平均值和标准差；i为局部地区的中心样点；x_j为样点j的某地球化学参数值；w_i_, _j为采样点i和j之间的空间权重；n为采样点总数. 若G_i^*值为正值, 则说明该地区属于高值区；若G_i^*为负值, 则说明该地区属于低值区.

1.5 预测模型 1.5.1 模型方法

本研究以土壤地球化学性质为输入变量, 采用RF、SVM和ANN模型来预测土壤成土母质类型（图 1）. 在建立模型时, 将12 351件表层土壤样本以4∶1的比例随机分为训练样本集和验证样本集, 训练样本集用于揭示输入变量与预测类型之间的相关关系, 验证样本集用来评估预测模型的泛化能力. 为了减少异常值的影响和缩短计算时间, 在建模之前, 将数据归一化为0~1之间的值[式（5）]^[15]：

(5)

式中, z_i为样品i归一化数值；x_i为实测变量的含量；max(x)和min(x) 分别为数据集中的最大值和最小值.

RF是Breiman^[20]提出的一种基于决策树算法改进的集成算法, 可以同时处理多个输入变量, 通过bootstrap重采样技术, 随机重复采样K次, 从所有样本中生成固定数量的子训练集（K为生成树的数量）. 对于训练集, 只抽取固定数量的属性变量, 随后每个随机选择的子训练集及其相应的属性变量生成回归树, 最终根据所有回归树的平均投票得分得到最后结果. 作为一种基于多决策树的集成机器学习方法, RF模型对过拟合、多重共线性和缺失数据不敏感, 具有强大的非线性拟合能力^[21]. 在训练过程中, 采用网格搜索方法对决策树数量（Ntree）和每个节点的最大特征数（mtry）等多个超参数进行调试^[22]. 其函数表达式为：

(6)

式中, F（x）为RF模型的最终预测结果；I_k（x）为第k棵决策树的预测结果.

SVM模型是由Vapnik^[23]提出的一种基于核函数的机器学习算法, 它是一种基于统计学习理论的非线性建模方法, 其利用训练样本中的支持向量来设计最优决策边界. 它不仅可以处理线性和非线性的分类问题, 还可以解决回归建模问题. 这种机器学习方法可以使用核函数将输入数据映射到高维特征空间. 与其他模型相比, SVM具有全局最优解和训练速度快等特点, 在处理高维和小样本数据方面表现更好. 本研究使用径向基函数作为SVM模型的核函数, 同时对超参数惩罚因子和γ（决定核函数宽度的参数）进行调试. 具体公式如下：

(7)

式中, g_j（x）、j=1和m为非线性变换的集合, b为偏差项. 高斯核函数公式如下：

(8)

其参数γ调节了模型的平滑程度, γ值越低, 模型的平滑度越高.

在过去的20 a中, 使用最多的人工智能模型是ANN模型. 该模型以模拟生物神经元的方式工作, 整体结构包括输入层、隐藏层和输出层. 每一层由单个或多个神经元组成, 这些神经元通过权值和激活函数连接到下一层的每个神经元. 通过反向传播算法, 将输出层的预测值与实测值进行比较, 调整权重, 最终使误差达到最小. 本研究采用Sigmoid激活函数和弹性传播（RPROP）神经网络进行数据预测和验证. 与传统反向神经网络相比, RPROP只考虑导数的符号来表示权值更新的方向, 消除了偏导数的大小对权值步长的不利影响^[24]. 目前, 没有明确的规则来规定这些超参数的调整. 为了防止过拟合, 大部分研究一般使用单个隐藏层解决问题^[25]. 为了进一步提高模型精度也可采用两个隐藏层搭建模型^[26], 因此本研究采用两个隐藏层作为ANN模型的框架. Sigmoid激活函数公式如下：

(9)

1.5.2 模型性能评价

在本研究过程中, 对训练集进行了10倍交叉验证, 以确定模型结构和验证模型稳定性与可预测性. 采用混淆矩阵中的用户精度（producer's accuracy）、生产者精度（user's accuracy）、总体精度（overall accuracy）和Kappa系数评估上述分类预测模型精度[式（6）~（12）]：

(10)

(11)

(12)

式中, X_i为正确分类点的个数；X_j为混淆矩阵的列（生产者精度）或行（用户精度）中某一土壤母质类型的样本总数；P_o为预测总体精度；P_e为预测随机一致性的概率, 预测性能可根据Kappa系数分为6个级别：非常差（< 0）、差（0.01~0.2）、一般（0.21~0.4）、良好（0.41~0.6）、非常好（0.61~0.8）和极好（0.81~1）^[27].

1.6 数据处理

数据前期整理和转换利用Microsoft Excel 2015和SPSS 20完成, 图件绘制通过CorelDRAW X4、R语言4.2.3和ArcGIS 10.0完成, RF、SVM和ANN预测模型的建立分别通过R语言中的“randomForest”、“e1071”和“neuralnet”包完成.

2 结果与分析 2.1 土壤地球化学参数描述性统计与相关性分析

研究区不同母质表层土壤地球化学参数如表 2所示. 研究区土壤整体呈现酸性和弱酸性, pH范围3.61~8.93, 碳酸盐岩、碎屑岩和第四系pH平均值分别为5.89、5.58和5.64, 变异系数分别为14%、13%和14%, 表明空间分布较均匀. 岩溶区土壤CaO含量平均值（0.39%）高于其他两种成土母质, 变异系数为168%, 表现出较强的空间分异. 碳酸盐岩发育的土壤中TFe₂O₃和Mn平均值高于碎屑岩、第四系和广西土壤背景值. 随着风化程度加剧, 碳酸盐岩K、Ca和Mg等大量元素淋失, Al、Fe和Mn等元素形成次生Fe氧化物、Al氧化物和Fe/Mn结核留在原地, 从而导致土壤中TFe₂O₃和Mn含量增高^[28]. 碳酸盐岩地区土壤中富含有机质和营养元素, 其TOC、N和P的平均含量同样高于非岩溶区, 这与Tu等^[29]研究的结果一致.

表 2 研究区不同母质表层土壤参数统计^1） Table 2 Soil properties and Cd statistics of topsoil among different soil parent materials

碳酸盐岩地区表层土壤ω（Cd）平均值为0.59 mg·kg^-1, 显著高于碎屑岩区（0.15 mg·kg^-1）、第四系沉积物区（0.34 mg·kg^-1）和广西土壤背景值（0.14 mg·kg^-1）. 表层土壤Cd在碳酸盐岩地区和碎屑岩地区变异系数分别为133%和134%, 空间离散程度较高, 在第四系地区变异系数为76%, 表现出中等空间分异. 根据环保部新发布的农用地土壤污染风险管控标准（GB 15618-2018）^[30], 碳酸盐岩、碎屑岩和第四系沉积物地区土壤Cd超过风险筛选值的比例分别为47.96%、2.80%和29.22%, 表面岩溶区土壤Cd富集程度较高. 但大量研究表明, 由于土壤中Cd总量与其生物有效性和活性之间没有显著关系, 导致现有的标准可能无法对地质高背景地区土地准确地安全管理^{[4, 31]}. 因此, 在区域上快速识别碳酸盐岩高背景区, 有利于协助农耕地的精准分级分类管理.

为了深入理解表层土壤Cd的地球化学行为, 进一步分析土壤Cd与其他地球化学参数的Spearman相关关系（图 2）. 土壤TFe₂O₃（0.75）和Mn（0.78）对土壤Cd的影响最大, 呈显著正相关关系（P < 0.01）, 表明Fe/Mn氧化物在土壤中有利于Cd的累积. CaO、TOC、pH、N和P也均与土壤Cd表现出不同程度的正相关关系（P < 0.01）.

* 表示在0.05水平（双侧）上显著相关图 2 表层土壤Cd含量与土壤各组分Spearman相关性分析 Fig. 2 Spearman correlation between the geochemical indexes and Cd in the topsoil

2.2 土壤性质和Cd空间分布模式

本研究利用ArcGIS中Getis-Ord G_i^*热点分析方法观察表土地球化学参数的空间聚类模式, 为探究高背景地区土壤Cd迁移与积累提供了依据（图 3）. 分析开始之前, 通过对数据进行转换和调整带宽以减少空间异常值和数据非正态分布对空间分析的影响^{[14, 15]}. 原始数据经正态得分变换后, 在1.5 km距离范围内热点和冷点显著增加, 显示了高背景地区土壤地球化学参数的空间聚类模式.

图 3 表土地球化学参数空间聚类模式热点分析图 Fig. 3 Hot spot maps of spatial clustering patterns for soil geochemical parameters in the surface soil

土壤Cd热点主要集中在碳酸盐岩广泛分布的研究区东部, 而冷点主要集中在西部的碎屑岩地区和少部分第四系沉积物地区. TFe₂O₃和Mn的空间分布模式与Cd基本类似, 表明它们在控制Cd的积累和迁移中起着至关重要的作用. 土壤pH和CaO的空间分布类似, 热点主要集中在西部的碳酸盐岩地区和东部的少部分碎屑岩地区, 冷点主要分布在碎屑岩和第四系沉积物中. 有研究发现在酸性土壤中使用CaO提高土壤pH值是降低南方Cd污染土壤生态风险的一种有效的补救措施, 这可能是部分碎屑岩区土壤CaO值较高的原因^[32]. TOC、N和P的冷热点也与岩性有较高的空间吻合度, 一方面石灰石和白云岩的磷灰石矿物都含有高含量磷, ω（P）在1.5~2.8 g·kg^-1之间, 同时也富含N, 较高的风化速率导致岩溶区土壤中N含量高于非岩溶区^[33]. 另一方面, 碳酸盐岩风化的土壤质地较细腻, 有机质含量较高, 保持了土壤的肥力^[34]. 总体来说, 地质高背景地区表层土壤地球化学参数的空间分布主要受成土母质的风化和成土作用控制.

2.3 不同母质Cd赋存形态与风险评估

土壤Cd的生物有效性与Cd的地球化学形态密切相关, 本研究采用七步连续提取法测定的表层土壤中Cd的组分在不同成土母质之间存在差异（图 4）. 在碳酸盐岩和碎屑岩地区, 土壤Cd形态主要为残渣态, 其次为可交换态和铁锰氧化物结合态. 在第四系沉积物地区, 土壤Cd离子可交换态的平均占比最高（26.19%）, 其次为残渣态和Fe/Mn氧化物结合态.

图 4 研究区碳酸盐岩、碎屑岩和第四系沉积物区Cd各形态占比 Fig. 4 Chemical fractions of Cd in surface soil in carbonate rock, clastic, and quaternary sediment areas

活性因子MF在碳酸盐岩、碎屑岩和第四系地区中分别为6.53%~61.62%（均值28.14%）、21.41%~67.06%（均值41.36%）和24.91%~72.70%（均值42.58%）, 表明岩溶区土壤Cd总量虽高, 但活性显著低于非岩溶区, 这与吴超等^[18]研究的结果一致. Nemati等^[35]将F2和F3的占比作为风险评估指标（RAC）并分为5个等级：无风险（< 1%）、低风险（< 1%）、中风险（< 1%）、高风险（< 1%）和极高风险（< 1%）. RAC指标显示, 碳酸盐岩地区土壤整体处于中风险等级, 平均值为21%, 碎屑岩和第四系沉积物土壤则处于高风险等级, 平均值分别为36.82%和42.23%. 研究结果再次说明, 尽管碳酸盐岩地区土壤Cd总量富集, 但是生态风险较低, 而非岩溶地区尽管土壤Cd大部分低于风险筛选值, 但是生态风险不可忽视.

2.4 预测模型性能

为了在区域上快速识别岩溶低风险区和非岩溶高风险区, 本研究评价了3种机器学习模型的预测性能, 以确定最佳的预测模型. 使用网格搜索的方法, 通过训练集数据的Kappa系数, 确定了ANN、SVM和RF模型的结构和关键的超参数（图 5）.

（a）ANN模型, （b）SVM模型, （c）RF模型；图内数值为最优参数坐标图 5 ANN、SVM和RF超参数网格搜索 Fig. 5 Hyperparameter tuning Kappa coefficients of the ANN, RF, and ANN algorithms

混淆矩阵通常用于确定分类模型的准确度和精密度（图 6）. 3种机器学习模型在预测碳酸盐岩和碎屑岩的生产者精度和用户精度均在0.80以上, 证明模型在区分碳酸盐岩和碎屑岩时效果较好, 但在预测第四系沉积物时精度较低, 这可能与沉积物形成时物质来源复杂和人为活动影响有关^{[16, 36, 37]}. 总体而言, RF模型的分类预测精度较好, 总体精度和Kappa系数分别达到0.82和0.69（表 3）, 其次是SVM模型, Kappa系数和总体精度分别为0.67和0.81. 前人利用不同机器学习算法对巴西和美国西部土壤母质进行预测, 也发现RF算法的分类性能最优^{[15, 38]}. 模型较好地性能也再次证实了表层土壤地球化学参数的空间分布受土壤岩性控制.

（a）ANN模型, （b）SVM模型, （c）RF模型；方格颜色越深表示横纵坐标相交的样品数量越多图 6 ANN、SVM和RF预测土壤母质分类混淆矩阵 Fig. 6 Confusion matrices of the ANN, SVM, and RF models

表 3 ANN、SVM和RF模型性能汇总 Table 3 Performance of models using the ANN, SVM, and RF algorithms

此外, 通过平均杂质减少法可以确定RF模型中每个输入参数的相对重要性^[39]. 如图 7所示, 所有参数重要性占比均超过5%, TFe₂O₃、Mn和Cd是最重要的影响因子, 重要性占比分别达到24.82%、16.65%和16.42%, 其他变量对分类贡献则呈中等或较弱的水平.

图 7 随机森林计算输入变量相对重要性 Fig. 7 Relative importance of input variables obtained from RF

3 讨论 3.1 表层土壤Cd活性影响因素

本研究发现碳酸盐岩地区土壤Cd生态风险低于非岩溶区. 表层土壤的地球化学参数空间分布和Cd形态研究证明, 地质高背景地区母岩是控制Cd地球化学行为的主要因素. 在本研究中, 土壤TFe₂O₃、Mn和Cd含量与成土母质分布相关性最好且对母质预测贡献最大, 这归因于碳酸盐岩风化过程中形成的Fe/Mn氧化物及其对Cd的固定作用. 前人研究发现, 在碳酸盐岩风化早期, Fe/Mn结核在交替氧化还原反应下形成, 在后期成土作用中, Fe/Mn结核因风化强度增大而逐渐暴露于地表^[40]. Ji等^[41]发现在岩溶区粒径小于2 mm的Mn结核和Fe/Mn结核分别占土壤质量的13.32%和14.18%, 且结核中Cd含量远高于土壤, 只有在强酸条件下Cd才会活化, 这也是岩溶区土壤Cd含量高活性低的原因.

由于碳酸盐岩中含有较多的碳酸盐矿物（如方解石和白云石）, 使碳酸盐岩区表层土壤中CaO的含量高于非碳酸盐岩区. 土壤中的Ca²⁺是影响表层土壤pH值的主要因素之一, 当土壤中CaO含量低于1%时, 土壤会迅速酸化, 同时土壤Cd可交换态含量增加^{[42, 43]}. 研究表明提高CaO水平是南方酸性水稻土中固定可交换性和生物有效态Cd的一种经济、方便的方法^[44]. 本研究中CaO和pH相对重要性较低, 可能是因为人为施用CaO弱化了它们对岩性分类的影响.

TOC、N和P是土壤中的肥力指标, 在预测模型中也展示了较高的贡献率. 对于Cd活性而言, 碳酸盐岩为母质的土壤具有较高的TOC含量, 可通过与有机官能团的络合和螯合进一步提高TOC对Cd的吸附能力^[45]. 此外, 在不同成土母质类型的土壤中, 施肥水平因土壤性质而异. 例如, 碳酸盐岩土壤养分丰富, 化肥用量少, 而碎屑岩或页岩的土壤质地松散, 肥力较差, 通常需要更多的肥料, 而过量施用磷肥和复合肥会增加Cd的总量和活性, 长期使用会增大非岩溶区Cd生态风险^{[29, 42]}.

3.2 不同机器学习模型的性能对比

本研究结果表明, RF模型的预测性能优于ANN和SVM模型. 有研究发现, 不同模型的性能与研究区域的范围、采样密度、不同的目标变量或数据集大小有关^{[46, 47]}. 例如, Sakizadeh等^[48]和Zhang等^[46]发现RF和SVM模型在预测土壤重金属含量方面比ANN模型准确性更好, Xu等^[49]发现人工神经网络模型在垃圾场的建模和预测能力方面优于其他方法. 有研究发现, RF在提高泛化性能和通过优化超参数防止过拟合方面优势明显^[50]. 而ANN模型虽然可以灵活地用于解决相对复杂的非线性问题, 但它过于复杂的结构会引发过拟合、缺乏网络优化、通用性差、迭代失败和结果不一致等问题^[51]. 对于SVM模型而言, 简单的结构、全局最优解和管理大维度输入空间的能力是其突出的优点, 但是其超参数敏感性过高, 在大数据集处理方面不如其他结构复杂的机器学习模型^[52].

经上述验证, 3种模型在区分碳酸盐岩和碎屑岩时效果较好, 而对第四系沉积物的区分欠佳. 第四系沉积物预测效果较差可能有以下3点原因：①风化物质来源复杂与其他母质高度相似, 通常冲积物物质来源都是源于上游成土母岩；②人为影响严重, 南方水稻主要种植区都集中在第四系沉积物中, 人为活动弱化了成土母质的贡献；③数据量和输入参数不够. 前人研究发现, 由于土壤风化作用越强与母质的相似性就越弱, 故在未来的研究中加入深层土壤指标可能会提高模型的预测准确性^[12]. 尽管如此, 本研究对岩溶区和非岩溶区的预测结果非常准确, 为风化剧烈和岩石露头较少的热带地区提供了一种获得土壤母质信息的便捷方法, 同时对地质高背景区土壤Cd生态风险的识别和土地安全利用管理提供了新的思路和方向.

4 结论

（1）研究区属于典型地质高背景地区, 表层土壤地球化学参数分布主要受母岩控制, 与碎屑岩和第四系沉积物相比, 碳酸盐岩为母质的土壤Cd总量异常富集, 47.96%的样品超过筛选值, 但是Cd形态主要为残渣态, 生态风险较低.

（2）研究区土壤中Fe/Mn氧化物是控制Cd总量和活性的主要因素, 而碎屑岩和第四系沉积物地区土壤CaO、pH和肥力较低, 人为活动影响较高, 可能是导致非岩溶区土壤Cd生态风险增高的主要原因.

（3）由于第四系沉积物复杂的物质来源和人为影响导致模型的预测效果不佳, 未来研究中可以通过新增输入参数和细化沉积物分类来提高预测模型的准确性.

（4）在3种预测模型中, RF模型由于其优秀的抗过拟合能力在预测成土母质方面取得最优表现, 可以为地质高背景区的母岩区分和风险识别提供科学依据和指导.

致谢: 广西壮族自治区地质矿产勘查开发局为样品和原始数据采集提供帮助, 广西地质调查院对野外工作的大力支持, 广西壮族自治区分析测试研究中心对实验提供帮助, 以及所有为之付出努力的参与者表示由衷感谢.

参考文献

[1]	王锐, 胡小兰, 张永文, 等. 重庆市主要农耕区土壤Cd生物有效性及影响因素[J]. 环境科学, 2020, 41(4): 1864-1870. Wang R, Hu X L, Zhang Y W, et al. Bioavailability and influencing factors of soil Cd in the major farming areas of Chongqing[J]. Environmental Science, 2020, 41(4): 1864-1870.
[2]	Li C, Yang Z F, Yu T, et al. Cadmium accumulation in paddy soils affected by geological weathering and mining: spatial distribution patterns, bioaccumulation prediction, and safe land usage[J]. Journal of Hazardous Materials, 2023, 460. DOI:10.1016/j.jhazmat.2023.132483
[3]	刘品祯, 贾亚琪, 程志飞, 等. 不同方法评价喀斯特煤矿区农田土壤重金属生态风险比较[J]. 中国岩溶, 2018, 37(3): 371-378. Liu P Z, Jia Y Q, Cheng Z F, et al. Ecological risk assessment of heavy metals in farmland soils around karst coal mining areas: a comparison of various methods[J]. Carsologica Sinica, 2018, 37(3): 371-378.
[4]	杨琼, 杨忠芳, 张起钻, 等. 中国广西岩溶地质高背景区土壤-水稻系统Cd等重金属生态风险评价[J]. 中国科学: 地球科学, 2021, 64(8): 1317-1331. Yang Q, Yang Z F, Zhang Q Z, et al. Ecological risk assessment of Cd and other heavy metals in soil-rice system in the karst areas with high geochemical background of Guangxi, China[J]. Science China Earth Sciences, 2021, 64(7): 1126-1139.
[5]	蒋玉莲, 余京, 王锐, 等. 渝东南典型地质高背景区土壤重金属来源解析及污染评价[J]. 环境科学, 2023, 44(7): 4017-4026. Jiang Y L, Yu J, Wang R, et al. Source analysis and pollution assessment of soil heavy metals in typical geological high background area in southeastern Chongqing[J]. Environmental Science, 2023, 44(7): 4017-4026.
[6]	Lei M, Wang Y T, Guo G H, et al. The bio-availability and accumulation of the trace elements in rock-soil-fruit system in carbonatite regions of different stratums: critical soil factors and transfer models[J]. Science of the Total Environment, 2021, 760. DOI:10.1016/j.scitotenv.2020.143328
[7]	Li C, Yang Z F, Yu T, et al. Study on safe usage of agricultural land in karst and non-karst areas based on soil Cd and prediction of Cd in rice: a case study of Heng county, Guangxi[J]. Ecotoxicology and Environmental Safety, 2021, 208. DOI:10.1016/j.ecoenv.2020.111505
[8]	Grauer-Gray J, Hartemink A E. Raster sampling of soil profiles[J]. Geoderma, 2018, 318: 99-108. DOI:10.1016/j.geoderma.2017.12.029
[9]	Yang Q, Yang Z F, Filippelli G M, et al. Distribution and secondary enrichment of heavy metal elements in karstic soils with high geochemical background in Guangxi, China[J]. Chemical Geology, 2021, 567. DOI:10.1016/j.chemgeo.2021.120081
[10]	潘泳兴, 陈盟, 王櫹橦. 基于源导向的土壤重金属风险评价及管控因子分析[J]. 环境科学, 2024, 45(2): 1026-1037. Pan Y X, Chen M, Wang X T. Quantifying the contribution of soil heavy metals to ecological and health risk sources[J]. Environmental Science, 2024, 45(2): 1026-1037.
[11]	Xu H F, Demetriades A, Reimann C, et al. Identification of the co-existence of low total organic carbon contents and low pH values in agricultural soil in north-central Europe using hot spot analysis based on GEMAS project data[J]. Science of the Total Environment, 2019, 678: 94-104. DOI:10.1016/j.scitotenv.2019.04.382
[12]	Li C, Zhang C S, Yu T, et al. Identification of soil parent materials in naturally high background areas based on machine learning[J]. Science of the Total Environment, 2023, 875. DOI:10.1016/j.scitotenv.2023.162684
[13]	陈万旭, 李江风, 曾杰, 等. 中国土地利用变化生态环境效应的空间分异性与形成机理[J]. 地理研究, 2019, 38(9): 2173-2187. Chen W X, Li J F, Zeng J, et al. Spatial heterogeneity and formation mechanism of eco-environmental effect of land use change in China[J]. Geographical Research, 2019, 38(9): 2173-2187.
[14]	Barro A S, Kracalik I T, Malania L, et al. Identifying hotspots of human anthrax transmission using three local clustering techniques[J]. Applied Geography, 2015, 60: 29-36. DOI:10.1016/j.apgeog.2015.02.014
[15]	Mancini M, Weindorf D C, Chakraborty S, et al. Tracing tropical soil parent material analysis via portable X-ray fluorescence (pXRF) spectrometry in Brazilian Cerrado[J]. Geoderma, 2019, 337: 718-728. DOI:10.1016/j.geoderma.2018.10.026
[16]	Bonfatti B R, Demattê J A M, Marques K P P, et al. Digital mapping of soil parent material in a heterogeneous tropical area[J]. Geomorphology, 2020, 367. DOI:10.1016/j.geomorph.2020.107305
[17]	DZ/T 0295-2016, 土地质量地球化学评价规范[S].
[18]	吴超, 孙彬彬, 成晓梦, 等. 基于DGT和化学提取法研究浙西北地质高背景区土壤镉生物有效性[J]. 岩矿测试, 2023, 42(4): 823-838. Wu C, Sun B B, Cheng X M, et al. Cadmium bioavailability based on diffusive gradients in thin films technique and conventional chemical extraction in high geological background soil area of northwestern Zhejiang province, China[J]. Rock and Mineral Analysis, 2023, 42(4): 823-838.
[19]	Ord J K, Getis A. Local spatial autocorrelation statistics: distributional issues and an application[J]. Geographical Analysis, 1995, 27(4): 286-306. DOI:10.1111/j.1538-4632.1995.tb00912.x
[20]	Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324
[21]	Carranza C, Nolet C, Pezij M, et al. Root zone soil moisture estimation with Random Forest[J]. Journal of Hydrology, 2021, 593. DOI:10.1016/j.jhydrol.2020.125840
[22]	Raja K, Patrick M, Elder J T, et al. Machine learning workflow to enhance predictions of adverse drug reactions (ADRs) through drug-gene interactions: application to drugs for cutaneous diseases[J]. Scientific Reports, 2017, 7(1). DOI:10.1038/s41598-017-03914-3
[23]	Vapnik V N. Statistical learning theory[M]. New York: Wiley-Interscience, 1998.
[24]	Santra A K, Chakraborty N, Sen S. Prediction of heat transfer due to presence of copper-water nanofluid using resilient-propagation neural network[J]. International Journal of Thermal Sciences, 2009, 48(7): 1311-1318. DOI:10.1016/j.ijthermalsci.2008.11.009
[25]	Mojid M A, Hossain A B M Z, Ashraf M A. Artificial neural network model to predict transport parameters of reactive solutes from basic soil properties[J]. Environmental Pollution, 2019, 255. DOI:10.1016/j.envpol.2019.113355
[26]	Lu S H, Zhou Q H, Ouyang Y X, et al. Accelerated discovery of stable lead-free hybrid organic-inorganic perovskites via machine learning[J]. Nature Communications, 2018, 9(1). DOI:10.1038/s41467-018-05761-w
[27]	Landis J R, Koch G G. The measurement of observer agreement for categorical data[J]. Biometrics, 1977, 33(1): 159-174. DOI:10.2307/2529310
[28]	侯青叶, 杨忠芳, 余涛, 等. 中国土壤地球化学参数[M]. 北京: 地质出版社, 2020.
[29]	Tu C L, He T B, Liu C Q, et al. Accumulation of trace elements in agricultural topsoil under different geological background[J]. Plant and Soil, 2011, 349(1): 241-251.
[30]	GB 15618-2018, 土壤环境质量农用地土壤污染风险管控标准(试行)[S].
[31]	马宏宏, 彭敏, 郭飞, 等. 广西典型岩溶区农田土壤-作物系统Cd迁移富集影响因素[J]. 环境科学, 2021, 42(3): 1514-1522. Ma H H, Peng M, Guo F, et al. Factors affecting the translocation and accumulation of cadmium in a soil-crop system in a typical karst area of Guangxi province, China[J]. Environmental Science, 2021, 42(3): 1514-1522.
[32]	Du Y Y, Wang X, Ji X H, et al. Effectiveness and potential risk of CaO application in Cd-contaminated paddy soil[J]. Chemosphere, 2018, 204: 130-139.
[33]	Xiao D, Tang Y X, Zhang W, et al. Lithology and niche habitat have significant effect on arbuscular mycorrhizal fungal abundance and their interspecific interactions[J]. Science of the Total Environment, 2024, 919. DOI:10.1016/j.scitotenv.2024.170774
[34]	Jia Z Y, Wang J X, Zhou X D, et al. Identification of the sources and influencing factors of potentially toxic elements accumulation in the soil from a typical karst region in Guangxi, Southwest China[J]. Environmental Pollution, 2020, 256. DOI:10.1016/j.envpol.2019.113505
[35]	Nemati K, Bakar N K A, Abas M R, et al. Speciation of heavy metals by modified BCR sequential extraction procedure in different depths of sediments from Sungai Buloh, Selangor, Malaysia[J]. Journal Hazardous Materials, 2011, 192(1): 402-410.
[36]	Ma X D, Yu T, Guan D X, et al. Prediction of cadmium contents in rice grains from Quaternary sediment-distributed farmland using field investigations and machine learning[J]. Science of the Total Environment, 2023, 898. DOI:10.1016/j.scitotenv.2023.165482
[37]	张广映, 吴琳娜, 欧阳坤长, 等. 都柳江上游沿岸喀斯特地区土壤重金属污染特征及风险评价[J]. 中国岩溶, 2021, 40(3): 495-503. Zhang G Y, Wu L N, Ouyang K C, et al. Pollution characteristics and risk assessment of heavy metals in soils along the upper reaches of the Duliu river[J]. Carsologica Sinica, 2021, 40(3): 495-503.
[38]	Brungard C W, Boettinger J L, Duniway M C, et al. Machine learning for predicting soil classes in three semi-arid landscapes[J]. Geoderma, 2015, 239-240: 68-83.
[39]	Wang H Z, Yilihamu, Q M G L, Yuan, M N, et al. Prediction models of soil heavy metal(loid)s concentration for agricultural land in Dongli: A comparison of regression and random forest[J]. Ecological Indicators, 2020, 119. DOI:10.1016/j.ecolind.2020.106801
[40]	Wen Y B, Li W, Yang Z F, et al. Enrichment and source identification of Cd and other heavy metals in soils with high geochemical background in the karst region, Southwestern China[J]. Chemosphere, 2020, 245. DOI:10.1016/j.chemosphere.2019.125620
[41]	Ji W B, Yang Z F, Yu T, et al. Potential ecological risk assessment of heavy metals in the Fe-Mn nodules in the karst area of Guangxi, Southwest China[J]. Bulletin of Environmental Contamination and Toxicology, 2021, 106(1): 51-56.
[42]	杨烨宇, 李程, 杨忠芳, 等. 广西贺州市典型矿区周边耕层土壤Cd通量特征[J]. 环境科学, 2024, 45(3): 1739-1748. Yang Y Y, Li C, Yang Z F, et al. Characteristics of Cd fluxe in topsoil around typical mining area in Hezhou, Guangxi[J]. Environmental Science, 2024, 45(3): 1739-1748.
[43]	唐世琪, 刘秀金, 杨柯, 等. 典型碳酸盐岩区耕地土壤剖面重金属形态迁移转化特征及生态风险评价[J]. 环境科学, 2021, 42(8): 3913-3923. Tang S Q, Liu X J, Yang K, et al. Migration, transformation characteristics, and ecological risk evaluation of heavy metal fractions in cultivated soil profiles in a typical carbonate-covered area[J]. Environmental Science, 2021, 42(8): 3913-3923.
[44]	王璨, 张煜行, 何明靖, 等. 不同土壤调理剂对土壤镉和邻-苯二甲酸酯迁移转化影响[J]. 环境科学, 2021, 42(8): 4024-4036. Wang C, Zhang Y H, He M J, et al. Influence of different soil conditioner on the transfer and transformation of cadmium and phthalate esters in soil[J]. Environmental Science, 2021, 42(8): 4024-4036.
[45]	高中原, 肖荣波, 王鹏, 等. 融合自然-人为因子改进回归克里格对土壤镉空间分布预测[J]. 环境科学, 2021, 42(1): 343-352. Gao Z Y, Xiao R B, Wang P, et al. Improved regression kriging prediction of the spatial distribution of the soil cadmium by integrating natural and human factors[J]. Environmental Science, 2021, 42(1): 343-352.
[46]	Zhang H, Yin S H, Chen Y H, et al. Machine learning-based source identification and spatial prediction of heavy metals in soil in a rapid urbanization area, eastern China[J]. Journal of Cleaner Production, 2020, 273. DOI:10.1016/j.jclepro.2020.122858
[47]	刘靖宇, 李若怡, 梁永春, 等. 基于特征优选和机器学习的塔里木盆地东缘绿洲土壤镉元素含量预测及健康风险评价[J]. 环境科学, 2024, 45(8): 4802-4811. Liu J Y, Li R Y, Liang Y C, et al. Soil cadmium prediction and health risk assessment of an oasis on the eastern edge of the Tarim basin based on feature optimization and machine learning[J]. Environmental Science, 2024, 45(8): 4802-4811.
[48]	Sakizadeh M, Mirzaei R, Ghorbani H. Support vector machine and artificial neural network to model soil pollution: a case study in Semnan Province, Iran[J]. Neural Computing and Applications, 2017, 28(11): 3229-3238.
[49]	Xu A K, Chang H M, Xu Y J, et al. Applying artificial neural networks (ANNs) to solve solid waste-related issues: a critical review[J]. Waste Management, 2021, 124: 385-402.
[50]	Mancini M, Silva S H G, Teixeira A F D S, et al. Soil parent material prediction for Brazil via proximal soil sensing[J]. Geoderma Regional, 2020, 22. DOI:10.1016/j.geodrs.2020.e00310
[51]	Li H M, Wang J H, Wang Q G, et al. Magnetic properties as a proxy for predicting fine-particle-bound heavy metals in a support vector machine approach[J]. Environmental Science & Technology, 2017, 51(12): 6927-6935.
[52]	González Costa J J, Reigosa M J, Matías J M, et al. Soil Cd, Cr, Cu, Ni, Pb and Zn sorption and retention models using SVM: variable selection and competitive model[J]. Science of the Total Environment, 2017, 593-594: 508-522.


环境科学 2025, Vol. 46 Issue (5): 3261-3271	PDF