环境科学  2025, Vol. 46 Issue (8): 4961-4970   PDF    
基于SSA优化CatBoost的甘南草地土壤有机碳含量估算
马子茗 , 张美玲 , 刘星宇     
甘肃农业大学理学院,数量生物学研究中心,兰州 730070
摘要: 估算甘南藏族自治州草地土壤有机碳(SOC)含量并研究其空间分布特征,明确SOC主要影响因素,对草地质量提升与管理优化、气候调节和生态系统功能维持具有重要意义. 以甘肃省甘南藏族自治州草地为研究对象,通过整合土壤属性、气象因子、高程和植被指数等数据构建多特征因子数据,通过皮尔逊相关性分析筛选出24个显著特征因子,根据SHAP值得到归一化贡献程度. 运用机器学习模型划分8∶2的训练集和测试集,采用十折交叉验证,实验5次得到结果并根据MAE、RMSE和R2等评估模型,采用麻雀搜索算法(SSA)和鲸鱼优化算法(WOA)优化参数并估算SOC含量. 结果表明,基于模型估算的甘南藏族自治州草地表层SOC储量空间分布呈现出从西到东逐渐降低,西北高,东南低的走势,西北部的平均温度相对较低,有机碳含量较高;年平均气温、增强植被指数(EVI)和数字高程模型(DEM)对甘南草地SOC含量的贡献明显,是影响SOC空间分布的主要因素;在随机森林、决策树、梯度提升回归、CatBoost、XGBoost和LightGBM中,CatBoost模型在测试集上的表现最佳;根据SSA和WOA收敛速率曲线,发现SSA收敛更快,更新参数更有效;优化后的SSA-CatBoost模型在预测SOC含量方面表现最佳. SOC空间分布对区域内的生态系统和碳循环有着重要影响,甘南地区西北部草地在土壤肥力和碳储存方面具有更大的潜力,有助于制定更有效的土壤管理和生态保护策略,减缓气候变暖的进程,进一步推动全球生态系统的可持续发展.
关键词: 土壤有机碳(SOC)      机器学习      Catboost模型      优化算法      甘南草地     
Estimation of Soil Organic Carbon Content in Gannan Grassland Based on SSA Optimized CatBoost
MA Zi-ming , ZHANG Mei-ling , LIU Xing-yu     
Center for Quantitative Biology, College of Science, Gansu Agricultural University, Lanzhou 730070, China
Abstract: Estimating the content of soil organic carbon (SOC) in Gannan Tibetan Autonomous Prefecture, studying its spatial distribution characteristics, and clarifying the main influencing factors of SOC are of great significance for improving grassland quality, optimizing management, regulating climate, and maintaining ecosystem functions. Taking the grassland in Gannan Tibetan Autonomous Prefecture of Gansu Province as the research object, multi-feature factor data were constructed by integrating data such as soil properties, meteorological factors, elevation, and vegetation index, and 24 significant feature factors were screened out using Pearson correlation analysis. Then, the normalized contribution degree was obtained according to the SHAP value. The machine learning model was used to divide the 8∶2 training set and test set, and the results were obtained by ten-fold cross-validation. According to the evaluation models such as MAE, RMSE, and R2, the sparrow search algorithm (SSA) and whale optimization algorithm (WOA) were used to optimize the parameters and estimate the SOC content. The results showed that the spatial distribution of SOC reserves on grassland surface in Gannan Tibetan Autonomous Prefecture based on the model was gradually decreasing from west to east, being high in the northwest and low in the southeast, with relatively low average temperature and high organic carbon content in the northwest. The annual average temperature, enhanced vegetation index (EVI), and digital elevation model (DEM) contributed significantly to the SOC content of Gannan grassland, which were the main factors affecting the spatial distribution of SOC. Among the random forest, decision tree, gradient lifting regression, CatBoost, XGBoost, and LightGBM, the CatBoost model performed best on the test set. According to the convergence rate curves of SSA and WOA, it was found that SSA converged faster, and updating parameters was more effective. The optimized SSA-CatBoost model performed best in predicting SOC content. The spatial distribution of SOC has an important impact on the ecosystem and carbon cycle in the region. The grassland in the northwest of the Gannan region has greater potential in soil fertility and carbon storage, which is helpful to formulate more effective soil management and ecological protection strategies, slow down the process of climate warming, and further promote the sustainable development of the global ecosystem.
Key words: soil organic carbon (SOC)      machine learning      CatBoost model      optimization algorithm      Gannan grassland     

全球气候变暖是当今世界以及人类社会面临的重大挑战,近年来,各国纷纷采取措施以应对温室效应,减缓温室气体排放的速率,土壤有机碳是陆地生态系统中最大的碳库,约占陆地生态系统总碳含量的60%[1]. 草地又是全球最大、分布最广的陆地生态系统[2],约占全球陆地表面的30%[3],全球碳储量的20%[4],是重要的生物基因多样性库[5],提供广泛有益的生态系统服务[6],在促进全球碳循环、守护地区生态安全、维持生态平衡、稳定和减缓气候变化过程方面发挥着不可替代的作用[78]. 土壤有机碳变化不仅在气候调节中发挥关键性作用,也对土壤养分和微生物等其他生态功能产生重要影响[9]. 且土壤有机碳(soil organic carbon,SOC)是土壤中最活跃的有机物质,对于土壤肥力、植物生长以及生态系统功能的维持起着至关重要的作用[10]. SOC研究面临的关键科学问题之一是需要确切掌握在复杂的影响因素作用下各类生态系统、区域乃至全球的SOC含量. 尽管国内外对农田、森林、草地和湿地生态系统的SOC开展了定量研究,SOC含量测定样点遍布全球陆地,但缺乏有效整合,实现区域SOC含量的估算仍是一个突出的科学难题[1112].

近年来,SOC的研究已成为热点,线性回归算法由于其简单直观的特点,常被用于土壤属性的预测研究. 而随着机器学习发展,越来越多的模型被尝试用于SOC含量的估算领域[13]. 国内外大量学者从不同层面展开了研究:Heuvelink等[14]利用机器学习模型对阿根廷的SOC进行了数字化测绘,该研究结果表明,机器学习模型比传统生态方法的模拟精度更高,更适用于土壤研究;伊朗的Emadi等[15]使用多个机器学习模型对伊朗东北部SOC含量进行了预测,该研究结果表明,机器学习模型不仅对SOC预测具有极高的精度,且研究区域覆盖尺度较大,适用性较广;Li等[16]使用RF模型研究了20世纪80年代至2010年代中国全国尺度下不同土层深度中SOC的动态变化,并量化了影响SOC的关键因素,该结果表明RF模型具有很高的估算精度,且最重要的影响因子是气候变化. 以上研究表明机器学习模型在SOC估算模拟上均表现出较好的效果. 针对特征因子的选择,部分研究选择高程数据和植被指数等遥感变量作为主要特征因子[1718]. 也有研究表明SOC与地表植被覆盖情况密切相关[19],遥感数据在植被信息表达上极具优势,且数据易获得,所以植被因子也被作为主要特征因子. 部分学者在高程和植被的基础上增加了气候因子(如温度、降水)和土壤成分等属性[2021]. Were等[22]在对比机器学习算法在南非地区SOC储量预测的研究中,创新性地加入Mg、Ca、P、全氮和pH等土壤属性并联合遥感数据和地形及衍生因子作为模型驱动因子,研究结果显示在土壤属性中的总氮贡献率最高. 上述研究均表明估算SOC时,挑选恰当的驱动因子是至关重要的,且为开展更大尺度复杂地貌区域SOC含量研究提供了坚实的基础.

针对模型优化,鲸鱼优化算法(WOA)于2016年左右被Mirjalili等提出,该算法通过模拟鲸鱼寻找猎物、包围猎物气泡网攻击猎物等捕食行为实现优化搜索的目的[23]. 鲸鱼通常在捕食时展现出独特的气泡捕食法,算法通过寻找、包围和攻击猎物的机制来搜索最优解. 麻雀搜索算法(SSA)是2020年左右被薛建凯等[24]提出的一种全新的智能优化算法. 麻雀族群通常有两种不同类型,分别为发现者和加入者. 算法通过它们需要不断地调整位置以确保自己位置的安全来搜索最优解. 采用优化算法更新参数以提高模型精度.

研究区甘南州位于青藏高原的东部,是我国畜牧业的重要基地[25],在整个亚洲都发挥着重要的环境作用[26],具有很高的生物多样性价值[27],但也相当脆弱[28],一旦受到干扰或退化,就很难恢复[29]. 加上甘南州高寒草甸区位环境特殊、生态脆弱和气候敏感[3031],即使在2000年以来国家“退耕还林,退耕还草”政策大力的倡导下,“局部改善总体恶化和点上改善面上恶化”趋势依旧存在[32]. 基于此,研究土壤有机碳空间分布特征,探究有机碳与影响因素之间的关系,可为研究甘南州牧区的草地退化及其它土壤养分的空间分布规律提供方法和技术上的支撑,也可以为改善草地土壤肥力与土壤质量和维持草地土壤生态系统平衡提供支持,进而保障当地牧民赖以生存的畜牧业持续健康发展[33]. 本研究利用甘南地区的草地实测土壤有机碳数据探索不同驱动因子对SOC的影响,采用优化算法对参数进行选优得到甘南州SOC最佳估算模型,并采用机器学习模型对甘南地区的SOC进行估算.

1 材料与方法 1.1 研究区概况

甘南藏族自治州位于东经100°46′~104°44′,北纬33°06′~36°10′之间[34],地处甘肃省西南部,青藏高原、黄土高原和陇南山地的过渡地带,地势西北高,东南低,由西北向东南呈倾斜状;甘南州年平均气温1.1~12.7℃,属于高寒地区,年降水量400~800 mm,属大陆性气候[35]. 甘南州草地生态系统主要以草原与草甸为主[36],甘南州总土地面积3.8万km2,其中草地面积2.72万km2(约4 084.9万亩),占总土地面积的70.28%[37]. 图 1为研究区概况.

图 1 研究区概况 Fig. 1 Overview of the study area

1.2 数据来源 1.2.1 土壤数据

研究区数据来源于联合国粮农组织(FAO)和维也纳国际应用系统研究所(IIASA)所构建的世界土壤数据库(HWSD). 中国境内数据源为第二次全国土地调查中国科学院南京土壤所提供的1∶100万土壤数据. 土壤属性数据来源于国家青藏高原科学数据中心(http://data.tpdc.ac.cn/),包括pH、AP和AK等定量土壤属性因子,利用ArcGIS 10.8提取样本点对应数据.

1.2.2 气象数据

气象数据来自美国国家海洋和大气管理局(NOAA)(https://www.ncei.noaa.gov/data/global-summary-of-the-day/),利用ArcGIS提取甘南所有站点的2022年每日气象观测数据(包括日最高气温、日最低气温及降水),利用反距离权重法插值得到甘南地区栅格气象数据. 基于地级市逐日数据计算30 d平均值得到逐月数据. 同理计算12个月数据平均值得到逐年数据.

1.2.3 高程数据

研究区甘南州的高程数据来源于国家冰川冻土沙漠科学数据中心(http://www.ncdc.ac.cn/portal/),并通过ArcGIS 10.8 Spatial Analyst模块计算提取出DEM的相关衍生因子(坡度、坡向和曲率等).

1.2.4 植被指数数据

植被指数是基于Sentinel-2卫星影像数据计算得到,数据来源于欧洲航天局(https://earthexplorer.usgs.gov/). 为保证数据质量,选择云量在10%以下的影像. 根据ArcGIS 10.8对影像数据依次进行大气校正、镶嵌和裁剪等,统一坐标系并获得研究区地表反射率,通过波段以及公式计算增强植被指数(EVI)和归一化植被指数(NDVI)以反映植被生长状况,计算公式如下:

N D V I = N I R - R N I R + R (1)
E V I = 2.5 × N I R - R N I R + 6 R - 7.5 B + 1 (2)

式中,NIR为近红外波段反射率,R为红外波段反射率,B为蓝光波段反射率.

1.2.5 数据汇总表格

根据上述所有数据将所有特征因子数据进行整合,得到表 1.

表 1 数据汇总 Table 1 Data summary

1.3 研究方法 1.3.1 机器学习算法

本研究主要运用的模型是随机森林、决策树、梯度提升回归等在生态领域常用的机器学习模型以及XGBoost、LightGBM和CatBoost等流行模型,对甘南草地土壤有机碳含量进行估算,采用十折交叉验证,重复5次实验得到结果. 根据平均绝对误差(MAE)、均方根误差(RMSE)和拟合优度(R2)选择最佳估算模型.

1.3.2 皮尔逊相关性分析

利用皮尔逊相关分析,探讨土壤有机碳含量与主要环境变量的关系. 将该地区的高程数据、气候因素、植被因素和土壤属性等数据作为特征变量,并根据显著性值(P < 0.05)筛选出相关性显著的特征变量纳入模型并估算SOC.

1.3.3 模型优化算法

对估算效果较好的模型进行比较筛选,对筛选出来的最佳模型进行优化,采用两种主流优化算法:麻雀搜索算法和鲸鱼优化算法(SSA、WOA),根据优化算法的原理编写适应度函数,根据收敛速度选择合适的优化算法,并更新得到针对甘南草地SOC估算最佳模型的相关参数. 优化后的模型有望能够提高模型的估算精度

1.3.4 模型验证和准确性评估

本次研究的机器学习模型将数据划分为8∶2的数据集,80%的数据集作为训练集,剩余的20%的数据集作为测试集. 采用MAE、RMSE和R2等来确定模型的估算性能.

1.3.5 空间可视化

根据最优的模型以及优化后的参数重新组合新模型并估算SOC含量,将参数纳入最优模型并使用ArcGIS 10.8绘制甘南地区的SOC空间分布图.

2 结果与分析 2.1 SOC的描述性分析及与环境变量的相关性研究

甘南草地SOC的描述性统计见表 2. 甘南0~30 cm土壤的ω(SOC)范围为49.77~140.98 g·kg-1,样本量(N=190个)的变异性较大,离散程度值标准偏差与方差也较大,说明SOC在不同地区之间存在较大的空间差异. 结果表明土壤有机碳含量在甘南州空间分布中具有较高的变异性和显著的离散性.

表 2 土壤有机碳(SOC)的描述性统计1) Table 2 Descriptive statistics of soil organic carbon (SOC)

图 2所示,为剔除未通过显著性阈值的变量,在去除单一数值变量后,共剩余32个特征变量,其中一些变量与土壤碳含量之间可能具有统计学显著性,如平面曲率和降水量等. 剔除不显著的变量后,剩余24个显著可以进入估算模型的估算特征变量,如EVI值、平均气温、降水量和DEM值等显著影响甘南地区SOC,影响因素详细信息见表 1.

1.坡度,2.H,3.CW1,4.剖面曲率,5.SW1,6.坡向,7.AL,8.曲率,9.降水值,10.平面曲率,11.NDVI值,12.最高气温,13.最低气温,14.DEM值,15.AP,16.平均气温,17. pH,18.Wh,19.AK,20.AN,21.BD,22.CA,23.CEC,24.CL,25.GRAV,26.K,27.MG,28.NA,29.PDEP1,30.POR,31.S1,32.EVI值 图 2 皮尔逊相关性检验 Fig. 2 Pearson correlation test

为更直观研究与土壤碳含量的显著影响关系,制作相关性热力图(图 3),由图 3发现EVI值、NDVI值等植被因子,DEM值和平面曲率等地形因子,AP、AK和AN等土壤属性与SOC呈现正相关关系;最高、最低、平均温度、pH、CL、PDEP1、POR和S1等与SOC呈现负相关关系.

1.土壤碳含量,2.EVI值,3.NDVI值,4.降水值,5.平均气温,6.最高气温,7.最低气温,8.DEM值,9.平面曲率,10. pH,11AP,12.AK,13.AN,14.BD,15.CA,16.CEC,17.CL,18GRAV,19.K,20.MG,21NA,22.PDEP1,23.POR,24.S1,25.Wh 图 3 相关性热力图 Fig. 3 Correlation heat map

2.2 机器学习模型中的重要变量及其影响分析 2.2.1 进入模型的变量重要程度

根据皮尔逊相关系数筛选24个与SOC有显著相关的解释变量(P < 0.05). 通过SHAP值计算模型中每个因子的贡献程度,绘制图 4如下.

决策树:1.平均气温,2.EVI值,3.最低气温,4.DEM值,5.NDVI值,6.平面曲率,7.CL,8.降水值,9.GRAV,10. pH,11.AK,12.CEC,13.AP,14.PDEP1,15.最高气温,16.CA,17.BD,18.NA,19.Wh,20.MG,21AN,22.K,23.S1,24.POR;梯度提升:1.平均气温,2.DEM值,3.EVI值,4.最低气温,5.NDVI值,6.平面曲率,7.CL,8.降水值,9.最高气温,10.AP,11.AN,12.CEC,13.AK,14.PDEP1,15.NA,16.GRAV,17.K,18.MG,19.S1,20.Wh,21.CA,22. pH,23.BD,24.POR;XGBoost:1.平均气温,2.最低气温,3.CL,4.AK,5.DEM值,6.AN,7. EVI值,8.NDVI,9.降水值,10. AP,11. pH,12平面曲率,13.PDEP1,14.最高气温,15.S1,16.CEC,17.GRAV,18.NA,19.K,20.MG,21.POR,22.BD,23.CA,24.Wh;LightGBM:1.平面曲率,2.EVI值,3.DEM值,4.最低气温,5.NDVI值,6.平均气温,7.降水值,8.最高气温,9.AP,10.CL,11.AK,12.CEC,13.GRAV,14.PDEP1,15.K,16. pH,17.Wh,18.S1,19.BD,20.CA,21.MG,22.NA,23.POR,24.AN;CatBoost:1.平均气温,2.DEM值,3.EVI值,4.最低气温,5.NDVI值,6.平面曲率,7.降水值,8.最高气温,9.Wh,10.CA,11.AK,12.CL,13.AP,14.AN,15.GRAV,16.PDEP1,17.pH,18.CEC,19.BD,20.MG,21.S1,22.K,23.NA,24.POR;随机森林:1.平均气温,2.EVI值,3.DEM值,4.最低气温,5.NDVI值,6.平面曲率,7.降水值,8.CL,9.最高气温,10.AN,11.AK,12.AP,13.PDEP1,14.CEC,15. pH,16.GRAV,17.S1,18.MG,19.CA,20.K,21.Wh,22.BD,23.NA,24.POR 图 4 进入机器学习模型的因子贡献程度 Fig. 4 Contribution degree of factors entering the machine learning model

对于决策树模型,年平均气温、EVI值和年最低气温对甘南地区SOC的变化较为敏感. 对于梯度提升模型、CatBoost模型和随机森林模型这3种机器学习模型,均是年平均气温、DEM值和EVI值贡献度较高. XGBoost回归模型则是年平均气温、年最低气温和CL的贡献度较大. 对于LightGBM回归模型,平面曲率、DEM值和EVI值贡献度较高,与其他模型不同,平均气温不是最敏感的因子. 其他5个模型中年平均温度对土壤有机碳的估算能力表现最为敏感,DEM、EVI值和NDVI值等对SOC的估算也较为敏感,贡献程度较大.

2.2.2 贡献度较大的变量空间可视化

根据6种模型中的归一化贡献程度,基本可以判断平均温度、DEM值、EVI值和NDVI值这4个因子在每种模型中的贡献度均较高,可以认为对于甘南地区,这4个因子对土壤SOC含量反应最为敏感,笔者使用ArcGIS 10.8对这4个主要敏感变量进行空间分布的绘制,如图 5所示:平均温度从西向东逐渐呈现升高的趋势,DEM则是从西向东逐渐降低,植被指数总是从西向东逐渐升高的. 在这个层面也可以认为4个因子之间也是存在相关关系.

图 5 贡献度较大的因子空间分布 Fig. 5 Spatial distribution of factors with a large contribution

2.3 机器学习模型验证和准确性评估

表 3展示了6种模型的拟合状况. 根据测试集的R2可以看出CatBoost模型的拟合效果最佳,优于其他模型,且MAE为7.875 4,RMSE为10.419 0,小于其他模型,认为在预测甘南地区SOC含量适用性上CatBoost模型表现最佳.

表 3 6种机器学习模型的拟合程度 Table 3 Fitting degree of six machine learning models

图 6分别显示了6种模型预测结果与实际值SOC对比散点图,其中,如果预测完全准确,预测值和实际测量值会重合中心线上. 从图 6可以看出,CatBoost散点图比其他散点图更接近于中心线,进一步验证了上文获得的MAE、RMSE和R2值特征,表明CatBoost是以植被、气候、高程和土壤属性等指标作特征变量,在测试数据集上预测SOC效果最佳的模型.

图 6 机器学习回归算法预测结果与实际值对照 Fig. 6 Comparison of predicted results and actual values of machine learning regression algorithm

2.4 筛选优化算法并绘制SOC空间分布图

两种优化算法均展现出高效的全局搜索和收敛能力,计划使用优化算法来优化模型参数,迭代出最佳参数来提高模型精度.

利用相同的算法对CatBosst模型参数优化多次,每次的优化结果可能不同. 所以本研究在利用WOA和SSA对模型参数寻优的性能测试中,采取多次优化结果来进行综合评价,并绘制平均适应度函数曲线图.

分别调取WOA和SSA的主函数,每个测试函数运行50次. 得到图 7.

图 7 收敛速度对比 Fig. 7 Contrast of convergence speed

通过比较两种算法的平均适应度函数收敛速率,作为判断算法是否优越的标准. 两种方法都从较高的适应度值开始,随着迭代次数的增加而减小,结果在不断改进. SSA在整个迭代过程中,始终获得了比WOA更好的适应度值. SSA比WOA收敛得更快,验证了SSA优化CatBoost模型的优越性. 最终选择SSA优化CatBoost模型来预测甘南草地的土壤有机碳含量.

通过应用SSA对CatBoost模型进行参数优化,模型性能得到了显著提升. 优化后的参数设置为learning_rate:0.013 5,depth:4,l2_leaf_reg:5,iterations:135,border_count:100,random_strength:0.5. 最终SSA优化CatBoost模型后的拟合性能达到R2:0.773 7,MAE:7.285 7,RMSE:8.897 8,均优于未优化的模型. 最终,本研究选定SSA优化后的CatBoost模型作为估算甘南草地SOC的最佳模型. 该模型在所有性能指标上均表现优异,基于此绘制甘南草地SOC空间分布估算,如图 8所示.

图 8 基于优化算法的CatBoost最佳模型估算 Fig. 8 Estimation of CatBoost optimal model based on optimization algorithm

3 讨论

本研究对SOC含量的预测采用了6种模型,其精度存在一定差异. 随机森林、LightGBM和XGBoost模型都显示出良好的适用性,而CatBoost模型表现最为出色,其预测SOC含量的R2值达到0.66,略高于其他模型,决策树模型(R2=0.38)则不适用于预测甘南草地SOC含量. Fathololoumi等[38]使用随机森林和Cubist模型对伊朗北部复杂地形SOC预测结果显示,不同机器学习模型的精度存在差异,RF的表现效果较Cubist模型略差. 这与本文的研究结果相似. 对于不同区域以及复杂地形地貌,不同模型预测SOC的精度有不同适用性. 在对SOC进行预测时,模型的选择应依据研究区域的环境特征进行. 未来的研究可以通过尝试更多模型的对比或改进模型的融合方法,以探索更大范围内SOC的空间分布.

本研究所用SOC的样本来源属于随机抽取,经过多源环境变量筛选有效数据,数据质量较差,通过清洗得到的有效样本数量较少. 如Malone等[39]所述,影响机器学习模型预测SOC含量精度的主要问题之一是样本数据较少. 结合本次研究数据来源较多,有效数据较少,可将样本量不足作为预测SOC不确定性的主要原因. 且本次研究缺乏高精度的环境变量以及人为影响数据等,可认为是预测模型有可能继续提高的因素. 未来可以考虑增大研究地区有效样本数量,提高遥感数据分辨率以及加入人为影响数据,有可能会进一步提升机器学习模型在复杂地形区土壤有机碳的预测精度.

通过SHAP值计算的环境变量归一化贡献值存在差异. CatBoost模型中,环境变量的相对重要性分布与随机森林和梯度提升模型相似. 然而,LightGBM的特征重要性排序与其他模型显著不同. 除了LightGBM的极端贡献外,其他模型均将平均温度视为对模型拟合度最重要的环境变量. 这种现象可能与甘南地区复杂的地貌有关,随着海拔的增加,温度发生变化,表现出显著的空间异质性. 张厚喜等[40]运用不同模型预测福建省SOC含量,也发现平均温度是影响SOC含量的重要因子,且SOC含量随温度的升高而减少[41]. 该研究结果与本文结果基本相同,可以认为温度是影响复杂地形区域的主要特征因子. 但Burke等探讨了各影响因素对美国中部大平原草地土壤有机碳空间分布的作用,结果表明温度与土壤有机碳含量负相关,随温度的升高而降低[42]. 杨忠芳等[43]认为土壤有机碳含量的空间分布受气温的影响明显,随年平均气温的增加而降低. 该研究结果与本文结果相反,这可能是因为只有在温度适宜的条件下,才会对于有机碳含量的积累产生正效应[44]. John等[45]的研究显示,在滨海平原区,地形对于机器学习模型的SOC预测贡献不大,而本研究结果显示DEM对甘南草地SOC的模型预测贡献较大. 可能因为在平原区海拔几乎没有差异,海拔对于模型学习的过程贡献不高. 因此,可以针对不同研究区域的主导环境变量特点选取模型的重要环境参数.

对于空间尺度,Wang等[46]在研究土壤有机碳的空间分布特征时,发现其受多种因素的影响.未来在甘南州的草地SOC含量整体呈现出西部高、东部低的分布规律.甘南州位于青藏高原与黄土高原的过渡地带,地形也呈现出西部高、东部低的特点[47]. 这与董廷发[48]的研究结果一致.这种分布可能是由于西部草地的植被覆盖茂密,导致大量的落叶和枯枝等植物残体积累于土壤中,增加了腐殖质的含量和土壤有机碳的积累量,而东部地区的草地则相对缺乏这些有机质输入,因此其土壤有机碳含量相对较低[49].

本研究所选的甘南地区,不仅拥有复杂的地形地貌特征,还受到人类和动物活动的影响. 本次环境变量的选择仅限于地形、气候、植被和土壤属性,这些变量被用于构建模型并估算土壤有机碳的含量. 本研究过程中并未将人类和动物活动对SOC含量的潜在影响纳入考量. 部分研究表明人类农业活动灌溉、施肥等对SOC尤其是土壤表层SOC含量会产生重要影响,从而可能影响环境变量与SOC的关系[5051]. 因此,未来研究可以引入能够显著影响SOC的相关特征因子,以及能代表人类活动的因子作为特征变量,从而提升模型精度,实现更高精度和更大区域尺度的SOC含量的估算.

4 结论

(1)模型表现:在6种机器学习算法中,CatBoost模型在测试集上的表现最佳(R2=0.66),显著优于其他机器学习模型,还为生态系统的碳循环动态提供了关键数据支撑.

(2)重要特征因子:通过皮尔逊相关性分析从35个特征因子筛选出24个显著特征因子(P < 0.05),纳入模型后计算归一化贡献程度,发现年平均气温、增强植被指数和数字高程模型对SOC含量的贡献度较高,是影响SOC空间分布的主要因素,揭示了SOC的空间分布特征及其驱动机制.

(3)优化算法:根据SSA和WOA的曲线收敛速度发现SSA优化算法在CatBoost模型上表现更为高效(R2=0.77),在提升模型预测精度方面表现出色,验证了其在SOC含量估算中的应用潜力,为甘南草地SOC含量的精准估算提供了新的方法和思路,未来可通过引入人为因素和扩大样本量进一步提升预测精度.

(4)空间分布:优化后的SSA-CatBoost模型生成的SOC空间分布图显示,甘南草地SOC含量在不同地理区域存在显著差异,甘南地区SOC含量从西到东逐渐降低,呈现出西北高,东南低的走势,表明西北部草地在土壤肥力和碳储存方面具有更大的潜力. 该方法和经验也为其他区域的SOC研究提供参考,有助于全球范围内的土壤碳库管理,帮助制定更有效的土壤管理和生态保护策略,促进区域碳储量的增加,减缓气候变暖的进程,进一步推动全球生态系统的健康发展.

参考文献
[1] 李健明, 康雨欣, 蒋福祯, 等. 基于Meta分析的煤矿区植被恢复对土壤有机碳储量的影响[J]. 环境科学, 2024, 45(3): 1629-1643.
Li J M, Kang Y X, Jiang F Z, et al. Effect of vegetation restoration on soil organic carbon storage in coal mining areas based on meta-analysis[J]. Environmental Science, 2024, 45(3): 1629-1643. DOI:10.13227/j.hjkx.20240336
[2] Bardgett R D, Bullock J M, Lavorel S, et al. Combatting global grassland degradation[J]. Nature Reviews Earth & Environment, 2021, 2(10): 720-735.
[3] Houghton R A. The worldwide extent of land-use change: in the last few centuries, and particularly in the last several decades, effects of land-use change have become global[J]. Bioscience, 1994, 44(5): 305-313.
[4] Liu Y Y, Yang P Z, Zhang Z X, et al. Diverse responses of grassland dynamics to climatic and anthropogenic factors across the different time scale in China[J]. Ecological Indicators, 2021, 132. DOI:10.1016/j.ECOLIND.2021.108341
[5] De Kort H, Prunier J G, Ducatez S, et al. Life history, climate and biogeography interactively affect worldwide genetic diversity of plant and animal populations[J]. Nature Communications, 2021, 12(1). DOI:10.1038/s41467-021-20958-2
[6] Liu L L, Cao W, Shao Q Q, et al. Characteristics of land use/cover and macroscopic ecological changes in the headwaters of the Yangtze River and of the Yellow River over the past 30 years[J]. Sustainability, 2016, 8(3). DOI:10.3390/su8030237
[7] Li T F, Kamran M, Chang S H, et al. Climate-soil interactions improve the stability of grassland ecosystem by driving alpine plant diversity[J]. Ecological Indicators, 2022, 141. DOI:10.1016/J.ECOLIND.2022.109002
[8] Wu N T, Liu A J, Ye R H, et al. Quantitative analysis of relative impacts of climate change and human activities on Xilingol grassland in recent 40 years[J]. Global Ecology and Conservation, 2021, 32. DOI:10.1016/j.gecco.2021.e01884
[9] 赵荟. 土壤碳组分及其环境意义概述[J]. 林业建设, 2017(2): 43-47.
Zhao H. Summary on soil carbon fractions and environmental significance[J]. Forestry Construction, 2017(2): 43-47.
[10] 李鑫, 张文菊, 邬磊, 等. 土壤质量评价指标体系的构建及评价方法[J]. 中国农业科学, 2021, 54(14): 3043-3056.
Li X, Zhang W J, Wu L, et al. Advance in indicator screening and methodologies of soil quality evaluation[J]. Scientia Agricultura Sinica, 2021, 54(14): 3043-3056.
[11] Ogle S M, Breidt F J, Easter M, et al. Scale and uncertainty in modeled soil organic carbon stock changes for US croplands using a process‐based model[J]. Global Change Biology, 2010, 16(2): 810-822.
[12] Bradford M A, Wieder W R, Bonan G B, et al. Managing uncertainty in soil carbon feedbacks to climate change[J]. Nature Climate Change, 2016, 6(8): 751-758.
[13] 王志远. 基于机器学习的土壤有机碳含量预测[D]. 长沙: 中南大学, 2023.
Wang Z Y. Prediction of soil organic carbon content based on machine learning[D]. Changsha: Central South University, 2023.
[14] Heuvelink G B M, Angelini M E, Poggio L, et al. Machine learning in space and time for modelling soil organic carbon change[J]. European Journal of Soil Science, 2021, 72(4): 1607-1623.
[15] Emadi M, Taghizadeh-Mehrjardi R, Cherati A, et al. Predicting and mapping of soil organic carbon using machine learning algorithms in northern Iran[J]. Remote Sensing, 2020, 12(14). DOI:10.3390/rs12142234
[16] Li L T, Lu J W, Wang S Q, et al. Methods for estimating leaf nitrogen concentration of winter oilseed rape (Brassica napus L.) using in situ leaf spectroscopy[J]. Industrial Crops and Products, 2016, 91: 194-204.
[17] Grimm R, Behrens T, Märker M, et al. Soil organic carbon concentrations and stocks on Barro Colorado Island — digital soil mapping using random forests analysis[J]. Geoderma, 2008, 146(1-2): 102-113.
[18] 王茵茵, 齐雁冰, 陈洋, 等. 基于多分辨率遥感数据与随机森林算法的土壤有机质预测研究[J]. 土壤学报, 2016, 53(2): 342-354.
Wang Y Y, Qi Y B, Chen Y, et al. Prediction of soil organic matter based on multi-resolution remote sensing data and random forest algorithm[J]. Acta Pedologica Sinica, 2016, 53(2): 342-354.
[19] 许信旺, 潘根兴, 曹志红, 等. 安徽省土壤有机碳空间差异及影响因素[J]. 地理研究, 2007, 26(6): 1077-1086.
Xu X W, Pan G X, Cao Z H, et al. A study on the influence of soil organic carbon density and its spatial distribution in Anhui Province of China[J]. Geographical Research, 2007, 26(6): 1077-1086.
[20] Grinand C, Maire G L, Vieilledent G, et al. Estimating temporal changes in soil carbon stocks at ecoregional scale in Madagascar using remote-sensing[J]. International Journal of Applied Earth Observation and Geoinformation, 2017, 54: 1-14.
[21] 任丽, 杨联安, 王辉, 等. 基于随机森林的苹果区土壤有机质空间预测[J]. 干旱区资源与环境, 2018, 32(8): 141-146.
Ren L, Yang L A, Wang H, et al. Spatial prediction of soil organic matter in apple region based on random forest[J]. Journal of Arid Land Resources and Environment, 2018, 32(8): 141-146.
[22] Were K, Bui D T, Dick Ø B, et al. A comparative assessment of support vector regression, artificial neural networks, and random forests for predicting and mapping soil organic carbon stocks across an Afromontane landscape[J]. Ecological Indicators, 2015, 52: 394-403.
[23] Mirjalili S, Lewis A. The whale optimization algorithm[J]. Advances in Engineering Software, 2016, 95: 51-67.
[24] 薛建凯. 一种新型的群智能优化技术的研究与应用[D]. 上海: 东华大学, 2020.
Xue J K. Research and application of a new swarm intelligence optimization technology [D]. Shanghai: Donghua University, 2020.
[25] 高峰, 律可心, 乔智, 等. 青藏高原东缘生态过渡带碳中和评估与预测[J]. 生态学报, 2022, 42(23): 9442-9455.
Gao F, Lü K X, Qiao Z, et al. Assessment and prediction of carbon neutrality in the eastern margin ecotone of Qinghai-Tibet Plateau[J]. Acta Ecologica Sinica, 2022, 42(23): 9442-9455.
[26] Ning X G, Zhu N, Liu Y F, et al. Quantifying impacts of climate and human activities on the grassland in the Three-River Headwater Region after two phases of ecological project[J]. Geography and Sustainability, 2022, 3(2): 164-176.
[27] Xu H J, Wang X P, Zhang X X. Alpine grasslands response to climatic factors and anthropogenic activities on the Tibetan Plateau from 2000 to 2012[J]. Ecological Engineering, 2016, 92: 251-259.
[28] Zheng Z T, Zhu W Q, Zhang Y J. Seasonally and spatially varied controls of climatic factors on net primary productivity in alpine grasslands on the Tibetan Plateau[J]. Global Ecology and Conservation, 2020, 21. DOI:10.1016/j.gecco.2019.e00814
[29] 薛鹏飞. 高寒草地退化遥感监测与综合评价——以甘南地区为例[D]. 兰州: 兰州大学, 2022.
Xue P F. Remote sensing monitoring and comprehensive evaluation of alpine grassland degradation: a case study of Gannan region[D]. Lanzhou: Lanzhou University, 2022.
[30] Yang Z P, Ouyang H, Zhang X Z, et al. Spatial variability of soil moisture at typical alpine meadow and steppe sites in the Qinghai-Tibetan Plateau permafrost region[J]. Environmental Earth Sciences, 2011, 63(3): 477-488.
[31] 刘飞, 刘峰贵, 周强, 等. 青藏高原生态风险及区域分异[J]. 自然资源学报, 2021, 36(12): 3232-3246.
Liu F, Liu F G, Zhou Q, et al. Ecological risk and regional differentiation in the Qinghai-Tibet Plateau[J]. Journal of Natural Resources, 2021, 36(12): 3232-3246.
[32] 张聪. 2000~2019年甘南藏族自治州草地退化及草畜平衡动态监测研究[D]. 兰州: 西北师范大学, 2021.
Zhang C. Dynamic monitoring study on grassland degradation and grass-livestock balance in Gannan Tibetan autonomous prefecture from 2000 to 2019[D]. Lanzhou: Northwest Normal University, 2021.
[33] 张瑶瑶. 甘南州草地土壤有机碳、全氮空间分布特征及影响因素分析[D]. 兰州: 兰州大学, 2019.
Zhang Y Y. Spatial distribution characteristics and influencing factors of soil organic carbon and total nitrogen in Gannan pastoral area[D]. Lanzhou: Lanzhou University, 2019.
[34] Cortez P, Cerdeira A, Almeida F, et al. Modeling wine preferences by data mining from physicochemical properties[J]. Decision Support Systems, 2009, 47(4): 547-553.
[35] Bhardwaj P, Tiwari P, Olejar K, et al. A machine learning application in wine quality prediction[J]. Machine Learning with Applications, 2022, 8. DOI:10.1016/J.MLWA.2022.100261
[36] 章志龙, 施蕾蕾, 高君智, 等. 甘南草原生态治理的实践与探索[J]. 环境保护, 2023, 51(20): 36-40.
Zhang Z L, Shi L L, Gao J Z, et al. Practice and exploration of ecological management of degraded grassland in Gannan Plateau[J]. Environmental Protection, 2023, 51(20): 36-40.
[37] 张春花. 甘南州草地资源现状及发展对策[J]. 甘肃高师学报, 2004, 9(5): 56-57.
Zhang C H. The problems and strategies for development on grassland resources in Gannan prefecture[J]. Journal of Gansu Normal Colleges, 2004, 9(5): 56-57.
[38] Fathololoumi S, Vaezi A R, Alavipanah S K, et al. Improved digital soil mapping with multitemporal remotely sensed satellite data fusion: a case study in Iran[J]. Science of the Total Environment, 2020, 721. DOI:10.1016/j.scitotenv.2020.137703
[39] Malone B P, Odgers N P, Stockmann U, et al. Digital mapping of soil classes and continuous soil properties[A]. In: McBratney A B, Minasny B, Stockmann U (Eds. ). Pedometrics[C]. Cham: Springer, 2018. 373-413.
[40] 张厚喜, 林丛, 程浩, 等. 武夷山不同海拔梯度毛竹林土壤有机碳特征及影响因素[J]. 土壤, 2019, 51(4): 821-828.
Zhang H X, Lin C, Cheng H, et al. Variation of soil organic carbon content of moso bamboo forest along altitudinal gradient in Wuyi Mountain in China[J]. Soils, 2019, 51(4): 821-828.
[41] 钟兆全. 闽北毛竹林土壤有机碳含量特征及其影响因素[J]. 福建林业科技, 2017, 44(2): 36-42, 81.
Zhong Z Q. Characteristics of soil organic carbon content and its influencing factors of Phyllostachys edulis forest in north of Fujian Province[J]. Journal of Fujian Forestry Science and Technology, 2017, 44(2): 36-42, 81.
[42] Burke I C, Yonker C M, Parton W J, et al. Texture, climate, and cultivation effects on soil organic matter content in U.S. grassland soils[J]. Soil Science Society of America Journal, 1989, 53: 800-805.
[43] 杨忠芳, 夏学齐, 余涛, 等. 内蒙古中北部土壤碳库构成及其影响因素[J]. 地学前缘, 2011, 18(6): 1-10.
Yang Z F, Xia X Q, Yu T, et al. Soil carbon pool in the northeast Inner Mongolia and its influencing factors[J]. Earth Science Frontiers, 2011, 18(6): 1-10.
[44] 任军, 郭金瑞, 边秀芝, 等. 土壤有机碳研究进展[J]. 中国土壤与肥料, 2009(6): 1-7, 27.
Ren J, Guo J R, Bian X Z, et al. The research progress on soil organic carbon[J]. Soil and Fertilizer Sciences in China, 2009(6): 1-7, 27.
[45] John K, Abraham Isong I, Michael Kebonye N, et al. Using machine learning algorithms to estimate soil organic carbon variability with environmental variables and soil nutrient indicators in an alluvial soil[J]. Land, 2020, 9(12). DOI:10.3390/land9120487
[46] Wang S Z, Fan J W, Zhong H P, et al. A multi-factor weighted regression approach for estimating the spatial distribution of soil organic carbon in grasslands[J]. CATENA, 2019, 174: 248-258.
[47] 马玥, 王录仓, 赵瑞东, 等. 基于不同地貌类型区甘南州植被覆盖时空变化及其影响因素研究[J]. 生态与农村环境学报, 2022, 38(11): 1427-1436.
Ma Y, Wang L C, Zhao R D, et al. Study on spatial and temporal changes of vegetation coverage in Gannan prefecture based on different geo-morphological zones and their influencing factors[J]. Journal of Ecology and Rural Environment, 2022, 38(11): 1427-1436.
[48] 董廷发. 不同海拔云南松林土壤养分及其生态化学计量特征[J]. 生态学杂志, 2021, 40(3): 672-679.
Dong T F. Soil nutrients and their ecological stoichiometry of Pinus yunnanensis forest along an elevation gradient[J]. Chinese Journal of Ecology, 2021, 40(3): 672-679.
[49] 吕韶利. 青藏高原高寒草地土壤有机碳、全氮的空间异质性及其影响因素的研究[D]. 兰州: 兰州大学, 2018.
Lü S L. Study on spatial heterogeneity of soil organic carbon and total nitrogen of alpine grassland and the influencing factors in Qinghai-Tibet Plateau[D]. Lanzhou: Lanzhou University, 2018.
[50] McBratney A B, Odeh I O A, Bishop T F A, et al. An overview of pedometric techniques for use in soil survey[J]. Geoderma, 2000, 97(3-4): 293-327.
[51] 田慎重, 宁堂原, 王瑜, 等. 不同耕作方式和秸秆还田对麦田土壤有机碳含量的影响[J]. 应用生态学报, 2010, 21(2): 373-378.
Tian S Z, Ning T Y, Wang Y, et al. Effects of different tillage methods and straw-returning on soil organic carbon content in a winter wheat field[J]. Chinese Journal of Applied Ecology, 2010, 21(2): 373-378.