环境科学  2024, Vol. 45 Issue (3): 1713-1723   PDF    
基于遥感时⁃空⁃谱特征及随机森林模型的土壤重金属空间分布预测
王泽强1, 张冬有1, 徐夕博2,3, 王兆鹏1, 杨东宇1, 宋晓宁2     
1. 哈尔滨师范大学地理科学学院, 哈尔滨 150025;
2. 枣庄学院旅游与资源环境学院, 枣庄 277160;
3. 北京师范大学地表过程与资源生态国家重点实验室, 北京 100875
摘要: 获取土壤重金属的含量特征及空间分布是预防土壤污染和制定环保政策的关键.选取济南市长清区为研究区, 系统采集304处表层土壤样品(0~20 cm), 利用多源遥感数据构建土壤重金属的光谱特征、时间特征和空间特征;进一步采用相关分析法选择出与土壤重金属密切相关的时-空-谱特征, 并将其作为输入自变量, 实测土壤砷(As)含量值为因变量, 建立基于随机森林(RF)算法的空间预测模型, 完成土壤重金属的含量估算和空间分布预测.结果表明:①As含量均值超出背景值43.17%, 低于农用地土壤污染风险规定的筛选值和管控值, 表明As在土壤中出现富集, 但处于可管控范围内.②在单个遥感特征构建的土壤重金属空间预测模型中, 精度由高到低依次为:空间特征(RPIQ = 3.87) > 时间特征(RPIQ = 2.57) > 光谱特征(RPIQ = 2.50), 空间特征对土壤重金属空间预测最为重要.③基于“时间-空间”、“时间-光谱”和“空间-光谱”组合特征的土壤重金属空间预测模型均优于单个特征构建的模型, 其精度系数RPIQ值分别为4.81、4.21和4.70.④利用“时间-空间-光谱”特征组合输入的随机森林模型达到最佳的空间预测精度(R2 = 0.90;RMSE = 0.77;RPIQ = 5.68).⑤As在空间分布上从西北到东南含量逐步降低, 主要受到黄河冲淤积和工业活动影响.研究采用的遥感时-空-谱特征结合随机森林算法的土壤重金属空间预测技术, 可为土壤污染防治及环境风险管控提供有效的方法支持.
关键词: 土壤      砷(As)      随机森林(RF)      遥感时-空-谱特征      空间分布预测     
Distribution Prediction of Soil Heavy Metals Based on Remote Sensing Temporal-Spatial-Spectral Features and Random Forest Model
WANG Ze-qiang1 , ZHANG Dong-you1 , XU Xi-bo2,3 , WANG Zhao-peng1 , YANG Dong-yu1 , SONG Xiao-ning2     
1. College of Geographical Sciences, Harbin Normal University, Harbin 150025, China;
2. College of Tourism and Environment Resource, Zaozhuang University, Zaozhuang 277160, China;
3. State Key Laboratory of Earth Surface Processes and Resource Ecology, Beijing Normal University, Beijing 100875, China
Abstract: Obtaining soil heavy metal content characteristics and spatial distribution is crucial for preventing soil pollution and formulating environmental protection policies. We collected 304 surface soil samples (0-20 cm) in the Changqing district. At the same time, the spectral, temporal, and spatial features of soil heavy metals were derived from multi-remote sensing data; the temporal-spatial-spectral features closely related to soil heavy metals were selected via correlation analysis and used as input independent variables. The measured soil arsenic (As) content was used as the dependent variable to establish a spatial prediction model based on the random forest (RF) algorithm. The results showed the following: the As content in the soils exceeded the background value by 43.17% but did not exceed the risk screening values and intervention values, indicating slight heavy metal pollution in the soil. The accuracy ranking of the spatial prediction models with one feature type from high to low was spatial features (ratio of performance to inter-quartile range (RPIQ) = 3.87) > temporal features (RPIQ = 2.57) > spectral features (RPIQ = 2.50). The spatial features were the most informative for predicting soil heavy metals. The models using temporal-spatial, temporal-spectral, and spatial-spectral features were superior to those using only one feature type, and the RPIQ values were 4.81, 4.21, and 4.70, respectively. The RF model with temporal-spatial-spectral features achieved the highest spatial prediction accuracy (R2 = 0.90; root mean square error (RMSE) = 0.77; RPIQ = 5.68). The As content decreased from the northwest to the southeast due to Yellow River erosion and industrial activities. The spatial prediction of soil heavy metals incorporating remote sensing temporal-spatial-spectral features and the random forest model provides effective support for soil pollution prevention and environmental risk control.
Key words: soil      arsenic(As)      random forest(RF)      temporal-spatial-spectral features of remote sensing      spatial distribution prediction     

土壤是地表生态系统进行物质能量循环的基石和媒介.近些年, 随着工农业迅速发展, 不合理的“三废”排放和过量使用的化肥农药, 使土壤受到污染的风险日益上升[1].重金属因易在土壤中发生富集, 已成为土壤环境中的首要污染物.根据《中国土壤污染状况调查公告》(2014年)统计显示, 全国大约有19.4%的耕地受到不同程度的重金属污染, 点位超标率达到36.3%[2].其中, 砷(As)是一种对人体危害极大的有毒重金属, 会使人体内的蛋白质和酶等物质失去活性, 导致慢性中毒.另外, 过量的As也会导致植物体叶绿素合成异常, 阻碍植物生长[3].因此, 探究重金属As在区域土壤中的含量状态和分布特征成为土壤污染治理和生态修复中的重要课题.

获取土壤重金属的区域分布特征是进行污染防治和环境风险预防的关键.地统计方法由法国统计学家Matheron[4]首先提出, 现已成为土壤重金属来源探析和空间分布预测的重要手段.例如Lee等[5]、徐夕博等[6]和陈盟等[7]利用地统计技术来对土壤重金属的来源及空间分布进行分析和预测.地统计方法是以区域化变量为分析基础, 根据相邻样点之间的空间依赖性来估计变量值在空间中的分布状况[8].但是土壤重金属的迁移和积累过程会受到外部活动(例如, 工厂排放位置、道路分布和污水灌溉)的强烈干扰[9, 10], 而普通克里格插值等地统计技术无法在重金属的空间预测过程中对外部活动因素予以考虑, 得到的重金属空间预测结果平滑效应明显, 在空间交界地带难以准确地对土壤重金属的分布特征进行预测[11].针对这个问题, de Castro Paes等[12]、史广等[13]和Jiang等[14]广泛挖掘与重金属密切相关的空间特征因素(地形、降水、人类活动和位置等)和光谱特征因素(遥感光谱波段和植被光谱指数等), 并以此为自变量, 实测的重金属含量值为因变量, 利用多种回归模型拟合环境特征要素与重金属之间的映射关系, 进而间接实现土壤重金属的空间分布预测.

然而, 重金属在土壤中的富集具有较为显著的多维时空变化特征, 即重金属在土壤中的富集不仅与空间特征因素和光谱特征因素密切相关, 还与重金属连续累积过程的时间特征因素相关联[15].已有研究中往往忽视这个因素, 因而限制了所构建模型的稳健性和可推广性.因此, 本研究以多源遥感为数据基础, 分别在时间、空间和光谱层面上提取与土壤重金属密切相关的自然环境和人类活动特征因素, 在随机森林算法的基础上构建土壤重金属空间预测模型, 完成土壤重金属在区域尺度上的含量估算和空间分布预测.

在三维尺度上构建的时间、空间和光谱特征往往与重金属之间存在着复杂非线性关系, 以机器学习算法为代表的回归模型在解决此类复杂映射关系时有着明显优势.随机森林(random forest, RF)算法是机器学习的典型代表, 模型本质是通过构建多棵决策树投票进行预测, 能够有效解决传统预测模型泛化能力弱的问题, 在拟合多源要素变量与土壤属性值的非线性关联中具有极大的优势[16].与线性回归和传统人工神经网络模型相比, RF模型对时间、空间和光谱变量因子的解释能力更强, 效率高且不容易发生过拟合, 在较小的样本数据集上也可以获得较佳的预测模型.郑淼等[17]、Zhang等[18]、Xu等[19]和周洋等[20]采用随机森林技术对土壤有机质、全氮含量和全盐含量等土壤属性进行估算, 均获得了满意的土壤属性空间预测精度与稳定性.目前, 该模型在土壤重金属污染空间分布的预测方面仍处于探索阶段, 模型的应用潜力及适用性仍需进行不断摸索和验证.

本研究以黄河下游典型县域城市济南长清区为例, 采集304处表层土壤样品(0~20 cm), 利用时间、空间和光谱这3个维度的遥感特征要素来刻画重金属在土壤中的富集状态;进一步优选出与重金属密切相关的时-空-谱特征, 并将其作为输入自变量, 实测土壤砷(As)含量值为因变量, 构建基于RF的空间预测模型, 以期实现土壤重金属在区域尺度上的空间分布预测.

1 材料与方法 1.1 研究区概况

研究区位于济南市长清区, 地处黄河下游山东段东岸, 地理坐标在36°14′37″~36°41′50″N和116°30′38″~117°04′14″E之间, 占地面积约为1 178 km2, 总人口约59.6万人.区内多年平均气温约为14.4℃, 年均降水量约为661.7 mm, 气候类型属暖温带半湿润大陆性季风气候, 雨热同期.地形呈现出东南高、西北低的倾斜地势, 由东南向西北依次是丘陵、平原和洼地.母质类型主要有黄河冲积母质、石灰岩和变质岩.长清区是山东省重要的经济开发新区, 区内化工厂和机械加工制造产业呈现规模化聚集.同时也是重要的交通枢纽和物流中心, 区内公路铁路贯穿南北, 是连接京津唐和长三角的重要交通枢纽, 研究区如图 1所示.

图 1 研究区及采样点示意 Fig. 1 Study area and sampling sites

1.2 土壤样品采集与化学分析

综合考虑地形地貌、水文地质和道路交通条件后, 在ArcGIS 10.2数字图层的基础之上, 完成304处土壤样本点的预设.在采样过程中, 使用木铲在每个预设采样点10 m半径范围内按照五点梅花采样法收集表层土壤(0~20 cm), 混合至1 kg, 放入聚乙烯塑料袋中密封, 送往实验室待测.在每处采样点的土壤样品采集完成后, 利用手持GPS确定采样点的真实经纬度坐标值, 并记录.在实验室内, 首先将土壤样本内的杂草和小石块等杂质去除, 将样本在室内25℃条件下进行自然风干, 研磨后过0.2 mm筛.分析过程中, 首先称取0.200 0 g土样放置玻璃容器中, 加入少量水润湿, 之后加入4 mL硝酸、2 mL硫酸和1 mL高氯酸在沙浴锅上进行消解处理, 待冷却后转移至50 mL比色管中加入盐酸(1∶1)定容, 最后采用原子荧光光谱法(HG-AFS)测定土壤样本中的As元素含量值[21].

1.3 多源遥感数据获取及预处理

首先, 在地理空间数据云(http://www.gscloud.cn/)网站上下载2013年3月和2020年2月共两期Landsat 8_OLI卫星影像(云量小于10%且没有明显积雪覆盖).为消除和修正因辐射误差而引起的遥感图像畸变, 在ENVI 5.3.1软件上对遥感影像进行辐射定标和大气校正处理, 使其对地物光谱特征的反映更准确;夜间灯光数据(night light image, NLI)来源于美国国家海洋和大气管理局网站(http://www.noaa.gov/), 下载时间为2015年, 该数据能反映夜间人类活动、交通道路和城市工业结构变化等社会经济特征, 提供区域的多维社会环境信息.将下载的灯光数据在ArcGIS 10.2中转换为Albers投影坐标系, 利用行政区边界矢量图裁剪灯光影像并对像素DN值进行提取;从地理空间数据云(http://www.gscloud.cn/)网站下载30 m空间分辨率ASTER-GDEM数据, 之后在ArcGIS 10.2软件中进行拼接、裁剪等预处理操作, 使用数字高程模型(digital elevation model, DEM)来计算影响土壤As空间分布的各种地形因子.将所有栅格数据使用ArcGIS 10.2软件重采样至30 m空间分辨率.

1.4 土壤重金属的遥感时间-空间-光谱特征的构建 1.4.1 光谱特征

重金属在土壤中含量较低, 通常不能表现出直接的光谱特征.根据相关研究[22 ~ 24], 重金属在土壤中的富集主要通过螯合和络合作用与铁氧化物、黏土和有机质等结合, 因此, 根据铁氧化物和有机物的光谱特征可以间接反映重金属在土壤中的含量特征.除原始影像的7个波段以外, 引入8个光谱指数来挖掘与重金属相关的特征参量, 具体如表 1所示.光谱指数的计算在ENVI 5.3.1软件的IDL二次开发平台中完成.

表 1 土壤重金属的光谱特征1) Table 1 Spectral features of soil heavy metals

1.4.2 时间特征

在周期性人类活动的影响下, 重金属元素在土壤中的富集具有明显的时间连续性特征.研究选取当前时相影像(2020年)和历史时相影像(2013年)各一期, 通过构建时间差值指数(DI)、时间比值指数(RI)和时间归一化值指数(NDI)这3种时间特征指数, 来表征土壤重金属元素在特定时间周期内的富集特征, 计算方法如下:

(1)
(2)
(3)

式中, ij表示各波段编号;B表示影像波段反射率.

1.4.3 空间特征

地形控制着成土母质、水和物质能量的流动, 对土壤重金属空间分布和再分配起着重要作用[33], 因而空间变化特征是地表重金属富集的关键驱动因素.基于DEM数据产品, 使用SAGA GIS(自动化地球科学分析系统)软件计算12个基础地表地形参数.此外, 选取土地利用类型的标志性特征因素:夜间灯光数据、工厂距离和道路距离, 用以反映人类活动和土地利用状况对土壤重金属积累的影响.在高德地图上抓取研究区内的工厂点位数据并在ArcGIS 10.2欧氏距离模块计算采样点距离工厂的欧式距离(disroad), 采样点距离道路的欧式距离(disfactory)和采样点距离黄河的欧式距离(disriver)这3种空间特征参数, 具体如表 2所示.

表 2 土壤重金属的空间特征 Table 2 Spatial features of soil heavy metals

1.5 遥感时间-空间-光谱特征与土壤重金属含量值之间的相关性分析

皮尔逊相关系数(Pearson correlation coefficient, PCC)是衡量随机变量XY之间相关程度的一种方法, 在自然科学领域有着相当广泛的应用.PCC值能够反映遥感时间-空间-光谱特征与土壤重金属含量值的相关联系, 有助于定量识别出与土壤重金属密切相关的时-空-谱特征, 提高空间预测建模的准确度和效率, PCC的计算如下所示:

(4)

式中, n表示采样点个数, XiYi分别表示土壤As含量实测值与遥感时-空-谱特征, XY表示输入变量的平均值.PCC的取值范围是[-1, 1], 相关系数的值接近于1, 表明XY的正相关程度越大;越接近-1, 表明负相关程度越大;PCC值为0, 表明不具有相关性.

1.6 空间预测模型的建立与性能评估

随机森林(RF)是根据集成学习的思想由多个决策树组成的预测模型, 该模型的一个特点是每个子树中的验证变量集是随机的, 避免了树间的共线性问题, 使得该方法特别适用于多特征的预测.在随机森林系统架构中, 节点二叉树的变量数(mtry)和决策树数目(ntree)是用来评估模型变量重要度的两个参数, 基于袋外样本集(out-of-bag, OOB)确定模型的估算误差, 进而选择RF模型的最优参数和决策树数目.最后经过多次重复训练选取最优的RF模型, ntree设置为800, mtry设置为3.

为提高所获得的空间预测模型的准确度和稳健性, 采集到的304处土壤样本随机分为训练集(n = 274)和验证集(n = 30), 分别用于模型的十折交叉验证和独立验证.决定系数(coefficient of determination, R2)、均方根误差(root mean square error, RMSE)和四分位数间距(ratio of performance to inter-quartile range, RPIQ)是空间预测模型性能的重要定量化评价指标, 计算公式见式(5)~(7).R2表示自变量解释因变量信息的程度, RMSE表示模型估算值与实测值差值大小;当RPIQ≥4.05时, 表明模型具有较准确的预测能力, 当3.37≤RPIQ < 4.05时, 表示估算结果良好, 当2.70≤RPIQ < 3.37时, 模型可以提供近似的估计, 当2.02≤RPIQ < 2.70时, 表明预测结果与真实值差距较大[34].一般来说, 较大的R2、RPIQ和较小的RMSE表示模型的估算精度和稳健性越好.

(5)
(6)
(7)

式中, ViVi′分别表示样点i的实测重金属含量值和预测重金属含量值, Vi示重金属含量平均值, n表示304个土壤样点总数, IQR表示四分位距(IQR = Q3-Q1), 即第三四分位数(验证集中土壤样本数量由小到大排序的75%)与第一四分位数(验证集中土壤样本数量由小到大排序的25%)之间的差距.研究中模型计算通过Python 3.8平台编程构建.

2 结果与分析 2.1 土壤重金属含量值的描述性统计特征

土壤As含量的统计分布特征如图 2(由频数分布直方图和箱线图共同组成)所示, 样本集的ω(As)在3.00~19.40 mg·kg-1范围内, 平均值为9.02 mg·kg-1, 中值为8.90 mg·kg-1, 二者数值大致相当, 表明研究区内ω(As)聚集分布在9 mg·kg-1附近, 数据集呈近似正态分布.变异系数(coefficient of variation, CV)是反映测量数据波动程度的重要指标, 样本总集的变异系数为27%, 属于中等变异状态[35].具体来看, 样本集的As含量均值超出山东省土壤元素背景值[36]43.17%, 超过背景值的样点数为265个, 占总样本的87%, 但低于《农用地土壤污染风险管控标准》(GB 15618-2018)中规定的筛选值和管控值, 表明数据集中存在受外部活动影响的异常值, 但是具体扰动原因需要进一步进行分析.另外, 样本集存在一定程度的数据变异, 也有利于加快模型的收敛速度, 提高模型效率[37].

风险筛选值和管控值采用《农用地土壤污染风险管控标准》(GB 15618-2018)的pH≥7.5的管控标准 图 2 土壤As含量值的分布及统计特征 Fig. 2 Descriptive statistics characteristics of As contents

2.2 遥感时间-空间-光谱特征与土壤重金属的相关性 2.2.1 光谱特征的相关系数及优选

土壤As的15个光谱特征的相关系数值如图 3所示, 可以看出, 单波段的相关系数值明显低于光谱指数的相关系数值, 改进的归一化差异水体指数(MNDWI)和红边比值指数(RGRI)是与As关系最密切的光谱特征参数;NIR波段(845~885 nm)是As敏感的单波段参数, 相关系数值为0.209;可见光波段(Blue、Green、Red)和绿度植被指数(GVI)的相关系数值最小, 均小于0.1, 对As光谱响应程度较低.

图 3 土壤重金属的遥感光谱特征的相关系数值 Fig. 3 Correlation coefficient value in spectral feature from remote sensing

2.2.2 时间特征的相关系数及优选

土壤重金属的时间特征指数(包含28个DI指数、28个RI指数和28个NDI指数)的相关系数值如图 4所示.可以看出, 经差值运算后指数的相关性要强于比值和归一化值指数.从差值指数热图中可以看出[图 4(a)], B6B7B3~B5区间内相关系数值最高.经差值运算后B5B1~B4区间内的相关系数值大于比值和归一化值指数.可见, 经差值数学变换后形成的时间指数具有综合波段的反射率信息, 能够有效凸显重金属As的年际变化特征, 从而构建最优的时间特征参量.

色柱表示相关系数值 图 4 土壤重金属的遥感时间特征的相关系数值 Fig. 4 Correlation coefficient value in temporal feature from remote sensing

2.2.3 空间特征的相关系数及优选

从空间特征的相关系数值排序中可以看出(图 5), 采样点到黄河的欧式距离(disriver)、高程(DEM)、地形湿度指数(TWI)和坡度(slope)是空间特征中相关系数排在前4的特征要素, 相关系数都达到了0.2以上, 其中disriver是空间特征中最重要的因素, 相关系数值为0.671.工厂距离(disfactory)、相对坡度位置(RSP)和LS因子(LSF)这3个特征的相关系数均大于0.1, 在0.05水平上显著.其余特征因子的相关系数小于0.1, 其中平面曲率(PC)的重要性小于0.01, 不具备统计学意义.总的来看, 以地形、河流和气候类别下的特征因子, 和以disfactory为代表的土地利用类型特征因子, 共同在空间维度上表征重金属在土壤中的富集状态.

图 5 土壤重金属的遥感空间特征的相关系数值 Fig. 5 Correlation coefficient value in spatial feature from remote sensing

2.3 土壤重金属空间预测模型与精度对比

特征参数选择是建立空间预测模型的基础, 选择出对土壤As的敏感时-空-谱特征, 有助于模型精度和计算效率的提升.根据前验知识和模型多次运行结果, 依据PCC大于0.2的优选标准, 选取4个时间特征(B5~B6B5~B7B3~B7B1~B7)、4个空间特征(disriver、DEM、TWI、slope)和3个光谱特征(RGRI、MNDWI、NIR)作为预测自变量, 参与接下来土壤重金属空间预测模型的构建.

将优选得到的时间特征、空间特征、光谱特征及其不同组合作为自变量, 土壤重金属含量的实测值为因变量, 建立基于RF算法的空间预测模型, 所得模型的预测效果如图 6所示.

图 6 时间-空间-光谱及其特征组合输入下的As含量空间预测模型的精度及散点图 Fig. 6 Accuracy indices and scatter plot of As content spatial prediction models with temporal-spatial-spectral model and its feature combinations

可以看出, 以单一特征作为输入变量下的预测精度, R2均值为0.78, RMSE均值为1.53, RPIQ均值为2.98;其中空间特征对土壤重金属空间预测最为重要, 验证集上的散点图偏离1∶1线最小, RPIQ大于3.37, 预测精度在平均值以上.以“时间-空间”特征、“时间-光谱”特征和“空间-光谱”特征作为自变量输入下, R2均值为0.84, RMSE均值为0.96, RPIQ均大于4.05, 相对比单一特征构建的模型R2和RPIQ分别上升了7.69%和53.36%, RMSE下降了37.25%.其中, “时间-空间”特征 > “空间-光谱”特征 > “时间-光谱”特征.从整体来看, 以“时间-空间-光谱”特征组合的模型估算结果最优(R2 = 0.90, RMSE = 0.77, RPIQ = 5.68), 实测值与预测值大部分在1∶1线附近, 能够较准确地对As含量进行估算.

2.4 土壤重金属的空间分布预测

为进一步对模型的适用性与稳定性进行验证评估, 将基于“时间-空间-光谱”特征组合输入构建的空间预测模型应用至研究区域, 得到土壤As元素空间分布, 如图 7(a)所示.整体上, As含量呈带块状连续分布, 长清区西部黄河下游沿岸土壤重金属含量较高, 中部和东南部含量相对较低, 土壤As含量呈现出从西北向东南逐渐降低的趋势.此外, 与使用普通克里格插值法(ordinary Kriging)预测的As空间分布进行对比[图 7(b)], 可以看出, 克里格法预测结果高值区主要集中在西北部, 与“时间-空间-光谱”特征组合预测的空间分布趋势基本一致.

图 7 利用时-空-谱特征建模和克里格法预测的As含量空间分布 Fig. 7 Spatial distribution of As content predicted by using temporal-spatial-spectral model and Kriging model

总体来说, 时-空-谱特征结合随机森林算法下的预测模型能大幅提高土壤As含量空间预测精度, 空间预测结果边界过渡连贯性更强, 重金属含量可以精确到像元级别, 较普通克里格空间预测结果可以更好地反映出As含量的空间变异性.

3 讨论 3.1 遥感时-空-谱特征用于土壤重金属空间预测建模的可行性

遥感时间-空间-光谱特征及不同组合方式下构建的模型空间预测精度差异明显.总的来看, 选择“时间-空间-光谱”特征组合构建的模型预测效果最优.Kurun等[38]、黄赫等[39]和张连科等[40]将高程、空间位置和河流水系等空间特征用作模型的输入变量对土壤重金属含量进行估算, 取得较好的预测效果, 但以上研究仅考虑了土壤重金属的空间特征, 致使模型的性能和迁移推广能力受限.重金属在土壤中的迁移和累积过程相比土壤中其他物质具有更为显著的年际变化特征[15], 考虑土壤重金属含量的时间连续性和动态变化性, 本研究将土壤光谱模式的时间变化进行表征和探讨, 对当前时期和历史时期影像的波段设计光谱指数来提取时间特征.在空间预测建模过程中, 仅将空间特征作为自变量输入下R2为0.80, 在加入时间特征后R2达到0.86, 而同时考虑“时间-空间-光谱”特征组合建模精度最高(R2 = 0.90, RMSE = 0.77, RPIQ = 5.68), 通过选取时间、空间、光谱不同维度下数据输入来建立土壤重金属遥感估算模型, 提升多源环境遥感数据的综合应用能力.

由地形、土地利用类型和降水等因子组成的空间特征因素集合在土壤重金属空间预测建模中起到关键作用.基于DEM的衍生数据是数字土壤制图中最重要的地表参数, DEM、slope、TWI和disriver是影响As空间分布的关键因子.地形起伏对土壤的物质能量再分配具有重要的意义, 赋存在土壤中的重金属元素在重力的作用下, 当坡度越大, 受到地表径流的冲刷力往往越强烈, 导致As流失扩散越多[41].长清区东南部地势较高, 而西北部地势较低, 在降雨淋溶作用的影响下或黄河冲淤积搬运过程中, 将As运移到地势低平的西北部地区, 加剧周边土壤As的积累, [图 7(a)].整体上, 长清区土壤As含量的空间分布特征与土壤母质类型分布基本一致, As在西北黄河冲积物母质中的含量高于中部石灰岩和东南部变质岩土壤中的含量.另一方面, 土地利用类型也是决定As空间分布的重要因素, As含量值南北变化界线与主干道及周边工业企业大致相同, 已有研究表明汽车制动和轮胎磨损都会使道路周围的土壤产生重金属污染[42, 43], 说明工业区、道路、城镇等建设用地在局部上改变了原有As含量的空间分布格局, 进一步表明土地利用类型和人类活动对此重金属的富集具有正向影响.

基于遥感光谱指数可以间接通过植被、黏土和土壤有机物质的独特的光谱响应特征, 来捕捉土壤重金属细微的污染状况.在8个光谱指数中, RGRI和MNDWI是对土壤As元素含量影响贡献度最大的光谱特征(图 3), 表明研究区内植被和河流水体特征对重金属富集较为敏感.长清区南部地形起伏较大, 居民区多沿河谷分布, MNDWI可以更准确地提取出建筑用地背景下的水体信息.模型建立结果也表明, 在加入光谱指数后, 模型精度和稳定度都得到了提升.在单波段光谱特征指数中, 近红外波段(NIR)是土壤As响应的敏感光谱特征, 成永生等[44]、Kemper等[45]和李淑敏等[46]对土壤重金属波段光谱特征研究中也发现, 近红外波段是重金属As的响应特征波段;金剑等[47]采用Landsat 8影像对白云鄂博矿区土壤重金属特征波段研究时得出, 近红外波段所包含的信息量最丰富, 能够更好地突出地物信息丰富程度;刘彦平等[48]利用高光谱遥感对土壤重金属估测时发现, 波长在1 000~2 470 nm范围对As响应的相关性最高, 反射率受到有机物和铁氧化物吸附作用的影响.因此近红外范围内的波段成为土壤As的主要光谱特征.

3.2 随机森林算法在土壤重金属空间预测建模中的适用性分析

随机森林算法在厘定遥感时-空-谱特征与重金属之间的复杂映射关系时有着明显的优势.重金属在土壤中的富集具有较为显著的多维时空变化特征, 在三维尺度上构建时间、空间和光谱特征能够准确地刻画出重金属在土壤中的含量及富集状态.土壤重金属与遥感时间-空间-光谱特征要素之间具有复杂的非线性映射关系, 随机森林模型能够很好地挖掘多源环境变量的空间变异特征, 确定与区域土壤重金属污染之间的潜在关联.李海萍等[49]和Guo等[50]分别使用RF和克里格法对县域尺度土壤有机碳进行空间预测建模, 得出RF预测精度显著高于克里格法.徐夕博等[51]和任丽等[52]对土壤有机质和全盐进行空间预测时同样发现RF可以更好地刻画出特定土壤属性的空间细节变化, 能够更精细地显示含量特征.以上研究均利用RF模型对目标土壤属性的空间分布趋势进行预测, 结合本研究中RF模型对重金属含量的预测结果, 说明本研究构建的遥感时间-空间-光谱特征结合随机森林算法预测重金属空间分布技术的可靠性.

为深入分析本研究所提出的重金属空间分布预测结果的准确性, 以时间-空间-光谱特征组合建模空间预测结果为基础, 参照山东省土壤元素背景值[36]的划分标准, 将研究区重金属含量等级分为4个级别, 并对不同模型计算的面积进行定量化分析[RF结合时-空-谱, 图 8(a);克里格法, 图 8(b);不同预测方式下土壤重金属含量等级对比, 表 3].从图 8可以看出, 两种不同方法得到的重金属空间分布趋势基本相同;在土壤重金属含量等级量化表中, 两种空间预测方式下As元素在各等级面积与其所占比例基本一致, 并且两者相关性较强(r = 0.92).RF结合时-空-谱特征的模型空间预测结果与克里格空间预测结果具有较高的一致性, 且RF结合时-空-谱特征预测具有更高的空间分辨率, 克服了克里格空间预测结果的平滑效应, 能够准确模拟出土壤重金属的含量状态和空间分布特征, 更有利于针对性地开展土壤重金属污染防治与环境风险评价.

图 8 利用时-空-谱特征建模和克里格法的土壤As分类结果等级比较 Fig. 8 Grade comparison of As content predicted by using temporal - spatial - spectral model and Kriging model

表 3 不同空间预测方式下土壤重金属含量等级对比 Table 3 Comparison of soil As contents levels from different spatial predication method

4 结论

(1)研究区ω(As)在3.00~19.40 mg·kg-1范围内, 平均值为9.02 mg·kg-1, 中值为8.90 mg·kg-1, 以山东省土壤元素背景值为标准, 平均值超标率为43.17%, 但低于《农用地土壤污染风险管控标准》, 土壤中As出现一定的富集.

(2)分别以时间特征、空间特征和光谱特征构建预测模型, 空间特征建立的模型性能最佳(RPIQ = 3.87);在两特征组合输入中, “时间-空间”组合特征精度最高, 其精度系数RPIQ值为4.81;利用“时间-空间-光谱”三特征组合输入取得最佳的空间预测精度(R2 = 0.90;RMSE = 0.77;RPIQ = 5.68)

(3)RF结合时-空-谱特征的空间预测结果与普通克里格空间预测结果基本一致, 从西北洼地到西南平原和丘陵, As元素含量值逐渐降低, 重金属污染严重的地区主要分布在长清区西北部及黄河沿岸, 主要受黄河冲淤积和工业活动影响.

参考文献
[1] Karak T, Bora K, Paul R K, et al. Paradigm shift of contamination risk of six heavy metals in tea (Camellia sinensis L.) growing soil: a new approach influenced by inorganic and organic amendments[J]. Journal of Hazardous Materials, 2017, 338: 250-264. DOI:10.1016/j.jhazmat.2017.05.036
[2] 陈能场, 郑煜基, 何晓峰, 等. 《全国土壤污染状况调查公报》探析[J]. 农业环境科学学报, 2017, 36(9): 1689-1692.
Chen N C, Zheng Y J, He X F, et al. Analysis of the report on the national general survey of soil contamination[J]. Journal of Agro-Environment Science, 2017, 36(9): 1689-1692.
[3] Chen M, Ma L Q, Harris W G. Arsenic concentrations in Florida surface soils: Influence of soil type and properties[J]. Soil Science Society of America Journal, 2002, 66(2): 632-640.
[4] Matheron G. Principles of geostatistics[J]. Economic Geology, 1963, 58(8): 1246-1266. DOI:10.2113/gsecongeo.58.8.1246
[5] Lee C S I, Li X, Shi W, et al. Metal contamination in urban, suburban, and country park soils of Hong Kong: a study based on GIS and multivariate statistics[J]. Science of the Total Environment, 2006, 356(1-3): 45-61. DOI:10.1016/j.scitotenv.2005.03.024
[6] 徐夕博, 吕建树, 徐汝汝. 山东省沂源县土壤重金属来源分布及风险评价[J]. 农业工程学报, 2018, 34(9): 216-223.
Xu X B, Lv J S, Xu R R. Source spatial distribution and risk assessment of heavy metals in Yiyuan county of Shandong province[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(9): 216-223.
[7] 陈盟, 潘泳兴, 黄奕翔, 等. 阳朔典型铅锌矿区流域土壤重金属空间分布特征及来源解析[J]. 环境科学, 2022, 43(10): 4545-4555.
Chen M, Pan Y X, Huang Y X, et al. Spatial distribution and sources of heavy metals in soil of a typical Lead-Zinc mining area, Yangshuo[J]. Environmental Science, 2022, 43(10): 4545-4555.
[8] Webster R, Oliver M A. Geostatistics for environmental scientists[M]. Chichester: John Wiley & Sons, 2007.
[9] Kamani H, Mirzaei N, Ghaderpoori M, et al. Concentration and ecological risk of heavy metal in street dusts of Eslamshahr, Iran[J]. Human and Ecological Risk Assessment: An International Journal, 2018, 24(4): 961-970. DOI:10.1080/10807039.2017.1403282
[10] 吕建树. 烟台海岸带土壤重金属定量源解析及空间预测[J]. 地理学报, 2021, 76(3): 713-725.
Lv J S. Source apportionment and spatial prediction of heavy metals in soils of Yantai coastal zone[J]. Acta Geographica Sinica, 2021, 76(3): 713-725.
[11] Lv J S, Liu Y, Zhang Z L, et al. Factorial kriging and stepwise regression approach to identify environmental factors influencing spatial multi-scale variability of heavy metals in soils[J]. Journal of Hazardous Materials, 2013, 261: 387-397. DOI:10.1016/j.jhazmat.2013.07.065
[12] de Castro Paes É, Veloso G V, De Arruda Silva D L, et al. Use of modeling to map potentially toxic elements and assess the risk to human health in soils affected by mining activity[J]. CATENA, 2023, 220. DOI:10.1016/j.catena.2022.106662
[13] 史广, 刘庚, 赵龙, 等. 基于多源环境数据和随机森林模型的农田土壤砷空间分布模拟[J]. 环境科学学报, 2020, 40(8): 2993-3000.
Shi G, Liu G, Zhao L, et al. Prediction of arsenic for farmland soil based on multi source environmental data and random forest model[J]. Acta Scientiae Circumstantiae, 2020, 40(8): 2993-3000.
[14] Jiang Y F, Huang M X, Chen X Y, et al. Identification and risk prediction of potentially contaminated sites in the Yangtze River Delta[J]. Science of the Total Environment, 2022, 815. DOI:10.1016/j.scitotenv.2021.151982
[15] McBratney A B, Santos M L M, Minasny B. On digital soil mapping[J]. Geoderma, 2003, 117(1-2): 3-52. DOI:10.1016/S0016-7061(03)00223-4
[16] Tan K, Wang H M, Chen L H, et al. Estimation of the spatial distribution of heavy metal in agricultural soils using airborne hyperspectral imaging and random forest[J]. Journal of Hazardous Materials, 2020, 382. DOI:10.1016/j.jhazmat.2019.120987
[17] 郑淼, 王翔, 李思佳, 等. 黑土区土壤有机质和全氮含量遥感反演研究[J]. 地理科学, 2022, 42(8): 1336-1347.
Zheng M, Wang X, Li S J, et al. Remote sensing inversion of soil organic matter and total nitrogen in black soil region[J]. Scientia Geographica Sinica, 2022, 42(8): 1336-1347.
[18] Zhang Y, Sui B, Shen H O, et al. Mapping stocks of soil total nitrogen using remote sensing data: a comparison of random forest models with different predictors[J]. Computers and Electronics in Agriculture, 2019, 160: 23-30. DOI:10.1016/j.compag.2019.03.015
[19] Xu X B, Chen Y H, Wang M G, et al. Improving estimates of soil salt content by using two-date image spectral changes in Yinbei, China[J]. Remote Sensing, 2021, 13(20). DOI:10.3390/rs13204165
[20] 周洋, 赵小敏, 郭熙. 基于多源辅助变量和随机森林模型的表层土壤全氮分布预测[J]. 土壤学报, 2022, 59(2): 451-460.
Zhou Y, Zhao X M, Guo X. Prediction of total nitrogen distribution in surface soil based on multi-source auxiliary variables and random forest approach[J]. Acta Pedologica Sinica, 2022, 59(2): 451-460.
[21] 鲁如坤. 土壤农业化学分析方法[M]. 北京: 中国农业科技出版社, 2000.
[22] Rathod P H, Rossiter D G, Noomen M F, et al. Proximal spectral sensing to monitor phytoremediation of metal-contaminated soils[J]. International Journal of Phytoremediation, 2013, 15(5): 405-426. DOI:10.1080/15226514.2012.702805
[23] Zhang X, Sun W C, Cen Y, et al. Predicting cadmium concentration in soils using laboratory and field reflectance spectroscopy[J]. Science of the Total Environment, 2019, 650: 321-334. DOI:10.1016/j.scitotenv.2018.08.442
[24] Wu Y Z, Chen J, Ji J F, et al. A mechanism study of reflectance spectroscopy for investigating heavy metals in soils[J]. Soil Science Society of America Journal, 2007, 71(3): 918-926. DOI:10.2136/sssaj2006.0285
[25] Sionneau T, Bout-Roumazeilles V, Biscaye P E, et al. Clay mineral distributions in and around the Mississippi River watershed and Northern Gulf of Mexico: sources and transport patterns[J]. Quaternary Science Reviews, 2008, 27(17-18): 1740-1751. DOI:10.1016/j.quascirev.2008.07.001
[26] Singh K V, Setia R, Sahoo S, et al. Evaluation of NDWI and MNDWI for assessment of waterlogging by integrating digital elevation model and groundwater level[J]. Geocarto International, 2015, 30(6): 650-661. DOI:10.1080/10106049.2014.965757
[27] Chen J M, Pavlic G, Brown L, et al. Derivation and validation of Canada-wide coarse-resolution leaf area index maps using high-resolution satellite imagery and ground measurements[J]. Remote Sensing of Environment, 2002, 80(1): 165-184. DOI:10.1016/S0034-4257(01)00300-5
[28] Rouse Jr J W, Haas R H, Deering D W, et al. Monitoring the vernal advancement and retrogradation (green wave effect) of natural vegetation[R]. Greenbelt: NASA, 1974.
[29] Qi J, Chehbouni A, Huete A R, et al. A modified soil adjusted vegetation index[J]. Remote Sensing of Environment, 1994, 48(2): 119-126. DOI:10.1016/0034-4257(94)90134-1
[30] Huete A, Didan K, Miura T, et al. Overview of the radiometric and biophysical performance of the MODIS vegetation indices[J]. Remote Sensing of Environment, 2002, 83(1-2): 195-213. DOI:10.1016/S0034-4257(02)00096-2
[31] 杨帅, 陈俊英, 周永财, 等. 无人机热红外遥感反演玉米根域土壤含水率方法研究[J]. 节水灌溉, 2021(3): 12-18.
Yang S, Chen J Y, Zhou Y C, et al. A study on the method of UAV thermal infrared remote sensing to retrieve soil moisture content in corn root zone[J]. Water Saving Irrigation, 2021(3): 12-18. DOI:10.3969/j.issn.1007-4929.2021.03.003
[32] Jiang L, Kogan F N, Guo W, et al. Real-time weekly global green vegetation fraction derived from advanced very high resolution radiometer-based NOAA operational global vegetation index (GVI) system[J]. Journal of Geophysical Research: Atmospheres, 2010, 115(D11). DOI:10.1029/2009JD013204
[33] Taghizadeh-Mehrjardi R, Minasny B, Sarmadian F, et al. Digital mapping of soil salinity in Ardakan region, central Iran[J]. Geoderma, 2014, 213: 15-28. DOI:10.1016/j.geoderma.2013.07.020
[34] Bellon-Maurel V, Fernandez-Ahumada E, Palagos B, et al. Critical review of chemometric indicators commonly used for assessing the quality of the prediction of soil attributes by NIR spectroscopy[J]. TrAC Trends in Analytical Chemistry, 2010, 29(9): 1073-1081. DOI:10.1016/j.trac.2010.05.006
[35] 蒙永辉, 王集宁. 基于地理加权回归的莱州湾南岸土壤盐渍化与环境因子的关系研究[J]. 地质论评, 2018, 64(5): 1180-1189.
Meng Y H, Wang J N. Study on influencing factors of soil salinity in south coast of Laizhou Bay, Shandong, based on geographically weighted regression model[J]. Geological Review, 2018, 64(5): 1180-1189.
[36] 代杰瑞, 庞绪贵, 喻超, 等. 山东省东部地区土壤地球化学基准值与背景值及元素富集特征研究[J]. 地球化学, 2011, 40(6): 577-587.
Dai J R, Pang X G, Yu C, et al. Geochemical baselines and background values and element enrichment characteristics in soils in eastern Shandong Province[J]. Geochimica, 2011, 40(6): 577-587.
[37] Kuang B, Mouazen A M. Calibration of visible and near infrared spectroscopy for soil analysis at the field scale on three European farms[J]. European Journal of Soil Science, 2011, 62(4): 629-636. DOI:10.1111/j.1365-2389.2011.01358.x
[38] Kurun A, Balkıs N, Erkan M, et al. Total metal levels in crayfish Astacus leptodactylus (Eschscholtz, 1823), and surface sediments in Lake Terkos, Turkey[J]. Environmental Monitoring and Assessment, 2010, 169(1): 385-395.
[39] 黄赫, 周勇, 刘宇杰, 等. 基于多源环境变量和随机森林的农用地土壤重金属源解析——以襄阳市襄州区为例[J]. 环境科学学报, 2020, 40(12): 4548-4558.
Huang H, Zhou Y, Liu Y J, et al. Source analysis of heavy metals in farmland based on environmental variables and random forest approach: district of Xiangzhou District in Xiangyang City[J]. Acta Scientiae Circumstantiae, 2020, 40(12): 4548-4558.
[40] 张连科, 李海鹏, 黄学敏, 等. 包头某铝厂周边土壤重金属的空间分布及来源解析[J]. 环境科学, 2016, 37(3): 1139-1146.
Zhang L K, Li H P, Huang X M, et al. Soil heavy metal spatial distribution and source analysis around an Aluminum plant in Baotou[J]. Environmental Science, 2016, 37(3): 1139-1146.
[41] 江叶枫, 郭熙. 基于多源辅助数据和神经网络模型的稻田土壤砷空间分布预测[J]. 环境科学学报, 2019, 39(3): 928-938.
Jiang Y F, Guo X. Prediction of spatial distribution of soil arsenic in paddy fields based on multi-source auxiliary data and neural network model[J]. Acta Scientiae Circumstantiae, 2019, 39(3): 928-938.
[42] Lagerwerff J V, Specht A W. Contamination of roadside soil and vegetation with cadmium, nickel, lead, and zinc[J]. Environmental Science & Technology, 1970, 4(7): 583-586.
[43] 陈航, 王颖, 王澍. 铜山矿区周边农田土壤重金属来源解析及污染评价[J]. 环境科学, 2022, 43(5): 2719-2731.
Chen H, Wang Y, Wang S. Source analysis and pollution assessment of heavy metals in farmland soil around Tongshan mining area[J]. Environmental Science, 2022, 43(5): 2719-2731.
[44] 成永生, 周瑶. 土壤重金属高光谱遥感定量监测研究进展与趋势[J]. 中国有色金属学报, 2021, 31(11): 3450-3467.
Cheng Y S, Zhou Y. Research progress and trend of quantitative monitoring of hyperspectral remote sensing for heavy metals in soil[J]. The Chinese Journal of Nonferrous Metals, 2021, 31(11): 3450-3467.
[45] Kemper T, Sommer S. Estimate of heavy metal contamination in soils after a mining accident using reflectance spectroscopy[J]. Environmental Science & Technology, 2002, 36(12): 2742-2747.
[46] 李淑敏, 李红, 孙丹峰, 等. 利用光谱技术分析北京地区农业土壤重金属光谱特征[J]. 土壤通报, 2011, 42(3): 730-735.
Li S M, Li H, Sun D F, et al. Characteristic and diagnostic bands of heavy metals in Beijing agricultural soils based on spectroscopy[J]. Chinese Journal of Soil Science, 2011, 42(3): 730-735.
[47] 金剑, 周显平, 马凯. 基于Landsat-8影像的最佳波段组合研究——白云鄂博矿区土壤重金属专题调查[J]. 内蒙古科技大学学报, 2016, 35(1): 37-41.
Jin J, Zhou X P, Ma K. The analysis of the optimum band combination based on the image of Landsat-8—A case study of thematic survey of heavy metals in soils in the mining area of Bayan Obo[J]. Journal of Inner Mongolia University of Science and Technology, 2016, 35(1): 37-41.
[48] 刘彦平, 罗晴, 程和发. 高光谱遥感技术在土壤重金属含量测定领域的应用与发展[J]. 农业环境科学学报, 2020, 39(12): 2699-2709.
Liu Y P, Luo Q, Cheng H F. Application and development of hyperspectral remote sensing technology to determine the heavy metal content in soil[J]. Journal of Agro-Environment Science, 2020, 39(12): 2699-2709. DOI:10.11654/jaes.2020-0944
[49] 李海萍, 杜佳琪, 唐浩竣. 基于随机森林的县域土壤有机碳密度及储量估算[J]. 中国土壤与肥料, 2021(3): 1-8.
Li H P, Du J Q, Tang H J. Estimation of soil organic carbon density and reserves based on random forest model in county level[J]. Soils and Fertilizers Sciences in China, 2021(3): 1-8.
[50] Guo P T, Li M F, Luo W, et al. Digital mapping of soil organic matter for rubber plantation at regional scale: An application of random forest plus residuals kriging approach[J]. Geoderma, 2015, 237-238: 49-59. DOI:10.1016/j.geoderma.2014.08.009
[51] 徐夕博, 吕明荟, 王海会, 等. 利用空间关联随机森林模型与遥感影像估算裸土期耕地土壤盐分含量的研究[J]. 河南农业科学, 2022, 51(5): 162-170.
Xu X B, Lv M H, Wang H H, et al. Estimation of soil salt content of cultivated land during bare soil period using spatial random forest model and remote sensing images[J]. Journal of Henan Agricultural Sciences, 2022, 51(5): 162-170.
[52] 任丽, 杨联安, 王辉, 等. 基于随机森林的苹果区土壤有机质空间预测[J]. 干旱区资源与环境, 2018, 32(8): 141-146.
Ren L, Yang L A, Wang H, et al. Spatial prediction of soil organic matter in apple region based on random forest[J]. Journal of Arid Land Resources and Environment, 2018, 32(8): 141-146.