基于改进麻雀搜索算法优化BP神经网络的农业碳排放预测

引用本文

苏子龙, 严文亮, 李慧敏, 高林燕, 寿文琪, 吴军. 基于改进麻雀搜索算法优化BP神经网络的农业碳排放预测[J]. 环境科学, 2024, 45(12): 6818-6827.

SU Zi-long, YAN Wen-liang, LI Hui-min, GAO Lin-yan, SHOU Wen-qi, WU Jun. Prediction of Agricultural Carbon Emission Based on Improved BP Neural Network with Optimized Sparrow Search Algorithm[J]. Environmental Science, 2024, 45(12): 6818-6827.

基于改进麻雀搜索算法优化BP神经网络的农业碳排放预测

苏子龙¹, 严文亮², 李慧敏², 高林燕¹, 寿文琪¹, 吴军¹

1. 南京大学环境学院, 污染控制与资源化研究国家重点实验室, 南京 210023;
2. 光明食品集团上海农场有限公司, 盐城 224151

收稿日期: 2024-01-28; 修订日期: 2024-03-12

作者简介: 苏子龙（1999~）, 男, 硕士研究生, 主要研究方向为农业农村碳排放, E-mail：530166847@qq.com

通信作者: 吴军, E-mail：njuwujun@nju.edu.cn

摘要: 农业碳排放预测能够为农业领域实现碳达峰与碳中和目标的规划提供理论依据和数据支持. 为了优化现有的农业碳排放预测方法, 以上海农场为例开展农业碳排放预测研究. 采用排放因子法核算了上海农场2011~2021年碳排放总量, 基于碳排放核算结果构建了以种植业GDP、养殖业GDP和渔业GDP为指标的BP神经网络预测模型, 并采用改进麻雀搜索算法对模型进行优化, 最终利用优化后的BP神经网络模型对上海农场未来碳排放进行预测. 结果表明, 改进麻雀搜索算法优化BP神经网络（TGSSA-BPNN）对于上海农场碳排放的预测结果准确率为96.14%, 均方根误差为1.21万t·a^-1, 可决系数R²值为0.995 2, 模型预测结果的准确度高, 拟合效果良好；与优化前模型相比, TGSSA-BPNN模型多次运行结果的准确率稳定在95%左右, 均方根误差稳定在20 000 t·a^-1以下, R²值稳定在0.99以上, 改进麻雀搜索算法提高了神经网络预测结果的准确性与稳定性, 优化效果明显. 对于上海农场未来碳排放的预测结果表明, 养殖业对于碳排放总量的影响起到了主导地位, 控制养殖业规模可有效控制碳排放总量.

关键词: 农业碳排放预测模型 BP神经网络麻雀搜索算法 k折交叉验证 Tent混沌映射高斯变异

Prediction of Agricultural Carbon Emission Based on Improved BP Neural Network with Optimized Sparrow Search Algorithm

SU Zi-long¹ , YAN Wen-liang² , LI Hui-min² , GAO Lin-yan¹ , SHOU Wen-qi¹ , WU Jun¹

1. State Key Laboratory of Pollution Control and Resource Reuse, School of Environment, Nanjing University, Nanjing 210023, China;
2. Guangming Food Group Shanghai Farm Co., Ltd., Yancheng 224151, China

Abstract: The accurate forecasting of agricultural carbon emissions is essential for formulating strategies to achieve carbon peak and neutrality objectives within the agricultural sector. However, existing methodologies for predicting agricultural carbon emissions have notable limitations. To address these shortcomings, Shanghai farm was considered as a case study to conduct research utilizing a neural network approach. Agricultural carbon emissions from the Shanghai farm from 2011 to 2021 were computed using the emission-factor method. Subsequently, a Back Propagation (BP) neural network model was developed to predict carbon emissions, employing the GDP of the planting, animal husbandry, and fishery sectors as input variables. The model was further improved through the application of an optimized sparrow search algorithm, which was then employed to forecast the future carbon emissions of the farm. The results show that the BP neural network improved via the optimized sparrow search algorithm demonstrated a prediction accuracy of 96.14%, a root mean square error (RMSE) of 12 100 t·a^-1 and a correlation coefficient (R²) of 0.995 2. These metrics underscored the superior performance of the enhanced model. Compared with the multiple running results of pre-improved models, the neural network improved by the optimized sparrow search algorithm enhanced both the accuracy and stability of carbon emission prediction significantly, with the prediction accuracy consistently approaching approximately 95%, the root mean square error remaining below 20 000 t·a^-1, and the correlation coefficient exceeding 0.99. Predictive analysis of future carbon emissions from the Shanghai farm indicated a predominant contribution from the animal husbandry sector to the total carbon emissions, suggesting that effective management of the scale of animal husbandry operations could significantly mitigate overall carbon emissions.

Key words: agricultural carbon emissions predictive model BP neural network sparrow search algorithm k-fold cross validation Tent chaotic mapping Gaussian variation

温室气体排放产生的全球气候变暖是当前国际社会广泛关注的环境问题, 也是目前人类面临的最严峻挑战之一^[1]. 为了应对这一挑战, 各国已签订全球性协议, 共同致力于减少温室气体的排放. 中国积极参与全球碳减排行动, 并承诺于2030年实现“碳达峰”, 于2060年实现“碳中和”. 在温室气体排放的众多来源中, 农业生产活动占据着重要地位^[2]. 农业是一个涵盖了种植业、养殖业和渔业等多个子产业的规模化综合性产业, 涉及农业源的温室气体有二氧化碳（CO₂）、甲烷（CH₄）和氧化亚氮（N₂O）^[3], 占全球温室气体排放总量的11.8%, 仅次于能源消耗^[4]. 中国作为农业大国, 农业碳排放约占总碳排放的17%^[5]. 因此, 研究农业碳排放对于中国实现碳达峰和碳中和目标至关重要.

开展农业领域碳排放总量预测, 建立科学的预测模型, 可以为农业领域实现碳达峰与碳中和目标的规划提供理论依据和数据支持^[6]. 目前常见的农业碳排放预测主要采用以STIRPAT模型^{[7 ~ 10]}和灰色预测模型^{[11 ~ 13]}为主的传统预测模型. 然而, 这些传统预测模型的原理都是将选定的预测变量与碳排放总量进行多元线性拟合, 从而构建预测农业碳排放总量的线性方程. 面对农业碳排放系统这类复杂的非线性混沌系统, 只具备线性拟合能力的传统预测模型解释能力较差, 模型拟合效果一般, 导致碳排放预测结果的可信度与准确度较低^[14].

为了解决传统预测方法存在的弊端, 国内外学者开始利用智能算法模型进行碳排放预测^[15]. 其中, 神经网络是目前应用最广泛的人工智能算法之一. 神经网络可以通过多层神经元之间的相互作用学习输入变量与输出变量的映射关系, 并且无需揭示描述这种映射关系的数学方程, 其优秀的非线性拟合能力非常适用于碳排放预测^[16]. 目前, 已有不少学者在能源、工业、城市等领域^{[17 ~ 19]}以及在土壤、作物种植、麦田等单一农业生产要素中^{[20 ~ 22]}开展神经网络碳排放预测研究, 证明了神经网络模型的预测结果优于传统线性模型. 而在针对完整的农业系统碳排放预测方面, 尚无研究者利用神经网络进行研究. 分析其可能原因如下：①神经网络模型在农业碳排放预测的应用本身存在空白. ②神经网络模型本身具有易陷入局部最优的缺陷^[23], 面对复杂的农业碳排放系统, 预测结果的准确性与稳定性难以得到保障. ③神经网络模型需要较多样本进行预训练, 而农业系统碳排放核算通常以年为单位, 现有统计数据时间跨度多为几年或几十年, 没有足够的时间跨度使得农业碳排放预测具有样本量匮乏的固有特性, 导致预测结果的可信度较低.

针对上述问题, 为了填补农业碳排放神经网络研究的空缺, 提高农业碳排放预测的准确性, 建立一种可靠的预测模型, 本文以上海农场为例展开农业碳排放预测研究. 首先采用排放因子法核算上海农场碳排放总量, 再以核算结果为基础并选取合适碳排放预测变量构建神经网络模型, 然后通过智能搜索算法进一步优化神经网络, 最终利用优化后的神经网络进行未来碳排放预测. 通过优化现有碳排放预测方法存在的缺陷, 旨在为农业领域碳排放预测研究提供一种新的范式, 助力农业领域实现双碳目标.

1 材料与方法 1.1 上海农场碳排放核算方法

上海农场地处江苏省盐城市大丰区境内, 从属光明食品集团, 总面积约303 km²（46万亩）, 区域内设有种植、生猪、奶牛、禽蛋和鱼塘养殖等多个产业, 是一个涵盖农业系统主要产业的规模化农场. 采用《省级温室气体清单编制指南》（《省级指南》）提供的温室气体核算框架和方法, 将上海农场温室气体排放源分为以下6类：稻田甲烷排放、农用地氧化亚氮排放、动物肠道发酵甲烷排放、动物粪便管理碳排放、废弃物处理和能源活动, 其中渔业碳排放源主要来源于机械能耗^[24], 归入能源活动. 基于《省级指南》提供的排放因子法进行核算, 核算方法如式（1）所示：

(1)

式中, CE为温室气体排放总量, t；K_i为第i种排放源温室气体排放因子；S_i为第i排放源温活动水平；GWP为各类温室气体对应的全球变暖潜力, CO₂、CH₄和N₂O对应的全球变暖潜力分别为1、28和265倍.

1.2 神经网络的构建方法

常见的神经网络模型主要有反向传播神经网络、循环神经网络、卷积神经网络等^[25], 本文基于应用最广泛的反向传播神经网络（back propagation neural network, BP神经网络, BPNN）进行研究. BP神经网络由多个神经元节点组成, 通常分为输入层、隐藏层和输出层^[26]. 数据从输入层开始, 通过隐藏层神经元之间的连接前向传播, 各个神经元利用权重项（weight）和偏置项（bias）对输入进行线性组合, 然后通过非线性激活函数生成最终的输出. 反向传播是BP神经网络的核心思想^[27], 若输出值与真实值之间的误差不满足预先设定的精度要求, 则将误差从输出层反向传播回隐藏层和输入层, 调整权重项和偏置项, 使得网络误差逐渐减小直至满足预先设定的精度要求.

1.2.1 变量选取

神经网络模型需要选取合适的输入变量来预测输出. 针对农业系统的预测变量选取主要考虑以下3点原因：①预测变量需要具备代表性, 能够覆盖农业系统主要产业；②预测变量需要具备易获取性和权威性, 提高预测结果的可信度, 并可为其他同类研究提供参考价值；③预测变量种类不宜过多, 由于农业碳排放样本量较小, 过多的变量易导致模型产生欠拟合或过拟合. 因此, 本文拟选用种植业GDP、养殖业GDP和渔业GDP这3个指标作为预测变量构建BP神经网络.

为了验证选取上海农场种植业GDP、养殖业GDP和渔业GDP作为输入变量的合理性, 需要对输入变量与输出变量之间的相关性进行分析. Spearman相关系数法是一种常用的相关性分析方法, 其适用于存在非线性关系的变量之间的相关性研究^[28], 计算方法如式（2）所示.

(2)

式中, R为Spearman相关系数, D为每对数据之间位次的差值, n为样本总量.

为了减少变量间多重共线性带来的影响, 也需要分析输入变量之间的相关性^[29]. 采用方差膨胀因子法衡量变量之间的共线性程度, 计算方法如式（3）和式（4）所示^[30]：

(3)

(4)

式中, VIF为方差膨胀因子, x₁为变量1, x₂为变量2, x₃为变量3, R²为式（3）可决系数.

1.2.2 评价指标选取

通过比较神经网络的预测值与真实值, 可以对神经网络的预测效果进行评价^[31]. 本文选取的评价指标为准确率（ACC）、均方根误差（RMSE）和可决系数（R²）, 各指标计算方法如式（5）~（7）所示：

(5)

(6)

(7)

式中, n为数据集样本量, y_i为第i个样本真实值, 为第i个样本预测值. ACC值越接近100%表明模型准确度越高, RMSE越小表明模型的误差越小, R²值越接近1表明模型的拟合效果越好.

1.3 神经网络的优化方法 1.3.1 数据集划分与预处理

原始数据集按一定比例划分为训练集与测试集, 训练集数据用于训练BP神经网络模型, 测试集数据用于评估BP神经网络预测效果, 训练集与测试集的比例通常为7∶3或8∶2^[32].

由于农业碳排放预测通常具有数据集样本量少的固有特性, 为了保证训练集与测试集有丰富的样本, 需要基于k折交叉验证（k-fold cross validation）的思想进行数据集划分. k折交叉验证首先将数据集随机划分为k个互斥子集, 每次随机选择k-1份作为训练集, 剩下的1份作为测试集. 每次挑选不同子集作为测试集, 将上述过程中的k种选择重复进行, 完成k次模型的训练与验证, k次模型评价指标的均值作为最终评价指标^[33]. k折交叉验证将数据集中每一条数据都作为训练数据和测试数据进行多次验证, 从而提高农业碳排放预测模型评估结果的可信度.

在输入数据集训练前, 由于原始数据集中各类型数据具有不同的单位、范围和分布情况, 会导致模型拟合效果较差、训练时间较长等问题, 为了模型能够更好地分析与处理, 需要对数据进行归一化处理^[34]. 本文采用Min-Max归一化^[35], 将所有数据转化至[0, 1]区间范围内, 其操作如式（8）所示：

(8)

式中, x_i´为归一化处理后的数据, x_i为第i个变量中的某一个样本, x_min为该变量样本中的最小值, x_max为该变量样本中的最大值.

1.3.2 麻雀搜索算法

传统BP神经网络初始权重项与偏置项采用了随机赋值的方法, 导致反向传播的调整过程中存在学习收敛速度慢、网络陷入局部最优等问题^[36]. 因此, 本文采用麻雀搜索算法优化神经网路的初始权重项与偏置项.

麻雀搜索算法（sparrow search algortihm, SSA）是一种受麻雀觅食、逃避追捕者行为启发的启发式搜索算法, 其基本思想是将搜索空间划分为发现者、加入者和警戒者这3个种群, 依据不同种群的不同搜索行为寻找目标函数的全局最优解^[37]. 麻雀搜索算法首先将个体按适应度由优至差进行排序（本研究中适应度指标为误差, 即误差由小至大排序）, 发现者是由适应度较优的个体组成的种群, 加入者是由适应度较差的个体组成的种群, 警戒者是随机选择的个体. 发现者、加入者与警戒者个体的位置更新方法分别如式（9）~（11）所示.

(9)

式中, X^t_i，j为第i个个体在第t次迭代中第j维的位置信息矩阵；α为[0, 1]区间的随机数；iter_max为最大迭代次数；Q为服从正态分布的随机数；L为全为1的矩阵；R₂为预警值, [0, 1]区间的随机数；ST为安全值, [0.5, 1]区间的随机数；R₂ < ST为发现者处于安全位置, R₂>ST为发现者处于危险位置.

(10)

式中, X^t_i，j为第i个个体在第t次迭代中第j维的位置信息矩阵；X^t_worst为第t次迭代中最差个体的位置信息矩阵；X^t_best为第t次迭代中最优发现者的位置信息矩阵；Q为服从正态分布的随机数；A为随机赋值1或-1的矩阵, A⁺ = A^T (AA^T)^-1；L为全为1的矩阵；n为加入者的数量, i > n/2为位于加入者种群后部.

(11)

式中, X^t为第i个个体在第t_i，j次迭代中第j维的位置信息矩阵；X^t_best为第t次迭代中最优个体的位置信息矩阵；β为服从均值为0方差为1的正态分布的随机数；K为[-1, 1]区间的随机数；ε为一个极小常数；f_i为当前个体适应度, f_g为最优适应度, f_w为最差适应度.

1.3.3 改进麻雀搜索算法

麻雀搜索算法采用随机生成的方式进行种群初始化, 可能导致初始化种群在搜索空间内分布不均, 造成算法全局搜索能力下降. 为了提高初始化种群的多样性与均匀性, 采用Tent混沌映射^[38]的方式初始化种群. 此外, 麻雀搜索算法在寻找目标函数最优解的过程中, 可能会面临目标函数存在大量局部极小值的情况, 导致算法陷入局部最优^[39], 为了进一步提高算法的全局寻优精度, 对不同适应度个体的位置增加扰动：对于适应度较优的个体, 采用高斯变异^[40]的方式进行位置变化；对于适应度较差的个体, 采用Tent扰动^[41]的方式进行位置变化. Tent混沌映射、高斯变异和Tent扰动方法分别如式（12）~（14）所示.

(12)

式中, x_n+1为种群中第n+1个个体, x_n为种群中第n个个体, a为（0, 1）区间的常数.

(13)

式中, x_i为当前个体位置信息；x_i'为变化后个体位置信息；N (0，1)为符合标准正态分布的随机数；f_i为当前个体适应度；f_avg为种群平均适应度.

(14)

式中, x_i为当前个体位置信息；x_i'为变化后个体位置信息；Tent(0，1) 为位于（0, 1）区间Tent混沌序列中的随机数；f_i为当前个体适应度；f_avg为种群平均适应度.

针对麻雀搜索算法存在的问题, 依次引入Tent混沌映射、高斯变异与Tent扰动进行改进, 得到的改进麻雀搜索算法（Tent-GS-SSA, TGSSA）的具体实现步骤如下.

步骤1：参数设置. 设置麻雀种群规模、发现者比例、警戒者比例、预警值、迭代次数和求解精度.

步骤2：初始化. 采用Tent映射初始化种群带有信息, 包括权重矩阵与偏置矩阵.

步骤3：种群划分. 计算种群中个体的适应度, 将个体按适应度由优至差进行排序, 划分发现者与加入者, 并随机选择警戒者.

步骤4：位置更新. 更新发现者、加入者与警戒者的位置.

步骤5：重新计算. 再次计算种群中个体的适应度.

步骤6：位置扰动. 采用高斯变异与Tent扰动对不同适应度的个体进行扰动, 更新位置.

步骤7：信息输出. 循环步骤3~步骤6, 直至满足迭代次数或达到求解精度, 输出此时最优个体信息.

基于上述改进麻雀搜索算法策略, 对传统BP神经网络进行优化, 旨在提高神经网络的收敛性能与全局搜索能力, 从而提高农业碳排放预测的准确性与稳定性. 改进麻雀搜索算法优化BP神经网络模型（TGSSA-BPNN）的整体流程如图 1所示.

图 1 改进麻雀搜索算法优化神经网络流程 Fig. 1 Flowchart of improved BP neural network with optimized sparrow search algorithm

1.4 数据来源

2011~2021年上海农场碳排放核算原始统计数据由上海农场提供, 排放因子参考《省级温室气体清单编制指南》, 上海农场种植业GDP、养殖业GDP、渔业GDP来源于《上海统计年鉴》（https://tjj.sh.gov.cn/tjnj/nj22.htm?d1=2022tjnj/C1112.htm）, 其中GDP指标以2000年不变价计算.

2 结果与讨论 2.1 上海农场碳排放核算结果

上海农场2011~2021年碳排放核算结果如表 1所示. 2011~2021年间, 上海农场年碳排放总量最低为25.18万t, 最高为41.17万t, 年碳排放总量均值为35.40万t, 温室气体排放源主要集中在稻田、农用地、肠道发酵、粪便管理和能源活动5个模块, 相较于农业生产活动的碳排放, 废弃物处理过程中的碳排放较少. 核算结果作为BP神经网络原始数据集使用.

表 1 上海农场2011~2021年碳排放核算结果 Table 1 Carbon emissions of Shanghai farm from 2011 to 2021

2.2 变量相关性分析

采用Spearman相关系数法计算上海农场种植业GDP、养殖业GDP和渔业GDP与上海农场碳排放的相关系数及其显著性, 计算结果如表 2所示.

表 2 变量Spearman相关系数分析^1） Table 2 Analysis of Spearman correlation coefficients of variables

由表 2可知, 上海农场碳排放总量与养殖业GDP、渔业GDP的相关系数分别0.873与0.982, 在1%的水平上显著, 表明上海农场碳排放总量与养殖业GDP和渔业GDP有较强的相关性, 养殖业GDP和渔业GDP作为输入变量可以很好地反映上海农场碳排放变化. 而上海农场碳排放总量与种植业GDP的相关系数为0.473, 存在中度相关性^[42]. 虽然种植业GDP为表现出显著的相关性, 但考虑到本文选取的变量较少, 且实际生产活动中种植业GDP能反映种植业的规模与产量, 一定程度上会影响碳排放总量, 因此保留此变量作为输入变量.

采用方差膨胀因子法计算上海农场种植业GDP、养殖业GDP和渔业GDP之间的方差膨胀因子, 计算结果如表 3所示. 一般认为, 当VIF大于10时, 解释变量间存在高度相关行, 多重共线性程度严重^[43]. 种植业GDP、养殖业GDP和渔业GDP的方差膨胀因子值均小于10, 表明输入变量之间的相关性较弱, 可以忽略多重共线效应, 种植业GDP、养殖业GDP和渔业GDP能够作为独立的变量进行上海农场碳排放预测, 通过种植业GDP、养殖业GDP和渔业GDP构建的碳排放神经网络预测模型具备可行性.

表 3 变量方差膨胀因子分析 Table 3 Analysis of variance inflation factor

2.3 神经网络参数设置与训练

选择MATLAB R2023a软件作为改进麻雀搜索算法优化BP神经网络模型的实验环境. 对数据集进行五折划分, 将数据集所有样本随机划分为5个互斥子集, 每个子集样本量依次为2、2、2、2和3个, 共11条样本. 每次挑选1份的不同子集作为测试集, 剩下的4份作为训练集, 将上述过程重复进行5次. 输入变量包括上海农场种植业GDP、养殖业GDP与渔业GDP, 输出变量为上海农场碳排放, 所有数据均进行Min-Max归一化处理. 使用MATLAB内置函数“newff”建立BP神经网络：隐藏层与输出层的激活函数分别为tansig函数和purelin函数, 训练算法选择结合梯度下降法和高斯-牛顿法的trainlm函数. 由于样本量较少, 神经网络的隐藏层设置为1层, 隐藏层神经元个数通过遍历经验区间确定^[44], 其中n₁为输入变量个数, n₂为输出变量个数. 神经网络的最大训练次数设置为100次, 学习速率为0.01；麻雀搜索算法中麻雀种群个体规模设置为100个, 迭代次数为20次, 发现者比例设置为60%, 警戒者比例为20%, 预警值为0.6. 按上述参数完成模型设置后进行训练与预测.

2.4 神经网络预测结果

改进麻雀搜索算法优化BP神经网络模型（TGSSA-BPNN）的误差迭代收敛过程如图 2所示. 从中可以看出, TGSSA-BPNN模型在第1~5次迭代过程中, 误差收敛速度较快；而在第5~8次迭代过程中, 误差收敛速度减缓并趋于平稳, 其原因是模型陷入了局部最优解, 模型收敛性能降低；在第8~15次迭代过程中, 误差再次快速下降, 最终在经历15次迭代后, 误差趋于稳定不再变化, 表明此时模型找到了全局最优解. 从整个过程来看, TGSSA-BPNN模型能够快速完成误差的迭代收敛过程, 表明模型具备良好的收敛性能. 此外, TGSSA-BPNN模型也能够快速跳出局部最优解, 表明其也具备良好的全局搜索寻优能力.

图 2 TGSSA-BPNN模型的误差迭代收敛过程 Fig. 2 Error iteration process of TGSSA-BPNN

TGSSA-BPNN模型对于上海农场碳排放的预测结果如表 4、图 3和图 4所示. 表 4计算了模型预测值与真实值的误差, 从中可知, TGSSA-BPNN模型预测结果与真实值的最大相对误差为2.09%, 最小相对误差为0.03%, 平均相对误差为0.61%. 一般认为, 模型预测结果与真实值的相对误差MAPE值低于10%属于高精度预测^[45], TGSSA-BPNN模型对于上海农场的预测误差远小于10%, 表明TGSSA-BPNN模型对于碳排放预测的准确性较高. 图 3给出了模型预测值与真实值的相关性分布, 从中可以看出, 代表预测值与真实值的离散点均分布在趋势线附近, 两者相关系数达到0.996 9, 表明模型预测值与真实值相关性较强, 模型拟合程度较高. 图 4比较了TGSSA-BPNN模型预测值与真实值整体趋势, 从中可以看出, TGSSA-BPNN模型预测值与真实值的整体趋势基本一致, 两者拟合效果良好, 通过上海农场种植业GDP、养殖业GDP和渔业GDP这3个输入变量预测得到的结果可以很好地反映实际碳排放情况.

表 4 TGSSA-BPNN模型预测结果与真实值对比 Table 4 Comparison of prediction values and true values of TGSSA-BPNN

图 3 TGSSA-BPNN模型预测值与真实值的相关性分布 Fig. 3 Correlations between prediction values and true values of TGSSA-BPNN

图 4 TGSSA-BPNN模型预测值与真实值趋势对比 Fig. 4 Comparison of prediction values and true values of TGSSA-BPNN

2.5 神经网络交叉验证

由于农业碳排放预测本身具有样本量少的特性, 单次预测的结果可能存在偶然性, 缺乏说服力. 为了提高农业碳排放预测结果的可信度, 采用五折交叉验证对TGSSA-BPNN模型的指标进行评价, 将数据集中每一条数据都作为训练数据和测试数据进行多次验证, 弥补农业碳排放预测样本量不足导致的缺陷, 得到五折交叉验证结果如表 5所示. 从中可知, TGSSA-BPNN模型对于上海农场碳排放预测五折交叉验证得到的准确率为96.14%, 均方根误差为1.21万t·a^-1, 表明TGSSA-BPNN模型在不同的训练集与测试集上得到的预测值与真实值之间的误差均较小, 模型可以稳定、准确地预测上海农场碳排放. 模型五折交叉验证得到的R²值为0.995 2, 较接近1, 表明预测值与真实值的相关性较高, 模型在不同的训练集与测试集上都表现出优秀的拟合能力, TGSSA-BPNN模型是一个可靠稳定的农业碳排放预测模型.

表 5 TGSSA-BPNN模型五折交叉验证结果 Table 5 Results of five-fold cross-validation of TGSSA-BPNN

2.6 神经网络性能比较

为了进一步验证改进麻雀搜索算法对于BP神经网络的优化效果, 将TGSSA-BPNN模型与BP神经网络模型、麻雀搜索算法神经网络模型（SSA-BPNN）以及另外一种常见的优化算法——遗传算法神经网络（GA-BPNN）^[46]在上海农场碳排放数据集上的多次运行结果进行比较. 各神经网络模型5次运行结果的准确率、均方根误差和R²值如图 5所示.

图 5 不同模型多次运行结果比较 Fig. 5 Comparison of results from multiple runs of different models

从图 5中可以看出, 传统BP神经网络的准确率、均方根误差与可决系数值的波动范围均较大, 较大的不稳定性导致传统BP神经网络碳排放预测结果的可信度较低, 神经网络的鲁棒性差. 而通过单一SSA或GA算法优化的神经网络预测结果的准确率、均方根误差与可决系数的稳定性得到了显著提高, 均优于传统BP神经网络预测结果, 证明了对传统BP神经网络进行算法优化的必要性. 而相较于上述模型, 基于对麻雀搜索算法的进行深度优化的TGSSA-BPNN模型的性能得到了进一步提高, 其准确率稳定在95%左右, 均方根误差稳定在20 000 t·a^-1以下, 可决系数R²值均稳定在0.99以上, 显著优于单一算法优化的神经网络模型, 表明TGSSA-BPNN模型的全局搜索能力与寻优精度得到了大幅度提高, 可以准确地找到目标函数的全局最优解并进行拟合, 改进麻雀搜索算法对于神经网络性能的优化效果明显. TGSSA-BPNN模型是一个具备较强的稳定性、准确性与鲁棒性的神经网络模型, 其大大提高了农业碳排放预测结果的准确度与可信度, 具备较好的碳排放预测能力.

2.7 上海农场未来碳排放预测

完成TGSSA-BPNN模型的构建并验证其性能后, 可以对上海农场未来碳排放的变化趋势进行预测, 为制定合理的双碳政策提供理论依据.

采用TGSSA-BPNN模型对上海农场2022~2026年未来5 a的碳排放量进行预测, 首先需要对未来5 a间各产业GDP变化趋势进行预设定. 根据2011~2021年GDP变化趋势, 计算所得种植GDP平均年变化率为9%, 养殖业GDP平均年变化率为22%, 渔业GDP平均年变化率为9%. 各产业未来5 a GDP总值分别按照其平均变化率设置连续上升与连续下降两种情形, 3类产业共有8种组合情况, 采用TGSSA-BPNN模型对上述8种情形进行预测, 得到结果如图 6所示.

“+”表示连续上升, “-”代表连续下降, 3个符号依次表示种植业GDP、养殖业GDP和渔业GDP, 例如“+++”表示5 a种植业GDP连续上升, 养殖业GDP连续上升和渔业GDP连续上升图 6 上海农场未来5 a碳排放预测结果 Fig. 6 Prediction results of carbon emissions from Shanghai farm in the next five years

由图 6可以看出, 当种植业、养殖业与渔业这3个产业GDP均为连续上升或连续下降, 即“+++”与“---”时, 碳排放总量将相应地呈现不断增加或减少的趋势, 说明3个产业GDP值与碳排放总量正相关. 将“+++”分别与“-++”、“+-+”和“++-”对比, 分析某一产业GDP连续下降而其余产业GDP连续上升的情况, 可以看出当养殖业GDP连续下降时, 碳排放量呈现下降趋势；当渔业GDP连续下降时, 碳排放量趋于平稳；当种植业GDP连续下降时, 碳排放量先上升后趋于平稳, 说明养殖业GDP对于上海农场碳排放的影响最大, 种植业GDP对于上海农场碳排放的影响最小, 且只要有一种产业GDP减小, 上海农场碳排放总量就能得到有效的控制. 将“---”分别与“+--”、“-+ -”和“--+”对比, 分析某一产业GDP连续上升而其余产业GDP连续下降的情况, 可以看出当养殖业GDP连续上升时, 碳排放量先下降后缓慢上升, 最终趋于平稳；当种植业GDP或渔业GDP连续上升时, 碳排放量均呈现快速下降, 两者趋势相似, 说明养殖业GDP对于上海农场碳排放的影响最大这一结论是可靠的. 将“+-+”与“+--”、“-+-”与“++-”、“++-”与“+--”分别进行对比, 分析有两个产业GDP下降的情形与仅有一个产业GDP下降情形的区别, 可以看出有两个产业GDP下降时的整体碳排放量小于只有一个产业GDP下降时的整体碳排放量, 且只要养殖业GDP下降, 整体碳排放量就呈现下降趋势. 将“++-”与“-++”、“+--”与“--+”分别进行对比, 比较种植业GDP与渔业GDP对于碳排放量的影响, 可以看出当渔业GDP上升而种植业GDP下降情形的碳排放量大于当种植业GDP上升而渔业GDP下降情形的碳排放量, 说明渔业GDP对于碳排放的影响大于种植业GDP对于碳排放的影响, 这与前文得出的结论相符.

综上所述, 上海农场3个产业GDP值对于碳排放总量影响程度由大到小依次为：养殖业 > 渔业 > 种植业, 且养殖业对于碳排放总量的影响起到了主导地位, 控制养殖业规模可有效控制碳排放总量, 为实现双碳规划目标, 可以进行合理的产业结构调整.

3 结论

（1）基于改进麻雀搜索算法优化BP神经网络模型, 选取种植业GDP、养殖业GDP和渔业GDP这3个变量作为预测变量对上海农场农业碳排放进行预测, 采用五折交叉验证对于预测结果进行评价, 结果表明, TGSSA-BPNN模型预测的准确率为96.14%, 均方根误差为1.21万t·a^-1, R²值为0.995 2. 预测结果准确度较高, 与实际碳排放情况拟合效果较好.

（2）将TGSSA-BPNN模型与BP神经网络、SSA-BPNN模型、GA-BPNN模型的多次运行结果进行比较, 结果表明TGSSA-BPNN模型预测结果的准确率稳定在95%左右、均方根误差稳定在20 000 t·a^-1以下, R²值稳定在0.99以上, 克服了传统BP神经网络稳定性较差的缺点, 且各项评价指标均优于单一算法优化的模型, 证明了改进麻雀搜索算法大大提高了神经网络的全局搜索能力与寻优精度, 对于神经网络的性能优化效果明显. TGSSA-BPNN模型是一个具备较强的稳定性、准确性与鲁棒性的农业碳排放预测模型.

（3）通过设定种植业、养殖业和渔业这3个产业不同的GDP变化趋势, 采用TGSSA-BPNN模型对上海农场未来五年碳排放进行预测, 结果表明3个产业GDP值与碳排放总量呈现正相关性, 其对于碳排放总量影响程度由大到小依次为：养殖业 > 渔业 > 种植业, 且养殖业对于碳排放总量的影响起到了主导地位, 控制养殖业规模可有效控制碳排放总量. 上海农场为实现碳减排目标, 可以进行合理的产业结构调整, 适当将养殖业的产能投入分配至种植业与渔业, 实现在总产能不变或增加的条件下控制碳排放总量.

参考文献

[1]	Romanello M, Whitmee S, Mulcahy E, et al. Further delays in tackling greenhouse gas emissions at COP28 will be an act of negligence[J]. The Lancet, 2023, 402(10417): 2055-2057. DOI:10.1016/S0140-6736(23)02584-9
[2]	Frank S, Beach R, Havlík P, et al. Structural change as a key component for agricultural non-CO₂ mitigation efforts[J]. Nature Communications, 2018, 9. DOI:10.1038/s41467-018-03489-1
[3]	Liu Y, Tang H Y, Muhammad A, et al. Emission mechanism and reduction countermeasures of agricultural greenhouse gases-a review[J]. Greenhouse Gases: Science and Technology, 2019, 9(2): 160-174. DOI:10.1002/ghg.1848
[4]	Ge M P. World greenhouse gas emissions: 2016[EB/OL]. https://www.wri.org/data/world-greenhouse-gas-emissions-2016, 2024-01-18.
[5]	Huang X Q, Xu X C, Wang Q Q, et al. Assessment of agricultural carbon emissions and their spatiotemporal changes in China, 1997-2016[J]. International Journal of Environmental Research and Public Health, 2019, 16(17). DOI:10.3390/ijerph16173105
[6]	Wei Z Q, Wei K K, Liu J C, et al. The relationship between agricultural and animal husbandry economic development and carbon emissions in Henan Province, the analysis of factors affecting carbon emissions, and carbon emissions prediction[J]. Marine Pollution Bulletin, 2023, 193. DOI:10.1016/j.marpolbul.2023.115134
[7]	Aziz S, Chowdhury S A. Analysis of agricultural greenhouse gas emissions using the STIRPAT model: A case study of Bangladesh[J]. Environment, Development and Sustainability, 2023, 25(5): 3945-3965. DOI:10.1007/s10668-022-02224-7
[8]	邱子健, 靳红梅, 高南, 等. 江苏省农业碳排放时序特征与趋势预测[J]. 农业环境科学学报, 2022, 41(3): 658-669. Qiu Z J, Jin H M, Gao N, et al. Temporal characteristics and trend prediction of agricultural carbon emission in Jiangsu Province, China[J]. Journal of Agro-Environment Science, 2022, 41(3): 658-669.
[9]	高晨曦, 卢秋萍, 欧年青, 等. "双碳"目标下河南省农业碳排放影响因素及预测研究[J]. 中国生态农业学报(中英文), 2022, 30(11): 1842-1851. Gao C X, Lu Q P, Ou N Q, et al. Research on influencing factors and prediction of agricultural carbon emission in Henan Province under the Carbon Peaking and Carbon Neutrality goal[J]. Chinese Journal of Eco-Agriculture, 2022, 30(11): 1842-1851.
[10]	Cui H R, Zhao T, Shi H J. STIRPAT-based driving factor decomposition analysis of agricultural carbon emissions in Hebei, China[J]. Polish Journal of Environmental Studies, 2018, 27(4): 1449-1461. DOI:10.15244/pjoes/77610
[11]	钱昭英, 冯林丹. 贵州喀斯特山区农业碳排放动态分析及减排路径研究[J]. 绿色科技, 2018(18): 232-234.
[12]	邓维忠, 许中坚. 湖南省农业碳排放特征及碳达峰分析[J]. 中国生态农业学报(中英文), 2024, 32(2): 206-217. Deng W Z, Xu Z J. Characteristics of agricultural carbon emissions and carbon peak analysis in Hunan Province[J]. Chinese Journal of Eco-Agriculture, 2024, 32(2): 206-217.
[13]	Li J J, Li S W, Liu Q, et al. Agricultural carbon emission efficiency evaluation and influencing factors in Zhejiang province, China[J]. Frontiers in Environmental Science, 2022, 10. DOI:10.3389/fenvs.2022.1005251
[14]	Liu Z L, Peng C H, Xiang W H, et al. Application of artificial neural networks in global climate change and ecological research: An overview[J]. Chinese Science Bulletin, 2010, 55(34): 3853-3863. DOI:10.1007/s11434-010-4183-3
[15]	Kamilaris A, Prenafeta-Boldú F X. Deep learning in agriculture: A survey[J]. Computers and Electronics in Agriculture, 2018, 147: 70-90. DOI:10.1016/j.compag.2018.02.016
[16]	Acheampong A O, Boateng E B. Modelling carbon emission intensity: Application of artificial neural network[J]. Journal of Cleaner Production, 2019, 225: 833-856. DOI:10.1016/j.jclepro.2019.03.352
[17]	Behrang M A, Assareh E, Assari M R, et al. Using bees algorithm and artificial neural network to forecast world carbon dioxide emission[J]. Energy Sources, Part A: Recovery, Utilization, and Environmental Effects, 2011, 33(19): 1747-1759. DOI:10.1080/15567036.2010.493920
[18]	Saleh C, Leuveano R A C, Ab Rahman M N, et al. Prediction of CO₂ emissions using an artificial neural network: The case of the sugar industry[J]. Advanced Science Letters, 2015, 21(10): 3079-3083. DOI:10.1166/asl.2015.6488
[19]	Lu X, Ota K, Dong M, et al. Predicting transportation carbon emission with urban big data[J]. IEEE Transactions on Sustainable Computing, 2017, 2(4): 333-344. DOI:10.1109/TSUSC.2017.2728805
[20]	燕振刚, 李薇, Yan T H, 等. BP神经网络算法在河西绿洲玉米生产碳排放评估中的应用及算法有效性研究[J]. 中国生态农业学报, 2018, 26(8): 1100-1106. Yan Z G, Li W, Yan T H, et al. Application and validity of BP neural networks on prediction of carbon emissions from corn production in Hexi Oasis[J]. Chinese Journal of Eco-Agriculture, 2018, 26(8): 1100-1106.
[21]	Hamrani A, Akbarzadeh A, Madramootoo C A. Machine learning for predicting greenhouse gas emissions from agricultural soils[J]. Science of the Total Environment, 2020, 741. DOI:10.1016/j.scitotenv.2020.140338
[22]	Safa M, Nejat M, Nuthall P, et al. Predicting CO₂ emissions from farm inputs in wheat production using artificial neural networks and linear regression models[J]. International Journal of Advanced Computer Science and Applications, 2016, 7(9): 268-274.
[23]	Møller M F. A scaled conjugate gradient algorithm for fast supervised learning[J]. Neural networks, 1993, 6(4): 525-533. DOI:10.1016/S0893-6080(05)80056-5
[24]	刘晃, 车轩. 中国水产养殖二氧化碳排放量估算的初步研究[J]. 南方水产, 2010, 6(4): 77-80. Liu H, Che X. Elementary study on evaluation of CO₂ emissions from aquaculture in China[J]. South China Fisheries Science, 2010, 6(4): 77-80.
[25]	Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural networks, 2015, 61: 85-117. DOI:10.1016/j.neunet.2014.09.003
[26]	Wang L, Zeng Y, Chen T. Back propagation neural network with adaptive differential evolution algorithm for time series forecasting[J]. Expert Systems with Applications, 2015, 42(2): 855-863. DOI:10.1016/j.eswa.2014.08.018
[27]	Asaad R R, Ali R I. Back propagation neural network(BPNN) and sigmoid activation function in multi-layer networks[J]. Academic Journal of Nawroz University, 2019, 8(4): 216-221. DOI:10.25007/ajnu.v8n4a464
[28]	Zar J H. Spearman rank correlation[A]. Zar J H (Ed. . Encyclopedia of Biostatistics[M]. New York: John Wiley & Sons, Ltd, 2005.
[29]	Daoud J I. Multicollinearity and regression analysis[J]. Journal of Physics: Conference Series, 2017, 949(1). DOI:10.1088/1742-6596/949/1/012009
[30]	Liao D, Valliant R. Variance inflation factors in the analysis of complex survey data[J]. Survey Methodology, 2012, 38(1): 53-62.
[31]	Wang W X, Tang R C, Li C, et al. A BP neural network model optimized by Mind Evolutionary Algorithm for predicting the ocean wave heights[J]. Ocean Engineering, 2018, 162: 98-107. DOI:10.1016/j.oceaneng.2018.04.039
[32]	肖明君, 朱逸纯, 高雯媛, 等. 基于不同人工神经网络的水质预测方法对比[J]. 环境科学, 2024, 45(10): 5761-5767. Xiao M J, Zhu Y C, Gao W Y, et al. Comparative study of water quality prediction methods based on different artificial neural network[J]. Environmental Science, 2024, 45(10): 5761-5767.
[33]	Arlot S, Celisse A. A survey of cross-validation procedures for model selection[J]. Statistics Surveys, 2010, 4: 40-79.
[34]	Aksu G, Güzeller C O, Eser M T. The effect of the normalization method used in different sample sizes on the success of artificial neural network model[J]. International Journal of Assessment Tools in Education, 2019, 6(2): 170-192.
[35]	García S, Luengo J, Herrera F. Data preprocessing in data mining[M]. Cham, Switzerland: Springer, 2015: 19-38.
[36]	胡志瑞, 赵万伏, 宋垠先, 等. 基于改进麻雀搜索算法优化BP神经网络的土壤有机质空间分布预测[J]. 环境科学, 2024, 45(5): 2859-2870. Hu Z R, Zhao W F, Song Y X, et al. Prediction spatial distribution of soil organic matter based on improved BP neural network with optimized sparrow search algorithm[J]. Environmental Science, 2024, 45(5): 2859-2870.
[37]	Xue J K, Shen B. A novel swarm intelligence optimization approach: sparrow search algorithm[J]. Systems Science & Control Engineering, 2020, 8(1): 22-34.
[38]	Fan J H, Li Y, Wang T. An improved African vultures optimization algorithm based on tent chaotic mapping and time-varying mechanism[J]. PLoS One, 2021, 16(11). DOI:10.1371/journal.pone.0260725
[39]	Shang Y, Wah B W. Global optimization for neural network training[J]. Computer, 1996, 29(3): 45-54.
[40]	Zhang X, Xu Y T, Yu C Y, et al. Gaussian mutational chaotic fruit fly-built optimization and feature selection[J]. Expert Systems with Applications, 2020, 141. DOI:10.1016/j.eswa.2019.112976
[41]	Li D J, Li Y Y, Li J X, et al. Gesture recognition based on BP neural network improved by chaotic genetic algorithm[J]. International Journal of Automation and Computing, 2018, 15(3): 267-276.
[42]	姬超, 侯大伟, 谢丽, 等. 基于时间序列模型的饮用水源地重金属健康风险分析与预测[J]. 环境科学, 2021, 42(11): 5322-5332. Ji C, Hou D W, Xie L, et al. Analysis and prediction of health risk from heavy metals in drinking water sources based on time series model[J]. Environmental Science, 2021, 42(11): 5322-5332.
[43]	Draper N R, Smith H. Applied regression analysis[M]. Hoboken: John Wiley & Sons, 1998: 21-25.
[44]	沈花玉, 王兆霞, 高成耀, 等. BP神经网络隐含层单元数的确定[J]. 天津理工大学学报, 2008, 24(5): 13. Shen H Y, Wang Z X, Gao C Y, et al. Determining the number of BP neural network hidden layer units[J]. Journal of Tianjin University of Technology, 2008, 24(5): 13-15.
[45]	杨俊祺, 范晓军, 赵跃华, 等. 基于PSO-BP神经网络的山西省碳排放预测[J]. 环境工程技术学报, 2023, 13(6): 2016-2024. Yang J Q, Fan X J, Zhao Y H, et al. Prediction of carbon emissions in Shanxi Province based on PSO-BP neural network[J]. Journal of Environmental Engineering Technology, 2023, 13(6): 2016-2024.
[46]	Chai Z Y, Yan Y B, Simayi Z, et al. Carbon emissions index decomposition and carbon emissions prediction in Xinjiang from the perspective of population-related factors, based on the combination of STIRPAT model and neural network[J]. Environmental Science and Pollution Research, 2022, 29(21): 31781-31796.


环境科学 2024, Vol. 45 Issue (12): 6818-6827	PDF