基于机器学习和情景分析的我国焦化行业企业用地污染预测

引用本文

李凯, 郭广慧, 雷梅. 基于机器学习和情景分析的我国焦化行业企业用地污染预测[J]. 环境科学, 2023, 44(10): 5622-5629.

LI Kai, GUO Guang-hui, LEI Mei. Soil Pollution Prediction from Enterprise for Coking Industry in China Based on Machine Learning and Scenario Analysis[J]. Environmental Science, 2023, 44(10): 5622-5629.

基于机器学习和情景分析的我国焦化行业企业用地污染预测

李凯^1,2, 郭广慧¹, 雷梅¹

1. 中国科学院地理科学与资源研究所, 北京 100101;
2. 中国科学院生态环境研究中心城市与区域生态国家重点实验室, 北京 100085

收稿日期: 2022-11-23; 修订日期: 2022-12-23

基金项目: 国家重点研发计划项目(2018YFC1800104)

作者简介: 李凯(1989~), 男, 博士, 主要研究方向为场地污染风险识别和评估, E-mail: kaili@rcees.ac.cn

通信作者: 郭广慧, E-mail: guogh@igsnrr.ac.cn; 雷梅, E-mail: leim@igsnrr.ac.cn

摘要: 针对焦化行业企业用地缺乏时序连续监测数据而无法预测其污染趋势的问题，从企业特征、企业管理水平、污染物特征和自然地理要素等4个方面选取13个影响企业用地污染的指标，识别焦化行业企业用地污染主控因子，在此基础上构建基于机器学习的焦化行业企业用地污染预测模型，并在不同情境下，对2025年和2030年焦化行业企业用地污染状况进行预测.结果表明，生产经营活动时间、建厂时间、企业环境监管记录、土壤黏粒和年均风速是焦化行业企业用地污染的主控因子；相对于支持向量机模型、BP神经网络模型和决策树模型，逻辑斯蒂模型预测价值高、性能指标稳健，其预测精度受试者工作曲线面积为0.91，模型准确率和召回率分别为84%和88%.在乐观情境下，2025年和2030年焦化行业高概率污染地块数量分别为1599块和1695块；在悲观情境下，2025年和2030年焦化行业高概率污染地块数量分别为1671块和1715块.研究结果可为焦化行业企业用地的修复治理和生态环境的宏观决策提供科学依据.

关键词: 焦化行业模型性能污染预测机器学习情景分析

Soil Pollution Prediction from Enterprise for Coking Industry in China Based on Machine Learning and Scenario Analysis

LI Kai^1,2 , GUO Guang-hui¹ , LEI Mei¹

1. Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China;
2. State Key Laboratory of Urban and Regional Ecology, Research Centre for Eco-Environmental Sciences, Chinese Academy of Sciences, Beijing 100085, China

Abstract: Owing to the lack of sequential monitoring data of soil pollutants in coking industry enterprises, it is hard to accurately predict their soil pollution. To predict the trend of soil pollution of coking industry enterprises in the future, a prediction model should be developed using machine learning based on the influencing factors. A total of 13 potential factors were selected from the enterprise characteristics, enterprise management level, pollutant characteristics, and natural factors, and the main controlling factors were identified. On this basis, the prediction models were developed using a support vector machine, BP neural network model, decision tree model, and logistic model, and then the pollution situation of enterprises in the coking industry in 2025 and 2030 was predicted under different scenarios. The results indicated that time of service for the enterprise, time of establishment for the enterprise, the environmental illegal record, soil clay, and annual wind speed were the major controlling factors of soil pollution of enterprises in the coking industry. Compared with the support vector machine, BP neural network model, and decision tree model, the logistic model had a robust performance index, with an area under the receiver operating characteristic curve of 0.91. The accurate rate and recall rate were 84% and 88%, respectively. Under the optimistic scenario, there will be 1599 and 1695 plots with a high probability of pollution in the coking industry in 2025 and 2030, respectively; under the pessimistic scenario, there will be 1671 and 1715 plots with a high probability of pollution in the coking industry in 2025 and 2030, respectively. The results of this study provided a scientific basis for soil environmental remediation and eco-environmental strategy development for the coking industry.

Key words: coking industry model performance pollution prediction machine learning scenario analysis

自20世纪90年代以来, 我国焦化行业迅猛发展, 2021年焦炭产量高达4.71亿t^[1].焦化行业生产工艺复杂, 污染物排放量大, 对焦化企业内部和外部生态环境造成严重威胁, 逐渐受到公众和社会的广泛关注^[2~4].掌握未来一段时间焦化行业企业用地污染状况的变化趋势, 以便及时采取有效措施管控焦化企业用地污染导致的周边生态环境和人体健康的风险, 对于企业用地环境风险管控具有重要的现实意义.

关于企业用地污染时空变化特征的研究主要集中在多期采样数据的对比分析, 如D'Emilio等^[5]调查了1993~2004年间意大利某工业园区土壤重金属的年际变化; Salmanighabeshi等^[6]通过连续5 a长期定位监测方法评价了智利中部工业园土壤污染的累积风险; 柯海玲等^[7]利用多时段监测资料比较了小秦岭金矿区土壤重金属累积的时空变异趋势.这些传统的统计分析方法难以处理企业用地污染影响因子之间的共线性问题, 也未考虑企业用地污染的源-汇作用关系.全国焦化行业企业用地污染预测作为一个社会和环境交叉的综合问题, 受限于: ①缺乏时序连续监测数据, 无法预测未来变化趋势; ②所涉及的影响因子数量众多, 容易造成维度混杂难题.因此, 迫切需要引入新的理论依据和数据模型来预测全国焦化企业用地污染状况.

近年来, 基于机器学习的建模方法逐渐应用到企业用地污染的预测中, Zhang等^[8]使用机器学习方法识别了中国长江三角洲26万家潜在污染企业; 黄国鑫等^[9]借助大数据平台, 利用改进的朴素贝叶斯方法对企业兴趣点数据进行污染企业识别; 吴堑虹等^[10]建立了基于支持向量机(SVM)的土壤环境质量演变预测模型; Papritz等^[11]利用逻辑斯蒂(LR)模型精准预测了瑞士某城镇土壤污染风险.由此可见, 机器学习利用现有数据获取知识, 并对数据信息进行判别预测, 具有计算能力强、可获取性好和易操作等优点, 为企业用地污染预测提供了一种新的手段^{[9, 12]}.另外, 情景预测根据历史数据和先验知识, 基于不同情景假设对企业用地污染未来发展趋势进行预测.因此, 本研究利用机器学习的方法, 根据企业用地污染主控因子建立污染预测模型, 并在不同情景下对焦化企业用地污染状况进行预测, 为企业用地土壤污染防治和政策调整工作提供科技支撑.

鉴于此, 本研究通过公开途径获取焦化行业企业用地数据、污染地块数据及影响企业用地污染的影响因子数据, 识别企业用地污染主控因子, 采用机器学习构建焦化行业企业用地污染预测模型, 在乐观和悲观情景下分别预测2025年和2030年全国焦化行业企业用地污染状况, 同时利用核密度分析方法探索焦化行业企业用地高概率污染热区分布, 以期为我国焦化行业企业用地的环境风险管控提供理论基础和实践指导.

1 材料与方法 1.1 数据来源

全国焦化行业企业用地和污染地块数据通过全国排污许可证管理信息平台^[13]、中国工业和信息化部网站^[14]、绿网公益环境数据中心^[15]及蔚蓝公众环境研究中心^[16]等进行网络爬取和资料收集, 共获得企业用地数据2 433个, 污染地块数据107个.以数据的可获取性和指标表达的唯一性为原则, 从企业特征、企业管理水平、污染物特征和自然地理要素等4个方面选定影响企业用地污染的13个指标(表 1).企业特征如经营时间(X₁)、企业规模(X₂)、建厂时间(X₃)和不透水面覆盖情况(X₄)直接影响企业用地污染的形成; 企业管理水平利用企业环境监管记录(X₅)来表征, 环境违法次数多, 则污染形成的概率越高; 污染物特征如迁移特性(X₆)、挥发性(X₇)和企业是否含有持久性有机污染物(X₈)影响了企业污染形成的可能; 自然地理要素如土壤黏粒(X₉)、土壤侵蚀强度(X₁₀)、年均降水量(X₁₁)、年均气温(X₁₂)和年均风速(X₁₃)则通过污染传播途径来反映企业受污染的可能.由此可见, 利用机器学习的方法在数据源方面是多元的, 也充分考虑了企业用地污染形成的源-汇关系^[17].

表 1 中国焦化行业企业用地污染影响因子的类别和指标 Table 1 Categories and indeices of soil pollution for coking industry in China

1.2 研究方法 1.2.1 主控因子筛选

运用T检验和卡方检验, 分别对影响因子X中的连续变量和分类变量(表 1)进行检验, 确定这些指标与企业用地是否污染(Y)的关联性, 剔除对预测结果影响不显著(P>0.05)的因子; 另外, 利用方差膨胀因子(VIF)对影响因子进行多重共线性诊断, 最终识别影响企业用地污染的主控因子, VIF的计算见公式(1):

(1)

式中, r_i²表示第i个影响因子与企业用地是否污染(Y)的决定系数.

1.2.2 预测模型构建

大数据背景下机器学习等数据挖掘方法成为模型构建的主流方法^[18~20].本研究在识别焦化行业污染的主控因子的基础上来预测企业用地污染趋势, 以模型取得最佳评价指标时的概率值为阈值, 根据阈值将企业用地分为高概率污染地块和低概率污染地块.具体步骤如下.

1.2.2.1 主控因子归一化处理

由于输入变量单位不同且数量级存在差异, 这将造成数据量级对小数量级数据的淹灭, 因此利用公式(2)对数据进行归一化处理.

(2)

式中, X表示归一化后的数据, x_i表示变量i, Min(x_i)表示变量x_i的最小值, Max(x_i)表示变量x_i的最大值.

1.2.2.2 分类模型

本研究以80%的企业用地污染地块为训练样本, 剩余部分为验证样本, 共计86份训练样本, 31份验证样本.以焦化行业企业用地污染的主控因子(X)和焦化行业用地污染状况(Y)分别作为输入变量和输出变量, 分别利用LR模型、SVM模型、BP神经网络(BP)和决策树(DT)模型构建企业用地污染预测模型.

(1) LR模型使用LR模型中梯度下降算法获得最小损失函数, 使用“fminunc”函数进行梯度下学习率的尝试和设置, 找到逼近输入变量和输出变量关系的最优函数值.LR模型见公式(3)^[21]:

(3)

式中, P_i表示企业用地i污染地块的概率[0, 1], X_ij表示企业用地i的主控因素j, β_j表示主控因素j的回归系数, m表示主控因子数量, β₀表示截距.

(2) SVM模型 SVM模型通过建立一个分类超平面作为决策曲面, 将回归问题转为二次规划问题.通过试算法来优化模型中惩罚参数及核函数参数^[22], 能有效解决小样本、高维数和非线性的问题.

(3) BP模型 BP神经网络是一种典型的多层前馈神经网络, 包含输入层、隐含层和输出层^[23].选取正切函数Tansing作为隐含层的传递函数, 线性函数Purelin作为输出层的传递函数, 共轭梯度函数Trainscg作为训练函数对样本进行训练.迭代次数设置为10 000次, 通过反复迭代, 最终确定权重和阈值, 建立预测模型.

(4) DT模型 DT模型是一种自上而下递归的树状分类方法^[24].本研究采用CART算法进行模拟预测, 将研究样品通过某些特征分成相对同质的子样本, 每个子样本内部因变量的取值一致, 直至满足停止条件.

1.2.3 模型准确性评价

采用5折交叉验证法(图 1)来验证模型性能, 降低模型对数据划分的敏感性, 防止过拟合情况^[23].模型结果采用混淆矩阵来表示, TP表示真阳性, 即预测为正确的正例样本数据量; TN表示真阴性, 即预测为正确的负例样本量, FP表示假阳性, 即实际负例预测为正确的,

图 1 5折交叉验证法验证模型性能示意 Fig. 1 Schematic diagram of performance of the model based on 5-fold cross validation method

FN表示假阴性, 即实际正例预测为负例.基于TP、TN、FP和FN, 通过公式(4)和公式(5)来计算模型性能指标准确率(ACC)和召回率(REC):

(4)

(5)

另外, 利用受试者工作曲线(ROC)下的面积(AUC)来评价模型^[25], AUC越大, 模型越可靠.一般认为AUC>0.7, 说明模型预测越稳定.

1.2.4 情景分析

近年来, 我国政府加强了对企业的监督管理, 规范企业排放行为.因此, 基于我国环境政策调控设定两种假设, 利用构建的预测模型预测未来2025年和2030年焦化行业企业用地污染状况. ①乐观情景: 在企业违法记录次数不再新增的情况下进行预测; ②悲观情景: 在企业环境违法记录次数增加的情况下进行预测.

1.3 数据分析

采用Python 3.11构建焦化行业企业用地污染预测模型, 采用ArcGIS 12.0软件进行核密度分析, 并绘制全国焦化行业企业用地热区分布图.

2 结果与分析 2.1 焦化行业企业用地污染的主控因子

企业用地污染受到多种因素的共同作用影响, 其作用机制较为复杂, 为去除影响作用较弱的因子, 提高模型运行效率, 利用机器学习对企业用地污染状态预测之前, 需要考虑影响因子之间的相互作用^[26].本研究分别利用T检验和卡方检验对表 1中的连续变量和分类变量与企业污染进行检验, 结果见图 2.从图 2(a)可知, 生产经营活动时间极显著地影响了焦化企业用地污染的形成(P < 0.01), 环境监管记录次数和年均风速显著影响了焦化企业用地污染的形成(P < 0.05), 从图 2(b)可知, 建厂时间极显著地影响了焦化企业用地污染的形成(P < 0.01), 这说明生产经营活动时间、建厂时间、环境监管记录次数、土壤黏粒和年均风速是共同影响企业用地污染的形成.

(a)连续变量T检验, (b) 分类变量卡方检验; *表示显著性影响P < 0.05, **表示极显著性影响P < 0.01 图 2 焦化行业企业用地污染形成影响因素的T检验和卡方检验 Fig. 2 The T-test and chi-square test of factors influencing the soil pollution of coking industry enterprises

焦化企业用地污染的影响因素多重共线性诊断显示生产经营活动时间、建厂时间、环境监管记录次数、年均风速和土壤黏粒的方差膨胀因子分别为3.16、2.85、1.32、1.09和1.08.如果两个或多个影响因素高度相关, 其方差膨胀因子(VIF)>10, 说明变量之间存在共线性, 则需要去除一些变量.由此可知, 焦化企业用地污染形成影响因素的VIF值均 < 10, 说明特征变量之间不存在关联性^[21].值得注意的是, 生产经营时间和建厂时间的VIF值相对偏高, 但尚未超过10, 其主要原因是企业用地地块大部分是关闭企业, 不同时期关闭的企业生产经营时间与建厂时间不一定存在对应关系.因此, 生产经营时间、建厂时间、环境监管记录次数和土壤黏粒是焦化行业用地污染的主控因子.

2.2 预测模型构建和评价

以80%的污染地块样本作为训练集, 重复训练LR、SVM、BP和DT模型1 000次.5折交叉验证后LR、SVM、BP和DT模型的AUC、ACC和REC见表 2.从表中可知, 不同模型的分类性能存在一定差异, LR模型训练的AUC值为0.91(>0.7), 优于SVM(0.88)、BP(0.87)和DT(0.85), 说明LR模型的预测价值高.在预测模型性能评价中, 相对于ACC, REC更能反映模型的性能价值, 因为误判的结果可能导致更大的成本^[27].因此, 选择LR模型进行企业用地污染状况进行预测.

表 2 不同预测模型性能评估结果 Table 2 Performance evaluation results of different prediction models

2.3 情景预测

利用训练好的LR模型, 在不同情景下分别对2025年和2030年我国焦化行业企业用地污染状况进行模拟预测(表 3).从表 3中可知, 在悲观情境下, 2025年和2030年高概率污染地块数量分别为1 671块和1 715块, 涨幅2.63%; 在乐观情境下, 2025年和2030年高概率污染地块数量分别为1 599块和1 695块, 涨幅6.00%.

表 3 不同情景下焦化行业企业污染预测 Table 3 Pollution prediction of enterprises in the coking industry under different scenarios

图 3展示了不同情景下2025年和2030年我国焦化行业高概率污染地块的热区分布, 直观刻画了焦化行业高概率地块的集聚和分布状态.根据核密度数值分布, 划分为低聚集(< 0.53×10^-4块·km^-2)、中聚集(0.54×10^-4~3.74×10^-4块·km^-2)和高聚集(3.75×10^-4~136.90×10^-4块·km^-2).从图 3可以看出, 2025年和2030年焦化行业企业污染地块热区分布基本保持一致, 高概率污染地块高度聚集区主要分布于山西、陕西北部、云南-贵州交界处、内蒙古鄂尔多斯地区、山东、四川-重庆交界、新疆昌吉、黑龙江鸡西等地; 中度聚集区则分布在辽宁、吉林、湖南、江苏等地.尤其是山西和陕西北部地区高聚集区在空间上连接成片.

不同颜色表示不同的核密度值, 不同形状表示聚集区的大小图 3 不同情境下2025年和2030年焦化行业企业用地污染热区分布 Fig. 3 Hot-spots of soil pollution of enterprises in the coking industriy in 2025 and 2030 under different scenarios

3 讨论 3.1 焦化行业企业用地污染预测模型特点

机器学习算法凭借其计算速度快、计算准确度高和处理数据类型多的特点^{[9, 19, 28]}, 避免了传统统计方法中对数据类型和数据线性关系要求的特点.本研究建立的LR预测模型, 在不考虑复杂土壤污染过程和具体污染物含量的情况下, 结合焦化行业企业用地污染源-汇关系, 实现了利用企业用地影响因素对未来焦化行业企业用地污染状况的预测, 弥补了企业用地连续监测数据缺乏无法预测污染状况的短板.

在防治污染工作中, 要综合考虑自然环境因素和人为影响因素对污染的影响作用^[29].因此, 本研究不仅考虑焦化行业企业特征和企业管理水平等人为影响因素, 而且考虑了土壤性质、年均温度和年均降雨等自然影响因素(表 1).生产经营活动、企业环境监管记录次数、建厂时间和年均风速与焦化企业用地污染状况密切相关, 这也突显了焦化行业企业用地污染地块是多种因素共同作用的结果.这可能是因为生产经营活动过程中, 污染物通过跑、冒、滴和漏等方式在地块内积累, 导致地块污染概率增加^[30].企业环境监管记录直接反映了企业环境管理水平, 废水、废气和废渣的违规排放和环境事故的发生对焦化企业用地污染的形成具有直接的影响.另外, 焦化行业高温热源是造成企业用地污染的主要原因, 如焦化行业企业内煤气燃烧及煤的高温干馏均会产生废气, 在沉降作用下造成污染^[31], 因此风速在一定程度上影响了焦化企业用地污染的形成.不同时期焦化企业生产工艺和管理水平存在较大差异, 建厂时间越早, 其生产工艺和环境措施越落后, 企业用地受到污染的可能越大^[32].

3.2 焦化行业企业用地污染预测模型的普适性

本研究构建了基于焦化行业企业用地污染主控因子的LR预测模型.在模型参数调整中, 往往通过调整阈值, 达到预测模型ACC和REC之间的平衡, 本研究中LR模型的ACC和REC分别高达84%和88%, 说明预测模型准确可靠, 稳健性强, 误判现象较低.SVM模型则存在误判的现象, 不能满足现实需求, 这与王鑫等^[28]研究的结果一致.另外, LR模型的AUC值高于其他SVM、BP和DT模型, 具有很好的预测价值.这可能与BP神经网络对数据样本要求严格有关, 小样本的BP神经网络预测模型结构稳定性和泛化能力较差^{[28, 33, 34]}.有别于传统的回归模型^{[35, 36]}, LR模型在少量样本的基础上, 利用其梯度下降算法和处理非线性函数的能力, 更好地处理了企业特征、企业管理水平、污染物特征和自然地理要素与企业污染之间的关系, 确定了企业用地主控因子和污染之间的关系, 并结合不同情景预测未来焦化行业企业用地高概率污染地块.但值得注意的是, 在悲观情景和乐观情境下, 焦化行业企业用地污染地块的预测结果差别并不大, 其主要原因是不同情境预测结果的差异主要由环境监管次数的差异引起.然而主控因子对预测结果的解释力依次为: 生产经营活动时间>建厂时间>环境监管记录次数>年均风速>土壤黏粒.因此, 环境监管次数的差异对预测结果的影响较小, 导致悲观情景和乐观情境下焦化行业企业用地的预测结果差别不大.研究方法为其他行业的企业用地污染地块的预测和环境影响评价提供了参考, 有利于增强全国性企业用地土壤污染风险管控的能力.

3.3 焦化行业企业用地污染热区分布

全国规模以上煤炭企业数量达到4 505家, 内蒙古、山西、陕西、山东、新疆、贵州、河南和安徽原煤产量占全国的88.1%, 而山西、陕西、内蒙古和新疆原煤占全国74.3%.刘振坤等^[37]分析了我国焦化场地近20年时空演变格局, 发现早在2005年, 华北和西南云贵地区就形成了焦化企业用地的高聚集区, 到2020年企业用地高聚集区依然出现在华北地区、华南中部、东北黑龙江和西南的云贵地区, 西北甘肃、青海和新疆形成新的聚集区.由此可见, 历史悠久的企业用地高度密集地块容易成为企业用地高概率污染地块.另外, 王耀锋等^[3]通过数据资料收集也发现, 山西和河北焦化场地生态风险较高, 也是未来高概率污染地块形成的区域.需要指出的是本研究使用的预测模型是基于当前土壤污染防治手段和政策下的焦化企业用地污染状况变化趋势构建的, 随着未来我国修复技术手段的改进及环保技术手段的加强, 可认为预测结果是企业用地污染的上限.因此, 在国家层面上, 要开展实时监测, 密切关注高密集区污染动态变化, 以期及时制定焦化行业生态环境保护和治理的空管决策及焦化行业发展规划.

4 结论

(1) 生产经营活动时间、建厂时间、企业环境监管记录次数、土壤性质和年均风速是焦化行业企业用地污染的主控因子.

(2) 5折交叉验证显示LR预测模型ACC为84%, REC为88%, ROC曲线的AUC值为0.91, 是一种有效的焦化行业企业用地预测模型.

(3) 在悲观情境下, 2025年和2030年焦化行业高概率污染地块分别为1 671块和1 715块; 乐观情境下, 2025年和2030年焦化行业高概率污染地块分别为1 599块和1 695块.

(4) 两种情境模拟下, 2030年焦化行业高概率污染地块热区分布一致, 主要分布在山西、陕西北部、云南-贵州交界处、内蒙古鄂尔多斯、新疆昌吉和黑龙江鸡西地区.

参考文献

[1]	国家统计局. 中国统计年鉴-2021[M]. 北京: 中国统计出版社, 2021.
[2]	楼春, 钟茜. 焦化厂场地土壤污染分布特征分析[J]. 中国资源综合利用, 2019, 37(4): 177-179. Lou C, Zhong X. Analysis on distribution characteristics of soil pollution in coking plant site[J]. China Resources Comprehensive Utilization, 2019, 37(4): 177-179. DOI:10.3969/j.issn.1008-9500.2019.04.052
[3]	王耀锋, 何连生, 姜登岭, 等. 我国焦化场地多环芳烃和重金属分布情况及生态风险评价[J]. 环境科学, 2021, 42(12): 5938-5948. Wang Y F, He L S, Jiang D L, et al. Distribution and ecological risk assessment of polycyclic aromatic hydrocarbons and heavy metals in coking sites in China[J]. Environmental Science, 2021, 42(12): 5938-5948. DOI:10.13227/j.hjkx.202105239
[4]	顾高铨, 万小铭, 曾伟斌, 等. 焦化场地内外土壤重金属空间分布及驱动因子差异分析[J]. 环境科学, 2021, 42(3): 1081-1092. Gu G Q, Wan X M, Zeng W B, et al. Analysis of the spatial distribution of heavy metals in soil from a coking plant and its driving factors[J]. Environmental Science, 2021, 42(3): 1081-1092. DOI:10.13227/j.hjkx.202008218
[5]	D'Emilio M, Caggiano R, MacChiato M, et al. Soil heavy metal contamination in an industrial area: analysis of the data collected during a decade[J]. Environmental Monitoring and Assessment, 2013, 185(7): 5951-5964. DOI:10.1007/s10661-012-2997-y
[6]	Salmanighabeshi S, Palomo-Marín M R, Bernalte E, et al. Long-term assessment of ecological risk from deposition of elemental pollutants in the vicinity of the industrial area of Puchuncaví-Ventanas, central Chile[J]. Science of the Total Environment, 2015, 527-528: 335-343. DOI:10.1016/j.scitotenv.2015.05.010
[7]	柯海玲, 李贤, 徐友宁, 等. 小秦岭金矿带农田土壤重金属的时空变异趋势及其意义[J]. 地质通报, 2014, 33(8): 1196-1204. Ke H L, Li X, Xu Y N, et al. Temporal and spatial variation of heavy metal contamination of farmland soil along the Xiaoqinling gold ore belt and its significance[J]. Geological Bulletin of China, 2014, 33(8): 1196-1204. DOI:10.3969/j.issn.1671-2552.2014.08.014
[8]	Zhang J, Ni S Q, Wu W J, et al. Evaluating the effectiveness of the pollutant discharge permit program in China: a case study of the Nenjiang River Basin[J]. Journal of Environmental Management, 2019, 251. DOI:10.1016/j.jenvman.2019.109501
[9]	黄国鑫, 朱守信, 王夏晖, 等. 基于自然语言处理和机器学习的疑似土壤污染企业识别[J]. 环境工程学报, 2020, 14(11): 3234-3242. Huang G X, Zhu S X, Wang X H, et al. Natural language processing and machine learning-based suspected soil contamination enterprise identification[J]. Chinese Journal of Environmental Engineering, 2020, 14(11): 3234-3242. DOI:10.12030/j.cjee.202007079
[10]	吴堑虹, 王关金, 戴塔根, 等. 土壤环境质量支持向量机预测模型初探—以湖南长沙、株洲、湘潭地区为例[J]. 地学前缘, 2008, 15(5): 97-102. Wu Q H, Wang G J, Dai T G, et al. A preliminary study of soil pollution assessment model based on SVM—a case example from Changsha, Zhuzhou and Xiangtan districts, Hunan Province[J]. Earth Science Frontiers, 2008, 15(5): 97-102. DOI:10.3321/j.issn:1005-2321.2008.05.011
[11]	Papritz A, Reichard P U. Modelling the risk of Pb and PAH intervention value exceedance in allotment soils by robust logistic regression[J]. Environmental Pollution, 2009, 157(7): 2019-2022. DOI:10.1016/j.envpol.2009.02.032
[12]	Fathizad H, Ardakani M A H, Heung B, et al. Spatio-temporal dynamic of soil quality in the central Iranian desert modeled with machine learning and digital soil assessment techniques[J]. Ecological Indicators, 2020, 118. DOI:10.1016/j.ecolind.2020.106736
[13]	全国排污许可证管理信息平台, 公开端. 许可信息公开[EB/OL]. http://permit.mee.gov.cn/perxxgkinfo/syssb/xxgk/xxgk!sqqlist.action, 2019-12-03.
[14]	中华人民共和国工业和信息化部. 工信数据[EB/OL]. https://www.miit.gov.cn/gxsj/index.html, 2020-12-06.
[15]	绿网公益环境数据中心. 企业环境数据[EB/OL]. http://www.lvwang.org.cn/search/#/, 2020-12-08.
[16]	蔚蓝公众环境研究中心. 环境监管记录[EB/OL]. https://www.ipe.org.cn/IndustryRecord/Regulatory.html, 2020-12-12.
[17]	Jia X L, Hu B F, Marchant B P, et al. A methodological framework for identifying potential sources of soil heavy metal pollution based on machine learning: a case study in the Yangtze Delta, China[J]. Environmental Pollution, 2019, 250: 601-609. DOI:10.1016/j.envpol.2019.04.047
[18]	Ban M J, Lee D H, Shin S W, et al. Identifying the acute toxicity of contaminated sediments using machine learning models[J]. Environmental Pollution, 2022, 312. DOI:10.1016/j.envpol.2022.120086
[19]	Li X L, Yang Y, Yang J X, et al. Rapid diagnosis of heavy metal pollution in lake sediments based on environmental magnetism and machine learning[J]. Journal of Hazardous Materials, 2021, 416. DOI:10.1016/j.jhazmat.2021.126163
[20]	Wang S, Peng H, Liang S K. Prediction of estuarine water quality using interpretable machine learning approach[J]. Journal of Hydrology, 2022, 605. DOI:10.1016/j.jhydrol.2021.127320
[21]	张子健, 李湘凌, 卢新哲, 等. 基于二分类Logistic回归模型土壤Cu污染风险预测[J]. 土壤通报, 2021, 52(6): 1418-1426. Zhang Z J, Li X L, Lu X Z, et al. Predicting the pollution risk of Cu in soil using binary Logistic regression[J]. Chinese Journal of Soil Science, 2021, 52(6): 1418-1426.
[22]	Joachims T. Making large-Scale SVM learning practical[A]. In: Scholkopf B, Burges C, Smola A (Eds. ). Advances in Kernel Methods Support Vector Learning[C]. Cambridge: MIT Press, 1999. 169-184.
[23]	Luque A, Carrasco A, Martín A, et al. The impact of class imbalance in classification performance metrics based on the binary confusion matrix[J]. Pattern Recognition, 2019, 91: 216-231. DOI:10.1016/j.patcog.2019.02.023
[24]	Breiman L, Friedman J B, Stone C J. Classification and regression trees[M]. Boca Raton: Chapman & Hall/CRC, 1984.
[25]	John K, Kebonye N M, Agyeman P C, et al. Comparison of cubist models for soil organic carbon prediction via portable XRF measured data[J]. Environmental Monitoring and Assessment, 2021, 193(4). DOI:10.1007/s10661-021-08946-x
[26]	任加国, 龚克, 马福俊, 等. 基于BP神经网络的污染场地土壤重金属和PAHs含量预测[J]. 环境科学研究, 2021, 34(9): 2237-2247. Ren J G, Gong K, Ma F J, et al. Prediction of heavy metal and PAHs content in polluted soil based on BP neural network[J]. Research of Environmental Sciences, 2021, 34(9): 2237-2247.
[27]	Powers D M W. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness & correlation[J]. Journal of Machine Learning Technologies, 2011, 2(1): 37-63.
[28]	王鑫, 于东升, 马利霞, 等. 基于万维网大数据的农药场地土壤污染快速预测方法研究[J]. 土壤学报, 2022, 59(3): 708-721. Wang X, Yu D S, Ma L X, et al. Research on the method of rapid prediction of soil pollution in pesticide polluted-sites based on network big data[J]. Acta Pedologica Sinica, 2022, 59(3): 708-721.
[29]	吴丰昌, 符志友. 污染防治工作应充分考虑自然因素的影响[N]. 中国环境报, 2022-05-09(03).
[30]	Wang Q, Hao D M, Wang F, et al. Development of a new framework to estimate the environmental risk of heavy metal(loid)s focusing on the spatial heterogeneity of the industrial layout[J]. Environment International, 2021, 147. DOI:10.1016/j.envint.2020.106315
[31]	Duan Y H, Shen G F, Tao S, et al. Characteristics of polycyclic aromatic hydrocarbons in agricultural soils at a typical coke production base in Shanxi, China[J]. Chemosphere, 2015, 127: 64-69.
[32]	Li X N, Jiao W T, Xiao R B, et al. Contaminated sites in China: countermeasures of provincial governments[J]. Journal of Cleaner Production, 2017, 147: 485-496.
[33]	He Z B, Wen X H, Liu H, et al. A comparative study of artificial neural network, adaptive neuro fuzzy inference system and support vector machine for forecasting river flow in the semiarid mountain region[J]. Journal of Hydrology, 2014, 509: 379-386.
[34]	马赛炎, 魏海英, 马瑾, 等. 基于BP神经网络预测北京市加油站周边土壤多环芳烃含量[J]. 环境科学, 2024, 44(4): 2215-2222. Ma S Y, Wei H Y, Ma J, et al. Prediction of PAHs content in soil around gas stations in Beijing based on BP neural network[J]. Environmental Science, 2024, 44(4): 2215-2222.
[35]	Zhang S, Li C, Peng J Y, et al. GIS-based soil planar slide susceptibility mapping using logistic regression and neural networks: A typical red mudstone area in southwest China[J]. Geomatics, Natural Hazards and Risk, 2021, 12(1): 852-879.
[36]	Razanamahandry L C, Andrianisa H A, Karoui H, et al. Prediction model for cyanide soil pollution in artisanal gold mining area by using logistic regression[J]. CATENA, 2018, 162: 40-50.
[37]	刘振坤, 吴华勇, 刘峰, 等. 中国焦化场地近20年时空演变特征及驱动因素[J]. 生态环境学报, 2021, 30(3): 604-613. Liu Z K, Wu H Y, Liu F, et al. Spatio-temporal evolution characteristics and its driving factors of national coking sites in the last 20 years[J]. Ecology and Environmental Sciences, 2021, 30(3): 604-613.


环境科学 2023, Vol. 44 Issue (10): 5622-5629	PDF