环境科学  2025, Vol. 46 Issue (1): 216-226   PDF    
基于光谱和色谱特征数据融合的化工园区地表水污染源识别技术
赵远1, 殷新育1,2, 刘小凤3, 金梦2, 兰亚琼2, 刘锐2     
1. 常州大学环境科学与工程学院, 常州 213164;
2. 浙江清华长三角研究院生态环境研究所, 浙江省水质科学与技术重点实验室, 嘉兴 314006;
3. 中环清科(嘉兴)环境技术研究院有限公司, 嘉兴 314006
摘要: 化工园区内工业企业多, 且各企业排水组分复杂, 很多企业之间排水组成具有相似性.因此, 当园区内地表水发生污染时, 快速识别污染源的难度很大.为此, 以嘉兴市某国家级化工园区为研究对象, 收集该园区内7家重点企业10个批次的排水样本, 并对其进行三维荧光光谱(EEMS)和气相色谱-质谱(GC-MS)分析.利用平行因子法从同一企业不同批次排水的EEMS图谱中提取共有组分, 并构建EEMS特征数据矩阵.同时, 从企业排水的GC-MS数据中筛选出具有高检出率或能够有效区分不同企业排水的特征物质, 并构建GC-MS特征数据矩阵.比较研究基于不同数据矩阵以及不同模型的污染源识别效果.结果表明, 无论是基于EEMS原始数据矩阵、EEMS特征数据矩阵还是GC-MS特征数据矩阵, BP神经网络模型对污染源的识别准确率都不高, 分别仅为71.43%、76.19%和71.43%, 略高于支持向量机模型(76.19%、76.19%和57.14%).当使用EEMS与GC-MS特征数据融合矩阵时, 污染源识别性能显著提升.支持向量机模型对7家企业排水的识别准确率、宏精确率、宏召回率以及宏调和平均值分别为95.24%、96.43%、95.24%和95.10%, 而BP神经网络模型的识别性能更佳, 4项指标均接近100%.研究结果为化工园区等地表水污染源识别提供了一种有效方法.
关键词: 化工园区      三维荧光光谱(EEMS)      气相色谱-质谱(GC-MS)      BP神经网络(BPNN)      支持向量机(SVM)      污染源识别     
Tracing the Surface Water Pollution in a Chemical Park Based on the Fusion of Spectral and Chromatographic Characteristic Data
ZHAO Yuan1 , YIN Xin-yu1,2 , LIU Xiao-feng3 , JIN Meng2 , LAN Ya-qiong2 , LIU Rui2     
1. School of Environmental Science and Engineering, Changzhou University, Changzhou 213164, China;
2. Zhejiang Provincial Key Laboratory of Water Science and Technology, Department of Environment in Yangtze Delta Region Institute of Tsinghua University of Zhejiang, Jiaxing 314006, China;
3. Zhonghuan Qingke (Jiaxing) Environmental Technology Research Institute Co., Ltd., Jiaxing 314006, China
Abstract: Identification of the pollution source of surface water in a chemical park was difficult because many industrial enterprises with complex wastewater components and similar characteristics are located there. Therefore, a national-level chemical park in Jiaxing City was studied, and wastewater samples from ten batches of seven key enterprises in the park were collected and analyzed using 3D excitation emission matrix spectrometry (EEMS) and gas chromatography-mass spectrometry (GC-MS). Parallel factor analysis was used to extract common components of EEMS spectra from different batches of drainage in the same enterprise to construct an EEMS characteristic data matrix. Furthermore, specific substances with high detection rates or that could effectively distinguish other enterprise drainage were screened out from the GC-MS data to construct a GC-MS characteristic data matrix. Pollution source identification was attempted with different models based on different data matrices. The results showed that regardless of whether being based on the EEMS original data matrix, the EEMS characteristic data matrix, or the GC-MS characteristic data matrix, the identification accuracy of the BP neural network model was not high, only 71.43%, 76.19%, and 71.43%, respectively, which was slightly higher than that of the support vector machine model (76.19%, 76.19%, and 57.14%). However, when the EEMS and GC-MS characteristic data fusion matrix were used, the pollution source identification performance was significantly improved. The identification accuracy, macro precision, macro recall, and macro harmonic mean of the support vector machine model for the wastewater of the seven enterprises were 95.24%, 96.43%, 95.24%, and 95.10%, respectively, while the performance of the BP neural network model was better, with all four indicators close to 100%. The study provides an effective method for identifying surface water pollution sources in chemical parks.
Key words: chemical park      3D excitation emission matrix spectrometry(EEMS)      gas chromatography-mass spectrometry(GC-MS)      back propagation neural network(BPNN)      support vector machine(SVM)      pollution source identification     

工业排水中有毒有害污染物多, 进入环境水体后容易对生态系统造成不良影响[1, 2].因此, 当发现工业园区内地表水水质异常时, 为防止环境危害扩大, 应尽快开展污染源的快速识别和干预.目前, 地表水污染源识别的常用方法有污染源现场排查[3]、特征微生物分析[4, 5]、特征化学组分分析[6, 7]和污染物指纹图谱技术[8, 9]等.气相色谱-质谱(gas chromatography-mass spectrometry, GC-MS)技术最为常用, 可以高效检测复杂样品中的挥发和半挥发组分[10], 结合吹扫捕集等操作便捷的预处理技术, 在水体污染源筛查方面取得较好应用效果[11].

三维荧光光谱(3D excitation emission matrix spectrometry, EEMS)技术是一种快速、简便、低成本且无废物的水质分析方法[12], 具有广阔的应用前景[13].该技术可以揭示水样中不同荧光物质的特征指纹[14], 进而实现企业废水的分类识别和地表水污染源的快速筛查[15, 16].然而, 有研究发现, 仅使用EEMS识别化工园区中相似企业的废水时, 其识别效果并不理想[17].这是因为相似企业的废水成分具有高度相似性, EEMS重叠度高, 区分度不够明显.此外, 企业生产过程中产品结构、生产运行参数以及污水处理设施运行等因素的变化, 会导致企业排放的废水在不同批次之间出现水质差异, 从而影响识别效果.需要注意的是, EEMS只能反映废水中的荧光物质信息, 而不能反映非荧光物质信息, 这可能会导致一些重要的特征被遗漏.将EEMS和GC-MS技术融合可以弥补EEMS重叠和不能反映非荧光物质信息的缺点, 提高污染源识别准确率.

数据融合是一种利用不同来源的数据从多尺度对样本进行全面评估, 从而提升模型识别稳定性和准确率的方法.数据融合常用的方法包括数据级融合和特征级融合[18, 19], 有研究表明数据融合可以有效提高小样本识别的准确率[20].然而, 将原始数据直接融合的数据级融合包含冗余信息, 对模型识别性能的提升有限[21];而常规的将数据降维后融合的特征级融合, 则会丢失部分有用信息, 降低模型识别的精确度[22].因此, 特征级融合在特征提取时, 应关注样本数据本身的特性, 增强多源异构数据的容错能力.

本研究提出一种提取化工园区内各企业排水的EEMS共性及GC-MS个性特征, 将二者融合并结合小样本分类模型, 对地表水污染源进行准确识别的方法.采集某国家级化工园区内7家典型企业10个批次的生产排水样本, 分析获得EEMS和GC-MS图谱, 研究图谱特征数据的提取和融合方法, 并比较分析BP神经网络(back propagation neural network, BPNN)模型和支持向量机(support vector machine, SVM)模型对7家企业排水的识别准确率、宏精确率、宏召回率以及宏调和平均值, 以期为园区内水环境污染源的快速识别提供技术支持.

1 材料与方法 1.1 水样采集及保存

以嘉兴市某国家级化工园区为研究对象, 该园区入围中国化工园区前十强, 单位面积产值排名全国第三.园区内共有38家企业, 其中涉水企业33家.根据企业环境影响评价报告书中排污分析内容, 综合考虑涉水量和涉水污染物危害性, 选取潜在风险和涉水量大的7家典型企业采集水样, 企业相关信息如表 1所示.根据GB/T 4754-2017, 上述企业属于C26化学原料和化学制品制造业, 涵盖初级形态塑料及合成树脂制造业、化学原料制造业和专项化学用品制造等3个行业小类.

表 1 7家典型化工企业信息 Table 1 Information of seven typical chemical enterprises

考虑到企业产品结构、生产运行参数和污水处理设施运行等变化对企业排水水质的影响, 在不同的工况和时间点下, 从每家企业的阳光排口采集10个批次水样, 共计70个样品.每个批次的采样时间间隔至少两周, 并根据工艺流程、产品、原料等的变化情况进行补充采样[23].水样分为两部分:一部分经0.22 μm的Millipore尼龙滤膜过滤后装入玻璃瓶中, 冷藏运回实验室, 4℃保存, 3 d内完成EEMS分析;另一部分放入预加抗坏血酸的棕色玻璃瓶中, 与每组样品的现场空白和运输空白一起冷藏运回实验室, 4℃保存, 3 d内完成GC-MS分析.

1.2 分析测试及数据预处理

EEMS分析采用荧光分光光度计(日本日立, F-4700), 参数设定如下:150W氙灯, 700V PMT电压, 激发波长(Ex)扫描范围为220~450 nm, 间隔5 nm, 发射波长(Em)扫描范围为260~600 nm, 间隔1 nm, 激发与发射波长的狭缝宽均为5 nm, 扫描速度为2 400 nm·min-1.每批测试均以Milli-Q超纯水作为空白对照, 并利用其在Ex/ Em=350/371~428 nm处的积分值进行拉曼校正[24].使用CutData函数去除Em < Ex ±20 nm和Em > 2Ex±10 nm的散射区域[25].

GC-MS分析采用气相色谱-质谱联用仪(美国安捷伦, 5975C-7890A), 参照标准方法[26], 经吹扫捕集前处理(美国泰克玛, Tekmar-9800)后进样.吹扫捕集前处理条件如下:样品量5 mL, 吹扫温度室温, 吹扫流速40 mL·min-1, 吹扫时间11 min, 干吹扫时间1 min, 预脱附温度180℃, 脱附温度190℃, 脱附时间2 min, 烘烤温度200℃, 烘烤时间6 min[27]. GC-MS的操作参数如下:进样口温度220℃, 分流比30∶1, 载气流量1 mL·min-1.柱温程序:35℃(2 min), 5℃·min-1升至120℃, 10℃·min-1升至220℃(2 min).EI离子源温度230℃, 扫描模式为全扫描, 扫描范围为m/z 35~270 u.GC-MS图谱经Savitzky-Golay平滑和背景扣除后, 利用NIST质谱库和自动质谱解卷积定性系统(AMDIS)进行解析, 以综合匹配度大于80%为标准进行物质定性[28].

1.3 特征数据提取 1.3.1 EEMS特征数据提取

EEMS区分性特征的辨识和提取难度比较大, 因此EEM特征数据的提取原则侧重于反映企业排水不同批次的共性特征, 将排水中共有组分的荧光峰强度作为EEMS特征数据[29].将各企业排水的EEMS按样本叠加成三维数据矩阵进行平行因子分析[30], 并通过核一致性检验, 最终确定平行因子组分数为2时, 其可解释方差为97.8%, 核一致性达到98.5%, 分解准确性高.7家企业排水的EEMS各解析出2个组分, 每个组分对应一个荧光中心, 共14个荧光中心.由于不同批次水样的水质存在差异, 水体荧光组分中心位置会存在小幅偏移现象, 因此需对其进行±10 nm的范围校正以覆盖偏移范围, 形成14个特征提取区域(表 2), 将区域内最大波峰的荧光强度作为EEMS特征数据. EEMS特征数据矩阵以二维矩阵表示, 其中每行代表一个样本, 每列代表一个EEMS特征, 矩阵中的元素表示样本在相应特征上的EEMS特征数据.

表 2 EEMS特征数据区域 Table 2 Regions of EEMS characteristic data

1.3.2 GC-MS特征数据提取

GC-MS特征数据的提取原则是兼顾企业排水不同批次水样的共性及其与其他企业排水之间的可区分性.将同一家企业10批次样本中检出率≥70%的有机物定义为高检出率物质, 作为该企业的特征物质[31].若企业排水中没有高检出率物质, 则从7家企业排水中选择出现次数不超过两次的物质, 作为该企业的特征物质.7家企业共提取出12种特征物质.GC-MS特征数据矩阵以二维矩阵的形式表示, 其中每行代表一个样本, 每列代表一个特征物质, 矩阵中的元素表示样本在相应特征上的GC-MS特征数据, 企业含有该特征物质时, GC-MS特征数据记为1, 反之则记为0.

1.3.3 EEMS和GC-MS特征数据融合矩阵的构建

由于拼接能够最大程度地保留不同特征中的信息, 因此选择拼接的方式进行特征融合以提升数据质量[32].将EEMS特征数据(70×14)和GC-MS特征数据(70×12)按行拼接串联, 形成一个新的特征数据矩阵(70×26).在该矩阵中, 每一行对应一个样本, 每一列对应一个特征, 矩阵元素表示样本在相应特征上的数据.

1.4 样本相似性和差异性分析

利用统一流形逼近与投影方法将数据映射到二维空间, 用于分析样本的相似性和差异性[33].首先, 利用k近邻算法为每个数据点构建一个局部度量空间, 近似数据点在流形上的测地线距离.其次, 利用交叉熵作为目标函数, 将每个局部度量空间转换为一个模糊单纯形集, 度量数据点之间的连接概率.最后, 利用谱方法为每个数据点初始化一个低维嵌入, 生成一个低维空间的投影[34].

1.5 识别模型构建 1.5.1 BPNN模型

BPNN模型通过学习数据的关联关系, 处理图谱的复杂数据和非线性关系, 从而进行分类识别[35].根据特征数据变量设计BPNN模型的结构, 包括输入层、输出层和隐藏层的节点数, 以及隐藏层的层数.有研究表明, 三层的神经网络可以逼近任意的映射关系[36].因此, 设计一个简单的三层网络结构, 包括输入层、隐藏层和输出层.设置BPNN的训练次数为1 000次, 学习速率为0.01, 训练目标的最小误差为0.001, 动量因子为0.01, 初始权值和阈值采用默认参数.设定BPNN的输入层节点数为m, 其为特征数据的变量个数, 根据经验公式p=2×m+1, 计算隐藏层的节点数p.

1.5.2 SVM模型

SVM模型非常适用于处理小样本数据的分类识别问题, 具有良好的泛化能力[37].使用径向基函数作为SVM的核函数, 其线性模型的表达式如下:

(1)

式中, ai为拉格朗日乘子, b为偏差, n为数据个数, xi为输入向量, g为径向基核函数宽度.为了提高模型的容错性, 构建模型时引入惩罚因子c, 并通过网格搜索的方式确定cg的最佳值, 搜索范围为0.01~100.

1.5.3 模型构建及样本划分

基于Windows 10平台, 使用MATLAB R2020b软件完成所有模型的构建.为了充分利用数据集并缓解小样本的影响, 模型均经过5折交叉验证以提高模型的稳定性.将样本集表示为XI×J), 其中I表示样本数量, J表示特征数量.分别将EEMS原始数据矩阵(70×16 027)、EEMS特征数据矩阵(70×14)、GC-MS特征数据矩阵(70×12)以及特征数据融合矩阵(70×26)作为变量样本集, 采用随机选择算法[38], 按照7∶3的比例划分为训练集和测试集, 其中49个样本用于训练, 21个样本用于测试.

1.6 模型评估

模型性能使用准确率(Accuracy)、宏精确率(Macro-Precision)、宏召回率(Macro-Recall)以及宏调和平均值(Macro-F1)这4个指标进行评估[39], 如公式(2)~(5)所示.

(2)
(3)
(4)
(5)

式中, TP为真实值为正且预测值也为正的样本数, FP为真实值为负但预测值为正的样本数, TN为真实值为负且预测值也为负的样本数, FN为真实值为正但预测值为负的样本数, L为企业数[40].

2 结果与讨论 2.1 7家企业排水的EEMS原始图谱分析

7家企业排水的典型EEMS原始图谱如图 1所示.根据峰形态和荧光中心, 可见不同企业之间乃至同一企业不同批次之间EEMS图谱呈现出一定差异.同一小类的企业EEMS原始图谱差异相对较小, 而不同小类的企业排水则差异相对较大.

(a)有机化学原料制造;(b)初级形态塑料及合成树脂制造;(c)专项化学用品制造 图 1 7家企业排水的典型EEMS原始图谱 Fig. 1 Typical EEMS raw spectra of wastewater samples from seven enterprises

企业HX和JF同属于有机化学原料制造业小类, 其排水的荧光中心主要分布在Ex/Em=245~250/407~409 nm和Ex/Em=320~325/405~408 nm附近.2-羟基对苯二甲酸的荧光中心位于Ex/Em=305~325/405~425 nm附近[41], 因此推测企业HX在Ex/Em=320~325/405~408 nm处的荧光与原辅料中的对苯二甲酸被氧化有关.企业JF在Ex/Em=220~225/285~290 nm附近出现一个弱峰, 可能与原辅料中的甲苯相关[42].企业YD和JH同属于初级形态塑料及合成树脂制造业小类, 其排水的荧光中心主要分布在Ex/Em=275~280/305~320 nm附近, 与乙烯类物质的荧光中心相似[43], 可能与苯乙烯、氯乙烯和聚氯乙烯等产品相关.企业HS和LH同属于专项化学品制造业小类, 其排水具有两个荧光中心, 分别分布在Ex/Em=275~280/305~318 nm和Ex/Em=230~235/332~335 nm附近, 前者与原辅料中甲醇的荧光中心较为接近[44], 后者则与异丙醇的荧光中心较为接近[45].值得注意的是, 企业ZY的原始EEMS图谱与同小类行业的其他两家企业有所不同, 其荧光中心主要分布在Ex/Em=240~245/357~361 nm和Ex/Em=285~305/369~386 nm附近, 这可能与企业ZY的产品表面活性剂密切相关[46].

2.2 7家企业排水的EEMS特征数据分析

7家企业排水的EEMS特征数据如图 2所示.结合企业环境影响评价报告书和后续GC-MS分析结果发现, 企业HX和JF排水在D和J区域出现最大荧光强度, 这可能是排水中酸酐、酰氯等含有羧基的物质降解生成了非共轭结构的生色基团[47];企业YD、JH、HS和LH排水在C、F、I和L区域呈现最大荧光强度, 这可能与排水中存在四氢呋喃、异丁烯等化合物或五甲基苯和氯苯等芳香族化合物有关[48].另外, 有研究表明, 苯杂环结构会影响H区域的荧光[49], 因此企业ZY排水在该区域的高荧光强度, 可能源于排水中的1, 4-二氧六环的π-π跃迁.此外, 企业LH和JH的不同批次排水在C、F、I和L区域内、企业HX和JF的不同批次排水在D和J区域内, 最大荧光强度均存在较大幅度的波动, 说明这些企业的排水成分不是非常稳定, 受生产和废水处理的影响较大.

图 2 7家企业排水的EEMS特征数据 Fig. 2 EEMS characteristic data of wastewater samples from seven enterprises

图 2中EEMS特征数据用统一流形逼近与投影方法映射到二维空间, 用于分析不同企业排水样本的相似性和差异性, 结果如图 3所示.从中可以看出, 大多数企业的排水样本在二维空间中呈现出一定的聚集性.其中, 企业HX和JF的排水样本较为接近, 而YD、JH、HS和LH这4家企业的排水样本则存在部分重叠, 这意味着仅用EEMS特征数据难以对这些企业的排水进行有效地区分.相反, 企业ZY的排水样本与其他企业的排水样本有明显的差异, 反映了其排水的独特特征.

图 3 7家企业排水EEMS特征数据的统一流形逼近与投影 Fig. 3 Uniform manifold approximation and projection of EEMS characteristic data of wastewater samples from seven enterprises

2.3 家企业排水的GC-MS特征数据分析

利用GC-MS对7家企业排水的特征物质进行检测, 结果如表 3所示.企业HX排水中仅检出三甲基硅醇一种特征有机物, 批次检出率为100%, 企业检出数为4, 除HX外, 还在JF、LH和HS的排水中有检出, 这可能是导致图 3中HX与JF较为接近的原因之一.企业JF排水中检出四氢吡喃-2-甲醇和2-甲苄基硫醇两种特征有机物, 批次检出率均为60%, 企业检出数分别为1和2, 其中四氢吡喃-2-甲醇为该企业的独有特征, 是磺化反应的中间产物, 而2-甲苄基硫醇是反应副产物.企业YD排水中检出四氢呋喃和三氯甲烷两种特征有机物, 批次检出率均为70%, 企业检出数分别为3和4.四氢呋喃是合成纤维、树脂和橡胶等材料的常用原料, 三氯甲烷是其良好的溶剂, 因此在其它企业中检出率也较高.企业JH排水中检出三溴甲烷和异丁醛两种特征有机物, 批次检出率分别为100%和60%, 企业检出数分别为2和1, 其中三溴甲烷是树脂和石蜡的良好溶剂, 异丁醛主要用于制造橡胶的促进剂和防老剂, 也可作为树脂和增塑剂的原料.企业HS排水中检出五甲基苯和五甲基乙醇两种特征有机物, 批次检出率分别为100%和80%, 企业检出数均为1(即在其它企业中均未检出), 两种物质都含有多个甲基基团, 可能是甲基单体通过企业产品塔时产生的高环副产物.企业LH排水中含有叔戊醇和二甲基硫醚两种特征污染物, 批次检出率分别为70%和90%, 企业检出数分别为2和1, 其中叔戊醇是硅油的改性材料, 而二甲基硫醚则来自于二甲基亚砜和蛋氨酸的中间体.企业ZY排水中只含有1, 4-二氧六环一种特征污染物, 批次检出率为60%, 企业检出数为1, 在其它企业中均无检出, 1, 4-二氧六环通常被用作表面活性剂的稳定剂.

表 3 7家企业排水的GC-MS特征物质 Table 3 GC-MS characteristic substances of wastewater samples from seven enterprises

GC-MS特征不仅包括废水中EEMS特征所揭示的部分荧光物质(例如四氢呋喃和五甲基苯等), 也涵盖了非荧光物质(例如三氯甲烷)的信息.通过将这两类特征进行融合分析, 可以提升数据的全面性和多样性, 增强数据的代表性和区分能力, 从而提高模型的准确性.

2.4 家企业排水的EEMS与GC-MS特征数据融合分析

分别以EEMS原始数据矩阵、EEMS特征数据矩阵、GC-MS特征数据矩阵以及EEMS与GC-MS特征数据融合矩阵作为变量, 使用BPNN和SVM模型对7家企业排水进行识别, 比较评价不同特征数据以及模型的识别效果, 结果如图 4所示.

图 4 BP神经网络和支持向量机对不同特征数据的识别结果 Fig. 4 Identification results of different characteristic data using back propagation neural network and support vector machine

结果表明, 基于EEMS原始数据矩阵以及单一的EEMS、GC-MS特征数据矩阵, 两种模型的识别效果都不理想.使用EEMS特征数据时, BPNN模型的识别准确率比使用EEMS原始数据提高4.76%, 达到76.19%, 而SVM模型的识别准确率没有变化, 仍为76.19%.使用GC-MS特征数据时, 与使用EEMS原始数据相比, BPNN模型的识别准确率没有变化, 仍为71.43%, 而SVM模型的识别准确率降低了19.05%, 只有57.14%.此外, 无论是使用EEMS还是GC-MS特征数据, 企业JF、YD和JH的识别错误率都较高.

相比之下, 两种模型在特征数据融合矩阵下的识别性能都显著优于单一特征数据.SVM模型的识别准确率、宏精确率、宏召回率以及宏调和平均值分别达到了95.24%、96.43%、95.24%和95.10%, 而BPNN模型的四项指标均达到了100%.与以往直接使用原始三维荧光数据构建的溯源模型相比, 特征数据融合矩阵构建的BPNN模型识别准确率提升了25%[50].这说明特征数据融合能够实现数据信息互补, 在提取各企业不同批次水样共性特征的同时, 还能反映企业间的区分性特征, 从而提高识别的准确率和稳定性[51].

两种识别模型中, 无论是基于单一特征数据矩阵还是特征数据融合矩阵, BPNN模型的识别效果均优于SVM模型.采用特征数据融合矩阵构建的BPNN模型比SVM模型的识别准确率提高了4.76%, 宏精确率提高了3.57%, 宏召回率提高了4.76%, 宏调和平均值提高了4.90%.这可能是由于BPNN模型能够直接通过多层神经元之间的连接和非线性激活函数的嵌套来构建模型, 从而更好地适应非线性和复杂的分类问题[52], 而SVM模型则需要借助核函数进行映射, 难以确定最优的参数配置.

本研究受样品采集条件限制, 数据样本量偏少, 在一定程度上会影响模型效果.为了能在小样本情况下完成建模, 本研究选用了SVM和BPNN模型.文献报道显示, 这两种模型可以用于小样本分类, 在样本量少、数据贫乏情况下, 依然可以表现出良好的性能.例如, 张钰等[53]采用79个数据, 其中26个用于训练, 53个用于测试, 构建SVM模型对8个产地的绒柄牛肝菌进行溯源, 结果显示样品分类结果全部正确.曹玉婷等[54]采用72个数据, 其中54个用于训练, 18个用于测试, 构建BP神经网络模型对9种食用油进行识别, 识别准确率达到94.4%.数据质量对小样本分类模型的影响较大.为了提高数据质量, 本研究根据各企业排水样本的特性, 提取EEMS共性特征及GC-MS个性特征并进行特征级融合.同时, 本研究进行交叉验证, 以最大限度利用数据集并减轻小样本量的影响, 提高模型的稳定性.今后, 需要进一步加大数据样本的采集量, 对模型适用性开展进一步完善和优化.

3 结论

(1)本研究提出了一种融合EEMS和GC-MS特征数据, 利用机器学习算法对化工园区污染源企业进行识别的方法.采集嘉兴市某化工园区内7家重点企业排水的10个批次水样, 分别对其进行EEMS和GC-MS分析, 提取EEMS共性特征和GC-MS区分性特征.基于不同数据构建的模型识别结果显示, 使用提取的特征数据代替原始数据, 更有利于污染源企业的准确识别.

(2)本研究基于EEMS和GC-MS特征数据融合矩阵构建的BPNN模型, 比SVM模型具有更优异的识别性能, 识别准确率、宏精确率、宏召回率以及宏调和平均值均达到了100%, 为化工园区内污染源企业的识别提供了一种简单高效的方法, 可解决相似企业集中、水环境污染源识别困难的问题.

(3)未来应进一步优化EEMS特征数据提取策略, 探索使用EEMS替代GC-MS开展企业排水区分的可能性, 以提高筛选效率和降低成本;此外应进一步扩展企业样本数量, 并围绕地表水污染实际, 开展长时间序列的污染源识别应用研究, 以提高技术的可靠性和实用性.

参考文献
[1] 许超, 夏美琼, 凌敏, 等. 基于模糊层次分析法的化工园区生态环境管理绩效评价研究[J]. 环境科学与管理, 2023, 48(7): 10-15.
Xu C, Xia M Q, Ling M, et al. Evaluation ecological environment management of chemical industrial parks based on fuzzy analytic hierarchy[J]. Environmental Science and Management, 2023, 48(7): 10-15. DOI:10.3969/j.issn.1673-1212.2023.07.005
[2] Wu Y Y, Gong Z R, Wang S J, et al. Occurrence and prevalence of antibiotic resistance genes and pathogens in an industrial park wastewater treatment plant[J]. Science of the Total Environment, 2023, 880. DOI:10.1016/j.scitotenv.2023.163278
[3] 郑军, 张立, 杨常青, 等. 跨国界流域重金属污染溯源体系框架初步构建[J]. 水资源保护, 2015, 31(6): 57-61.
Zheng J, Zhang L, Yang C Q, et al. Initial framework construction of sources identification system of heavy metal pollution in trans-boundary river basin[J]. Water Resources Protection, 2015, 31(6): 57-61.
[4] 谭秋阳, 吕金燕, 白献宇, 等. 典型城市内河菌群组成与氮循环功能垂向分布及溯源分析[J]. 环境科学, 2023, 44(3): 1497-1507.
Tan Q Y, Lü J Y, Bai X Y, et al. Vertical distribution and source tracking analysis of bacteria composition and nitrogen metabolism function of a typical urban inland river[J]. Environmental Science, 2023, 44(3): 1497-1507.
[5] Paruch L, Paruch A M, Sørheim R. DNA-based faecal source tracking of contaminated drinking water causing a large Campylobacter outbreak in Norway 2019[J]. International Journal of Hygiene and Environmental Health, 2020, 224. DOI:10.1016/j.ijheh.2019.113420
[6] Chen J W, Zhang H, Xue J Z, et al. Study on spatial distribution, potential sources and ecological risk of heavy metals in the surface water and sediments at Shanghai Port, China[J]. Marine Pollution Bulletin, 2022, 181. DOI:10.1016/j.marpolbul.2022.113923
[7] 李军, 李旭, 李开明, 等. 黄河兰州段城市河道表层沉积物重金属空间分布特征及来源解析[J]. 环境科学, 2023, 44(5): 2562-2573.
Li J, Li X, Li K M, et al. Spatial distribution characteristics and source analysis of heavy metals in urban river surface sediments from the Lanzhou reach of the Yellow River[J]. Environmental Science, 2023, 44(5): 2562-2573.
[8] Liu S S, He Z Q, Tang Z, et al. Linking the molecular composition of autochthonous dissolved organic matter to source identification for freshwater lake ecosystems by combination of optical spectroscopy and FT-ICR-MS analysis[J]. Science of the Total Environment, 2020, 703. DOI:10.1016/j.scitotenv.2019.134764
[9] 俞晓琴, 孟先强, 吴华武, 等. 青海湖流域有色可溶性有机物来源与特征分析[J]. 环境科学, 2022, 43(2): 826-836.
Yu X Q, Meng X Q, Wu H W, et al. Source and optical dynamics of chromophoric dissolved organic matter in the watershed of Lake Qinghai[J]. Environmental Science, 2022, 43(2): 826-836. DOI:10.3969/j.issn.1000-6923.2022.02.037
[10] 栗则, 张宇曦, 季远玲, 等. 石化废水挥发性有机物排放特征分析[J]. 环境工程, 2019, 37(4): 177-180, 136.
Li Z, Zhang Y X, Ji Y L, et al. Analysis on emission characteristics of volatile organic compounds in petrochemical wastewater[J]. Environmental Engineering, 2019, 37(4): 177-180, 136.
[11] 刘琳娟, 吴鹏, 李丽, 等. 南通市开发区化工企业水环境污染源指纹图谱的构建与应用[J]. 环境监控与预警, 2017, 9(4): 14-16, 21.
Liu L J, Wu P, Li L, et al. Construction and application of water environmental pollution fingerprint of chemical enterprise in Nantong development zone[J]. Environmental Monitoring and Forewarning, 2017, 9(4): 14-16, 21. DOI:10.3969/j.issn.1674-6732.2017.04.004
[12] Li W, Liang C L, Dong L, et al. Accumulation and characteristics of fluorescent dissolved organic matter in loess soil-based subsurface wastewater infiltration system with aeration and biochar addition[J]. Environmental Pollution, 2021, 269. DOI:10.1016/j.envpol.2020.116100
[13] 梁月清, 刘会来, 崔康平, 等. 基于三维荧光光谱-平行因子分析法的工业园区污水溶解性有机物溯源与归趋[J]. 环境工程学报, 2022, 16(4): 1238-1247.
Liang Y Q, Liu H L, Cui K P, et al. Tracing and regression of dissolved organic matter in wastewater from the industrial park based on 3D-fluorescence spectrum-parallel factor analysis[J]. Chinese Journal of Environmental Engineering, 2022, 16(4): 1238-1247.
[14] 吕清, 顾俊强, 徐诗琴, 等. 水纹预警溯源技术在地表水水质监测的应用[J]. 中国环境监测, 2015, 31(1): 152-156.
Lyu Q, Gu J Q, Xu S Q, et al. Application of pre-warning and pollution source identification technique based on fingerprint in water quality monitoring of surface water[J]. Environmental Monitoring in China, 2015, 31(1): 152-156. DOI:10.3969/j.issn.1002-6002.2015.01.030
[15] Yang L Y, Han D H, Lee B M, et al. Characterizing treated wastewaters of different industries using clustered fluorescence EEM-PARAFAC and FT-IR spectroscopy: implications for downstream impact and source identification[J]. Chemosphere, 2015, 127: 222-228. DOI:10.1016/j.chemosphere.2015.02.028
[16] 刘传旸, 柴一荻, 徐宪根, 等. 南方某河水质荧光指纹特征及污染溯源[J]. 光谱学与光谱分析, 2021, 41(7): 2142-2147.
Liu C Y, Chai Y D, Xu X G, et al. Aqueous fluorescence fingerprint characteristics and discharge source identification of a river in southern China[J]. Spectroscopy and Spectral Analysis, 2021, 41(7): 2142-2147.
[17] 徐澜. 基于三维荧光谱图数据主成分特征和竞争型神经网络识别算法在水污染溯源中的应用研究[D]. 昆明: 昆明理工大学, 2023. 53-64.
[18] Cai Z Y, Huang Z H, He M Y, et al. Identification of geographical origins of Radix Paeoniae Alba using hyperspectral imaging with deep learning-based fusion approaches[J]. Food Chemistry, 2023, 422. DOI:10.1016/j.foodchem.2023.136169
[19] Xu P, Fu L X, Xu K, et al. Investigation into maize seed disease identification based on deep learning and multi-source spectral information fusion techniques[J]. Journal of Food Composition and Analysis, 2023, 119. DOI:10.1016/j.jfca.2023.105254
[20] 高冰, 吴鹏飞, 许晓栋, 等. 基于色谱和光谱数据融合的不同植物源食用油判别方法与模型[J]. 分析测试学报, 2020, 39(11): 1398-1403.
Gao B, Wu P F, Xu X D, et al. Discriminant analysis on edible oils of botanical origins based on data fusion of gas chromatography and near infrared spectroscopy[J]. Journal of Instrumental Analysis, 2020, 39(11): 1398-1403. DOI:10.3969/j.issn.1004-4957.2020.11.013
[21] 于叶霞, 李鹂, 王元忠. 基于光谱和色谱数据融合策略的青叶胆及近似种的鉴别研究[J]. 光谱学与光谱分析, 2020, 40(8): 2440-2446.
Yu Y X, Li L, Wang Y Z. Study on differentiation of Swertia leducii and its closely relative species based on data fusion of spectra and chromatography[J]. Spectroscopy and Spectral Analysis, 2020, 40(8): 2440-2446.
[22] 王文俊, 沙云菲, 汪阳忠, 等. 近红外和电子鼻数据融合识别不同香型风格[J]. 光谱学与光谱分析, 2023, 43(1): 133-137.
Wang W J, Sha Y F, Wang Y Z, et al. Discriminating flavor styles via data fusion of NIR and EN[J]. Spectroscopy and Spectral Analysis, 2023, 43(1): 133-137.
[23] 白小梅, 李悦昭, 姚志鹏, 等. 三维荧光指纹谱在水体污染溯源中的应用进展[J]. 环境科学与技术, 2020, 43(1): 172-180, 193.
Bai X M, Li Y Z, Yao Z P, et al. Application progress of three-dimensional excitation emission matrix fluorescence spectroscopy in source tracing of water pollution[J]. Environmental Science & Technology, 2020, 43(1): 172-180, 193.
[24] Huang M, Li Z W, Luo N L, et al. Application potential of biochar in environment: insight from degradation of biochar-derived DOM and complexation of DOM with heavy metals[J]. Science of the Total Environment, 2019, 646: 220-228.
[25] 仲美玉, 孔德明, 崔耀耀, 等. 基于三维荧光光谱与图像矩算法的海面溢油检测方法[J]. 石油学报(石油加工), 2023, 39(4): 900-909.
Zhong M Y, Kong D M, Cui Y Y, et al. Detection method of spilled oil at sea based on three-dimensional fluorescence spectrum and image moment algorithm[J]. Acta Petrolei Sinica (Petroleum Processing Section), 2023, 39(4): 900-909.
[26] HJ 639-2012, 水质挥发性有机物的测定吹扫捕集/气相色谱-质谱法[S].
[27] 陈东洋, 范翔, 冯家力, 等. 吹扫捕集/气相色谱-质谱法同时测定环境水样中5种三卤甲烷[J]. 分析科学学报, 2023, 39(4): 456-460.
Chen D Y, Fan X, Feng J L, et al. Simultaneous determination of five trihalomethanes in water by gas chromatography-mass spectrometry coupling with purge and trap pretreatment[J]. Journal of Analytical Science, 2023, 39(4): 456-460.
[28] Dimzon I K D, Morata A S, Müller J, et al. Trace organic chemical pollutants from the lake waters of San Pablo City, Philippines by targeted and non-targeted analysis[J]. Science of the Total Environment, 2018, 639: 588-595.
[29] Rodríguez-Vidal F J, García-Valverde M, Ortega-Azabache B, et al. Characterization of urban and industrial wastewaters using excitation-emission matrix (EEM) fluorescence: searching for specific fingerprints[J]. Journal of Environmental Management, 2020, 263. DOI:10.1016/j.jenvman.2020.110396
[30] 周艳蕾, 周飞飞, 姜聪聪, 等. 基于三维荧光光谱-平行因子分析的海上溢油识别技术研究[J]. 光谱学与光谱分析, 2018, 38(2): 475-480.
Zhou Y L, Zhou F F, Jiang C C, et al. Research of identification method for the oil spills species based on fluorescence excitation-emission matrix and parallel factor analysis[J]. Spectroscopy and Spectral Analysis, 2018, 38(2): 475-480.
[31] Liu M Y, Lv J P, Qin C H, et al. Chemical fingerprinting of organic micropollutants in different industrial treated wastewater effluents and their effluent-receiving river[J]. Science of the Total Environment, 2022, 838. DOI:10.1016/j.scitotenv.2022.156399
[32] 丁俊琦, 李博, 乔岩, 等. 基于植物电子病历多类型数据融合的作物病害诊断方法[J]. 农业机械学报, 2023, 54(1): 196-204, 223.
Ding J Q, Li B, Qiao Y, et al. Crop disease diagnosis method based on fusion of multiple types of data from plant EMRs[J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(1): 196-204, 223.
[33] Rather A A, Chachoo M A. UMAP guided topological analysis of transcriptomic data for cancer subtyping[J]. International Journal of Information Technology, 2022, 14(6): 2855-2865. DOI:10.1007/s41870-022-01048-y
[34] Milošević D, Medeiros A S, Piperac M S, et al. The application of Uniform Manifold Approximation and Projection (UMAP) for unconstrained ordination and classification of biological indicators in aquatic ecology[J]. Science of the Total Environment, 2022, 815. DOI:10.1016/j.scitotenv.2021.152365
[35] Yan C, Li M X, Liu W, et al. Improved adaptive genetic algorithm for the vehicle insurance fraud identification model based on a BP neural network[J]. Theoretical Computer Science, 2020, 817: 12-23.
[36] 马赛炎, 魏海英, 马瑾, 等. 基于BP神经网络预测北京市加油站周边土壤多环芳烃含量[J]. 环境科学, 2023, 44(4): 2215-2222.
Ma S Y, Wei H Y, Ma J, et al. Prediction of PAHs content in soil around gas stations in Beijing based on BP neural network[J]. Environmental Science, 2023, 44(4): 2215-2222.
[37] Kim K J, Cho S B. Meta-classifiers for high-dimensional, small sample classification for gene expression analysis[J]. Pattern Analysis and Applications, 2015, 18(3): 553-569.
[38] 黄哲学, 何玉林, 魏丞昊, 等. 大数据随机样本划分模型及相关分析计算技术[J]. 数据采集与处理, 2019, 34(3): 373-385.
Huang Z X, He Y L, Wei C H, et al. Random sample partition data model and related technologies for big data analysis[J]. Journal of Data Acquisition and Processing, 2019, 34(3): 373-385.
[39] 张艮山, 田建恩, 张哲. 基于LBP与LSSVM的数字图像分类算法[J]. 液晶与显示, 2020, 35(5): 471-476.
Zhang G S, Tian J N, Zhang Z. Digital image classification algorithm based on LBP and LSSVM[J]. Chinese Journal of Liquid Crystals and Displays, 2020, 35(5): 471-476.
[40] 梁越, 刘晓峰, 李权树, 等. 面向司法文本的不均衡小样本数据分类方法[J]. 计算机应用, 2022, 42(S2): 118-122.
Liang Y, Liu X F, Li Q S, et al. Classification method for unbalanced and small sample data in judicial documents[J]. Journal of Computer Applications, 2022, 42(S2): 118-122.
[41] 王楠楠, 郑彤, 张广山, 等. 微波-Cu(Ⅱ)-Fenton氧化法处理间硝基苯胺废水[J]. 环境工程学报, 2015, 9(11): 5149-5154.
Wang N N, Zheng T, Zhang G S, et al. Treatment of m-nitroaniline wastewater by microwave-Cu(Ⅱ)-Fenton oxidation[J]. Chinese Journal of Environmental Engineering, 2015, 9(11): 5149-5154.
[42] 王碧, 席宏波, 周岳溪, 等. 不同取代基对苯系物三维荧光光谱特征的影响[J]. 光谱学与光谱分析, 2017, 37(12): 3763-3770.
Wang B, Xi H B, Zhou Y X, et al. Effects of different substituents on three dimensional fluorescence properties of BTEX[J]. Spectroscopy and Spectral Analysis, 2017, 37(12): 3763-3770.
[43] 周昀, 李军, 陈飞, 等. 苯乙烯的三维荧光特性及水污染应急处理[J]. 光谱学与光谱分析, 2016, 36(7): 2169-2172.
Zhou Y, Li J, Chen F, et al. Study on the 3D fluorescence feature of styrene and emergent treatment of styrene pollutant in water[J]. Spectroscopy and Spectral Analysis, 2016, 36(7): 2169-2172.
[44] 朱从海, 陈国庆, 朱纯, 等. 基于密度泛函的甲醇和乙醇荧光特性研究[J]. 光谱学与光谱分析, 2018, 38(4): 1133-1138.
Zhu C H, Chen G Q, Zhu C, et al. Studies of the fluorescence properties of methanol and ethanol based on the density functional theory[J]. Spectroscopy and Spectral Analysis, 2018, 38(4): 1133-1138.
[45] 宋鑫澍. 白酒年份酒中几种主要成分的荧光光谱研究[D]. 无锡: 江南大学, 2018. 12-18.
[46] 郝瑞霞, 曹可心, 邓亦文. 三维荧光光谱法表征污水中溶解性有机污染物[J]. 分析试验室, 2007, 26(10): 41-44.
Hao R X, Cao K X, Deng Y W. Characterization of dissolved organic pollutants in wastewater by three-dimensional fluorescent spectroscopy[J]. Chinese Journal of Analysis Laboratory, 2007, 26(10): 41-44.
[47] 吴百春, 李玉果, 聂凡, 等. 某炼化污水处理厂水中可溶有机物的转化规律研究[J]. 工业水处理, 2022, 42(1): 133-142.
Wu B C, Li Y G, Nie F, et al. Study on the evolution of dissolved organic compounds in the water from a petrochemical wastewater treatment plant[J]. Industrial Water Treatment, 2022, 42(1): 133-142.
[48] 郝晓地, 叶嘉洲, 刘然彬, 等. 污水厂出水中溶解性微生物代谢产物的产生及影响[J]. 中国给水排水, 2020, 36(12): 37-44.
Hao X D, Ye J Z, Liu R B, et al. Production and effect of soluble microbial product (SMP) in effluent of wastewater treatment plant[J]. China Water & Wastewater, 2020, 36(12): 37-44.
[49] Lavrinenko I A, Vashanov G A, Ruban M K. Analysis of the contribution of chromophores in side groups of amino acids to the absorption spectrum of hemoglobin[J]. Journal of Applied Spectroscopy, 2014, 80(6): 899-904.
[50] 侯茂泽, 马艳琼, 田森林, 等. 基于卷积神经网络识别三维荧光光谱的水污染溯源研究[J]. 中国环境监测, 2022, 38(5): 188-195.
Hou M Z, Ma Y Q, Tian S L, et al. Research on water pollution traceability based on convolutional neural network identification of three-dimensional fluorescence spectrum[J]. Environmental Monitoring in China, 2022, 38(5): 188-195.
[51] Wang Q, Xiao J T, Li Y, et al. Mid-level data fusion of Raman spectroscopy and laser-induced breakdown spectroscopy: improving ores identification accuracy[J]. Analytica Chimica Acta, 2023, 1240. DOI:10.1016/j.aca.2022.340772
[52] 李学良, 杜玉红, 任维佳, 等. 基于近红外光谱和残差神经网络的异性纤维分类识别[J]. 纺织学报, 2023, 44(5): 84-92.
Li X L, Du Y H, Ren W J, et al. Classification and identification of foreign fibers based on near-infrared spectroscopy and ResNet[J]. Journal of Textile Research, 2023, 44(5): 84-92.
[53] 张钰, 李杰庆, 李涛, 等. 光谱数据融合对绒柄牛肝菌产地溯源研究[J]. 光谱学与光谱分析, 2018, 38(8): 2529-2535.
Zhang Y, Li J Q, Li T, et al. Study on the geographical traceability of boletus tomentipes using multi-spectra data fusion[J]. Spectroscopy and Spectral Analysis, 2018, 38(8): 2529-2535.
[54] 曹玉婷, 赵众, 袁洪福, 等. 基于分子光谱图像识别的食用油快速分类研究[J]. 光谱学与光谱分析, 2019, 39(2): 659-664.
Cao Y T, Zhao Z, Yuan H F, et al. Edible oil classification based on molecular spectra analysis with image recognition[J]. Spectroscopy and Spectral Analysis, 2019, 39(2): 659-664.