基于主成分与聚类分析的乌伦古湖水质评价
邹 兰,高 凡*,马英杰
(新疆农业大学 水利与土木工程学院,新疆 乌鲁木齐 830052)
摘要:湖泊水质状况是识别湖泊变化、评价湖泊健康的重要指标,直接关系流域生态环境安全。通过对乌伦古湖2017年7~8月8个采样点8个水质指标(矿化度、PH值、透明度、总氮、总磷、高锰酸盐指数、溶解氧、五日生化需氧量)监测,采用主成分分析(PCA)和聚类分析(CA)方法分析水质空间分布特征及驱动因素。结果表明:乌伦古湖水体呈弱碱性,水质污染以氮、磷有机污染为主;8个采样点各主成分综合得分排序结果为S1>S6>S2>S3>S5>S4>S8>S7,呈现出小湖区水质优于大湖区,湖中心区水质优于湖岸区,距离进水口越远水质越差的显著空间差异特征。其中,骆驼脖子采样点S1水质污染程度最严重,吉力湖采样点(S7、S8)水质相对最好;运用空间相似性聚类分析方法将乌伦古湖湖区分类三类。Ⅰ类湖区水质最差,Ⅱ类湖区水体呈咸化趋势,Ⅲ类湖区水质相对最好;水体矿化度、营养盐与有机污染物质是造成乌伦古湖水质污染的主要驱动因素,主要归结为自2000年来乌伦古河常态化断流,以及湖区渔业养殖、周边农业面源污染导致的盐分、营养成分及有机污染物由河道不断向湖泊的迁移富集。
关键词:主成分分析;聚类分析;水质评价;乌伦古湖;驱动因子
中图分类号:X524 文献标识码:A
湖泊是陆地水圈的重要构成,是水资源、生物与环境资源的重要载体,在参与自然界水分循环过程中可记录不同时间尺度下气候变化和人类活动对区域水循环及水文过程的影响 [1-5]。湖泊水质状况是识别湖泊变化、评价湖泊健康的重要指标,直接关系流域生态环境安全。针对湖泊水质评价方法较多,常见的如单因子评价法[6]、综合污染指数法[7]、综合水质标识指数法[8]、模糊综合评判法[9]等,实际应用中各具优点和适用性,但由于水质评价涉及指标多,指标间存在信息重叠的几率高,上述方法往往不能有效提取关键评价因子致使评价存在一定局限性。主成分分析法(PCA)是一种将多维因子纳入同一系统中进行定量研究的多元统计分析方法,理论较为完善,优点为可对高维变量系统进行最佳简化,力保数据丢失最少的原则下筛选关键因子[3,4],应用于河湖水质污染评价、重金属评价、以及地表水评价和大气污染评价等[4-11]方面效果较好。
乌伦古湖是中国十大淡水湖泊之一,是典型的内陆干旱湖泊,是我国西北阿勒泰山绿洲与古尔班通古特沙漠之间的重要天然屏障,具有关键的生态安全功能[12]。本文以2017年为现状评价年,综合运用主成分分析(PCA)和聚类分析(CA)的方法对影响乌伦古湖湖区水质的矿化度、总磷、总氮、高锰酸盐指数、叶绿素等[12,13]采样水质数据进行评价,识别水质状况,分析其物理化学性质的空间分布特征,并进行驱动因素分析,以期为乌伦古湖及典型干旱内陆湖泊水域环境保护和治理,以及湖长制的顺利实施提供依据。
1 材料与方法
1.1 研究区概况
![]() |
乌伦古湖是乌伦古河流域的尾闾湖,属内陆干旱湖泊,位于新疆阿勒泰地区福海县附近,地理坐标东经86°59’ ~87°34’,北纬46°51’ ~47°25’(见图1),湖区分为大湖区和小湖区,大湖区即布伦托海,由骆驼脖子、中海子和73公里小海子组成,小湖区即吉力湖,两湖由库依尔尕河衔接。乌伦古湖是新疆第二大内陆湖泊,湖泊水面总面积约930km2,水位高程约479.1m,平均水深8m。乌伦古湖湖区属中温带大陆性季风气候,降雨稀少,多年平均降水量109.4mm,蒸发量大,多年平均水面蒸发量约1152.5mm,入湖水量约为2.4亿m3,主要补给水源是乌伦古河流域和额尔齐斯河流域,近年来湖区水量基本能维持平衡[2]。
图1 乌伦古湖采样点分布图
1.2 采样点设置与采用时间
乌伦古湖水质采样数据来源于2017年7~8月采样数据的平均值,考虑湖区水域面积、湖盆形状、进出水口、采样的实际可操作性与可行性等因素,在大、小湖区内共设置8个断面进行采样,基本实现采样点均匀覆盖湖区,采样点分布见图1。
1.3 测定项目及方法
测定项目共8项,分别为矿化度(TDS)、PH值(PH)、透明度(SD)、总氮(TN)、总磷(TP)、高锰酸盐指数(CODMn)、溶解氧(DO)、五日生化需氧量(BOD5)。水样采集保存与成分测定均按照《水和废水监测分析方法》[14]中的标准进行,水质评价标准按照《地表水环境质量标准》(GB3838-2002)执行。其中,PH值和溶解氧采用多参数水质监测仪(YSI-6600)现场测定,透明度选用塞氏圆盘法现场测定,CODMn采用酸性高锰酸盐滴定法测定,其余各指标均采用上述标准进行测定。
1.4 数据分析方法
1.4.1 主成分分析
主成分分析法的基本思路即降维,将多维变量转换为少数代表性变量,其分析步骤如下:
(1)原始数据标准化。本文按照z-score标准化法[15]将原始数据进行标准化处理,获得均值为0,标准差为1的标准化数据,计算公式如下:
(1)
其中,为变量
标准化后的第
个采样点第
个指标的数值,
为原始数据的值,
为第
个指标的均值[16]。
(2)适用性统计检验。对原始数据的适用性进行统计检验,假设原始变量之间存在较强的线性关系,利用巴特莱特球形检验(Bartlett Test of Sphericity)[17]各原始变量之间的相互关系,利用KMO(Kaiser-Meyer-Olkin-Measure of Sampling Adequacy)[17]检验原始变量之间的简单相关系数和偏相关系数的相对大小。根据简单相关矩阵进行直观检验,即当大部分相关系数都较大时,说明指标适合进行主成分分析;同时,当KMO值越接近1,说明变量越适合做主成分分析[17];
(3)提取主成分因子。计算相关系数矩阵R,确定原始变量的公共因子,得出特征值和方差贡献率[18],分析各主成分因子得分系数矩阵Z[19],确定影响湖泊水质的主要因素;
(4)计算主成分综合得分。将各采样点提取的主成分因子得分与以对应的特征值所占的方差贡献率为权数求和,得出各采样点综合得分Fz,即对水体各断面污染程度进行定量描述[20],如下公式:
(2)
式中,,
,…,
分别对应第
个主成分所占的方差贡献率;
,
,…,
分别是第
个主成分因子的得分系数。
以上方法采用SPSS22.0软件进行数据处理和统计分析。
1.4.2 聚类分析
聚类分析是根据数据间亲疏程度,以逐次聚合的方法将相似程度最大的数据或属性聚合为一类的统计方法[21],在水质时空分析中应用较为广泛。本文采用该法,将采样点水质评价指标进行聚类,基本思路为在原始数据标准化处理基础上,采用欧式距离法将采样点归入收敛后凝聚点所代表的类[22],并用Ward法进行采样点的空间相似性分析,使具有相似性的水质指标所在采样点聚类在一起。
1.4.3 水质状况空间分布图
利用主成分分析法得到的各采样断面综合得分(Fz),应用Surfer软件绘制各采样点水质状况的空间分布图,以反映湖泊水质综合状况,各采样断面综合得分(Fz)越高,水质污染状况越严重。
1.4.4 水质驱动因素分析
采用Spearman相关性检验[23]分析各水质指标与主成分得分的相关系数,分析乌伦古湖水质污染的主要驱动因素。
2 结果与分析
2.1 乌伦古湖各采样点水质指标特征分析
为更清晰表征乌伦古湖各采样点水质状况,取各采样点2014年7~8月水质指标评价的均值并进行标准偏差分析[5],结果见图2。由图2可知,各采样点PH平均值为8.00~8.80,大湖区采样点明显高于小湖区采样点,乌伦古湖水体总体呈弱碱性;各采样点水体TDS均值介于920~2374mg/L之间,大湖区采样点S1~S6TDS均值均高于2200mg/L,小湖区采样点S7和S8TDS均值低于1100mg/L,显著低于大湖区,其标准差值大于550,大小湖区水盐空间分布不均匀是导致乌伦古湖矿化度空间差异性的主要原因之一;各采样点水体透明度指标SD均值均高于130cm,总体标准偏差大于30,采样点S1、S4和S8SD均较大,分别为215cm、238cm和205cm;各采样点DO含量均值分布于8.90~9.95mg/L之间,标准偏差小于0.5,DO指标均符合地表水Ⅰ类标准,采样点S1和S6DO最高,分别为9.95mg/L和9.78mg/L,持续的风浪扰动可能是维持湖泊水体溶解氧处于较高水平的主要原因[24];各采样点CODMn分布于3.15~5.56mg/L之间,大湖区采样点(S1~S6)CODMn均值介于4.15~5.65mg/L之间,符合地表水Ⅲ类水质标准,小湖区采样点(S7、S8)CODMn均值分别为3.15 mg/L和3.75 mg/L,符合地表水Ⅱ水质标准,大湖区有机污染状况较高于小湖区;各采样点BOD5含量均值均高于2.90mg/L,其中,大湖区各采样点BOD5含量分布不均,介于2.95~3.35 mg/L之间,小湖区内分布则较均匀,约为3.00 mg/L,其中采样点S1、S5、S7 BOD5均值小于等于3.00 mg/L,符合地表水Ⅱ类标准;各采样点TN含量平均值均高于0.5mg/L,大湖区各采样点TN均值介于0.60~0.81 mg/L,小湖区采样点TN均值为0.51 mg/L,大湖区采样点明显高于小湖区采样点,符合地表水Ⅲ类水质标准;各采样点TP含量均值均高于0.030mg/L,标准偏差均小于0.004且分布均匀,符合地表水Ⅲ类水质标准。总体看,乌伦古湖水体呈弱碱性,属微咸水,水质污染以氮、磷污染有机物污染为主,与吉芬芬等[25]研究所提到的氮磷是影响乌伦古湖营养水平主要因素的结果一致,与韩雪梅等[13]研究得出的乌伦古湖全湖平均综合污染指数在数十年间整体呈上升趋势的结论基本相符,造成污染的原因主要可归结为入湖河道两岸农牧业生产和生活活动造成的面源污染。
![]() |
图2 乌伦古湖各采样点水质指标监测结果平均值
2.2 乌伦古湖各采样点水质状况主成分分析
对各采样点水质指标分别进行KMO检验和Bartlett球形检验,检验后得出KMO值为0.707(均大于0.50),Bartlett 球形检验显著性概率P 值均小于0.01,表明评价指标相关性较好,适宜进行主成分分析。按照特征值大于1的原则,提取出3个主成分因子,其中F1携带信息最多,达50%以上,且F1、F2、F3累积贡献率达81.115%(表1),可充分反映整体因子变化情况。
表1 各主成分的特征根、方差贡献率及累积方差贡献率
主成分 |
特征值 |
方差贡献率(%) |
累积方差贡献率(%) |
1 |
4.081 |
51.016 |
51.016 |
2 |
1.273 |
15.909 |
66.925 |
3 |
1.135 |
14.190 |
81.115 |
表2 主成分因子荷载矩阵
参数 |
主成分因子 |
||
F1 |
F2 |
F3 |
|
TDS |
0.876 |
0.070 |
0.333 |
SD |
0.247 |
-0.593 |
-0.079 |
PH |
0.912 |
-0.024 |
0.153 |
DO |
0.290 |
0.791 |
-0.062 |
CODMn |
0.950 |
-0.062 |
-0.158 |
BOD5 |
0.011 |
0.018 |
0.986 |
TN |
0.896 |
0.371 |
-0.107 |
TP |
0.790 |
-0.313 |
-0.200 |
旋转后所提取的3个主成分因子荷载矩阵值列于表2。由表1和表2 可知,F1方差累积贡献率为51.016%,所有成分呈正相关,与F1相关联的水质指标为TDS(0.876)、PH(0.912)、CODMn(0.950)、TN(0.896)和TP(0.790),说明F1主要反映水体营养状态及理化性质;F2方差累积贡献率为15.909%,与F2相关联的水质指标为SD(-0.593)和DO(0.791),其中,SD与第二主成分呈明显负相关关系,主要表征水体的能见程度,DO主要受水体中水生植物光合作用的影响,可反映湖泊水生植物分布状况;F3方差累积贡献率是14.190%,与F3相关联的水质指标为BOD5(0.986),主要反映水体有机污染程度。
由公式(2)计算各采样点主成分综合得分并对其进行排序,结果见表3。由表3可知,第一主成分得分(F1)最高的采样点为S1,表明骆驼脖子断面处水质主要污染指标为TDS、PH与营养盐物质,与程艳等[12]研究所发现的乌伦古湖水盐变化系统紊乱导致矿化度升高的结论基本相符,与吉芬芬等[25]所发现的骆驼脖子湖区矿化度和营养盐含量升高的规律一致;第二主成分得分(F2)排序第一的采样点是S6,表明小海子出水口处断面水质主要污染指标为SD和DO;第三主成分得分(F3)排序最前的采样点为S3,表明中海子出水口处断面水质主要污染指标为BOD5。计算8个采样断面的各主成分得分综合得分(Fz),分别计算乌伦古湖各采样点主成分得分综合得分(Fz),并对其进行综合排序,排序结果为S1>S6>S2>S3>S5>S4>S8>S7,综合得分越高说明水质污染程度越严重(见图3)。
表3 乌伦古湖各采样点主成分分析综合得分与排序
采样点 |
F1得分 |
排序 |
F2得分 |
排序 |
F3得分 |
排序 |
Fz得分 |
排序 |
S1 |
1.157 |
1 |
0.882 |
2 |
-1.072 |
8 |
0.578 |
1 |
S2 |
1.072 |
2 |
-0.654 |
7 |
-0.321 |
4 |
0.397 |
3 |
S3 |
-0.155 |
7 |
-0.211 |
5 |
1.763 |
1 |
0.138 |
4 |
S4 |
0.297 |
3 |
-1.769 |
8 |
0.210 |
3 |
-0.100 |
6 |
S5 |
0.194 |
5 |
0.348 |
4 |
-0.704 |
7 |
0.054 |
5 |
S6 |
0.268 |
4 |
1.445 |
1 |
1.221 |
2 |
0.540 |
2 |
S7 |
-1.789 |
8 |
0.433 |
3 |
-0.617 |
6 |
-0.931 |
8 |
S8 |
|