基于改进高斯混合模型的变电站负荷聚类算法

doi:10.19705/j.cnki.issn2096-5125.2024.05.012

图片（0）

表格（0）

基金信息

作者信息

出版信息

基于改进高斯混合模型的变电站负荷聚类算法

Substation Load Clustering Algorithm Based on Improved Gaussian Mixture Model

余浩¹ ,高镱滈² ,潘险险¹ ,徐衍会^2* ,李雪松² ,孙宇航²

YU Hao ¹ , GAO Yihao² , PAN Xianxian ¹ , XU Yanhui^2* , LI Xuesong² , SUN Yuhang²

1.广东电网有限责任公司电网规划研究中心，广东省广州市 510030
2.华北电力大学电气与电子工程学院，北京市昌平区 102206

YU Hao 1, GAO Yihao2, PAN Xianxian 1, XU Yanhui2*, LI Xuesong2, SUN Yuhang2 (1.Grid Planning & Research Center, Guangdong Power Grid Co., Ltd., Guangzhou 510030, Guangdong Province, China
2.School of Electrical and Electronic Engineering, North China Electric Power University, Changping District, Beijing 102206, China

DOI:10.19705/j.cnki.issn2096-5125.2024.05.012

关键词

Keywords

高斯混合模型聚类;负荷分类;聚类算法;聚类评价

Gaussian mixture model clustering; load classification;clustering algorithm; clustering evaluation

摘要

Abstract

针对传统高斯混合模型（Gaussian mixture model，GMM）聚类算法中计算复杂、收敛速度慢和人为确定聚类数目时存在盲目性和主观性等不足，提出了一种基于改进GMM的变电站负荷聚类算法。以传统GMM聚类算法为基础，采用k均值（k-means）算法确定初始聚类中心。减少了GMM聚类算法迭代步骤，提高了输出结果的稳定性。输出不同聚类数下聚类结果的Davies-Bouldin（DB）指标、Calinski-Harabasz（CH）指标和轮廓系数（silhouette coefficient，SC），应用熵权法确定不同评价指标所占权重，构建聚类评价混合指数（cluster evaluation mixed index，CEM）。将聚类评价混合指数最大值对应的聚类个数作为最佳聚类数目，再次输入到改进GMM聚类算法中，得到变电站负荷聚类结果和聚类中心。结果表明，所提方法增强了传统GMM聚类算法的计算速度和稳定性，对变电站负荷具有良好的聚类综合能力，有助于实现聚类结果最优化。

A substation load clustering algorithm based on an improved Gaussian mixture model (GMM) is proposed to address the drawbacks of the conventional GMM clustering algorithm, such as complex calculation, slow rate of convergence, blindness and subjectivity in manually determining the number of clusters.Based on the conventional GMM clustering algorithm, the initial clustering center is chosen by the k-means algorithm.The reliability of the output results is increased while the number of iterations of the GMM clustering algorithm is decreased by using this algorithm.Under various clustering numbers, the algorithm generates the Davies-Boldin (DB) index, Calinski-Harabasz (CH) index, and silhouette coefficient (SC) of clustering results.The cluster evaluation mixed (CEM) index is created by using the entropy weight approach to calculate the weights of various evaluation indicators.The optimal number of clusters is calculated as the number of clusters that correspond to the maximum value of the CEM.This optimal number of clusters is then used as input into the improved GMM clustering algorithm to obtain the clustering results and clustering centers of the substation load.The illustration demonstrates that the suggested algorithm improves the computational efficiency and stability of the conventional GMM clustering algorithm and has good cluster synthesis capability for substation loads, which aids in clustering result optimization.

0 引言

随着电力系统结构日益复杂、规模日益庞大，以及人们生活水平的提高，负荷组成成分更加多元，负荷的波动性、复杂性、可控性和敏感性进一步提高，使得负荷建模工作难度不断增加[1-2]。负荷模型的精确性对于电力系统仿真计算结果的可靠性具有重大影响，准确描述电力系统负荷特性、建立与实际情况相符的负荷模型对于服务电力系统数字仿真计算具有重要意义[3-4]。在实际工程中，区域性电网通常采用统一的负荷模型，这显然过于粗糙，也与实际情况不符。制约负荷模型建立的主要因素来自负荷自身的随机时变性、地域分散性、成分多样性、非连续性等特点导致的综合负荷特性差异，其根本原因则是负荷构成成分的不同[5-6]。因此，将负荷构成成分相近或相似的负荷点归并分类，按类分组进行建模有利于提升负荷建模的准确度，对于电力系统仿真计算具有重要意义[7-8]。

聚类分析是数据分析领域的重要研究方法，被广泛应用于电力负荷分析、负荷及新能源出力预测、用电行为分析等领域[9-10]。聚类算法大致可以分为基于划分、基于层次、基于密度、基于模型和基于网络5类。基于划分的聚类算法的原理是将聚类样本根据聚类数划分成几个大的簇，同一簇中的样本即属于同一类别。基于划分的聚类算法包括k均值（k-means）[11]、k质心（k-medoids）[12]、模糊C均值算法（fuzzy c-means，FCM）[13]等。基于层次的聚类算法按照样本间距离大小划分聚类簇，能够比较直观地展现聚类过程，但在层次聚类过程中，包含样本数较少的簇往往只能以个体的形式融入大类中，这种现象会引起聚类树状图的倾斜，一定程度上将影响聚类结果的准确性。层次聚类算法主要包括基于平衡树的层次聚类算法（balanced iterative reducing and clustering using hierarchies，BIRCH）[14]、使用代表点的聚类算法（clustering using representatives，CURE）等。基于密度的聚类算法通常根据聚类样本的分布密度、连通性以及分布区域的边界进行聚类划分，所得类别均由相互连通的高密度样本构成，常见的有基于密度的带噪空间聚类（density-based spatial clustering of applications with noise，DBSCAN）算法[15]、点排序识别聚类结构（ordering points to identify the clustering structure，OPTICS）算法[16]等。基于模型的聚类算法事先假设聚类样本属于某种分布模型，通过模型分解得到聚类结果，基于模型的聚类算法能够自动识别并排除离群样本点，鲁棒性较强，但算法需要对样本进行大范围迭代求解，对大规模数据的处理速度缓慢。典型的基于模型的聚类算法包括期望最大值（expectation maximization，EM）算法[17]和自组织映射神经网络（self organizing maps，SOM）聚类算法[18]等。基于网格的聚类算法将样本空间量化为一定数目的单元从而形成网格结构，基于网格结构实现样本聚类，网格数量与样本数目无关，且对数据的输入顺序不敏感。基于网格聚类算法包括Wavecluster算法[19]、CLIQUE（clustering in quest，CLIQUE）算法[20]等。

高斯混合模型（Gaussian mixture model，GMM）聚类算法通过计算概率分配样本所属的簇，属于“软分类”[21-23]，能够有效弥补划分聚类和层次聚类时间复杂度高、容易陷入局部最优的问题，适用于对大规模数据集的处理[24-28]。文献[28]通过对比分析发现GMM聚类效果优于层次聚类、k-means、k-medoids和SOM聚类方法，具有更灵活的类簇形状。另外GMM聚类算法能够敏锐捕获属性之间的相关性和依赖性，对异常数据有良好的可识别性[29]。然而GMM聚类算法也具有一定的缺陷，在聚类之前需要人为确定聚类数目，当聚类数目选取不当时，对聚类效果会产生一定的负面影响。此外，GMM聚类算法还存在计算复杂度高、收敛速度慢、有可能收敛到局部最优解的问题。为解决上述问题，文献[30]结合EM算法和改进秃鹰搜索（improved bald eagle search，IBES）算法提出了基于IBES-EM算法的GMM聚类模型，改进后的算法具有更好的收敛性能，当原始数据存在一定误差时，该模型依然能够得到较为精确的结果。文献[31]提出了联合知识图谱（knowledge graph，KG）和EM的GMM聚类方法，针对电力用户数据分析时能够有效提高聚类的全局寻优能力，但模型验证阶段采用的数据集较小，模型泛化能力体现不够。文献[32]提出了联合手肘法和EM算法的GMM聚类方法，利用手肘法对数据进行初次聚类，以确定最优聚类数目，实现对数据的合理聚类分析。文献[33]提出联合DBSCAN和EM算法的GMM聚类算法，DBSCAN算法能够自动确定聚类数目，加速EM算法的迭代过程，增强聚类的全局寻优能力。

为克服传统GMM聚类算法中计算复杂、收敛速度慢以及人为确定聚类数目时存在盲目性和主观性的不足，本文提出一种基于改进GMM的变电站负荷聚类算法。通过k-means算法输出初始聚类中心，提高算法收敛速度。为确定最佳聚类数目，初步确定聚类数范围，运行改进高斯混合模型聚类算法，得到聚类结果的Davies-Bouldin（DB）指标、Calinski-Harabasz（CH）指标和轮廓系数（silhouette coefficient，SC），应用熵权法确定不同评价指标所占权重，构建聚类评价混合指数，最后将聚类评价混合指数最大值对应的聚类个数作为最佳聚类数目，输出此时的聚类结果。本文基于某地区变电站负荷实地调研结果进行算例验证，结果表明所提算法能够增强传统GMM聚类算法的计算速度和稳定性，实现对大规模负荷数据集的准确聚类，对变电站负荷具有良好的聚类综合能力，有助于实现聚类结果的最优化。

1 改进GMM 聚类算法

1.1 GMM聚类

GMM是指将一个事物分解为若干基于高斯概率密度函数形成的模型[28]。在二维空间下，高斯概率密度函数也被称为正态分布曲线。包含K个成分的N维高斯混合模型的数学表达式如式（1）所示。

pagenumber_ebook=127,pagenumber_book=593

GMM用于聚类分析时，认为数据符合混合高斯分布，通常采用最大似然函数法进行参数估计：

为了计算方便，通常使用求似然函数对数最大值的方式进行最大似然估计。在进行GMM的参数估计时，常使用EM算法进行计算，EM算法包含以下两个步骤。

1）期望步（E-step）：根据指定的初值或迭代得到的µk、∑k 和ωk，计算每个数据点属于不同类别的概率。数据点xj属于类别k的后验概率为

2）最大化步（M-step）：根据期望步求得的后验概率结果，利用最大似然法得到新的µk、∑k 和ωk，计算公式如式（4）所示。

1.2 K-means聚类算法

K-means算法的中心思想是：基于指定的聚类数目，随机生成初始聚类中心，把每个数据点分到离其最近的聚类中心所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的聚类中心，重复分配数据点和更新聚类中心的步骤，直至达到收敛条件或者指定的迭代次数。

K-means算法通过计算初始聚类中心到各数据点的距离，衡量不同数据之间的相似度，通常采用欧氏距离：

式中：x是数据点；Ci是第i个聚类中心；m是数据对象的维度；xj、Cij表示数据点和聚类中心的第j个维度的属性值。

依次比较每个数据点到各聚类中心的距离，分配数据点并形成新聚类中心，计算平方和误差（sum of the squared errors，SSE）：

SSE描述了簇内样本围绕聚类中心的紧密程度，SSE越小簇内样本相似度越高，当SSE数值不再变化或收敛时，停止迭代，得到最终结果[34]。

1.3 熵权法

熵权法是一种客观赋权法，其利用信息熵计算各数据指标的熵权。熵是对信息量的一种度量，在多指标决策问题中，某指标信息量越大，变异程度也越大，熵就越小，那么在方案评价中的作用就越大，该指标权重也就越大。熵权法步骤简单，赋权客观，可以有效减少主观因素的影响[35]，基本步骤如下。

1）数据处理。正向指标：

负向指标：

式中：i表示指标；j表示第j个数据。

2）求每一项数据在总数中所占的比例pij：

3）计算信息熵Hi及熵权Wi：

pagenumber_ebook=128,pagenumber_book=594

1.4 改进GMM聚类算法

在传统GMM聚类算法中，基于EM算法虽然能够保证收敛到局部最优解，但不能保证得到全局最优解，当样本数量较大时，这一问题尤为突出，这使得算法的初始化非常重要。K-means算法过程简单，效率较高，适用于处理高维数据，可为GMM聚类提供初始聚类中心，能够显著提高收敛速度，增强分类准确性。此外，针对聚类数目未知的问题，应用熵权法构建聚类评价混合指数（cluster evaluation mixed index，CEM），寻找最佳聚类数，实现聚类效果最优化。算法流程如图1所示。

图1 基于改进高斯混合模型的聚类流程图
Fig.1 Flow chart of improved Gaussian mixture model clustering

算法流程描述如下：

2）从样本集中随机选择1个数据对象作为第1个聚类中心C1；

3）对于每个数据对象，计算其与已选择的聚类中心的距离，按照最小距离原则分配类簇；

4）根据聚类结果，选择新的聚类中心，将全部数据按照新的聚类中心重新聚类；

5）重复步骤3）和步骤4）直到结果不再变化，得到k-means算法输出的初始聚类中心；

6）将k-means所得聚类中心作为初始数据，设置高斯函数的初始值µk，∑k 和ωk，计算相应的对数似然函数ln p (x ω, μ , Σ)；

7）E-step：根据贝叶斯定理，计算第k种负荷聚类的后验概率γ( j , k)；

8）M-step：将E-step计算得到的结果代入待求参数的最大似然估计公式中，利用最大似然估计得到新的参数值µk，∑k 和ωk；

9）重新计算步骤6）的对数似然函数，检查对数似然函数是否满足收敛条件lnL(Xθ)-lnL(Xθ)'<ε，若不收敛，则返回步骤7），若收敛，则得到高斯函数参数µk，∑k 和ωk；

10）根据步骤6）—9），得到样本对应的高斯混合模型p ( x)；

11）根据改进GMM聚类结果，求解聚类评价的Davies-Bouldin（DB）指标、Calinski-Harabasz（CH）指标和轮廓系数（silhouette coefficient，SC）；

12）增大k值，令k = k+1，重复步骤2）～11），直到k值达到kmax；

13）对聚类输出的DB、CH、SC指标，先将DB指标取倒数，再将所得数据做正向指标归一化处理，对处理后的数据，求每一项数据在总数中所占的比例pij；

14）计算信息熵Hi及熵权Wi；

15）用所得熵权对指标进行赋值，构建聚类评价混合指数CEM=WD B/ IDB+WC H⋅ICH+WS C⋅ I SC；

16）将改进GMM输出的聚类评价指标代入聚类评价混合指数中比较，当聚类评价混合指数最大时，对应的k是最佳聚类数。将最佳聚类数输入改进GMM聚类算法，再次运行算法，输出此时的变电站聚类结果及聚类中心。

2 聚类评价指标

2.1 DB指标

假设样本集被分为K个簇，定义分散度Si为在第i类数据集中，数据度量点的分散程度，具体公式为

式中：xj表示第i类中第j个数据点；Ai表示第i类的聚类中心；Ti表示第i类中数据点的个数；q = 1时，式（12）表示各点到中心的距离的均值，q = 2时，式（12）表示各点到中心距离的标准差。

定义第i类中心到第j类中心的类间距离：

式中：aki表示第i类聚类中心样本的第k个属性值。

定义相似度Rij，用于衡量第i类和第j类的相似度：

从相似度中选取最大值，计算这些最大相似度的均值即为DB指标：

由DB指标的定义可知，DB值越小，分类效果越好。

2.2 CH指标

CH指标本质上是计算簇内距离与簇间距离的比值，其计算过程与方差计算类似，故又称之为方差比准则。其计算公式为

式中：Bk表示类间的协方差矩阵；Wk表示类内数据的协方差矩阵，具体公式为

pagenumber_ebook=129,pagenumber_book=595

式中：cq为类q的中心点；cc为数据集中心点；nq表示类q中数据的数目；Cq表示类q的数据集合。

CH的数值越大，说明类内协方差越小，类别之间协方差越大，聚类效果越好。

2.3 轮廓系数

轮廓系数（SC）用于衡量样本点与同一聚类中的其他点的相似程度，将第i个点的轮廓系数定义为

式中：ai是第i个点到相同聚类中其他点的平均距离；bi是第i个点到不同聚类中的点的最小平均距离。如果第i点是其聚类中唯一的点，那么轮廓系数为1。

轮廓系数的范围是[-1,1]。轮廓系数越接近于1，则该点与类别匹配度越好，反之则匹配效果越差，轮廓系数为-1则表示聚类方案不佳。

3 算例分析

3.1 变电站负荷组成统计调查

电力负荷组成分析是进行变电站负荷调查和分类的重要依据。根据负荷用途的不同，变电站负荷大致可分为工业负荷、商业负荷、居民负荷、农业负荷和其他负荷5个类型，不同类型的负荷具有不同的特点和规律。

变电站负荷统计由10 kV侧逐级向上展开，最终汇总到220 kV变电站。调查统计的基本单元变电站是一个很大的负荷群，考虑到负荷本身的复杂性和时变性，各类负荷组成的调查结果不可能做到绝对精确。220 kV变电站负荷组成调查的基本步骤如下。

1）统计全省负荷变电站数量；

2）设计调查表，确定调查方式；

3）基于初步收取的数据，调整调查内容，修改调查表；

4）开展全省220 kV负荷变电站调研，收集负荷组成基本数据；

5）调研结果输出整理；

6）建立地区电网负荷组成基础数据。

工作流程如图2所示。

pagenumber_ebook=130,pagenumber_book=596

图2 负荷调查工作流程
Fig.2 Process of load statistical investigation

3.2 改进高斯混合模型聚类算例分析

为验证本文所提变电站负荷聚类结果的可行性，选取某地区391个负荷变电站统计调研结果进行验证，包括工业负荷、商业负荷、居民负荷、农业负荷和其他负荷组成数据，如表1所示。

表1 负荷特性组成
Table 1 Load characteristic composition

变电站序号工业商业居民农业其他10.0250.7260.2410.0080.000 20.0630.5150.4160.0050.000 30.1320.7640.1050.0000.000 40.1070.5040.3880.0010.000………………3910.5280.1170.3550.0010.000

初步确定聚类数范围为2～18，运行改进GMM聚类算法，得到聚类评价指标DB、CH、SC值，进一步应用熵权法求取不同指标所占权重为

用所得熵权对指标进行赋值，得到聚类评价混合指数CEM：

代入指标归一化结果，归一化的指标值和CEM变化趋势如图3所示。

图3 聚类评价指数随k值变化趋势图
Fig.3 Graph of cluster evaluation index changing with k-value

由图3可知，k = 4时，聚类评价混合指数最大，故最佳聚类数为k = 4。

此时，IDB= 0.735，ICH= 519.456，ISC= 0.623。

将k = 4输入GMM聚类算法，再次运行后输出聚类结果及聚类中心，如表2所示。

表2 改进GMM聚类结果
Table 2 Improved Gaussian mixture model clustering results

类别个数变电站编号聚类中心1118 14、15、17、18、19、20、21、22、23、24、25、26、27、28、29、30、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、52、55、61、64、69、70、72、76、78、79、81、82、83、84、85、86、87、88、89、92、101、108、109、115、116、122、124、126、132、133、134、135、145、150、158、159、162、166、168、169、170、176、180、182、191、201、203、219、237、246、250、252、253、254、255、256、257、258、259、260、261、267、284、292、297、298、299、316、317、334、339、350、351、354、361、366、367、369、383、384、386、390、391 169

续表

pagenumber_ebook=131,pagenumber_book=597

类别个数变电站编号聚类中心2138 53、54、56、57、59、62、63、67、73、74、80、90、91、93、94、95、96、97、98、99、100、102、105、106、107、110、111、113、114、118、120、121、123、125、127、129、143、144、146、148、152、153、155、157、160、161、165、167、178、181、184、186、187、188、189、190、194、195、196、197、199、200、206、207、208、213、215、218、221、222、223、224、226、227、228、229、231、233、234、238、244、245、247、248、249、251、262、265、273、274、275、278、279、281、283、291、293、295、296、320、321、322、323、324、325、326、328、329、330、331、332、335、340、341、342、343、345、346、347、348、355、356、357、358、359、360、362、363、364、368、370、371、372、373、376、381、385、389 247 373 11、12、31、51、103、128、130、131、136、137、138、139、140、141、142、149、151、154、156、163、164、173、174、177、192、204、205、210、212、216、220、225、236、240、241、242、263、264、266、268、269、270、271、276、277、285、286、287、288、289、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、318、319、336、337、338、344、377 151 462 1、2、3、4、5、6、7、8、9、10、13、16、58、60、65、66、68、71、75、77、104、112、117、119、147、171、172、175、179、183、185、193、198、202、209、211、214、217、230、232、235、239、243、272、280、282、290、294、327、333、349、352、353、365、374、375、378、379、380、382、387、388 365

对聚类结果的样本进行分析，计算每一类别中各种负荷类型占总负荷的比例，结果如表3所示。

表3 负荷组成占比计算结果
Table 3 Results of load composition ratio

类别工业商业居民农业其他147.93%13.93%35.46%2.63%0.04%215.69%15.37%62.50%6.45%0.00%396.87%1.46%1.46%0.21%0.00%417.12%54.00%26.04%2.74%0.10%

由聚类分析结果可知，第1类变电站以工业和居民负荷为主，分别约占48%和35%，商业负荷为辅，约占14%；第2类变电站居民负荷为主，约为63%，工业和商业负荷为辅，分别约占16%和15%；第3类变电站以工业负荷为绝对主导，约占97%；第4类变电站以商业负荷为主，约占54%，工业和居民负荷为辅，分别约占17%和26%。

3.3 聚类算法对比分析

以最佳聚类数k = 4为例，分析不同算法输出的聚类结果，改进GMM聚类结果已在表3列出，FCM算法、k-means算法和传统GMM聚类算法聚类结果分别如表4—表6所示。

表4 FCM算法聚类结果
Table 4 Clustering results of FCM algorithm

类别数目工业商业居民农业其他17648.99%15.25%33.47%2.24%0.04%211014.49%14.24%66.72%4.55%0.00%37596.21%1.62%1.94%0.23%0.00%49818.91%39.64%35.01%6.39%0.06%

表5 K-means算法聚类结果
Table 5 Clustering results of k-means algorithm

类别数目工业商业居民农业其他120210.13% 13.47% 36.23% 39.83% 0.35%27427.27% 14.36% 55.97%2.38%0.02%39888.48%3.95%7.05%0.52%0.00%41721.65% 50.03% 25.93%2.39%0.00%

表6 传统GMM聚类算法输出结果
Table 6 Results of GMM clustering algorithm

类别数目工业商业居民农业其他16540.18%11.55%44.98%3.28%0.01%212914.75%15.86%63.88%5.51%0.00%39987.69%3.03%8.73%0.55%0.00%49828.14%42.07%25.54%4.16%0.09%

通过对比表3—表6可以看出，不同算法输出的聚类结果具有较大差别。其中，k-means算法输出的第1类变电站以农业和居民负荷占据主导，但工业和商业负荷也占据了相当的比例，类别特征并不明显，且农业负荷在全部变电站中所占比例很低，尚不足5%，农业用电以排灌和其他农林渔业机械设备为主，负荷成分与工业负荷相似，在负荷建模中可与工业负荷合并处理，不宜再进行单独分类。FCM算法输出的第2类变电站以居民负荷为主，工业和商业负荷为辅，第4类变电站以居民与商业负荷为主且占比相当，工业负荷为辅，经核对原始数据发现，部分居民负荷为主的变电站被归并到了第4类，致使第4类变电站中居民负荷成分较高，分类结果不准确。传统GMM聚类算法输出的第3类变电站以工业负荷为绝对主导，占比为87.69%，改进后的GMM聚类得到的第3类变电站工业负荷占比高达96.87%，类别特征更加明显。综上所述，改进GMM得到的聚类准确度更高。

由图3可以看出，聚类数目最佳为k = 4，当聚类数分别取2、4、9时，算法输出的SC、DB、CH值最佳。分别取聚类数目为2、4、9，采用k-means算法、FCM算法、改进GMM算法进行聚类效果对比分析，结果如表7—表9所示。

表7 k = 2时各算法聚类指标对比
Table 7 Comparison of clustering indicators of various algorithms at k = 2

pagenumber_ebook=132,pagenumber_book=598

算法运行时间/sDBCHSC FCM0.200.965402.1560.610 k-means0.280.949429.7620.691传统GMM1.060.894332.7960.566改进GMM0.320.899429.9350.692

表8 k = 4时各算法聚类指标对比
Table 8 Comparison of clustering indicators of various algorithms at k = 4

算法运行时间/sDBCHSC FCM0.200.969417.3070.539 k-means0.250.862349.0850.613传统GMM0.820.948347.8510.367改进GMM0.400.735519.4560.623

表9 k = 9时各算法聚类指标对比
Table 9 Comparison of clustering indicators of various algorithms at k = 9

算法运行时间/sDBCHSC FCM0.191.432277.5750.332 k-means0.290.830541.6470.568传统GMM2.190.985231.4710.286改进GMM0.820.767560.7380.601

由表7—表9的计算结果可以看出，当聚类数目很小时，算法之间的差异并不明显，随着聚类数目增大，在相同条件下，改进GMM聚类算法输出的DB值更小，CH和SC值更大，说明使用该算法进行聚类得到的簇内紧密度更高，簇间距离更大，类别差异更明显，聚类性能更好。此外，传统GMM聚类算法运行所用时间较长，每次聚类得到的结果差异很大，采用k-means算法改进后的GMM聚类算法收敛速度快、输出结果更稳定，虽然与FCM、k-means算法相比其聚类所用时间稍长，但总体看来依然优于其他算法。

4 结论

本文提出了一种基于改进GMM的变电站负荷聚类算法，以变电站负荷组成调研结果为例，初步确定聚类数范围，对数据采用改进GMM聚类，计算聚类评价指标，基于熵权法构建聚类评价混合指数，寻找最佳聚类数，优化聚类效果，算例表明：

1）采用k-means算法对初始聚类中心进行初步定位的改进GMM聚类算法克服了传统GMM聚类算法计算步骤复杂、收敛速度慢的缺点，算法计算速度更快、输出的结果更稳定、得到的聚类结果更加精确，通过不同算法的对比可以看出，改进GMM聚类算法的聚类性能明显优于其他算法。

2）聚类有效性指标DB、CH、SC值用以评价聚类效果，都可以用于寻找最佳聚类数目。为实现聚类评价的可靠性，本文基于熵权法计算各指标所占权重，构建了包含DB、CH、SC三种评价指标的聚类评价混合指数，克服了传统聚类算法中人为确定聚类数目时存在盲目性和主观性的不足，从而实现对大规模负荷数据集的准确聚类，有助于实现聚类效果的最优化。

通过对负荷变电站进行聚类分析，选择具有代表性的变电站，科学地确定故障录波装置的布点，是负荷建模工作的第一步。对于同一类别的负荷变电站，采集故障录波数据，通过总体测辨法建立实测负荷模型，此负荷模型同时也可推广至同类变电站的负荷模型。初步构建分类别的负荷模型参数库后，定期更新变电站基础数据，通过聚类分析对负荷变电站类型加以修正，并利用新得到的故障录波数据，对每一类别的模型进行修正，同时修正变电站与负荷模型对应关系，完成对负荷模型库的维护，进一步提升负荷模型的精确性，使负荷模型适应电力系统分析计算的要求。

参考文献

[1]
赵静波，鞠平，施佳君，等.电力系统负荷建模研究综述与展望[J].河海大学学报（自然科学版），2020，48(1)：87-94.ZHAO Jingbo, JU Ping, SHI Jiajun, et al.Review and prospects for load modeling of power system[J].Journal of Hohai University (Natural Sciences), 2020, 48(1): 87-94 (in Chinese). [百度学术]
[2]
陈黎军，宋远军，王坤，等.考虑参与电网辅助服务的电动汽车有序充电研究[J].电力需求侧管理，2022，24(1)：34-41.CHEN Lijun, SONG Yuanjun, WANG Kun, et al.Study on orderly charging of electric vehicles considering participating in grid ancillary services[J].Power Demand Side Management,2022, 24(1): 34-41 (in Chinese). [百度学术]
[3]
程杉，陈诺，徐建宇，等.考虑综合需求响应的楼宇综合能源系统能量管理优化[J].电力工程技术，2023，42(2)：40-47.CHENG Shan, CHEN Nuo, XU Jianyu, et al.Optimal energy management of residential integrated energy system with consideration of integrated demand response[J].Electric Power Engineering Technology, 2023, 42(2): 40-47 (in Chinese). [百度学术]
[4]
徐明杰，赵健，王小宇，等.基于多任务联合模型的居民用电模式分类方法[J].电工技术学报，2022，37(21)：5490-5502.XU Mingjie, ZHAO Jian, WANG Xiaoyu, et al.Residential electricity consumption pattern classification method based on multi-task joint model[J].Transactions of China Electrotechnical Society, 2022, 37(21): 5490-5502 (in Chinese). [百度学术]
[5]
徐衍会，张蓝宇，宋歌.基于核的模糊C均值逐层聚类算法在负荷分类中的应用[J].电力建设，2015，36(4)：46-51.XU Yanhui, ZHANG Lanyu, SONG Ge.Application of clustering hierarchy algorithm based on kernel fuzzy C-means in power load classification[J].Electric Power Construction,2015, 36(4): 46-51 (in Chinese). [百度学术]
[6]
张琦，杨健维，向悦萍，等.计及气象因素的区域电动汽车充电负荷建模方法[J].电力系统保护与控制，2022，50(6)：14-22.ZHANG Qi, YANG Jianwei, XIANG Yueping, et al.Regional electric vehicle charging load modeling method considering meteorological factors[J].Power System Protection and Control, 2022, 50(6): 14-22 (in Chinese). [百度学术]
[7]
张华赢，吴显，游奕弘.基于循环神经网络的配电网非线性负荷建模[J].电网与清洁能源，2022，38(2)：53-60.ZHANG Huaying, WU Xian, YOU Yihong.Modeling of nonlinear loads in the distribution network based on recurrent neural network[J].Power System and Clean Energy, 2022,38(2): 53-60 (in Chinese). [百度学术]
[8]
林永君，张聪聪，孟耀兵.基于模型预测控制的分散式空调两阶段优化调度[J].山东电力技术，2023，50(4)：1-6.LIN Yongjun, ZHANG Congcong, MENG Yaobing.Twostage optimal scheduling of decentralized air conditioning load based on model predictive control[J].Shandong Electric Power, 2023, 50(4): 1-6 (in Chinese). [百度学术]
[9]
张凯，冯剑，刘建华，等.基于模糊C均值聚类算法的用电行为模式分类[J].电力需求侧管理，2022，24(3)：98-103.ZHANG Kai, FENG Jian, LIU Jianhua, et al.Power consumption behavior pattern classification based on fuzzy C-mean clustering algorithm[J].Power Demand Side Management, 2022, 24(3): 98-103 (in Chinese). [百度学术]
[10]
苏欣，田浩，秦昌龙，等.多变量数据聚类最优选择的用电关联分析算法[J].电网与清洁能源，2022，38(4)：86-94.SU Xin, TIAN Hao, QIN Changlong, et al.Electricity consumption association analysis algorithm for optimal selection of multivariate data clustering[J].Power System and Clean Energy, 2022, 38(4): 86-94 (in Chinese). [百度学术]
[11]
SUN Z X, ZHAO S S, ZHANG J X.Short-term wind power forecasting on multiple scales using VMD decomposition,k-means clustering and LSTM principal computing[J].IEEE Access, 2019, 7: 166917-166929. [百度学术]
[12]
许良财，邵振国，陈飞雄.基于haar小波编码和改进K-medoids算法聚合的用户负荷典型区间场景挖掘[J].电力自动化设备，2022，42(6)：154-160.XU Liangcai, SHAO Zhenguo, CHEN Feixiong.Typical interval scene mining of consumer load based on haar wavelet coding and improved K-medoids algorithm aggregation[J].Electric Power Automation Equipment, 2022, 42(6): 154-160(in Chinese). [百度学术]
[13]
LIU F, DONG T, HOU T, et al.A hybrid short-term load forecasting model based on improved fuzzy C-means clustering,random forest and deep neural networks[J].IEEE Access,2021, 9: 59754-59765. [百度学术]
[14]
FONTANINI A D, ABREU J.A data-driven BIRCH clustering method for extracting typical load profiles for big data[C]//2018 IEEE Power & Energy Society General Meeting(PESGM).Portland, OR, USA.IEEE, 2018: 1-5. [百度学术]
[15]
CHEN Y W, ZHOU L D, PEI S W, et al.KNN-BLOCK DBSCAN: fast clustering for large-scale data[J].IEEE Transactions on Systems, Man, and Cybernetics: Systems,2021, 51(6): 3939-3953. [百度学术]
[16]
瞿原，邓维斌，胡峰，等.基于Spark的点排序识别聚类结构算法[J].计算机科学，2018，45(1)：97-102.QU Yuan, DENG Weibin, HU Feng, et al.Algorithm for ordering points to identify clustering structure based on spark[J].Computer Science, 2018, 45(1): 97-102 (in Chinese). [百度学术]
[17]
张红斌，贺仁睦，刘应梅.基于Kohonen神经网络的电力系统负荷动特性聚类与综合[J].中国电机工程学报，2003，23(5)：1-5.ZHANG Hongbin, HE Renmu, LIU Yingmei.The characteristics clustering and synthesis of electric dynamic loads based on Kohonen neural network[J].Proceedings of the CSEE, 2003,23(5): 1-5 (in Chinese). [百度学术]
[18]
黄乾，马开刚，韦善阳，等.基于强化自组织映射和径向基神经网络的短期负荷预测[J].全球能源互联网，2019，2(1)：70-77.HUANG Qian, MA Kaigang, WEI Shanyang, et al.A shortterm load forecasting method based on reinforcement selforganizing map and radial basis function neural network[J].Journal of Global Energy Interconnection, 2019, 2(1): 70-77 (in Chinese). [百度学术]
[19]
赵慧，刘希玉，崔海青.网格聚类算法[J].计算机技术与发展，2010，20(9)：83-85.ZHAO Hui, LIU Xiyu, CUI Haiqing.Grid-based clustering algorithm[J].Computer Technology and Development, 2010,20(9): 83-85 (in Chinese). [百度学术]
[20]
林鹏，陈曦，龙鹏飞，等.一种改进的CLIQUE算法及其并行化实现[J].计算技术与自动化，2018，37(4)：49-54.LIN Peng, CHEN Xi, LONG Pengfei, et al.Improved CLIQUE algorithm and its parallelization[J].Computing Technology and Automation, 2018, 37(4): 49-54 (in Chinese). [百度学术]
[21]
杨秀，李安，孙改平，等.基于改进GMM-CNN-GRU混合的非侵入式负荷监测方法研究[J].电力系统保护与控制，2022，50(14)：65-75.YANG Xiu, LI An, SUN Gaiping, et al.Non-invasive load monitoring based on an improved GMM-CNN-GRU combination[J].Power System Protection and Control, 2022,50(14): 65-75 (in Chinese). [百度学术]
[22]
刘金朋，杨昊，吴澜，等.基于高斯混合模型的居民聚合响应潜力多重置信评估[J].电力工程技术，2023，42(2)：20-28.LIU Jinpeng, YANG Hao, WU Lan, et al.Evaluation of residential demand response potential under multiple confidence scenarios based on Gaussian mixture model[J].Electric Power Engineering Technology, 2023, 42(2): 20-28 (in Chinese). [百度学术]
[23]
唐成虹，余良辉，孙树敏，等.基于高斯混合模型的海洋能发电资源优化配置研究[J].电力工程技术，2022，41(2)：97-104.TANG Chenghong, YU Lianghui, SUN Shumin, et al.Gaussian mixture model based optimal allocation of marine energy power generation resources[J].Electric Power Engineering Technology, 2022, 41(2): 97-104 (in Chinese). [百度学术]
[24]
LI K H, MA Z J, ROBINSON D, et al.Identification of typical building daily electricity usage profiles using Gaussian mixture model-based clustering and hierarchical clustering[J].Applied Energy, 2018, 231: 331-342. [百度学术]
[25]
SUN F, HUO Y J, FU L, et al.Load-forecasting method for IES based on LSTM and dynamic similar days with multifeatures[J].Global Energy Interconnection, 2023, 6(3): 285-296. [百度学术]
[26]
刘钊瑞，高云鹏，郭建波，等.基于深度自编码器高斯混合模型的窃电行为检测[J].电力系统保护与控制，2022，50(18)：92-102.LIU Zhaorui, GAO Yunpeng, GUO Jianbo, et al.Abnormal detection of electricity theft using a deep auto-encoder Gaussian mixture model[J].Power System Protection and Control, 2022, 50(18): 92-102 (in Chinese). [百度学术]
[27]
李幸芝，韩蓓，李国杰，等.考虑换流器伪量测建模的交直流混联电网状态估计方法[J].全球能源互联网，2022，5(3)：271-281.LI Xingzhi, HAN Bei, LI Guojie, et al.Hybrid AC/DC networks state estimation considering pseudo measurement modeling of converters[J].Journal of Global Energy Interconnection, 2022, 5(3): 271-281 (in Chinese). [百度学术]
[28]
张美霞，李丽，杨秀，等.基于高斯混合模型聚类和多维尺度分析的负荷分类方法[J].电网技术，2020，44(11)：4283-4296.ZHANG Meixia, LI Li, YANG Xiu, et al.A load classification method based on Gaussian mixture model clustering and multidimensional scaling analysis[J].Power System Technology,2020, 44(11): 4283-4296 (in Chinese). [百度学术]
[29]
党小超，毛鹏鑫，郝占军.基于快速求解高斯混合模型的流量聚类算法[J].计算机工程与应用，2015，51(8)：96-101.DANG Xiaochao, MAO Pengxin, HAO Zhanjun.Network traffic clustering algorithm based on quick solution of GMM[J].Computer Engineering and Applications, 2015,51(8): 96-101 (in Chinese). [百度学术]
[30]
吴浩天，孙荣富，廖思阳，等.基于改进气象聚类分型的短期风电功率概率预测方法[J].电力系统自动化，2022，46(15)：56-65.WU Haotian, SUN Rongfu, LIAO Siyang, et al.Short-term wind power probability forecasting method based on improved meteorological clustering and classification[J].Automation of Electric Power Systems, 2022, 46(15): 56-65 (in Chinese). [百度学术]
[31]
吉涛，何轶，朱韵攸，等.联合知识图谱与改进高斯混合模型的电力用户聚类方法[J].重庆理工大学学报（自然科学），2022，36(12)：92-101.JI Tao, HE Yi, ZHU Yunyou, et al.Power user clustering method based on a combination of knowledge graph and modified Gaussian mixture model[J].Journal of Chongqing University of Technology (Natural Science), 2022, 36(12): 92-101 (in Chinese). [百度学术]
[32]
陈聿，田博今，彭云竹，等.联合手肘法和期望最大化的高斯混合聚类电力系统客户分群算法[J].计算机应用，2020，40(11)：3217-3223.CHEN Yu, TIAN Bojin, PENG Yunzhu, et al.Gaussian mixture clustering algorithm combining elbow method and expectation-maximization for power system customer segmentation[J].Journal of Computer Applications, 2020,40(11): 3217-3223 (in Chinese). [百度学术]
[33]
吉涛，刘玮洁，段立，等.采用改进高斯混合模型的电力客户大数据行为分析[J].重庆理工大学学报（自然科学），2022，36(5)：233-240.JI Tao, LIU Weijie, DUAN Li, et al.Big data behavior analysis of power customers based on improved Gaussian mixture model[J].Journal of Chongqing University of Technology(Natural Science), 2022, 36(5): 233-240 (in Chinese). [百度学术]
[34]
尹忠东，陈俊晔，沈子伦，等.基于k-means聚类的配网变压器绕组材质辨识算法[J/OL].华北电力大学学报（自然科学版）.(2022-12-26)[2023-04-18].http://kns.cnki.net/kcms/detail/13.1212.TM.20221226.0855.001.html.YIN Zhongdong, CHEN Junye, SHEN Zilun, et al.Identification algorithm of distribution network transformer winding material based on k-means clustering[J/OL].Journal of North China Electric Power University (Natural Science Edition).(2022-12-26) [2023-04-13].http://kns.cnki.net/kcms/detail/13.1212.TM.20221226.0855.001.html (in Chinese). [百度学术]
[35]
艾欣，赵旭州，胡寰宇，等.G1–熵权–独立性权法在电网发展态势感知中的应用[J].电网技术，2020，44(9)：3481-3490.AI Xin, ZHAO Xuzhou, HU Huanyu, et al.G1-entropyindependence weight method in situational awareness of power grid development[J].Power System Technology, 2020, 44(9):3481-3490 (in Chinese). [百度学术]
[36]
朱二周，孙悦，张远翔，等.一种采用新型聚类方法的最佳类簇数确定算法[J].软件学报，2021，32(10)：3085-3103.ZHU Erzhou, SUN Yue, ZHANG Yuanxiang, et al.Optimal clustering number determining algorithm by the new clustering method[J].Journal of Software, 2021, 32(10): 3085-3103 (in Chinese). [百度学术]

基金项目

广东电网有限责任公司规划专题项目（0319002022030203JF00023）。

作者简介

余浩

余浩（1986），男，硕士，高级工程师，研究方向为电网规划、新能源电力系统建模与仿真，E-mail：yuhao@gd.csg.cn。
高镱滈

高镱滈（1999），女，硕士，研究方向为电力系统负荷建模，E-mail：13141316868@163.com。
潘险险

潘险险（1 9 8 9），女，高级工程师，研究方向为电网规划、电力系统分析与控制，E-mail：panxianxianpxx@163.com。
徐衍会

徐衍会（1978），男，教授，博士生导师，研究方向为动态电力系统分析与负荷建模。通信作者，E-mail：xuyanhui23@sohu.com。
李雪松

李雪松（1997），男，硕士研究生，研究方向为电力系统负荷建模，E-mail：18660681360@163.com。
孙宇航

孙宇航（2001），男，硕士研究生，研究方向为电力系统负荷建模，E-mail：sunyuhang63@126.com。

出版信息

文章编号：2096-5125 (2024) 05-0591-11

中图分类号：TM714

文献标志码：A

DOI：10.19705/j.cnki.issn2096-5125.2024.05.012

收稿日期：2022-11-11

修回日期：

出版日期：2024-09-25

引用信息：余浩,高镱滈,潘险险等.基于改进高斯混合模型的变电站负荷聚类算法[J].全球能源互联网,2024,7(5):591-601 .YU Hao , GAO Yihao, PAN Xianxian ,et al.Substation Load Clustering Algorithm Based on Improved Gaussian Mixture Model[J].Journal of Global Energy Interconnection,2024,7(5):591-601 (in Chinese).

（1.广东电网有限责任公司电网规划研究中心，广东省广州市 510030；2.华北电力大学电气与电子工程学院，北京市昌平区 102206）

目录

图片（0）

表格（0）

相关论文：

全球能源互联网

基于改进高斯混合模型的变电站负荷聚类算法

Substation Load Clustering Algorithm Based on Improved Gaussian Mixture Model

关键词

Keywords

摘要

Abstract

0 引言

1 改进GMM 聚类算法

1.1 GMM聚类

1.2 K-means聚类算法

1.3 熵权法

1.4 改进GMM聚类算法

2 聚类评价指标

2.1 DB指标

2.2 CH指标

2.3 轮廓系数

3 算例分析

3.1 变电站负荷组成统计调查

3.2 改进高斯混合模型聚类算例分析

3.3 聚类算法对比分析

4 结论

参考文献

基金项目

作者简介

余浩

高镱滈

潘险险

徐衍会

李雪松

孙宇航

出版信息

目录

图片（0）

表格（0）

相关论文：

全球能源互联网

基于改进高斯混合模型的变电站负荷聚类算法

Substation Load Clustering Algorithm Based on Improved Gaussian Mixture Model

关键词

Keywords

摘 要

Abstract

0 引言

1 改进GMM 聚类算法

1.1 GMM聚类

1.2 K-means聚类算法

1.3 熵权法

1.4 改进GMM聚类算法

2 聚类评价指标

2.1 DB指标

2.2 CH指标

2.3 轮廓系数

3 算例分析

3.1 变电站负荷组成统计调查

3.2 改进高斯混合模型聚类算例分析

3.3 聚类算法对比分析

4 结论

参考文献

基金项目

作者简介

余浩

高镱滈

潘险险

徐衍会

李雪松

孙宇航

出版信息

摘要