电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

非平衡数据范文

来源:漫步者作者:开心麻花2025-11-191

非平衡数据范文(精选7篇)

非平衡数据 第1篇

传统的分类算法大都基于一种假定:用来学习的样本数据都是平衡的, 即各类样本数据的数量差别不大。然而, 现实世界中, 很多情况下样例数据是不均衡的。例如, 在1 000个体检数据集中, 最终分类类型为健康的可能占90%, 分类类型为不健康的则占10%, 这样的数据集就是非平衡的。为便于叙述, 本文将一个数据集中大多数样例都属于的分类类型称为多数类 (majority class) , 而剩余样例的分类类型称为少数类 (minority class) 。

对于非平衡数据的分类 (imbalanced classification) , 最大的问题是最终得到的分类器可能只对MA数据敏感, 而忽略MI数据。在对测试数据进行分类预测时, 容易将其分类为MA而忽略MI。例如, 银行想利用分类算法构造一个分类器, 对顾客未来是否进行信用贷款进行预测。银行的历史数据 (有标记样本集合) 中, 只有2%的顾客信用贷款, 其余98%的顾客不贷款。传统的分类算法在这样的样本数据上进行学习得到的分类器, 会将所有被预测的顾客判定为不贷款, 因为这样可以得到98% 的分类准确率。这显然不是银行的目的, 能对少数可能贷款的用户进行准确预测, 才是分类器的真正目的。

1 非平衡数据分类算法

为解决非平衡数据分类问题, 各种方法被相继提出, 归纳起来, 主要包括3个方面:改变样本分类类型分布技术、分类器技术和集成学习技术。

1.1 改变样本分类类型分布技术

该方法又称为重取样技术 (re-sampling) , 其根本目的是对原始非平衡数据集进行预处理, 得到一个新的数据集。在这个新的数据集中, MA样本和MI样本数量基本持平。以该思想为基础, 有两种不同方法, 即增重取样方法 (over-sampling) 和减重取样方法 (under-sampling) 。

增重取样方法是:保持原始样本中多数类样本不变, 将少数类样本数量按一定的原则扩大, 使MI样本和MA样本数持平, 从而得到一个平衡数据集。随机增重取样[1]是最简单的一种增重取样方法。它直接随机地选取一定数量的MI样本, 然后将这些样本原样复制, 从而增加MI样本的数量。随机增重取样方法的主要缺点是:首先它增加了出现过度拟合 (over-fitting) 的可能性;其次, 它比较耗时, 尤其是在原始数据集比较大的时候。

为克服随机增重取样方法的不足, 启发式的增重取样方法[2]被提出。这种方法不是直接复制MI样本, 而是在原始MI样本上进行插值, 生成新的MI样本。它能有效地防止过度拟合。位于分类类型边界附近的样本对于分类学习算法很重要, 因为这些样本最容易被误判。鉴于此, 基于边界的启发式增重取样方法[3]被提出。该方法只对分类边界附近的MI样本进行插值合成。

减重取样方法是:通过减少原始数据集中的MA样本来得到一个平衡数据集。随机减重取样方法[4]是最简单的一种减重取样方法, 它直接随机删除一些MA样本。该方法的缺点是:容易将一些含有有用信息的MA样本删除, 对最终学习并得到分类器不利。

最近邻居减重取样方法[5]是:先找出每个样本的3个最近邻居, 如果其中一个样本的分类类型与另两个样本的分类类型不一样, 则将该样本删除。

当非平衡数据集的非平衡性很严重时, 往往将增重取样方法和减重取样方法联合使用, 以获得更好的学习效果[6]。

1.2 分类器技术

分类器技术就是对传统的分类算法本身进行一定的调整, 使非平衡数据分类问题呈现出来。它又分为3种不同方法:代价敏感方法、单类学习方法 (one-class learn-ing) 和分类器本身调节方法。

代价敏感方法和重取样方法一样, 是使用最多的一种处理非平衡数据分类的方法。标准分类算法的目的是获得高的预测性。在检测分类器的性能时, 不管是什么类型的分类错误, 都被统一地记为一个错误分类, 这在实际应用中是不恰当的。如计算机辅助诊断系统, 将一个正常的人误判为犯病, 或将一个犯病的人误判为健康, 这两种误判的代价是不一样的, 后者的代价显然更高, 因为它可能导致犯病者延误治疗而失去生命。

非平衡分类问题中, 对MA样本的分类准确性往往很高, 但对MI样本的分类则往往错误率很高。此时, 可以采用代价敏感的方法, 对MI样本的误判代价加大, 使得分类器对MI样本更加敏感[7-8]。

非平衡数据集中, MI数据少, 但往往更重要, 我们可能往往只关注MI样本的分类, 为此, 单类学习方法可以用来处理该问题[9-10]。单类学习方法本质上是一种以识别为基础的方法。Brute[9]系统用来在波音公司的生产过程中寻找漏洞;Shrink[10]系统使用卫星雷达影像来发现漏油现象;Raskutti和Kowalczyk发现[11], 在许多重要的非平衡数据领域, 如高维的基因数据, 单类支持向量机的性能优于双类支持向量机。

分类器本身调节方法是指:一些分类器, 如朴素贝叶斯分类器和人工神经网络, 能对样本属于某种类型的程度进行评分。利用这种排序功能 (ranking) , 通过改变样本属于某个类的门限值, 用来处理非平衡问题[12]。对于K最近邻居算法 (kNN) , 通过使用一个权重距离函数, 可以用来处理非平衡问题[13]。它的基本思想是:通过使用距离权重, 来弥补原始数据的非平衡性, 而不用像重取样技术一样, 改变分类类型的分布。同样, 对于支持向量机算法, 可以通过改变其核函数来处理非平衡问题[14]。

1.3 集成学习技术

集成学习在近些年的机器学习中被广泛研究, 其中最具代表性的是Boosting方法和Bagging方法。集成学习也被大量地运用到非平衡问题中。文献[15]和[7]都采用集成学习方法解决非平衡问题, 其中文献[15]采用Boos-ting方法, 文献[7]采用Bagging方法。

文献[16]中, 每个基础分类器采用不同的分类算法, 并且每种基础算法采用遗传算法选取不同的特征分量进行学习, 最后也是通过遗传算法, 组合每个基础分类器的分类结果, 对目标进行分类预测。

集成学习能有效处理非平衡问题, 原因在于它的基础分类算法往往具有多样性, 或是用不同的分类类型分布训练出来。

2 结语

非平衡数据 第2篇

近年来,非平衡数据挖掘日益受到机器学习领域内专家和学者的关注,非平衡类数据挖掘被列为数据挖掘领域的十大挑战性难题之一[1]。所谓非平衡数据[2],指的是一个数据集中某些类的样本比其他类的样本多得多的数据。对于标准的二分类问题,样本数量多的类我们称之为多数类(或负类),样本数量少的类我们称之为少数类(或正类)。通常少数类包含更为重要的信息,同时也是我们关注的重点。如信用卡欺诈检测问题[3]、网络入侵识别问题[4]、医疗诊断中病人的判定问题等等。

然而现有的大多数分类器都倾向于将样本判别为多数类,少数类的识别较之多数类更为困难,因此少数类样本的识别问题成为非平衡数据分类的难点问题。在非平衡数据分类中,少数类样本较难识别的原因主要包括[5]:少数类样本缺少、不恰当的评价标准、噪声的影响噪声及不恰当的归纳偏置。

解决训练样本数据不平衡常用的方法有两种[6]:1)数据层面上,对训练样本的重构,即采样。可以通过添加少数类样本或去除多数类样本来完成,但这两种方法都不太好。前者可能加入一些冗余甚至是噪声的样本,而后者可能去除一些对分类有用的信息。2)算法层面上,对算法的改进。通常可以通过加入惩罚机制或利用集成学习来对数据分布的非平衡做一些补偿,这种方法不会破坏现有的数据组成。

国外学者的研究中,Japkowic等[7]通过实验的方法研究了不同分类方法在处理非平衡数据时的效果,其中包括决策树C4.5、BP神经网络以及支持向量机等。实验结果表明,支持向量机对数据不平衡性带来的影响较不敏感。文献[8]指出各种采样方法可以有效改善数据不平衡的情况,Drummond等[9]更进一步指出“过采样”比“欠采样”更能有效解决数据不平衡的问题。Dai等[10]提出了基于专家框架下解决不平衡问题。文献[11]则通过集成的方法来解决客户数据不平衡的问题。Jo和Japkowicz[12]进一步比较研究了类间不平衡和小析取项对分类学习的效果影响。国内研究方面,周志华等[13]人研究了采用代价敏感方法来解决数据不平衡的分类问题,利用C4.5决策树算法对多分类问题中数据不平衡和代价敏感的关系作了一定的研究。De等[14]则分别对“过采样”、“欠采样”、“阙值移动”、“软集成”等方法对大量非平衡集进行实验,并总结不同方法的处理非平衡数据的能力。蒋莎等[15]在基于支持向量机的框架下分析了数据不平衡的问题,并提出多种改进的算法。

SVM算法是数据挖掘领域目前比较常用的机器学习方法,一种求全局最优解的算法,擅长解决小样本、非线性、高维样本,与贝叶斯,神经网络,KNN等算法相比具有明显的优势。但不可避免的SVM也存在一定的缺点,SVM分类器进行二元分类时,对位于两个类别的边界区域或重叠区域的样本点,算法存在一定的分类错误,且SVM分类错误一般都发生在最优分类面附近。

针对原始的SVM算法在最优分界面附近容易错分的问题,许多学者对此进行了研究:翟永杰[16]提出结合模糊理论,利用模糊隶属度修正最优分类面的方法;岑涌[17]提出利用遗传算法来对SVM进行参数寻优,从而构造广义最优分类超平面进而获得较好的整体预测性能;李蓉[18]提出将KNN算法融入SVM算法中,形成了K-SVM算法,在不对最优分类面做任何修正的情况下,通过待分类样本离最优分类面的距离选取不同的分类算法,该算法仅利用KNN、SVM自身的特点,不对最优分类面做任何修正,所需的计算量少,需要的参数也较少,是一种较稳定的算法。它的基本思想是对于那些距离最优分类面较近的样本点,若直接使用SVM进行分类,很容易错分,此时若利用每个类别对应的支持向量集作为该类别的代表点,并将所有支持向量作为训练样本集,采用KNN算法来对新样本数据进行分类。文献[19]证明了使用K-SVM有助于提高最优分类面附近样本的预测准确率,虽然K-SVM算法在处理最优分类面附近的样本时增加了KNN算法的计算量,但KNN算法仅与所有的支持向量进行运算,支持向量只是训练样本一个很小的子集,因此算法所增加的计算量也不是很大。

K-SVM算法在训练数据集分布平衡的情况下的确具有很好的分类效果,相比标准的SVM算法,在分类精确度方面确实有了一定程度的提高。但由于KNN算法对数据集分布非平衡的情况很敏感,在这种情况下,使用K-SVM算法,遇见最优分界面附近的样本容易发生错分,其分类精确度反而会下降,甚至可能比标准的SVM算法还低。

分析发现正是由于K-SVM基于所有的分类错误会带来相同的错误代价这一假设才导致少数类样本容易错分,因此本文进行算法层面研究,提出了一种加入惩罚因子的K-SVM算法PFKSVM及并结合集成学习模型进行非平衡数据分类,并通过仿真实验进行验证。

1 基于惩罚因子的SVM算法及其集成学习模型

1.1 基于惩罚因子的SVM算法

在数据集分布非平衡的情况下,待分类样本附近的支持向量的分布可能也是非平衡的。通常情况下,拥有较多训练样本的多数类含有的支持向量数也会较多,而那些少数类含有的支持向量数相应的也比较少。当d<ε时,即采用KNN算法进行判别,由于KNN选取离待分类样本最近的k个邻居投票决定待分类样本的类别。为了保证分类不受非平衡因素的影响,可以在KNN判别中加入惩罚机制,算法描述如下:

算法名称:基于惩罚因子的PFKSVM分类算法

算法输入:训练样本集T1及分类标示Y1,测试样本集T2;

算法输出:测试样本集T2的类别标示Y2;

算法参数:距离阈值ε;

算法步骤:

Step1用训练样本集T1及分类标示Y1,利用SVM模型训练得到决策函数模型及支持向量集合SV:

分别计算得到:C+=1/N+,C-=1/N-,其中N+、N-分别代表正类、负类分别包含的支持向量的数目。

Step2对测试样本集T2中的每一个待分类样本x计算SVM决策函数:

得到x与最优分类超平面的距离d=f(x)。

Step3

Step3.1若,直接使用SVM的判别函数g(x)=sgn(f(x))作为分类结果输出。

Step3.2若,用KNN算法对样本x进行分类。即计算待分类样本x与支持向量集合SV中每一个支持向量SVi的距离,选出距离最近的k个支持向量,统计k个支持向量的类别,分别记正类个数和负类个数为:pnum和nnum。若C+*p num>C-*nnum则判别为正类,否则判别为负类。

Step4结束算法。

其中:

为了使算法能够同时处理分布平衡的数据与分布非平衡的数据,在类别判别过程中不是单纯采用投票打分的机制来对待测样本x进行类别判别,而是加入了简单的惩罚和补偿机制。我们加入两个惩罚参数C+、C-,分别用来对统计得到的pnum和nnum进行惩罚。通常情况,训练样本多所含有的支持向量也会较多,若单纯比较k个邻居中正、负样本数目,而仅以绝对支持向量数量作为判别的依据,容易把样本错分为负类,因此采用相对支持向量数量来对决策提供依据。令C+=1/N+,C-=1/N-,其中N+、N-分别代表正类、负类分别包含的支持向量的数目。此时C+*pnum、C-*nnum分别代表k个邻居中所含正、负支持向量占总的正、负类支持向量的比例。因此,只有当k个邻居中所含有的负类支持向量绝对数量高于正类样本时,我们才判别待测样本为负类。通过这种方法就可以对占据样本数目较多的类别进行惩罚,对占据样本数目较少的类别进行相应的补偿。

1.2 基于PFKSVM的集成学习模型

集成学习的基本思想是使用有限个基本分类器对数据集进行学习,并且对多个基本分类器的预测结果进行组合。因此集成学习对单个基本分类器的依赖性较小,往往表现为更强的泛化能力和更好的预测效果。近年来,许多学者投入到集成学习的研究中,将集成学习技术应用到统计学习、机器学习及神经网络等领域。集成学习的构成方法主要有:输入变量集重构法、输入变量集重构法及样本集重新抽样法三种。

造成非平衡数据分类困难的原因是其分布的不平衡性,因此本文采用样本重新抽样法,即通过样本重采样[20]来减小非平衡数据对分类效果的影响。过采样精确的复制样本可能会导致过度拟合,增加训练时间。期望改变训练集的类分布而又不移除任何训练集,同时也不期望增加训练时间。因此采用集成学习模型进行分类,具体结构如图1所示。

模型采用了三层架构的方式,分别包括重构采样层、基本训练层和综合判定层。重构采样层将训练样本进行划分成多个样本子集,由基本训练层分别对这些训练子集训练,得到多个分类结果,最后综合判定层将各分类结果进行组合,得到最后的判别结果。重构采样层在数据层面对非平衡数据行处理,保证前k-1个训练子集是平衡的,而基本训练层则在算法层面对k个子集进行处理,通过将这两种方式的结合来减小数据非平衡性对分类效果的影响。具体说来,重构采样层将负类样本分成了k个子簇,其中前k-1个子簇与正类样本组成的训练子集是平衡的,但多数情况下第k个子簇与正类样本组成的训练子集是非平衡的,故我们将能同时较好地处理平衡数据集和非平衡数据集的PFKSVM算法融入到集成学习模型中,力求提高第k个训练子集的精度,进而提高正类样本和整体数据集的预测精度。

1)重构采样层

采样层的主要任务是对负类样本进行采样划分,保证基本训练层中各个分类器的训练数据分布趋于平衡。假设负类样本训练集N={n1,,ni,,nn},正类样本训练集N={p1,pi,,pp},其中n、p分别为负类样本个数和正类样本个数,pn,因此需将负类样本成k=[n/p]个负类子集。对于每个负类子集,采用放回简单随机采样技术(SRSWOR),通过s个样本无放回随机采样技术获得每个基本分类器所使用的训练子集。对划分所得的负类样本采用该方法限数采样能保证训练集中的每个样本仅出现一次,无重复出现。

重构采样层伪代码如下:

其中SRSWOR(N)表示对负类样本N采用无放回的随机采样

2)基本训练层

基本训练层将正类样本复制k=[n/p]份,分别与重构采样层得到的k个负类样本子集组合成新的训练子集,再使用PFKSVM分类器算法对训练子集分别训练,得到多个分类模型,其中各个分类器的训练过程相互独立。

基本训练层伪代码如下:

其中PFKSVM(Ni)表示调用PFKSVM算来对训练集Ni建立分类模型。

3)综合判定层

综合判定层的任务是组合基本训练层多个分类器的分类结果,根据不同的组合策略给出相应的分类结果。集成模型的判别方法主要有三种:投票(多数投票或加权投票);决策(当各个基本分类器的输出无法达成一致时,采用“决策者”的输出);结合(利用相关的先验或领域知识指导各输出的组合的方法)。

本文采用简单的投票方式,即少数服从多数的策略。

综合判定层伪代码如下:

综上,可以得到非平衡数据的集成分类模型。

2 实验分析

2.1 PFKSVM与K-SVM算法比较

(1)数据准备

实验使用了UCI中的数据集。为了保证评估的有效性,我们对每个数据集都采取不同的训练样本和测试样本。为了比较PFKSVM和K-SVM方法在数据分布平衡和分布非平衡情况下的性能,本实验选取了分布非平衡ionosphere、Breast Cancer数据集和分布相对平衡的sonar、splice、australian、Thyroid数据集。实验中选取的各个数据集的详细信息如表1所示,各个数据集的正负类分布情况如表1所示。

(2)非平衡数据分类评价指标

为了全面评价非平衡数据二元分类器的性能,本文采用了更加具体的评价标准,如正类预测准确率、负类预测准确率和G-means,计算方法如下:

其中,TP(True Positive):属于正类且被判别为正类的样本个数;FP(False Positive):属于负类却被判别为正类的样本个数;FN(False Negative):属于正类却被判别为负类的样本个数;TN(True Negative):属于负类且被判别为负类的样本个数。

(3)比较结果分析

实验中两个分类器均使用RBF核函数错误惩罚系数C取为训练样本的个数,KNN的参数k取值为3。为了全面评价非平衡数据二元分类器的性能,实验采用accuracypos、accuracyneg和G-means来对两种算法的分类性能进行评估。

对于分布非平衡的ionosphere、Breast Cancer数据集,由于受到正类预测准确率的影响,PFKSVM算法的G-means明显优于K-SVM算法的G-means,而对于和分布相对平衡的sonar、splice、australian两者性能相差不大。

(1)在数据集正、负样本倾斜较小时(ionosphere、Breast Cancer数据集),K-SVM算法对正类的识别率较低,而在同样的实验条件下采用PFKSVM算法能有效提高正类的识别率;(2)在数据集正负类样本个数大致相当时(sonar、splice、australian数据集),K-SVM算法和PFKSVM算法均能取得较好的结果;(3)PFKSVM算法不能很好地处理在数据集正、负样本倾斜较大时(Thyroid)。

因此,较之原始的K-SVM算法,本文所提的PFKSVM算法的分类效果较好。K-SVM算法并未考虑数据集分布不平衡这一点,在使用KNN来判别时容易造成错分,而本文提出的PFKSVM算法则在比较的过程中加入了惩罚机制,对数据分布的不平衡有一定的均衡作用,因此能减小数据不平衡性对分类效果的影响。因此,PFKSVM算法能够同时应用于平衡数据集和倾斜较小的非平衡数据集。

2.2 集成分类模型效果

(1)数据准备

为了验证模型正确性和有效性,本文采用了加州大学欧文分校机器学习数据集仓库UCI中的Thyroid Disease(甲状腺减退症)医疗数据集。表3列出了Thyroid Disease数据集的统计信息。

鉴于本文所采用的甲状腺数据集中包含空缺值的记录远小于总的记录数,因此对该种记录进行删除后进行分类实验。本文中对数据属性值进行了如下处理:用+1和-1分别取代类标签的negative和sick,来分别表示正常和患者;采用最大-最小规范法对病例检测值进行线性变换,将其映射到[0.0,1.0]间。

(2)实验结果

实验均运行在2.10 GHz Core2 Duo处理器,Windows XP操作系统,2.0 G RAM平台上,使用MyEclipse 7.0集成开发环境进行编译,同时采用了LIBSVM软件包,并对其进行二次开发实现了本文所提出的模型,在accuracypos、accuracyneg和G-means评价指标之外,添加精确度(precision)和漏诊率(rate-missed)对选取的数据集分类效果进行评价,计算方法如下:

本文中以下实验均采用了集成学习模型。对于集成学习模型中的基本分类器,我们分别选择了SVM、K-SVM、PFKSVM算法来对分类效果进行比较。核函数选择RBF核函数,核函数参数σ由5-叠交叉验证得到。

对于均衡参数C采用实验分析的方法得到。具体如表4所示(SVM训练结果)。

由表4可知随着均衡参数C值的增加,accuracypos不断提高,同时支持向量的个数也不断增多。在C=550(约为各个基本分类的训练样本数)时,accuracypos、accuracyneg和G-means都表现出较好的效果,此时若继续增加C,分类性能并未有显著提高,反而需要的支持向量个数大量增加,这意味着训练所需要的时间也在增加,由此可见C取训练样本数可获得较好的分类效果。

在集成模型中采用不同的基本分类器(SVM,K-SVM,PFKS-VM)的分类效果如表5所示。

在非平衡Thyroid Disease医疗数据的情况下,采用PFKS-VM作为集成学习模型的基本分类器能有效减小数据非平衡性对分类效果的影响,获得较好的诊断率和较低的漏诊率。而采用SVM和K-SVM的集成学习模型漏诊率较高。

综上:(1)相比单分类学习方法,采用基于PFKSVM的集成学习模型在非平衡医疗数据辅助诊断中表现出较好的效果(2)在集成学习模型中,采用PFKSVM的基本分类器能有效处理数据集的非平衡问题,能获得比采用SVM和K-SVM作为基本分类器更好的效果。

3 结语

非正弦非平衡系统的电能计量研究 第3篇

关键词:非正弦,非平衡,视在功率,电能计量,智能电网

近几年来在实际电网运营过程中, 电能计量是生产、输送、分配、销售和系统安全稳定运行的重要内容, 本课题依据IEEE1459—2000暂行标准的电能高精度测量算法, 从线损与视在功率平方的关系方面, 研究三相非正弦、不平衡情况下的功率的概念与定义, 包括对非正弦、不平衡系统有关有功功率、无功功率、视在功率等的定义, 以及这种情况下的功率因数的概念, 探讨非正弦非平衡系统的电能计量技术的应用。

一、非正弦非平衡系统的电能计量提出与研究意义

(一) 理想正弦稳态电路的功率与电能计量

根据电路原理的基本知识, 端口的电压和电流是同频正弦量, 瞬时功率

是这两个同频正弦量的乘积, 为一个随时间周期变化的非周期量。

令, 为电压和电流的相位差, 则二端网络的瞬时功率表示为:

1) 有功功率 (即平均功率) 定义为瞬时功率在一个周期内的平均值:

它是瞬时功率中不可逆部分的恒定分量, 是其变动部分的振幅, 是衡量端口实际吸收的功率, 单位为W (瓦) 。

2) 无功功率定义为:

它是瞬时功率中可逆部分的振幅, 衡量了由储能元件引起的和外部电路交换的功率, “无功”的意思是这部分能量在交换的过程中没有“消耗”掉, 单位为var (乏) 。

3) 视在功率定义为:

它表示满足二端口网络的有功功率和无功功率的需要时, 需要外部提供的功率容量。工程上常用视在功率来衡量电气设备在额定电压和电流条件下最大的负荷能力或者承载能力 (对外输出有功功率的最大能力) , 单位为VA (伏安) 。

4) 功率因数定义为:

它是衡量传输电能效果的重要指标, 表示传输系统有功功率所占比例, 即

正弦稳态电路中电能的计算比较简单, 按照定义, 一段时间内消耗的平均功率和时间的乘积就是电能量, 即

单位为J (焦) 或KWh (千瓦时) 。现存的电能表均可以方便准确的测出正弦稳态电路中的电能。

(二) 实际非正弦非平衡电路的功率与电能计量

非正弦情况下有功功率的定义比较明确, 只有同频率的电压和电流才会产生有功功率, 所以可以利用快速傅里叶变换求出将非正弦波分解成为在各自频率下的正弦波, 求出相应的电压和电流, 从而算出该次频率下的有功功率。可以表示为:

其中P1为基波有功, PH为各次谐波有功功率的和。

除了有功和无功, 在非正弦情况下, 不同频率之间的电压和电流也会相互作用, 产生畸变功率。另外, 由于实际系统中经常会出现三相不对称的情况, 因此不能按照三相对称时的方法计算功率。在不平衡的情况下, 需要利用对称分量法将功率进行分解, 最后将正序、负序和零序功率进行叠加。

二、电力谐波对计量可能产生的影响

(一) 谐波的功率概念与谐波潮流

在国际学术界, 人们把电力谐波定义为:电力谐波是指在一个周期内电气量的正弦波分量, 频率是系统基波频率整数倍。

1谐波功率

实际电力系统中不同程度的存在谐波含量, 使得电压和电流波形都不是真正的正弦波形。可能存在的电力谐波电压、电力谐波电流等, 很自然地必然导致谐波功率的存在。与对基波功率进行计量遇到的情况一样, 谐波的存在和计量过程中, 同样存在有功功率、无功功率等概念和计量要求、计量技术、计量装置等问题。

根据给定的方向, 通过电电力系统中某一环节或设备或线路的谐波的有功功率, 就可以表示如下:

式中:

——总的有功功率;

PAh, PBh, PCh——分别为A, B, C相第h次谐波的有功功率;

UAh, UBh, UCh——分别为A, B, C相第h次谐波电压;

IAh, IBh, ICh——分别为A, B, C相第h次谐波电流;

——分别为A, B, C相第h次谐波电压和谐波电流间的相位差。

2谐波潮流

基波功率有基波潮流, 电网中各次谐波功率也有各自的谐波潮流。对于 (2-1) 式中h为任意次谐波, 其中, () 可以取正的值, 也可以取负的值。电力系统中主要存在的扰动是谐波电流源所产生的谐波, 该谐波的功率的实际潮流方向有可能与给定的方向同向, 也有可能与给定的方向反向。

(二) 谐波对计量的影响

电力系统中的电能计量表, 按实现原理来划分, 可以划分为感应式和电子式的电能表。下面分析这两类计量表受电力谐波的影响情况, 希望通过这样的分析, 找到更好的计量方法。

1对感应式表计的影响

感应式的电能计量表设计, 是根据基波情况下的运行环境来考虑的, 如果负载的电压、电流保持不变, 而仅有频率在变化时, 就会引起线圈阻抗变化, 这样会使工作磁通发生变化, 转盘阻抗会因此发生一定的变化, 会使电流磁通相应地也发生一些变化, 这样就会使电表的计量驱动力矩、补偿力矩、制动力矩、铁芯损耗等相应地也都发生一定的变化, 使得计量结果会有误差。

2谐波对电子式电能表计量的影响

目前常用的电子式电能表主要有热电乘法器和时分割乘法器两种模式。其中, 由热电乘法器构成电子式电能表的理论频响特性很优良;而分割乘法器构成电子式电能表, 其原理是, 根据时间分割间隔, 并分别对于一个方波、相应的幅度和相应的宽度进行信号调制, 也就是, 按瞬时值进行相乘, 因此, 这样会具有比较高的计量精度, 但是, 在理论上, 频带的宽窄会受时间分割的频率等的影响, 有一定差异。

三、电力系统谐波检测方法分析与应用

(一) 模拟滤波器谐波检测法

模拟滤波器检测法也叫提取基波分量法, 是较早就被采用的谐波检测方法。模拟滤波器谐波检测法的原理是用带通滤波器提取基波分量, 然后它与原信号的差就是要得到的谐波电流分量。

该方法的优点是原理和电路结构简单, 经济, 输出阻抗低, 可以滤除一些固有频率的谐波, 品质因数易于控制等。但是该方法存在着诸多缺点, 主要有:检测误差大, 实时性差, 当系统频率变化时尤其明显;受元件参数和外界环境影响较大, 很难获得理想的幅频和相频特性;不能将基波电流中的有功和无功分量分离出。因此, 该方法目前已经很少采用。

(二) 基于快速傅里叶变换的谐波检测法

该方法是目前最常用的谐波检测算法, 包括前一章电路仿真也是用到了MATLAB中的快速傅里叶变换算法 (FFT) , 其原理是用快速傅里叶变换 (FFT) 获得各次谐波信号的幅值、频率与相位。由于电力系统的频率会在额定频率附近波动, 不能保证信号的同步采样, 因此该方法存在频谱泄漏、栅栏效应及频谱混叠等。这些因素导致了检测出的信号参数即幅值、频率与相位的准确度不高, 特别是相位误差很大, 不能满足谐波检测的精度要求。根据以上存在的问题, 为了提高FFT的检测精度。

(三) 基于小波变换的谐波检测法

小波变换是目前常用的非常有效的时域分析工具, 它非常适合对不平稳和突变信号的分析和处理, 可以计算出一特定时间的频率分布, 同时还可以把由不同频率组成的信号分解成为不同频率的信号块, 小波变换也存在着许多不足之处, 例如:

(1) 虽然小波变换的算法已比较成熟, 但运算量仍比较大, 实时性也较差。

(2) 当谐波分析是基于连续小波变换时, 对于频率较接近的谐波信号, 利用小波变换分析算法仍不能得到满意的结果。

(3) 当利用连续小波变换来进行谐波分析时, 如:对含多频次谐波直接作小波变换时, 可能引起调制信号的混频现象。

(4) 如果系统不对称, 信号内可能有负序、零序等分量, 单一小波变换, 难以把基波的正序信号、零序信号与负序分离出来。

(四) 基于瞬时无功功率的谐波检测法

瞬时无功功率理论自提出以来就很快广泛应用于电力系统谐波检测领域。如今, 对该方法已有深入的研究, 并且取得了工程应用成果。目前主要有基于p-q法、ip-iq法和d-q法的无功功率理论谐波检测方法。它们都可以实时准确地检测出三相三线制的对称电路的谐波分量。但是该方法是基于三相三线制电路提出的, 当需要用此方法分析单相电路时, 应先把三相电路分解, 构造该方法的单相谐波检测电路。当系统是三相四线制, 且存在中性线电流时, 则应采用p-q-r谐波检测法, 这除了可以检测出谐波电流外, 还可以检测出中性线电流。

(五) 基于神经网络的谐波检测法

神经网络具有强大的学习能力以及对连续函数的逼近能力, 因此, 它在通信、模式识别与图像处理、预测与管理、控制与优化能领域都有广泛的应用。神经网络在电力系统中的应用主要有谐波源的识别、谐波的预测和检测方面。神经网络在一个周期内对基波电流的跟踪就有很好的效果, 具有非常好的实时性。该方法的优点主要有:计算量较小、检测精度较高、对数据信号流长度的敏感性比小波变换和快速傅里叶变换要小、实时性和抗干扰性很好。

基于神经网络的谐波检测法是电力系统谐波检测中较新颖的方法, 但是在工程实践应用中, 该方法还需要更深入的研究。

结语

随着电力系统的快速发展和对电能质量要求的逐渐增高, 对谐波检测方法的精确性要求越来越高, 基于目前的方法, 会有更多更先进的谐波检测方法出现, 以适应电力系统的安全需要;谐波检测实现技术将会以高速高精度可编程技术为主, 特别是ARM技术和DSP技术;谐波理论的研究重点将会从传统谐波理论转向通用谐波理论, 这将会是未来电力系统发展的需要。

参考文献

[1]武海涛.谐波对电能计量的影响[J].硅谷, 2009 (24) :19-20, 113.

[2]黄伟.电能计量技术 (第二版) [M].北京:中国电力出版社, 2007.

非平衡数据 第4篇

泥沙是一个复杂的研究课题, 前人对伶仃洋水沙模拟采用过平衡输沙模式, 恒定非平衡输沙模式。但实际上河口水体流动和泥沙运动随时间变化, 泥沙伴随冲淤的不断变化, 并没有前两者那样理想, 因此采用非恒定非平衡输沙模式进行模拟更能反映伶仃洋泥沙运动分布的真实情况。

研究范围为珠江口伶仃洋。珠江口伶仃洋是珠江主要的入海口, 属于准喇叭形河口湾, 其范围在东经113°32′~113°55′E, 北纬22°12′~22°46′N之间。北起沙角与大角山咀之间的虎门, 宽度约至4公里;南抵香港大屿山岛的鸡翼角与澳门之间的海域, 宽30km;由湾顶至大屿山岛-澳门纵向长约60km;海湾面积约2000km2。

2 数学模型的建立

(1) 水动力模型。

水流连续方程:

动量方程:

U1方向:

U2方向:

其中:U1、U2分别是曲线网格ξ1和ξ2方向上的速度;

h1、h2分别是ξ1和ξ2方向上的网格步长;

D=H+η为总水深, η为潮位, H为未扰动水深;

D为总水深, D=H+η;

AM为动量水平湍流扩散系数。

将以上两公式垂向积分, 就可用于进行二维水动力数值计算求解。

(2) 泥沙输移模型方程。

式中:H为总水深, 即水位与平均海平面以下深度之和;u、v表示深度平均的速度在x、y方向的分量;

s为含沙量, εxεy为x, y方向的悬沙紊动扩散系数;

F为床面冲淤函数, E为再悬浮通量, D为沉降通量。

(1) 非粘性泥沙冲淤函数公式。

式中:为近底泥沙平均平衡浓度;Seq为近底泥沙平衡浓度;Zeq为近底无量纲参考高度, Van Rijn建议zeq最小为0.01, 通过模型试算结果来确定该值取为0.05;R为罗斯数;ws为非粘性泥沙沉降速度;*u为摩阻流速;τb为底床切应力;τce为临界希尔兹应力;dR为泥沙粒径雷诺数;u*为底床剪切流速;为底床临界剪切流速;zeq*为量纲化的参考高度。

在EFDC中若选择使用, 则临界希尔兹应力根据Van Rijn (1984) 关系式在内部计算。Van Rijn建议设置量纲化的参考高度为3个粒径 (three grain diameters) 。在EFDC中, 用户指定参考高度为最大非粘性泥沙粒径的一倍。

(2) 粘性泥沙冲淤函数公式。

式中:E为表面侵蚀量;τb为底床切应力;tce为再悬浮的临界应力, 取值范围0.18~0.7, 经过模型试算模型取0.7;dme为单位时间内表面侵蚀的质量;dt为单位时间;D为沉积量;τb为底床切应力;τcd为发生沉积的临界应力, 取值范围0.03~0.15经模型试算取0.035;Sd为近床沉积泥沙浓度;ws1为粘性泥沙沉速;CD为底摩阻系数;U为垂线平均流速大小;ρ为水沙密度。

粘性泥沙冲淤函数:FS=E+D。

3 模型参数的确定

(1) 扩散系数。

悬沙扩散系数AH根据动量扩散系数来选取, 一般情况泥沙扩散系数与动量扩散系数相等取1.0。

(2) 泥沙的沉降速度。

在模型中非粘性泥沙的沉速设为常数10.10-3m/s。

粘性泥沙沉速引用Shrestha and Orlob (1996)

式中:G为湍流平均剪切力;S为泥沙浓度。

(3) 泥沙粒径。

不同粒径输运机制不一样, 所以有必要了解每一级泥沙的输运分布。文中引用韩玉梅 (2006年) 依据863-818-0901项目的数据采用模糊聚类分析方法将伶仃洋泥沙分为三级:细砂中值粒径为0.20 mm, 占伶仃洋泥沙含量11.5%;中粉砂中值粒径为0.025 mm, 占伶仃洋泥沙含量15.5%;极细砂中值粒径为0.006 mm, 占伶仃洋泥沙含量73%。

(4) 曼宁系数n。

在现代河口动力条件下, 对流速和水位来说, 摩擦系数是一个十分敏感的系数。曼宁系数加大, 则流速普遍减小, 那么挟沙能力也会发生一定程度的降低, 于是沉降的泥沙增加, 河床淤积速率的上升, 则导致水深减小较快, 水下地形改变较为显著。在长时间尺度的数值模拟中, 通过模型敏感试验得出伶仃洋的曼宁系数n=0.018。

(5) 临界剪切流速。

当非粘性泥沙底床摩阻流速超过希尔兹应力和悬浮的临界剪切流速时, 发生悬浮。悬浮的临界剪切流速大小是非粘性泥沙悬浮与沉降的关键因素。临界剪切流速与临界希尔兹应力相关。

式中:g'为折减重力加速度;θcsj为临界希尔兹应力;dj为泥沙粒径。

4 网格生成

采用正交曲线网格。

5 方程的离散和求解

采用隐式技术。

6 动边界处理

采用冻结网格法模拟滩地出没水面的动边界技术。

7 模型验证条件

(1) 地形资料:采用1978年水下地形资料。

(2) 边界条件:本论文采用1978年黄埔、蕉门、洪奇沥及横门的实测水位作为上边界条件, 内伶仃、赤湾和金星门各验潮站平均潮历时、潮差、潮型非常相近 (莫如筠等, 1986) , 因此在缺少内伶仃实测水位资料的情况下, 用赤湾站实测潮位资料作为下边界条件。模拟时间为1978年6月5日17时至6月13日14时。

(3) 时间步长:取30s。

(4) 水文泥沙条件:泥沙边界条件采用常年平均泥沙浓度, 悬沙资料采用珠江水利委员会水文局和广东省水文局联合进行的1999年7月15~23日洪季水文测验和实测悬沙资料;1978年至1979年伶仃洋水文调查悬沙资料7月份的第二组合 (1978年7月5日至13日) 。引用ecomsed模型将粘性泥沙与非粘性泥沙划分界限为0.075 mm, 细砂属于非粘性泥沙, 极细砂和中粉砂属于粘性泥沙。

(5) 模型验证成果。

(1) 水位验证。

由图1, 2, 3可知, 各口门水位验证平均误差均在10 cm以内。

(2) 泥沙验证。

泥沙验证将从固定站悬沙浓度进行验证。1978年对伶仃洋水文资料进行大面积的调查, 布设了35条垂线, 其中固定垂线8条, 编为固1至固8, 本文采用固1站作为验证站, 即验证点1978年实测的固定站固1 (东经113°36'28"北纬22°43'06") , 如图4十字点。模拟的含沙量变化趋势与实测资料吻合良好。

由模型结果得出, 内伶仃悬砂洪季平均淤积厚度达到1.5, 与陈耀泰 (1991) 得出的内伶仃淤积厚度1.5~2.5接近, 说明模拟结果真是可靠, 该模型是可行的。

淤积厚度与河流作用呈正相关, 与潮流作用呈负相关。由图6~图9可以看出20世纪70年代虎门出现强烈的射流, 西槽没有出现淤积。泥沙运输和淤积跟粒径有很大关系即粘性泥沙经过口门进入伶仃洋, 蕉门部分泥沙沿西槽、东槽输入大海, 部分西滩泥沙在水动力作用下运输至外海。而非粘性泥沙输运的距离较短, 在口门附近不远处。

8 结语

(1) 利用数学手段建立二维非恒定非平衡输沙数学模型, 水沙验证结果均能达到规范要求, 含沙量淤积模拟结果与前人结果基本一致。

(2) 泥沙运输和淤积跟粒径有很大关系即粘性泥沙经过口门进入伶仃洋, 蕉门部分泥沙沿西槽、东槽输入大海, 部分西滩泥沙在水动力作用下运输至外海。而非粘性泥沙输运的距离较短, 在口门附近不远处。

(3) 本模型针对泥沙特性, 对泥沙冲淤函数进行了修正, 使模型应用范围更广泛, 适应性更强。

参考文献

[1]Hwang, K-N, andA.J.Mehta, 1989:Finesedimenterodibil-ityinlakeOkeechobee.Coastal.

[2]andOceangraphicEngineeringDept., UniversityofFlorida, ReportUFL/修改后-89/019, Gainsville, FL.

[3]VanRijn, L.C., 1984a:Sedimenttransport, PartI:Bedloadtransport.J.Hyd.Engrg., 110, 1431~1455.

[4]VanRijn, L.C., 1984b:Sedimenttransport, PartII:Sus-pendedloadtransport.J.Hyd.Engrg., 110, 1613~1641.

非平衡数据 第5篇

现在的理想气体状态方程和多变方程等都是以一定气体的封闭系统为研究对象,所描述的状态是整个封闭系统整体的状态,而无法深入研究某一细微处的状态规律。本文在气体稳态导热给定边界条件的情况下,给出了描述微观开放系统的非平衡态气体状态方程,并做了cfd软件模拟分析和运用此公式推导高精确度热导率公式的验证,期望以此两种方法证明此公式的正确性,并确定它的适用范围。本文的重点是在给出此公式后进行的正确性和精确度验证。

气体在两平板间稳态导热时,若两平板温度给定并且恒定,则其间气体状态参数近似服从方程式。每一不同温度处的气体实际上处于开放系统中,整个系统是非平衡态的。

现在以氢气为例进行验证:

如图1所示的系统中:

1 cfd软件模拟分析验证

用cfd软件模拟分析,边界条件为可得每一处气体状态参数的数值并分析如下:

以上所得的压强值与cfd软件模拟值非常接近,证明此公式精确度较高。但由于cfd软件模拟分析中未考虑热辐射,因此模拟出的压强比实际压强偏底,并随着温度的上升辐射强度增大,模拟误差将越来越大。因此此公式的精确度实际上会更高。

2 用此公式推导气体热导率公式并验证其精确度

下面再用此公式推导气体热导率计算式:

以图一所示系统为研究对象,有

注意式子(1)中的代表穿过面1的气体分子数,它们已经迁移进入了另一个微小单元体,不属于某一处流动着气体,以他们为对象是以一定量的气体分子为研究对象,仍满足理想气体状态方程,因此有式(4)。而公式所描述的对象则是此系统中固定某一位置截面处微小体积内的气体,其中的分子是不断交换变化的,此微小体积属于开放系统。

根据傅立叶定理建立导热微分方程:

在稳态,无内热源的情况下,有

可知平板内气体温度呈线性分布。引入参数,有

联立(1)~(5)式和(7)式可解得:

因为此系统内压强变化非常小,因此令P2≈P1=P,上式可化简为

把(6)式代入(9)式,注意此时的属于固定截面1附近的开放系统的分子数密度,因此此处应联立式(8),化简可得下式:

取T2≈T1代入(10)式,得:

取a=5.548得气体热导率公式:

现在检验此公式的精确度并与以往公式作比较:

κ以=往i的π3一k m3T种d4气(体13热)导率公式为

以氢气为例,d=2.310(-23)m,i=5:

当T=273.15K时,式(12)计算得,检测值0.172,公式(13)计算值0.249

当T=373.15K时,式(12)计算得检测值0.220,公式(13)计算值0.29

当T=473.15K时,式(12)计算得检测值0.264,公式(13)计算值0.327

以往的气体热导率计算公式有几种(包括理论推导出的和经验半经验的公式),但它们所计算出的结果皆与实际检测值相差较远,且有的计算起来非常麻烦,在这里就不一一列举了,读者有兴趣可以自己查找并校验一下便知。但此热导率计算公式形式比较简单,而且精确度比以往的都高很多,可以说达到了比较精确的程度。

通过以上推导和比较可以看出,本文提出的新公式在推导气体热导率公式的时候有一种本质的推动作用,使得其计算结果精度得到明显提高,精确度可以说是很高了。但是,由于在此压强下气体内部不仅有导热,还有对流和热辐射,而且随着温度的升高,压强将越来越大,对流和辐射的强度就会越来越高,导致此热导率公式所得结果参入了对流传热和热辐射的因素,温度越高结果就越偏大,因此此公式比实际导热率要稍高,并随着温度的升高误差缓慢增大。尽管如此,可以看出,此公式仍比以往公式取得了很大的进步,精确度也非常高了,因此,公式在此次验证中获得认可。

关于如何推导更加精确的气体热导率公式,笔者将在另一篇文章里结合对流换热等知识进行详细的论述。

3 验证结果的总结

通过以上两种方法的验证,充分说明当气体处于稳态导热,边界上的温度给定并且恒定时,非平衡态的相对开放系统的气体状态参数近似服从公式。可以看出,当温度升高时,此公式的精确度将缓慢下降,但在673.15K以内,此公式精确度都较高,值得应用。

4 结论

以往气体状态方程都是以一定气体的封闭系统为研究对象,所描述的是一个宏观状态的热力学参数。本文以气体稳态导热的任何一个微小体积为研究对象,实际上是一种非平衡态开放系统。在给出此开放系统的状态方程后,用了两种方法对此方程进行了验证。验证结果与测量结果都非常接近,由此可知本公式是正确的。由于非平衡态开放系统气体分子运动相当复杂,而本公式描述的对象又只是理想气体,因此本公式仍有相对误差,并且随着温度的上升误差在缓慢增大。但在温度不是特别高的情况下(一般在673.15K以内),本公式误差仍然很小,在此范围内一般都可适用。

参考文献

[1]东南大学等七所工科院校编,马文蔚,解希顺,周雨青等改编.物理学[M].5版(下册).北京:高等教育出版社,2006.

[2]傅秦生.热工基础与应用[M].2版.北京:机械工程出版社,2009.

基于虚拟中心约减的非平衡分类方法 第6篇

关键词:非平衡数据,虚拟中心,ICVCR方法,聚类,泛化性能

1 引言

在疾病诊断、天气预报、经济分析等实际应用领域中 , 往往存在大量的非平衡数据挖掘问题 , 如何提取隐含在非平衡数据集中大量的重要知识是一个值得研究者注意的问题[1]。传统机器学习方法尽管在平衡数据集上得到了较好的结果 , 但在非平衡分类任务中往往容易将重要的少数类样本错误地划分为多数类样本 , 得到的模型泛化性能较差 , 且无法识别非平衡分类问题中的重要少数类样本。

针对这个问题 , 目前已经提出了一些非平衡数据分类的方法 , 大体上包含两种 : 第一种是基于样本预处理的非平衡数据分类方法[2], 其又分为扩展少数类样本和压缩多数类样本 , 扩展少数类样本的方法一方面增加了学习的负担 , 使得样本规模增大 , 训练效率降低 , 而采用聚类压缩少数类的方法丢失了大量的多数类样本信息 , 认为地改变了多数类数据的分布 , 使得得到的学习器泛华性能较差 , 典型的如SMOTE及其改进方法[3,4]、基于聚类的非平衡分类方法[5]、基于过采样的非平衡分类方法[6]等。第二种是基于权值参数或惩罚因子的方法[7], 即对不同类的样本赋予不同的权值参数或者惩罚因子 , 从而较好地校正了得到的分类超平面 , 得到针对非平衡数据分类问题更优秀的学习模型 , 典型的基于权值调整或惩罚因子的方法如基于均值和协方差矩阵构造权值的方法[8]、基于不用惩罚因子的非平衡分类方法[9]等。

尽管已有的非平衡数据分类方法在一些非平衡分类问题中得到了一定的效果 , 但其得到的学习器泛化性能有限 , 同时对于大规模的非平衡样本的训练效率较低。针对这个问题 , 本文提出了一种基于虚拟中心约减的非平衡数据分类方法。该方法通过对多数类样本进行聚类 ,然后计算聚合后每个类的虚拟中心 , 并将这些虚拟中心合并构成新的负类训练样本集 , 并与正类样本集合并构成新的训练样本参与训练 , 以得到学习效率高、泛化性能好的学习器。

2 基于虚拟中心约减的非平衡分类方法

针对传统多分类方法的学习效率低 , 得到的学习器泛化性能差的问题 , 本文提出一种基于虚拟中心约减的非平衡数据分类方法 , 通过对多数类样本进行聚类并抽取虚拟类心 , 以构成含有丰富信息的新的负类训练样本参与训练 , 得到性能更优的学习器。

假设训练集为X={X+,X-}={x1,x2,…,xi,…,xl},其对应的标签集合为Y={ y1,y2,…,yi,…,yl}, 其中xi∈Rd,yi∈ {+1,-1} 且属于正类 (+1) 的个数少于属于负类 (-1) 的个数 , 即 +1对应少数类样本 ,-1对应多数类样本。首先对负类训练样本X-进行聚类 , 聚类参数c, 即可得到一个关于X-的划分

假设其中的子类, 则可根据式 (1) 计算得到该子类的虚拟中心, 计算方法如下 :

得到每个然后将所有的负子类的虚拟类心之后 , 将每个子类的虚拟类心合并在一起构成新的负类训练样本集 , 并与正类样本合并参与训练 , 得到最终的学习器。基于虚拟中心约减的非平衡分类算法具体如下 :

3 模拟实验

为验证基于虚拟中心的分类算法的有效性 , 本文在4个非平衡的UCI数据集[10]上进行了实验 ( 见表1),实验中采用SVM作为基准分类器 , 分类器惩罚参数取200, 选用高斯核 , 核参数统一取1.0, 多数类样本的聚类参数取正类样本的个数值。

本文将提出的基于虚拟中心的非平衡分类方法与传统标准SVM分类方法 (SVM)、基于聚类近邻样本压缩的SVM分类方法 (C_SVM) 进行了对比 , 为了更好地验证非平衡分类方法的性能 , 本文同时取精度、F-mean值、G-mean值作为算法的评测指标。精度、F-mean值、G-mean值的定义分别如下 :

实验采用5折交叉验证的方式进行 , 每个数据集重复实验10次 , 然后取各评价指标的平均值进行对比。三种方法在各数据集上得到的实验结果如下。

由表1可以看出 , 在不同的数据集上 , 与传统的标准SVM分类方法相比 , 专门针对非平衡分类的基于聚类样本压缩的分类方法和基于虚拟中心的样本压缩分类方法都得到了更高的测试精度 , 同时又充分考虑了重要的少数类样本包含的重要信息 , 使其分类正确 , 即得到了较高的G-mean和F-mean值 , 特别地 , 当数据集非平衡性较大时 ( 如数据集Abalone), 这种优势更为明显 , 这说明专门针对非平衡分类设计的后两种方法能够充分地压缩多类样本规模 , 提高样本分布的平衡性和少数类样本识别的性能。其次 , 从表1中可以看出 , 与基于聚类的非平衡分类方法相比 , 本文提出的基于虚拟中心的非平衡分类方法对于少数类样本具有更好的识别性能 , 这说明基于虚拟中心的非平衡分类方法通过提取虚拟中心的方式抽取部分重要的多类样本信息 , 一方面压缩了多类样本规模 , 使样本分布趋于平衡 , 另一方面通过抽取虚拟中心 , 更好地反映出原始多类样本的分布情况 , 提高了非平衡分类器模型的泛化性能。

4 结束语

针对传统基于多数类样本下采样的非平衡分类方法容易人为改变原始样本分布 , 无法反映原始训练样本特性而导致非平衡分类性能下降的问题 , 本文提出一种基于虚拟中心的非平衡分类方法。该方法通过对多数类样本的聚类划分 , 然后在每个类上提取虚拟的聚类中心 ,并将这些虚拟的聚类中心与正类样本合并训练得到分类器。基于虚拟中心的非平衡分类方法有效避免了传统非平衡分类方法人为改变样本分布而导致分类器性能下降的问题 , 提高了非平衡分类模型的分类能力。

参考文献

[1]钟瑛,朱顺痣,曾志强等.一种基于核学习的非均衡数据分类算法[J].厦门大学学报(自然科学版),2012,51(2):189-194.

[2]李雄飞,李军,董元方等.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209.

[3]R.AKBANI,S.KWEK,N.JAPKOWICZ.Applying support vector machines to imbalanced datasets[C].The15th European Conference on Machine Learning,2004:39-50.

[4]H.HUI,W.Y.WANG,B.H.MAO.BORDERLINESMOTE:A new over-sampling method in Imbalanced data sets learning[C].International Conference on Intelligent Computing,2005:878-887.

[5]G Ba TISTA,C PRATIR,C MONARDM.A study of the behavior of several methods for balancing [J].SIGKDD Explorations,2004,6(1):20-29.

[6]H.G.XUN,H.HUI,et al.An over-sampling expert system for learning from imbalanced data sets[C].International Conference on Neural Networks and Brain.2005:537-541.

[7]许震,沙朝锋,王晓玲等.基于KL距离的非平衡数据半监督学习算法[J].计算机研究与发展,2010,47(1):81-87.

[8]K.Z.HUANG,H.Q.YANG,K.IRWIN,et al.Biased mini-max probability machine for medical diagnosis[C].Proceedings of the 8th International Symposiumon Artificial Intelligence and Mathematics.2004.

[9]T.IMAM,K.M.TING,J.KAMRUZZAMAN.Z-SVM:An SVM for improved classification of imbalanced data[C].Australian Joint Conference on Artificial Intelligence.2006:264-273.

非平衡数据 第7篇

岩溶含水系统具有高度非均质性和各向异性, 使得岩溶区水文地质参数难以准确获取[1]。传统的地下水流动方程不能精确刻画管道中的非达西流[2], 而示踪技术是描述地下管道连通情况和形态特征的重要手段, 但在估算水文地质参数方面有所欠缺[3]。因此, 为解决上述问题, 以数值模拟为手段的参数反演技术被广泛应用。1986年Nielsen等人基于CDE (Convection-dispersion equation) 模型研究影响非饱和带的物理非平衡过程, 提出含水层的非均质性是导致物理非平衡的主要原因[4];1989年, Van Genuchten和Wagenet研究物理非平衡CDE模型, 阐述其数学方程和作用机理[5];2005年, 胡俊栋等人运用CDE模型对多环芳烃室内土柱淋溶行为进行模拟[6]。然而涉及岩溶管道流参数反演的研究较少, 2002年M.S Field等人开发了QTRACER2程序用于分析示踪试验结果[7];2008年, Jerome Perrin和Marc Luetscher利用定量示踪试验推断岩溶管道结构[8];2009年, 鲁程鹏等人探讨了基于示踪试验求解岩溶含水层水文地质参数问题[9], 2013年, 陈雪彬等人利用示踪试验研究岩溶地下河流场反演问题[10], 但是利用一次示踪试验结果计算所得的参数有一定的局限性, 且与实测的穿透曲线相比相差很大[11]。物理非平衡CDE模型假设管道内液体分为流动区域和非流动区域, 两区域之间溶质的交换量由浓度差决定[12]。运用该模型能够较好的刻画岩溶管道中的非均质性以及示踪剂穿透曲线的拖尾现象, 所以本次研究在示踪试验的基础上, 利用QTRACER2程序计算参数做为初始值, 应用物理非平衡CDE模型对岩溶管道流溶质运移浓度进行预测并与实测的穿透曲线进行拟合, 从而获取岩溶区水文地质参数。

1 物理非平衡CDE模型理论

通常岩溶区示踪试验得到的穿透曲线具有明显的拖尾现象[13], 这种曲线的不对称性说明在溶质运移过程中存在非平衡状态。物理非平衡作用主要由于岩溶管道结构的复杂性、含水介质的非均质性以及存在地下溶潭等因素引起[14], 与传统平衡模型相比, 该模型将管道内液体分为流动区域和非流动区域, 能够较好的刻画溶质运移过程中的拖尾现象。

岩溶区物理非平衡CDE模型可简化为无量纲形式[15], 见方程 (1) 、 (2) 。

式中, T=νt/L, Z=x/t, P=νL/D。C1为流动区域溶质浓度, C2为非流动区域溶质浓度, P为Peclet数, ν为平均流速, D为弥散系数, β为流动区和非流动区瞬时的分配系数, ω为流动区和非流动区质量传递系数。

岩溶区内示踪试验的初始条件可用式 (3) 、 (4) 表示, 其中式 (3) 表示投放点初始条件, 式 (4) 表示接收点初始条件。

2 试验方法

2.1 试验区概况

试验区位于桂林市灵川县寨底地下河流域内, 多年平均降水量为1601.1mm, 年平均气温17.5℃。地表溪沟和地下管道非常发育, 大部分区域属于峰丛洼地, 地形高程260~820m。研究河段位于流域南部, 地层属于泥盆系上统东村组 (D3d) , 以中厚层状浅灰色灰岩为主。为研究岩溶管道的发育特征和估算水文地质参数, 本次试验选取响水岩天窗至寨底出口一段长约2km的地下河为研究对象进行示踪试验 (图1) 。

2.2 试验方法

本次试验投放点位于上游响水岩天窗, 接收点位于下游寨底地下河出口。2013年12月21日, 将示踪剂荧光素钠493g溶解于20L的塑料桶中, 12时30分开始将荧光素钠溶液一次性投入天窗内, 采用GGFN-FL野外荧光计在寨底地下河出口自动监测示踪剂浓度和浊度变化, 每15分钟记录一次数据;并使用Mini-diver地下水位自动监测仪监测响水岩和寨底的水位、水温变化情况, 每1小时记录一次数据。在寨底地下河出口处设立矩形薄壁型, 通过水位变化计算流量。监测时间自12月21日12时30分至12月30日12时30分, 本次试验需要的主要参数是示踪剂浓度和出口流量随时间的变化 (图2) 。

3 讨论分析

对于在岩溶管道非流动区内的溶质浓度、所占比例和质量传递系数很难确定, 本次研究通过适当的初始值并运用物理非平衡CDE模型拟合示踪剂穿透曲线获取水文地质参数,

3.1 参数初始值估算

QTRACER2程序可以计算回收率、平均运移速度、弥散系数、弥散度、Peclet数等参数, 其计算原理详见文献[7]。本次试验参数估算结果见表1。

示踪剂穿透曲线有明显的拖尾现象, 推测响水岩至寨底地下河段内存在地下湖或溶潭, 由于溶潭的调节作用, 溶质在溶潭中被稀释弥散后再运移导致曲线具有拖尾现象;示踪剂回收率为80.81%, 表明该地下河段是投放点至接收点的主要连通管道, 其中影响回收率的主要原因是穿透曲线拖尾过长的示踪剂浓度损失以及在运移过程中的吸附和降解损失。

3.2 参数反演

投放点至接收点直线距离为2000m, 由于岩溶地下管道的弯曲度较大, 假设投放点至接收点实际距离为3000m, 然后利用QTRACER2程序计算所得的初始水文地质参数值模拟示踪剂穿透曲线 (图3) 。

从图3可以看出初始值模拟所得曲线与实测曲线匹配较差, 且存在较大误差, 因此通过不断调整速度v、弥散系数D、分配系数β以及质量传递系数ω等参数, 并利用物理非平衡CDE模型模拟示踪剂穿透曲线, 从而使模拟曲线与实测曲线匹配良好。迭代和拟合过程运用美国盐渍土实验室研制的CXTFIT开源程序进行计算, 参数计算结果以及调整参数后模拟曲线与实测曲线对比见图4。

图4中参数计算结果表明该地下河段流动水体体积含水量β=0.797, 质量交换系数ω=2.11。模拟效果采用决定系数r2和均方根误差RMSE两个指标进行评价, r2和RMSE分别用式 (5) 、式 (6) 表示。

式中, Ci0、Cie分别为实测和模拟浓度值;N为监测点处数据个数;为实际浓度平均值。决策系数越大且均方根误差越小表示曲线拟合越好, 其中本次曲线拟合的r2=0.9483, RMSE=0.832, 从图4中可以看出本次模拟值与实测值拟合较好, 但也存在一定误差, 主要原因是流量测量的误差和不精确的运移距离。

3.3 尺度效应

分别绘制2500m、3000m、3500m、4000m和4500m处模拟值与实测浓度值对比图 (图5) , 模型参数以及评价指标见表2。

图5中2500m和4500m处模拟值与实测值拟合相对较差, 而3000m、3500m和4000m处模拟值基本重合且与实测值拟合较好。表2中三者的决定系数r2和均方根误差RMSE相等表明三者的模拟效果一致, 然而速度v和弥散系数D具有明显的尺度效应, 随距离的增大而增大, 因此在应用物理非平衡CDE模型模拟较大尺度上示踪曲线时, 应该考虑尺度效应的影响。本文采用算数平均计算岩溶管道内的速度和弥散系数以降低尺度效应的影响, 最终确定参数值见表3。

岩溶管道中流速是极不均匀的, 表3中速度v为1159.2m/d是地下水运动的平均速度;弥散系数D为0.251m2/s表示溶质的纵向弥散系数, M.S.Field计算出岩溶地区弥散系数介于0.08m2/s和1m2/s之间[12], 因此本次试验结果在合理范围内;分配系数β为0.797表明该地下河段流动水体体积含水量占79.7%, 不动水体体积含水量占21.3%;质量交换系数ω为2.107。

4 结论

定量示踪试验是研究岩溶管道水文地质参数的重要手段, 本次研究通过自动监测溶质浓度和流量变化绘制较精确的示踪剂穿透曲线, 为数值模拟反演岩溶管道参数提供有力基础。应用物理非平衡CDE模型能够较好的模拟岩溶区示踪剂穿透曲线, 从而较精确的计算出岩溶管道水文地质参数。

非平衡数据范文

非平衡数据范文(精选7篇)非平衡数据 第1篇传统的分类算法大都基于一种假定:用来学习的样本数据都是平衡的, 即各类样本数据的数量差别不...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部