非均衡数据范文
非均衡数据范文(精选8篇)
非均衡数据 第1篇
非均衡数据集通常指类别间数量相差较大或极大的数据集,其中样本数量大的一类样本叫做多数类,样本数量小的一类叫做少数类。现实世界中非均衡的数据集是很常见的,比如病例检测、石油井喷检测、金融欺诈识别、网络入侵检测、垃圾邮件检测、文本分类等。然而传统的机器学习方法大都是基于均衡数据集的,整体有非常高的准确率,但直接作用于非均衡数据集的分类效果却往往不令人满意,分类器倾向于将数据归到多数类中,而忽略少数类。导致这一现象的主要原因是少数类样本数量较少,使得该类内部规律无法通过训练样本充分挖掘出来。由于它们有一个共同的特点,少数类的信息是我们关注的重点[1]。
目前,对于非均衡数据分类问题主要有两个研究方向[2]:一是数据集重构,即重采样方法,主要包括随机重采样方法、SMOTE方法,单边采样方法等;二是算法改进,主要包括集成方法、代价敏感学习方法、特征选择方法和单类学习方法等。重采样方法大致有两大类:过取样方法和欠取样方法。过取样是通过人为增加少数类实例来均衡数据集的分布;而欠取样是通过人为减少多数类样本来均衡数据集的分布[2]。过取样方法通常会带来增加时间开销、过拟合等问题。欠取样方法只使用大类中的一个子集,忽略了数据的有效信息。
SMOTE方法由于是人工合成样本,很大程度上避免了过拟合问题,并已在非均衡数据分类问题中取得较好效果,但会带来新的噪音等问题。主动学习支持向量机是一种基于距离的主动选择最佳样本的学习策略,能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率。然而,单独使用主动学习则会由于数据分布非均衡导致分类器偏移。因此,本文提出的方法并没有对全部数据集采用SMOTE方法,而是取其长处,将第一份数据集SMOTE均衡化,取得比较好的分类效果后,运用主动学习添加原训练集中最有价值的多数类样本对分类器进行调整。这种主动学习方法大大减少了多数类样本的运算时间,显著提高了有效样本的利用率。从而既减小了SMOTE方法带来的问题,又最大程度上使用到原样本的多数类有效信息进行训练,提高了分类效果。
1 相关工作
1.1 少数类样本合成过采样技术
SMOTE算法是Chawla等人在2002年提出的一种典型的过取样方法[3]。它假设少数类样本之间的样本依然是少数类,主要思想是在距离较近少数类样本之间插入一个人工合成的少数类样本,从而增加少数类样本数量,均衡化数据集。具体做法是:假设过取样倍数为n,对每个属于少数类P的样本xi,首先找到它在P中的k个近邻样本,再在这k个近邻样本中选择n个样本xij(j=1,2,,n),然后按照如下公式合成新的少数类样本点yj (j=1,2,,n):
yj=xi+rand(0,1)(xi-xij) (1)
其中rand(0,1)表示区间(0,1)之间的任一随机数。将这些新合成的样本添加到原少数类样本中即产生了新的均衡化的训练集。图1直观地显示了SMOTE的样本合成过程[4]。
图1中,xi表示原训练集中一个少数类样本,xi1,xi2,xi3,xi4,xi5表示xi的5个近邻样本,y1,y2,y3,y4,y5表示新合成的样本点,(0,1)之间随机生成的样本即是在xi与其近邻所连接的线段上的任一点。这就是一个少数类样本产生合成样本的过程,合成样本数量可由控制合成倍数来实现。这种合成方法有效避免了过度拟合,提高了分类器的泛化能力。
1.2 主动学习
主动学习是1994年由Lewis和Gale所提出[5],主要思想是在训练过程中引入交互能力,循环过程中主动选取最佳样本添加到训练集中,减少参加训练样本数量,节约运算消耗。对于支持向量机SVM的运算机制,由于其主要依赖分类超平面周围的支持向量,自然而然地形成了基于样本到分类超平面距离的主动学习SVM[6],只选择距离分类超平面较近的,对分类器影响较大的样本,节省远距离的影响较小的甚至对分类器毫无影响的样本的训练过程。对于非均衡数据,这种基于距离的主动学习SVM算法更是有其得天独厚的优势:每次主动学习可以只选择训练集中的小类样本和相同数量的距离分类超平面较近的大类样本,这样每次训练的样本自然是均衡的。这实质上也是一种欠取样的过程,本方法的高效之处在于选取的是距离超平面最近,最有价值的多数类样本。
2基于主动学习SMOTE的非均衡数据分类算法
2.1 算法简介
本文算法的主要是对非均衡数据集进行最高效均衡化,再运用适合处理非均衡数据的SVM算法进行分类。算法基本思想如下:首先对一份训练集运用SMOTE算法均衡化得到一个相对较好的SVM分类器,即SVM分类超平面,再用剩下的训练集样本做主动学习,选取距离分类超平面距离最近的大类和小类样本,选取个数均为每份样本中小类样本的个数,然后将其添加到已有训练集中,进行SVM训练,如此循环,直到剩余样本为零。
2.2 算法描述
基于上述思想,提出的ALSMOTE算法描述如下:
步骤1 设训练集为A,总样本数为n,将A随机均分为e份,表示为Bi(i=1,2,,e)。
步骤2 对第一份训练集B1,提取其少数类样本集C1,并记少数类样本个数为m1。
步骤3 根据多数类样本和少数类样本比例(n/e-m)/m做SMOTE处理,得到合成样本集D。
步骤4 将合成的样本集D合并到B1中,得到新的训练集F。
步骤5 对F进行SVM分类,得到第一个分类超平面l1。
步骤6 对剩余(e-1)组训练集做循环:
步骤6.1 根据距离公式d=|w*x+b|,在训练集Bi中寻找超平面的最近邻样本集E;
步骤6.2 提取出训练集Bi(i=2,,e)中少数类样本集P,并记少数类样本个数为mi;
步骤6.3 在E中提取其前mi个多数类样本,得到多数类样本集G;
步骤6.4 将P和G合并到第5步得到的训练集F中;
步骤6.5 对F做SVM分类,得到第i个分类超平面,直到i=e循环结束。
2.3 算法流程图
根据上述算法描述,对应的算法流程如图2所示。
3 实验与分析
3.1 数据集
本次实验采用6个UCI数据集做训练和测试,数据集的基本信息如表1所示,其中样本比例是指多数类对少数类的倍数[7]。在本实验中,将少数类样本作为目标类,其他的所有类别作为多数类样本。
3.2 性能评价度量
对于传统的评价标准,由于少数类的样本数量过少,整体的高正确率很容易得到,却不能保证少数类样本被正确分类。因此,对于非均衡数据集人们提出了新的评价标准,当前比较公认的主要有接受者操作特性曲线ROC(Receiver Operating Characteristic Curve)、F-measure和G-means[8],相对正确率来说,这三个评价标准更加精确的反应出分类器的性能。F-measure和G-mean是表2中混淆矩阵的函数。这里我们将少数类作为正类。
在表2中,真正率TPR(True Positive Rate)=TP/(TP+FN),假正率FPR(False Positive Rate)= FP/(TN+FP),真负率TNR(True Negative Rate)=FN/(TP+FN)。
基于上述变量的定义,我们将F-measure和G-mean定义如下[8]:
式(3)中,Precision和Recall分别表示精度和召回率,分别定义为:Precision=TP/(TP+FP),Recall=TP/(TP+FN)=TPR。
对于ROC曲线,它的优点是直观,缺点是不够精确,所以我们用由ROC派生的另一个术语ROC曲线下的面积AUC(Area Under the ROC Curve)来表示ROC的好坏,数值越大说明该分类器性能越好,AUC已被证明是一个可靠的评估方法[9]。G-means和F-measure的数值与分类器的性能成正比。
3.3 实验结果及分析
采用Matlab 7.0 实现了本文所提出的算法ALSMOTE,并将其与随机Undersample算法、Adaboost算法[10]、SMOTE算法[3]、ALSVM算法进行比较。选取了上面三个评估方法进行检测。在实验中,我们对本文提出的算法采用了SVM作为基本学习算法,并通过十折交叉验证方法获得实验结果。表3-表5分别给出了各个算法进行比较的三个不同实验结果:AUC、F-measure和G-means。
从实验结果可以看出,本文所提算法在数据cmc、haberman、abalone、housing上的三个评价指标均优于其他算法;在数据pima和satimage上,虽然只有F-measure结果较优,但是其他两个指标也表现良好。数据satimage由于属性数过多,处理过程中需要额外对属性进行规范,因而表现欠佳。总体来看其它四种算法中,ALSVM也表现良好,SMOTE过取样和随机过取样次之,Adaboost算法最差。
4 结 语
本文算法针对SMOTE过取样算法带来的噪音等问题,根据非均衡数据集高效均衡化后运用适合的传统算法来分类的理论基础,将SMOTE算法和主动学习SVM的优点相结合,提出基于距离的主动学习SMOTE非均衡数据分类算法。实验证明该算法在非均衡数据集分类问题上性能表现较好。主动学习的引入是本文的创新点,这对非均衡数据集分类的研究具有积极意义。
参考文献
[1]钱洪波,贺广南.非平衡类数据分类概述[J].计算机工程与科学,2010,32(5):85-88.
[2]He Haibo,Garcia E A.Learning from Imbalanced Data[J].IEEETransactions on Knowledge and Data Engineering,2009,21(9):1263-1284.
[3]Chawla N V,Bowyer K,Hall L,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:231-357.
[4]Gu Qiong,Cai Zhihua,Zhu Li,et al.Data Mining on Imbalanced DataSets[C]//International Conference on Advanced Computer Theory andEngineering,2008:1020-1024.
[5]Lewis D,Gale W.A sequential Algorithm for Training Text Classifiers[C]//Proc of the17th Annual IACM-SIGIR Conf.on Research and development in information retrieval,1994:3-12.
[6]张健沛,徐华.支持向量机(SVM)主动学习方法研究与应用[J].计算机应用,2004,24(1):1-3.
[7]Liu Xuying,Wu Jianxin,Zhou Zhihua.Undersampling for Class-Imbal-ance Learning[J].IEEE Transactions on Systems,MAN,and Cyber-netics-Part B:Cybernetics,2009,39(2):539-550.
[8]Tan Pangning.数据挖掘导论[M].范明,等译.北京:人民邮电出版社,2006.
[9]Fawcett T.ROC graphs:Notes and practical considerations for research-ers[R].HP Labs,Palo Alto,CA,Tech.Rep.HPL-2003-4,2003.
非均衡数据 第2篇
关键词:数据挖掘;聚类;负载均衡
中图分类号:TP311.13 文献标识码:A文章编号:1007-9599(2012)01-0000-02
Thinking of Data Mining Technology in the Network Load Balancing
Miao Cheng
(CCCC Third Harbor Consultants Institute Co., Ltd.,Shanghai200032,China)
Abstract:Enterprise information technology has become the means for companies to survive in the era of global competition.The information is based on a complete and high-speed network architecture,which can enable the network to load balancing.According to the current condition of network architecture,a method of loading balancing is raised from the perspective of data mining.This method is based on clustering the network traffic,and then form the clustering data.By making these clustering to predict the load intensity in time series,the whole system will load balancing.Experimental and analytical results show that the method is effective.
Keywords:Data Mining;Clustering;Load Balance
一、引言
随着信息网络基础设施的完善,要使网络中的各台计算机不变的很拥挤,能正常工作,要解决负载平衡,达到网络中流量及访问速度均衡的目的。
二、数据挖掘技术
(一)数据挖掘技术的概念
数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的有用信息的一种新技术,是数据库研究中的一个很有应用价值的新领域[1]。
表2-1数据进化的四个阶段
进化阶段时间段技术支持生产厂家产品特点
数据搜集1960年代计算机、磁带等IBM/CDC提供历史性的、静态的数据信息
数据访问1980年代关系数据库、结构化查询语言SQLOracleSybaseInformixIBMMicrosoft在记录级提供历史性的、动态的数据信息
数据仓库1990年代联机分析处理、多维数据库PilotCom shareArborCognosMicrostrategy在各层次上,提供回溯的、动态的历史数据
数据挖掘正在流行高级算法、多处理系统、海量算法PilotLockedIBMSGI其他初创公司提供预测性的信息
(二)数据挖掘技术的发展阶段
数据挖掘的核心技术历经了数十年的发展。这些成熟的技术的数据已进入了实用的阶段。
(三)数据挖掘的特点
数据挖掘技术与传统的分析方法有如下的区别特点:
数据的实时挖掘:挖掘是分布在各节点进行的,相对预先收集数据再集中处理的挖掘方式,功能的分布使分布式数据挖掘系统能适合动态的、变化较快的数据的分析处理。
并行性挖掘:数据挖掘算法效率与通信模型和数据的分布密切相关。对于不同的体系结构,必须采用不同的并行挖掘策略。因此,在网络环境中,应根据不同的通信模型,选择适当的数据挖掘算法。
全局挖掘和局部挖掘:对于一个数据挖掘任务而言,如果它是针对所有数据的,则称为全局挖掘。
三、聚类方法
(一)聚类方法的基本概念
将物理或抽象对象的集合分组成为有类似的对象组成的多个簇的过程被称为聚类[2]。
(二)聚类算法的分类
1.K-中心方法:K-中心方法是划分方法中较经典的聚类算法之一。K-平均算法以k为参数,其定义如下:
该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。K算法流程如下:输入:包含N个对象的数据库和簇的数目库;输出:K个簇,使平方误差准则最小。
2.层次聚类方法:一个层次的聚类方法将数据对象组成一颗聚类的树。
3.基于密度的方法: 绝大多数划分方法给予对象之间的距离进行聚类。这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。随之提出了基于密度的聚类方法,它是将簇看作是数据空间中被低密度区域分割开的高密度区域。DBSCAN是一个有代表性的基于密度的方法,它根据一个密度阀值来控制簇的增长。
4.基于模型的方法:基于模型的方法为每一个簇假定一个模型,寻找数据对给定模型的最佳拟合。基于模型的方法主要有两类:统计学方法和神经网络方法。
(三)基于模型的聚类方法在网络负载均衡中的优势
基于模型的聚类方法最重要的贡献是它提供了一种全新的软件工程思想,它具有的智能性、反应性和自治性,在系统任务分配和并行处理等方法起到重要作用。
四、基于模型聚类数据挖掘中网络负载均衡的解决方案
为了解决网络中日益拥挤的负载情况,避免服务器无法正常地读取数据而导致应用程序崩溃,解决负载均衡的问题,Yale大学的Niecholas Carriero和David Gelemter(1986)在基于数据结构和共享存储系统的并行计算模型的基础上提出了Linda模型[3],见图4-1。
图4-1 Linda模型示意图
(一)模型的设计
将进程1、2……n作为归一化的原始数据其主要思想是:只要临近区域的密度(对象或数据点的数目)超过某个阂值,就继续聚类,主要是步骤是:首先将数据空间划分为若干个密度单元。密度单元的划分与数据空间的维数和数据点数量有关。如图4-2。
图 4-2 聚类计算结果流图
以基于模型的聚类数据挖掘算法为主,结合基本的平衡算法,按具体情况进行添补。在实际使用中考虑到冗余备份技术,故而设计了备份服务器,提出解决模型如图4-3。
图4-3负载均衡模型
负载动态均衡步骤通常包括:(l)各个节点间负载信息收集;(2)根据所收集的负载信息进行决策;(3)实现任务在各节点之间的迁移。
网络负载平衡中,一个要素是数据包的连接。在TCP/IP协议中,数据包含有必要的网络信息,因此必须从连接的角度看待数据包—从源地址的端口建立到目的地址端口的连接。另一个要素就是节点的资源使用状态。由于负载均衡是这类系统的最终目的,那么就必须考虑及时、准确的把握节点负载状况,并根据各个节点当前的资源使用状态动态调整负载均衡的任务分布。
五、结论
基于模型的聚类数据挖掘具有查询速度快、网络负担小,部署方便、使用简单、对网络带宽要求低的特点,促进服务器和客户机共享其性能和数据处理能力,解决了网络中客户端和服务器之间的负载均衡问题。
参考文献:
[1]利诺夫,迈.J., ed.数据挖掘:客户关系管理的科学与艺术[J].中国财政经济出版社:北京.2004
[2]邵峰晶,于忠清.数据挖掘原理与算法[J].中国水利水电出版社,2003
[3]黄水源,段隆振等.基于移动Agent网络智能化服务模型[J].微计算机信息,2007
非均衡数据 第3篇
大量数据在各种应用中不断积累,这些数据虽然不能直接在商业活动中获利,但具有极大的潜在商业价值。在这些应用中的数据多数类别都是非均衡的,即一个类别的样本数量明显大于其他类别样本,而通常,在这些非均衡数据中,较小类别的数据往往具有较大的价值,如电信管理[1]、生物信息学[2]、文本分类方法[3]、语音识别[4]、卫星图像中的石油泄漏[5]等。
传统的分类算法都是基于处理类别均衡数据的基础之上,对于非均衡数据,传统算法虽能得到较好的分类准确率,但并不代表它具有很好的分类精度,实际应用过程中的非均衡数据比例有可能是1:10,也有可能是1:100,甚至1:1 000,而这个1的错误往往带来非常大的影响。因此,非均衡数据具有它独特的研究特点和非常大的实用价值,针对现实数据的非均衡数据的数据挖掘越来越引起人们的关注[6]。
当前,许多学者对非均衡数据的分类进行了研究,并在重采样、集成学习、代价敏感和特征选择等方面均取得了较大的进展。但各种方法依然存在各自的不足,例如,虽然重采样方法中的过取样和欠取样,虽然很多学者已经提出各种合理的改进策略,如SMOTE算法,但按此法分类产生的过拟合问题依然存在,欠取样方法的忽略大类样本潜在有用信息也难以克服。针对以上不足,本文提出了一个拆分提升主动学习算法SBAL(Split-Boost Active Learning),该算法根据样本非均衡的比例数目,采用AdaBoost算法训练子分类器,然后将子分类器集成为一个总的分类器,并基于QBC主动学习算法投票选取候选集进行训练,不仅有效利用了样本信息,而且还合理避免了重采样带来的不足。
1 相关工作
1.1 EasyEnsemble算法
在各种不同的非均衡数据分类方法中,欠取样是较常被使用的[7],然而因为欠取样的原理是选取大类的子集进行训练,所以就导致了包含在被忽略样本中的潜在有用信息被遗漏,这就是欠取样算法的主要缺陷。EasyEnsemble算法[8]就是针对这一缺陷提出的一种欠取样算法,该算法将大类样本分为多个独立的子集,对于每一个子集一个子分类器被训练,最后将所有子分类器集成,得到最终分类器。此算法专门为类别非均衡问题设计,充分利用了样本信息,并避免了忽略有效信息的缺陷,在实验中取得了稳定高效的结果。
1.2 QBC主动学习策略
主动学习是在训练过程中采取有效的学习策略选取信息量最丰富的样本进行学习的一种策略。QBC即委员会投票算法,是由Seung[9]和Freund[10]提出的一种基于如何减小搜索空间的主动学习算法。该算法首先根据已有类标签的样本训练两个或多个分类器,组成“委员会”,对剩余样本进行投票,选择投票最不一致样本加入候选集。该算法无需检测整个样本空间,计算复杂度较低,学习速度较快,能够在较少训练样本的基础上达到给定分类精度。
2基于集成的非均衡数据分类主动学习算法SBAL
2.1 算法简介
本文提出了SBAL算法,即拆分提升主动学习算法。本算法是将拆分集成算法应用于QBC主动学习策略中,在最大化均衡数据进行分类的基础上提高分类精度。为了克服过取样和欠取样带来的不足,本算法采取根据多数类样本对少数类样本的比例训练分类器进行集成,不仅充分利用了少数类样本的信息,而且反应了多数类的不同方面的信息,使所得分类器表现出样本分布的大致状况。两个这样的分类器带来最终分类器的大致范围,无需对全部样本做拆分集成,只需运用QBC委员投票,即可得到对分类器具有影响的有效样本,这样的结合更高效地训练出最终分类器。
算法的基本思想是:首先,将训练集均分m(m>=3)等份,取前两份分别做拆分集成,把得到的子分类器作为委员,对剩余(m-2)等份数据集进行投票,投票不一致的样本即分类器最不能确定的样本,也是信息含量最丰富的样本,将其加入候选集,最后将候选集与前面两等份数据集合并,训练最终的拆分集成分类器。通过本文的实验表明,当m=5时,不仅可以得到较全面的分类信息,剩余样本又可以进行较充分的主动学习,因此本文实验中取m=5。
2.2 算法描述
基于上述思想,提出的SBAL算法描述如下。
步骤1 导入训练集,将训练集随机均分为m(m>=3)份N1,N2,,Nm。
步骤2 对第一份和第二份样本集做如下相同操作:
步骤2.1 取样本集Ni (i=1,2),计算其大类小类样本数目比例Tl;
步骤2.2 根据比例Ti把大类样本分成[Ti]个子集,取小类样本与每个子集结合,其中[Ti]表示将Ti取整;
步骤2.3 对步骤2.2所得子集进行AdaBoost分类,并得到由[Ti]个弱分类器Hij,其中j=1,2,,[Ti];
步骤2.4 将所有步骤2.3所得弱分类器Hij看作特征,直接将其集成为Hi。
步骤3 取剩余样本N3到 Nm,利用步骤2所得到的分类器H1,H2对其做预测;
步骤4 判断两个分类预测是否一致,将不一致样本加入候选集D;
步骤5 合并样本集N1,N2和候选集D,得到最终训练样本集合E;
步骤6 对E进行类似步骤2操作,取大类样本子集与小类样本合并,做AdaBoost训练分类器,集成AdaBoost所得弱分类器,并得到最终分类器H。
3 实验与分析
3.1 数据集
本次实验采用比较有代表性的6个UCI数据集[11]作为训练集和测试集,数据集的基本信息如表1所示,其中类别比例指多数类对少数类样本个数的倍数。本文将少数类样本作为目标类,其他的所有类别作为多数类。
3.2 性能评价度量
通常情况下,用预测准确率来判断一个分类器的好坏,而当数据类型非均衡或者错误的代价非常不同的情况下,预测准确率的方法是不适用的。例如,当一个非均衡数据的比例是98:2时,即使将数据全部划分为大类,它的准确率依然为很高的98%,但这个分类结果对于小类显然是毫无意义的。
ROC曲线(接受者操作特性曲线)[12]是一项标准的总结分类器真正率和假正率的一个折衷,它的左上角是最理想的位置,代表所有正类样本被正确分为正类,而没有负类样本被误分为正类。因此,ROC是公认的衡量非均衡数据分类准确率的标准之一。AUC(曲线下的面积)可以数值化ROC曲线,因而也是公认的代表ROC曲线的性能度量。F-measure和G-means,是表2中混淆矩阵的组合函数,同ROC一样是公认的非均衡数据分类检测标准。
在表2混淆矩阵中,行是预测类,列是实际类,TN(True Negatives)是负类样本被正确分类的数目,FP(False Posetives)是负类样本被错分为正类样本的数目,FN(False Negatives)是正类样本被错分为负类的数目,TP(True Posetives)是正类样本被分为正类样本的数目。ROC曲线、F-measure、G-means均可以看作混淆矩阵的衍生函数。
ROC曲线中,X轴代表假正率FPR(False Positive Rate)= FP/(TN+FP),Y轴代表真正率TPR(True Positive Rate)= TP/(TP+FN),曲线的理想点事(0,100),这点表示所有正类样本被正确划分为正类,而没有负类样本误分为正类,曲线越接近这一点,分类效果越理想,AUC值也越大。
G-means和F-measure则被定义如下[13]:
式(2)中,Precision和Recall分别表示精度和召回率,它们分别定义为:Precision=TP/(TP+FP),Recall=TP/(TP+FN)=TPR。
ROC曲线的优点是直观,而缺点是不够精确,同样数据对于不同算法的表现也许差距并不大,视觉效果不明显,因此通常用AUC数据来比较分类器精度大小。AUC、F-measure、G-means均为数值与分类器的精度成正比,数值越大说明分类精度越大,效果越好。
3.3 实验结果及分析
本实验采用Matlab 2007 来实现SBAL算法,并将其与Adaboost算法[14]、SMOTE算法(SVM为基础分类器)[15]、SMOTEBOOST算法[16]、EE算法[8]进行比较。选用AUC、F-measure和G-means三种评估方法进行检测。为了实验对比,五个算法均通过十折交叉验证方法获得均值。表3-表5分别给出用五个算法进行比较的三种不同实验结果。
从AUC实验结果来看,本文的SBAL算法明显优于其他算法,尤其对balance样本集,对letter数据集基本没有影响;F-measure数据来看,SBAL算法略优于其他算法,只有transfusion数据集稍逊,balance和letter数据集表现较好;G-means和F-measure表现类似,balance数据集依然表现很好,其他略好,EE算法在transfusion数据集表现较好。总体来看,五个方法中SMOTE算法表现最差,看来单独使用该算法并不是良策,与集成学习集合后有了比较好的表现,总体也略高于单独用AdaBoost集成算法,EE算法在前四种算法中表现较好,而SBAL算法基本略高于EE算法,说明SBAL算法对比SMOTE过取样算法和EE欠取样算法均有所改进,即有效避免了重取样算法的不足。
4 结 语
针对重采样算法的不足,基于集成算法提高子分类器性能的优势和主动学习的高效性,本文进行了将非均衡数据分子集进行的拆分提升学习与主动学习算法相结合的尝试,提出了SBAL拆分提升主动学习算法。实验分析表明本文算法对非均衡数据分类问题具有较好表现,说明拆分提升算法与主动学习相结合具有深入研究的可行性。
摘要:当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC(Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足。实验表明,提出的算法对于非均衡数据具有更高的分类精度。
利用生产动态数据识别储层非均质性 第4篇
结合统计学和油藏工程相关原理,利用动态注采数据变化建立了表征优势渗流通道的发育情况的数学判断模型。可快速、准确的判别优势渗流通道, 为油田现场识别储层非均质性提供一个新途径。
1 模型分析
疏松砂岩油藏在长期注水后,储层局部渗透率增大,孔喉半径增大,从而在储层中形成高渗带及特高渗透带,即优势渗流通道。井组内注水井的注入水大部分沿着存在优势渗流通道的方向窜流到生产井流出,而这将在动态生产数据上有直接体现。把所研究的井组看成一个动态变化系统,井间的连通性会直接反映在这个系统的注采数据变化上。因此,通过观察开发过程中注采井组的注入量、产液量等数据随时间变化的相关相随性就可以判断出井间优势渗流通道。
通过生产和注入数据进行注采井间的关联性分析,从本质可以看作是两个波形相似性的比较,即注水井注入液是信号的输入( 即激励) ,生产井的产出水是信号的输出( 即响应) ; 而输入信号和输出信号的关联性则直接反映出两信号源之间的介质性质。通过油田现有的动态生产数据,直接得到井组内注水井注入量和生产井产水量的日报( 或月报) ; 而在日报( 或月报) 中注水量和产水量表现为两组等间距随时间变化的数据点组。基于数据的特性, 结合统计学 相关知识,在皮尔逊 矩阵相关 系数 ( Pearson’s product-moment correlation coefficient) 的基础上建立动态数据优势渗流通道判断模型。
1. 1 数学模型的建立
首先,将实际的物理模型转化为数学模型需要对实际生产数据进行数学标准化处理,根据实际生产数据的特点本文采用z-score( standard score)[14]标准化方法,其标准化公式如下[6]
式中: Ii( t) 为在t时刻注水井i的注水量( t) ;为注水井I的平均注水量( t) ; Pj( t + τ) 为在( t + τ) 时刻生产井j的产水量( t) ;为生产井j的平均产水量( t) ; n为选取数据的时间范围( 月) 。
由式( 1) 、式( 2) 可以看出,该方法是将每一变量值与其平均值之差再除以该变量的标准差。经过数学处理后实际生产数据变量转化为平均值为0, 标准差为1的标准波动幅度数据,该方法是目前多变量综合分析中使用最多的一种方法。利用该方法处理可以使有量纲的实际生产数据转变成无量纲的数学波动幅度数据,并且消除了不同组数据大小与数量级的影响,同时也可以最大限度的消除个别错误数据对判断相关性的干扰。式( 2) 中的参数τ是用于消除注水迟后效果而引入的注水延迟因子。
对数据进行标准化后,基于统计学与油藏工程相关原理[15]。建立井间相关性模型[16]:
式( 3) 中: ρijτ为油水井间相关系数; I* i( t) 为在t时刻注水井i的注水量标准化数据; P* j( t + τ) 为在 ( t + τ) 时刻生产井j的产水量标准化数据; τ为注水见效延迟因子[天( 月) ]。
将式( 1) 、式( 2) 带入公式( 3) 整理优化得
由式( 4) 可以发现丼间相关性模型所表达的几何意义是: 两组波形数据对应数据点的向量的夹角的余弦值。因此,相关系数越大,对应点向量夹角越小,代表了这两组波形数据变化程度和变化时机具有更好的近似性,说明这两口井之间的连通性好,存在优势渗流通到的几率越大; 反之亦然。
1. 2 实际应用因素分析
实际生产中,注水井注水后地层压力提高效应自注水井不断沿流线方向向油井传播。当沿速度最快、路径最短的主流线传播到油井后,油井开始受到注入水的 影响,这个时间 称为注水 见效迟后 时间[17]。而这一过程在井距较大的低渗高黏度油藏更为明显[18,19]。因为建立的数学判断模型使用的注采数据是基于时间变化的,所以注水见效传播延迟时间应是优势渗流通道识别模型的一个重要的判断参数。模型中引入的注水见效延迟因子τ 在不同注采井间其数值大小不尽相同。在公式( 4) 中可以改变延迟因子τ大小来求取不同井之间的最大相关 系数,即通过平移其中一组数据波形来寻求这两列数据的最相似处的相关系数。另外在引入延迟因子τ消除注水见效延迟对数学判断模型准确度的影响 的同时,延迟因子τ也可作为一个重要的指标来描述优势渗流通道的发育程度。根据不同时期延迟因 子τ的大小的变化反映出地层中井间关联性的变化,据此可以判断出优势渗流通道的发育过程以及封堵调剖后的变化情况。
在实际应用该方法时,操作步骤如下: 首先,将所需测试的井组的动态生产数据进行标准化处理。然后将井组内每一口生产井和注水井的标准化数据带入所建立的井间相关性模型中进行计算。而在计 算每口注水井和生产井之间的相关系数时,通过在允许范围内改变延迟因子τ的数值求出最大的相关 系数 ( ρijτ)max作为这两口井之间的井间相关系数。另外在实际分析时,不可能都是一注一采或者一注多采的简单情况,若某口油井周围有多口水井时,则用该油井分别与这几口水井进行关联,分别它与这几口水井水量数据间的相关系数,再以所有相关系数之和作为分母,用其单个相关系数作为分子,这样计算的数,分别作为多口水井对该生产井贡献的劈分系数。劈分后的井间关联性相关系数为
式( 5) 中,( ρijτ)* max为劈分后的最优相关系数; M为井组内的注水井数。
加入劈分公式( 5) 可以大大增加所建立的优势渗流通道数学判断模型的实际应用价值。
2 实际应用
现在以大庆油田10 - 35井组为实例进行应用验证。10 - 35井组位于XX区块中部( 见图1) ,主要发育浅湖-三角洲沉积体系,砂岩成分成熟度和结构成熟度都很高。井组含油面积0. 17 km2,井区平均有效厚度14. 5 m,对应油井4口( 10-36、10-49、10-101、10-2) ,主要的注采层位系属S3中7-10砂组, 控制地质储量36. 9×104t,可采储量15. 4×104t, 为中孔、中渗油层,其平均孔隙度为22. 8% ,平均空气渗透率为216×10- 3μm2。日产液量131. 6 t/d, 日产油量2. 1 t/d,含水98. 4% 。地面原油 密度0. 84 g / cm3,地面黏度8. 62 m Pa·s,原始饱和压力11. 88 MPa,原始地饱压差16. 03 MPa,岩石润湿性为亲水性。
该井组自1994年以来一直注水开发,目前已经进入特高含水期开发阶段。因为层系单一,且没有进行井网调整,目前井组内注采压差小,油井快速水淹,出砂量大,优势渗流通道发育明显。亟需进行优势渗流通道的识别,采取相应调剖改造策略。井组的动态生产数据如图2所示。
将10-35井组的动态资料标准化,标准化后的数据如图3所示。从图3可以发现,标准化处理后将原来无规律的实际数据转化为统一的数据波动幅度数列,方便于计算分析其数据之间的相关性。
将标准化数据带入前面建立的井间相关性模型式4中,通过改变延迟因子τ,计算得到每两口井之间的最大关联系数τ,结果见表1。
由表1可以看出,生产井10-49与注水井10-35之间的最佳关联系数最大且注水见效时间极短,表明两井之间注水见效快,井间关联性极好,可以判断为优势渗流通道方向,需进行相应治理。而油田现场动态识别分析测试结果( 见表2) 表明注入水在井10-49方向流动速度远大于其他井方向,相符,因此证明了该方法是一种可在现场应用的快速判别优势渗流通道的新方法。
3 结论
( 1) 根据分析优势渗流通道在生产数据上的反应变化,提出一套运用井间连通性模型判断优势渗流通道的简易方法,该方法基于统计学与油藏工程相关原理,只利用动态生产数据即可快速有效的判别优势渗流通道。
( 2) 本模型加入注水延迟因子这一概念,不仅消除注水见效对判别优势渗流通道产生的干扰影响,而且可以计算出注水见效延迟时间,加强对优势渗流通道的描述。同时运用劈分方法,使得该模型不仅局限与一采一注模型,更加具有实际运用价值。
( 3) 将本方法应用于大庆油田10 - 35井组,通过实际数据验证证明,本模型的预测效果较好,计算结果与示踪剂解释结果基本一致,有较好的实用性和准确性,是一种新的快速识别优势渗流通道的简易办法。
摘要:目前我国大部分油田经历了数十年的生产,现已进入高含水开发阶段,部分地区储层非均质性明显,导致油田的开发投资、成本增加,经济、社会效益大大降低。通过对储层非均质性与油田生产动态数据之间的相关性进行研究,利用数据相关性原理提出一套全新的判别砂岩油藏储层非均质性的思路方法;运用丼间相关性模型通过动态生产数据快速、准确的判别储层非均质特性。将该方法应用于油田现场,预测结果与实际结果相同,证明了方法的准确有效。与传统识别储层非均质性的方法相比,无需测试额外数据、方便快捷、简单有效,可以节约大量的研究费用与时间,具有较好的现场应用价值。
非均衡数据 第5篇
集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,它们可以被看作是一台计算机。集群系统中的单个计算机称为节点,通常通过局域网连接。一般集群系统具有高可用性、高可靠性、高伸缩性和高性能的特点。
目前集群技术已应用于数据库,可以实现大规模、高性能的数据库系统。但是数据库系统与一般信息处理系统有着重大的区别:数据库系统兼具信息处理系统和信息存储系统。一个好的数据库集群系统,应考虑到信息处理和信息存储两方面的内容。在保证数据安全的前提下,同时达到上述集群系统所具有的高可用性、高可靠性、高伸缩性和高性能。因此一个数据库集群系统应该具有高数据安全性、高可用性、高性能、高可靠性、优秀性价比和高伸缩性的功能特点[1]。
实现数据库集群的负载均衡技术是目前研究的难点和热点,因为负载均衡技术直接关系到数据库集群的体系结构及利用效率和高伸缩性。
2 数据库集群模型
目前的负载均衡技术可分为无前端调度节点和有前端调度节点两种。基于无前端调度节点的技术对用户表现为多个IP地址,不存在结构上的瓶颈,实现简单,但是在可靠性和均衡效果方面存在问题。而基于有前端调度节点即管理节点(MGM Node)的技术,用户只能看到前端管理节点的IP地址,管理节点不参与实际的服务工作,只进行后端数据库集群的状态收集、系统一致性维护和负载均衡分配的工作。相比而言,基于有前端调度节点的技术更能满足集群负载平衡的要求[2]。
2.1 基于NAT技术的数据库集群模型
在整个集群系统中,各个节点拥有独立的IP地址和内存。对外,整个集群服务器拥有一个虚拟IP地址。当客户要求访问集群内部服务器上的内容时,采用网络地址转换(Network Address Translation,简称NAT)。使用NAT方法将不同IP地址的并行网络服务变成在一个IP地址上的一个虚拟服务。
当客户同多Virtual IP Address(虚拟服务的IP地址)访问网络服务时,请求报文到达管理节点,管理节点根据调度算法从一组真实服务器中选出一台服务器,将报文的目标地址Virtual IP Address改写成选定的服务器的地址,然后将修改后的报文发送给选出的服务器。当来自真实服务器的响应报文返回给管理节点后,管理节点将报文的源地址改回Virtual IP Address,再把报文发给用户[3,4]。
2.2 读写分离
在此模型中,所有的存储节点都存有相同的数据。取其中一个负载较小的节点作为主节点(master),其它存储节点设置为从节点(slave)。管理节点不仅可以实现负载的均衡分配,更重要的是能结合数据库集群的具体情况实现读写分离。
客户访问数据库的操作有多种,但可以将这多种操作划分成两类,即“select”和“非select”操作[5]。我们将“select”操作称为读操作,将“非select”操作称为写操作。在管理节点利用读写分离算法实现读写分离,其中Master处理“非Select”任务(如,Update,Delete,Insert等),除管理节点外其余节点处理大量的“Select”服务。Master与Slaves之间通过快照复制等技术达到数据同步。这样可以缩短客户访问数据库的时间。
3 数据库集群服务器的负载均衡调度策略
3.1 负载情况的收集
将服务器按负载情况分成4个状态。4个状态依次表示为正常、负载过重或失效、确定负载过重或失效、服务器从Real Server队列中被删除。状态的判定通过管理节点定时的向存储节点发送检测数据包来进行判定[4,6]。
3.2 负载调度策略
针对不同的网络服务要求和服务器配置,LVS中负载调度器上实现了八种负载调度策略,常用的为如下四种:
1)轮叫调度(Round-Robin Scheduling):将外部请求按顺序轮流分配给集群中的服务器上。
2)加权轮叫调度(Weighted Round-Robin Scheduling):根据服务器设置的权值来分配访问请求。
3)最小连接调度(Least-Connection Scheduling):把新的连接请求分配当前链接数最小的服务器。
4)加权最小连接调度(Weighted Least-Connection Scheduling):根据各个服务器的权值和链接数来分配访问请求。
这四种调度策略同样也可以用在数据库服务器集群中。但是大多数的数据库集群都是通过轮叫调度策略来处理负载均衡问题[3]。通过对以上各个调度策略进行分析可以看出,无论是基于权值还是基于链接数进行的负载分配策略,要使各个Real Server的负载保持均衡,只能静态的判定Real Server处理任务的能力,因此也就无法有效的判定服务器此时真实负载能力。也就是说认为每个链接对任何一台Real Server造成的压力是一样的。但是实际情况并非总是如此。真实的服务器因为其所在硬件设备的不同而具有不同的处理事务能力。因此在设计负载均衡算法时先考虑一下Real server所在机器此时的事务处理能力。
3.3 改进后的服务器权值动态调度策略
为了弥补上述负载调度策略的不足,并结合实际应用情况,使用“权值+单位时间流量”为依据并且充分考虑到读写分离的动态负载均衡调度策略(单位时间流量即在单位时间内,由客户发出的,经过管理节点转发至某一台Real Server的数据流量)。该策略对一个时间段内转发至Real Server的数据流量进行采集和记录,以平均流量作为依据对Real Server进行分级。根据检测结果不断调整Real Server的权值来决定master和slave,并且在各级状态之间进行转换[4]。
利用权值动态决定master和slave,设状态为status。
0正常
1负载过重或失效(向Real Server发送的检验包没有回应)
2确定负载过重或失效(向Real Server发送的检验包长时间没有回应(超过设定的时间阈值))
3从Real Server队列中删除此负载过重或失效的服务器
If(status为0){
If(本次检验有错){
Status设置为1;
If(权值为1,该机器为master){
权值设为0,该机器变为slave;
从Real Servers列表中寻找一个流量平均值最小的,设置权值为1,使此机器为master;}
}}
Else if(status为1){
If(状态1已经持续时间超过了设定的时间阈值){
Status为2;}}
Else if(status为2){
从Real Server列表中删除此Real Server;}
Else if(status为3){
If(本次测试无错){
将此Real Server加入Real Servers列表中,状态设置为0;}
4 结束语
本文通过对数据库集群负载调度策略进行考察,综合一些具体的应用,提出了一种基于动态的负载调度策略。该策略不但能够更好的分配负载,更能动态的避免主数据库服务器(Master)因失效成为系统瓶颈。保证了数据库集群能更可靠的实现读写分离。但是仍然没有解决管理节点作为瓶颈的问题。
摘要:本文根据数据库集群的具体情况和实际需求,在分析LVS中各种负载调度策略的基础上提出了一种新的动态的负载均衡策略。该策略不仅解决了数据库集群的任务分配问题,还动态的决定数据库集群中的主数据库服务器和从数据库服务器。
关键词:数据库集群,负载均衡,动态负载调度,读写分离,主、从数据库节点
参考文献
[1]周英飚.通用无共享数据库集群研究与实现[J].计算机工程与应用,2007,43(32):156-160.
[2]程伟,卢泽新,王宏.一种新的服务器集群系统负载均衡技术[J].计算机工程与科学,2006,28(2):31-32.
[3]章文嵩.Linux服务器集群系统.www-128.ibm.com.
[4]张阿鹏,武维善.LVS中一种负载调度策略的设计与实现[J].软件时空,2008:251-252.
[5]江枫.构建高负载Mysql数据库服务器系统[J].楚雄师范学院学报,2005,20(3):1-5.
[6]李永喜,陈小平,杨兴良.一种基于内容的Web服务器集群调度算法[J].计算机应用与软件,2008,25(3):215-216.
非均衡数据 第6篇
1 动态负载均衡算法原理
WSN数据汇集中的节点除了Sink节点以外剩下的网络节点都是数据源。网络节点把采集到的信息数据都汇集至Sink节点,整个过程形成了一个多对一形式的网络数据流。与Sink节点距离较近的内层节点(又称上游节点)相对距离较远的外层节点((又称下游节点))负载较重,这可以称为一种漏斗效应。
通过对WSN数据汇集的应用特点的分析研究可得到以下定理和推论:
定理:上游节点负载的总和大于下游负载总和。定理证明:设定M为网络总层数,i、j代表层次,且0<i<j≤M,∑Li与∑Lj分别表示第i层、第j层的负载总和,因为外层节点与Sink节点之间不能进行直接通信,只能通过内节点把数据转发给Sink节点,所以内节点的数据就包括两部分,即自身传感器产生的数据以及外层节点数据,此时就有∑Li大于∑Lj的关系。
推论:Sink相邻节点的负载总大于其他任何层次节点负载总和。推论证明:假设i层为Sink相邻节点,i=1,因为定理1成立,所以1<i<j≤M,则一定有∑L1大于∑Lj的关系。
通过邻居发现以及广播算法,WSN能够让每个节点清楚与Sink节点的层次关系,并且可以知道自己上跳节点的信息。Sink的非相邻节点与Sink节点之间不能直接进行通信,而必须通过父节点把数据信息转发给Sink节点。一般情况下,每个WSN对应的父节点有很多个,当每个父节点的数据分配不合理时就会出现父节点或者上游节点负载不均衡的问题,负载过重的情况下很容易导致节点提前死亡,缩短网络寿命。因此动态负载均衡算法的一个关键问题就是要如何让上游节点负载得到最大程度的均衡。
动态负载均衡算法的基本思想:上游节点报给下游节点的上游节点数据转发量经过下游节点分析、处理之后,即对父节点的数据流量进行动态调整,进而使上游节点的负载到达最佳均衡状态。
可以用节点的数据传输压力来形象定义上游节点数据转发量情况,可以简称为压力,数据传输压力的方向和数据流方向是相反的。首先提出压力计算模型,节点通过该计算模型计算出对下游节点施加的压力,并把计算结果通过一定方式汇报给下游节点。上游节点的负载情况通过压力来反映,随着上游节点转发情况的变化,压力值也不断变化,如果上游的数据量大,压力值就大。子节点通过流量均衡计算模型对父节点的压力差进行均衡分配,得到父节点流量分配比例表,最后子节点根据父节点流量分配比例表来进行数据转发。该应用过程属于一个动态反馈过程,最终使得上游节点的负载达到最佳均衡状态。
2 动态负载均衡算法解析
2.1动态负载均衡算法中的压力计算模型
对动态负载均衡算法原理进行分析可以得出数据转发情况是决定压力值的关键性因素,所以压力与数据转发量之间成正比关系。从定理1中的漏斗效应中上游节点负载的总和大于下游负载总和以及节点的网络层次关系可以发现,低层次的压力贡献相对于高层次要大,此时就可以对压力进行量化性定义。节点i(i取任意值)转发数据形成的压力表示如下:( p(i) 表示产生的压力, f(i) 表示数据传输量, h(i) 表示层次跳数)。
压力消息由上游节点传递给下游节点,所以对子节点的压力不但包括上游节点压力,还包括自身采集数据的的传输压力。又因为对上游节点的感知来自于父节点,所以任意节点i对子节点形成的压力表示如下:
节点i收到父节点的平均压力计算公式如下:
因为节点转发数据不仅包括转发节点数据,还包括自身采集产生的数据,所以得出
f (i)=∑f父(i) + fi(∑f父(i)表示节点数据转发量,f(i)表示自身产生的数据流量)。
由以上几个公式可推出节点i对子节点传递的压力:
通过广播的方式来告知子节点压力,子节点压力值反映了上游节点的负载状况,两者呈正相关的关系。
2.2动态负载均衡算法中的流量均衡计算模型
压力值是对父节点以及上游节点负载情况的反映,因为收到父节点压力是针对子节点的,需要对当前分配给父节点的流量比例进行重新计算,根据以上公式可得:
假如网络总共有M层, i为任一层, 0<i<M, 用n表示i层到M层的所有节点数, n个节点形成的数据流量会通过i层的所有父节点,假如i层的父节点有m个,父节点流量表示为f父( i ) ,每个父节点流量都大于零,层到M层的所有节点流量总和大于零。 要到达最佳均衡状态就需要令每个父节点产生流量的差值最小化。如果对于任一i值,假设有h个父节点,父节点新的流量表示为f父' ( i ) ,然后经过推理分析可得到新的流量分配值
其中 , ∑ f '父( i ) 表示节点i的父节点 新流量总 和 , ∑ f ''父( i ) 表示子节点新的流量总和,f '' 父 ( i ) 表示i节点重新分配前的父节点流量。每个父节点的f ''父计算出来以后即可得到流量分配表。
2.3动态负载均衡算法步骤
为了实现网络负载的动态均衡,在该算法中定义出3个以广播方式传输的消息指令。指令1由Sink节点发出,主要为了发现节点层次,让节点知道与Sink节点的层次关系,并建立父子列表。指令2用于子节点对父节点的节点流量报告,如果有数据需要传输给父节点时,指令2可以在数据上传过程中稍到。指令3是父节点汇报子节点压力。动态负载均衡算法步骤主要步骤如下:
第一,Sink节点发出指令1,网络节点收到指令1后通过广播算法发现层次,获取每个节点与Sink节点的层次关系,并建立父子节点列表。节点没有初始化的情况下初始化父节点压力为零,对父节点进行流量平均分配,然后进行采集和传输数据。
第二,父节点的压力处于均衡状态时可以依据当前父节点流量表的比例进行数据传输,如果不均衡就需要执行第四步操作。
第三 ,如果有子 节点存在 ,需要结合 公式计算子节点压力,当压力值变化时需要通过指令3来告知子节点,然后返回第二步骤。
第四,根据流量计算模型的相关公式对新的父节点流量表进行计算,并通过指令2把新的流量信息通告给父节点,之后返回第三步骤。
利用TOSSIM进行仿真实验,实验中对动态负载均衡算法与动态负载平衡树方法、静态负载平衡树方法、最短路径树方法等节点负载均衡算法进行对比发现,动态负载均衡算法有可行性,并且相比其它算法表现出更优越的效果。
3 结束语
文章针对用于汽车电子系统的WSN数据汇集应用中负载分配不均衡的问题提出了动态动态负载均衡算法(DLB-DGA),该算法可以有效解决节点负载不均衡导致的早死现象,延长了网络寿命。而且动态负载均衡算法的应用环境要求低,实用性强,应用过程中不需要其他手段支持。由于该算法的实现是在一定假设条件下进行的,所以要需要进一步探究、完善。
摘要:该文针对基于WSN数据汇集的汽车电子节点负载均衡问题提出了可以使负载分配均衡、延长网络寿命的动态负载均衡算法,并对动态负载均衡算法的原理、各方面计算模型以及相关算法进行了具体阐述,并进一步验证了该算法的可行性和优势。
关键词:WSN,数据汇集,汽车电子节点,负载均衡
参考文献
[1]陈志涛.浅谈无线传感器网络研究现状与应用[J].计算机光盘软件与应用.2012(09).
[2]何丽莉,孙冰怡,姜宇,等.基于Zig Bee的无线传感器网络管理系统架构设计[J].吉林大学学报:理学版,2012(04).
[3]邢唱白.浅谈基于MSP430和n RF905的无线传感器网络设计[J].科技信息,2012(23).
[4]梁毓明,张振利.井下无线传感器网络网关节点的设计[J].金属矿山,2012(07).
[5]李琦,张坤,李旭东.热网远程监控中的无线传感器网络硬件设计与实现[J].化工自动化及仪表.2012(07).
[6]潘绍明,罗功坤,劳有兰.基于无线传感器网络的RFID系统[J].仪表技术与传感器,2012(06).
[7]彭鑫.车载自组网节点定位及频谱分配策略研究[D].湖南大学,2011.
[8]Perillo M,Zhao C,Heinzelman W.On the problem of unbal-ancedload distribution in wireless sensor networks[C]//GlobeCom Workshops 2004.[S.l.]:IEEE,2004:74-79.
非均衡数据 第7篇
随着社会经济的发展和人民生活水平的提高, 人们开始追求更高层次的需求, 旅游便是满足人们精神需求的一个重要途径。云南特殊的地理气候环境, 各具特色的自然景观以及灿烂的民族文化, 吸引着众多的海外游客。入境旅游不仅能够促进云南与国际间的交流, 也促进旅游外汇收入的增加。云南对外贸易发展迅速, 对外贸易快速发展促进了云南与国外的经济文化交流, 极大地促进了入境旅游的发展, 因此, 研究入境旅游与对外贸易二者之间的关系具有重要意义。
从已有文献来看, 大多着眼于国家层面, 本文基于前人研究的基础上, 研究边疆民族地区的对外贸易与入境旅游的关系, 基于云南省数据进行分析, 并在此基础上提出相应的对策。
1 云南入境旅游与对外贸易关系的实证分析
1.1 数据说明与样本的选取
本文选取1995~2013年最新的经济数据, 数据来源于中经网产业数据库和云南省统计年鉴整理, 对外贸易包括进口贸易额IM (单位:亿美元) 、出口贸易额EM (亿美元) , 用入境外汇收入ITS (百万美元) 表示入境旅游状况, 由于数据的自然对数变换不改变变量的长期关系, 因此, 分别对三个变量取对数, 分别记为lnIMt, lnEMt, lnITSt, 其相应的差分序列记为ΔlnIMt, ΔlnEMt, ΔlnITSt。
1.2 相关性分析
首先对所选变量的相关关系进行分析, 运用Eviews6.0得出各变量的趋势图如图1。
从图1可以看出, lnIMt, lnEMt, lnITSt各序列有不断增长的变化趋势, 变动的方向较为一致, 各变量之间具有较强的正相关关系。
1.3 变量的平稳性检验
在对经济时序变量建模时, 为了避免出现伪回归, 应先进行平稳性检验。本文采用Dickey-Fuller的ADF单位根检验法来验证变量的平稳性, 检验结果如表1所示。
注:滞后阶数的选择标准是以AIC和SC最小为准则, 且DW值接近2
从表1可以看出, 这三个变量序列在5%的显著性水平下都是非平稳的。但经过一阶差分后, 三个序列在5%显著性水平下均为平稳的。说明三变量同为一阶单整过程, 即为I (1) , 满足协整检验的要求, 即这些变量之间可能存在长期均衡关系。
1.4 Johansen协整关系检验
本文采用Johansen协整检验, 检验结果如表2、表3所示。
注:*表示在5%的而显著性水平下拒绝原假设
注:*表示在5%的而显著性水平下拒绝原假设
从表2、表3的检验结果得出如下结论:在95%的置信水平下, 有理由确信云南入境旅游与对外贸易之间存在长期均衡关系。在此基础上, 对残差序列进行单位根检验可知, 该残差序列是平稳的, 也进一步验证了此结论。
1.5 VAR模型的建立
向量自回归 (VAR) 模型是Sims在1980年提出的, 笔者构建了一个三维的向量自回归模型, 根据模型滞后期确定准则选择滞后期。
注:*表示根据相应的确定的滞后阶数
根据表4计算结果, 5个评价指标均认为选择的滞后期数为3, 即建立VAR (3) 。模型方程估计结果如下:
从实证结果可以看出, 模型的拟合优度分别是0.991 456、0.985 876、0.979 993, 调整后的模型的拟合优度分别为0.978 641、0.964 691、0.949 982。被估计的VAR模型的所有根模的倒数小于1, 即位于单位圆内, 则表明VAR模型是稳定的。
1.6 Granger因果关系检验
Granger (1988) 指出, 如果两个I (1) 过程具有协整关系, 一定存在某种因果关系支持这种长期均衡。笔者对VAR模型中的变量进行了Granger因果关系检验, 检验结果如表5所示。
从表5可知, 云南进口贸易不是出口贸易的Granger原因, 而出口贸易是进口贸易的Granger原因;入境旅游不是出口贸易的Granger原因, 而出口贸易是入境旅游的Granger原因;入境旅游不是出口贸易的Granger原因, 而进口贸易是入境旅游的Granger原因。
1.7 脉冲响应分析
脉冲响应函数描述的是VAR模型中的一个内生变量的冲击给其他内生变量所带来的影响。下面分别给出云南入境旅游 (lnITSt) 、出口贸易 (lnEMt) 和进口贸易 (lnIMt) 一个正的单位大小的冲击后, 得到相应的脉冲响应函数图 (图2) , 其中, 实线用来表示脉冲响应函数, 虚线则表示正负两倍标准差偏离带。
从图2可以看出入境旅游的变动对自身的响应是同向的, 在第2期达到低点后, 以后各期慢慢上升, 当在本期给出口贸易一个正向冲击后, 它给入境旅游带来的冲击作用比较小, 从第3期后开始稳定增长, 而且这一冲击具有显著的促进作用和持续影响, 表明出口贸易的某一冲击给入境旅游带来同向的冲击;当给本期进口一个正向的冲击后, 它给入境旅游带来同向的冲击, 前3期对入境旅游的影响是非常微弱的, 以后各期稳定增长, 总体表现为长期影响, 但出口贸易对云南入境旅游的影响显著大于进口贸易。
1.8 方差分解分析
方差分解分析是通过分析每一个结构冲击对内生变量的变化的贡献度, 进一步评价不同结构冲击的重要性。下面笔者利用已建立的VAR模型进行方差分解分析, 结果见表6。
从表6可以看出, 对入境旅游变化贡献率最大的是自身因素的变化, 对自身贡献率呈现出逐年递减的趋势, 第3期贡献率为64.79%, 而第10期下降到63.34%, 但仍然起着主要的作用。出口贸易变动对入境旅游变化的贡献虽然在第2期只有11.49%, 到第10期达到20.39%, 出口贸易对入境旅游变化的贡献率呈现逐年递增的趋势, 而进口贸易对入境旅游变化的贡献率第2期达到1.686%, 之后有所下降, 到第10期时达到16.27%, 从上可以看出出口贸易对入境旅游变化的贡献率远远大于进口贸易对入境旅游的贡献率。
2 结论
入境旅游与对外贸易是两个相互联系的系统, 对外贸易的不断深化, 为云南省开辟了广阔的市场, 出口贸易表明对云南出口产品的需求, 国外对云南出口产品需求的增加, 必将会促进云南服务产品的需求, 旅游便是一个最好的体现, 云南具有得天独厚的旅游资源, 吸引着众多的海外游客。本文针对云南省数据进行分析, 结果发现。
1) 单位根检验的结果显示, 云南出口贸易、进口贸易与入境旅游都是非平稳的时间序列, 一阶差分后均是平稳序列, 通过协整检验得出三者之间存在一个协整关系, 三者之间存在着长期动态的均衡关系, 这说明了入境旅游与对外贸易之间确实存在某种关联。
2) Granger因果关系检验可知, 出口贸易是入境旅游的Granger原因, 但入境旅游不是出口贸易的Granger原因;进口贸易是入境旅游的Granger原因, 而入境旅游不是出口贸易的Granger原因。这说明了云南入境旅游与对外贸易之间存在单向的因果关系, 表明云南进出口贸易促进了入境旅游, 进出口贸易的增大表明与国外经济交流的加强, 经济活动的频繁交流也必将带动国家间人员的流动。
3) VAR模型分析和方差分解分析结果显示, 出口贸易对入境旅游有着长期显著的正向拉动作用, 而且出口贸易对入境旅游的影响大于进口贸易对入境旅游的影响。
3 对策分析
从以上的分析结果看出, 无论在长期还是短期, 出口贸易、进口贸易均对云南的入境旅游有着正向促进效应。对此, 笔者提出以下建议:
3.1 发挥地区优势, 促进云南产业结构优化升级
云南出口贸易要得到稳定而持续的增加, 最根本的力量在于有一个坚实的产业基础, 云南应发挥地区优势, 促进产业结构优化升级, 第三产业将是今后发展的重点行业, 特别是旅游业, 云南旅游资源丰富且丰裕度高, 具有丰富的自然资源和生物多样性, 气候环境独特, 具有开发生态旅游和民俗旅游的有利条件, 应加强与周边旅游城市的联系, 发挥资源共享的作用, 扩大与东南亚、南亚的经济技术合作, 不断提升云南省对外贸易的竞争力。
3.2 优化云南出口商品结构
云南省出口商品的生产主要集中于烟草、矿产、电力、生物等, 加工程度低, 技术含量低, 附加值低, 因此, 要进一步调整和优化云南的出口商品结构, 促进云南对外贸易发展, 要充分利用当地的劳动力资源和丰富的自然资源结合所处的优越地理位置, 有针对性的发展具有市场需求的当地特色产业, 在出口商品结构上, 注重云南民族文化产品的输出, 借此吸引更多的海外游客来滇旅游。
3.3 改善入境旅游服务质量, 细分入境客源市场
旅游业是一个复杂的, 综合性强的产业, 涉及众多行业和部门, 因此要不断改善云南入境旅游服务质量, 丰富旅游产品的供给, 吸引更多的国际游客。从云南省国际客源市场来看, 总体结构不理想, 应该根据客源国的不同情况, 细分入境客源市场, 采取有针对性的措施, 提升云南省的入境旅游外汇收入。
3.4 推进旅游服务贸易快速发展, 延长旅游服务贸易产业链
旅游业是旅游服务贸易的基础, 要提升旅游服务贸易的竞争力, 就要大力发展旅游业。旅游业是一个关联性很强的产业, 其相关产业包括交通、餐饮、住宿、购物等, 有很长的产业链, 就业弹性系数高, 有很强的劳动力就地消化的能力, 因此, 要推进旅游服务贸易的快速发展, 延长旅游服务贸易产业链。
参考文献
[1]刘玉萍, 郭郡郡.入境旅游与对外贸易的关系——中国2001~2008年月度数据的实证分析[J].经济地理, 2011 (4) :696-700.
[2]王洁洁.入境旅游与对外贸易关系的实证分析[J].经济问题, 2012 (11) :99-103.
非均衡数据 第8篇
1 网络模型
假设融合1bite数据所消耗的电能为EDA, 那么融合p个长度为比特的数据所消耗的电能为:
2 算法设计
在每轮数据通信中, BECUCDC算法可以分成三个阶段:初始化、设置及数据搜集阶段。
2.1 初始化
初始化阶段有两个工作:一是完成矩形网格的划分以及确定簇首数量;二是计算每个传感器所属的网格。
假设在每轮数据通信中, P是每个节点的失效概率, K为每个网格内的簇首数, 那么在每个网格中工作正常的簇首数为 (1-P) K。为了确保数据收集的完整性与可靠性, 那么网格中必须至少有一个簇首能够正常工作, 因此, K应该满足:
为了确保数据收集的完整性与可靠性, 每个网格中的传感器数应大于簇首数K, 那么网格 (v, w) 的长宽应该满足:
2.2 设置阶段
在设置阶段, 首轮与后续轮是不同的。在首轮中, 每个节点把诸如位置坐标等自身信息广播给网格中的其它节点。同时, 出于节能考虑, 节点的发射信号仅需要覆盖自身所在的网格, 因此, 其最大通信距离为其到该网格四个顶点距离的最大值Dt。假设节点坐标为 (x, y) , 所属网格为 (v, w) , 那么Dt的计算过程, 见图2。
当所有节点广播消息以后, BECUCDC算法根据这些消息来进行簇首的选择。簇首的选择过程:根据节点剩余能量, 网格中的节点按照从大到小的顺序进行排列。如果出现剩余能量相同的情况, 那么根据节点序号, 节点按照从大到小的顺序进行排列;选取排序后的前K个节点作为网格的簇首, 如果网格中的节点数小于K, 那么网格中的所有节点都是簇首;如果节点被选为簇首, 那么其把自身标记为簇首, 否则的话, 标记为簇成员;为每个簇首分配发送优先级, 即位置越靠前, 发送优先级越高。
完成簇首的选择后, 簇首会为本网格内的节点分配通信时隙, 并以广播的形式把该信息发送给网格内的其它节点。而在非首轮中, 基站B会把其在上轮结束时所收集的节点信息广播给所有节点, 接着节点从中获取本网格中其它节点的信息, 然后按照与首轮相同的方法来选择簇首、分配优先级以及分配通信时隙。
2.3 数据收集阶段
在该阶段, 首先簇内成员把数据发送给簇内的所有簇首, 然后簇首对数据进行融合, 最后把数据发送给基站B。
2.3.1 仿真分析
本文从能耗均衡性这个方面来验证BECUCDC算法的性能。仿真参数设置参照文献[1]。由于在能耗均衡性方面, DEEUC算法的性能优于EECS算法的, 因此, 在不考虑节点失效的情况下, 本文把BECUCDC算法与DEEUC算法进行比较来衡量BECUCDC算法的能耗均衡性。在仿真中, 把DEEUC算法的预期簇首数设置为K。
2.3.2 仿真结果
对于BECUCDC算法而言, 首次出现死亡节点的轮数 (FDR) 和最后一个节点死亡的轮数 (LDR) 分别为957和1228;而对于DEEUC算法而言, 其FDR和LDR分别为493与678。那么BECUCDC算法比DEEUC算法分别延长了94.12%与81.12%。能耗均衡指标 (BECI) 常被用于衡量网络的能耗均衡性, 其数学描述为:
BECI的值越小, 则说明网络的能耗越均衡。根据公式 (8) , BECUCDC算法与DEEUC算法的BECI分别为0.221和0.273。可以看出, BECUCDC算法具有更好的能耗均衡性。这是因为, BECUCDC算法通过非均匀分簇策略使得离基站越远的网格包含有更多的节点, 同时利用簇首轮换的策略, 使得簇内节点轮流担任簇首来更好地分担能量的消耗, 从而实现了更好的能耗均衡。
3 结语
针对现有数据收集算法存在的单点失效问题以及热区问题, 本文提出了BECUCDC算法。该算法把网络分成多个非均匀的网格, 每个网格中的所有节点构成一个簇, 而簇内簇首数是由节点失效概率来决定, 并且多个簇首协作地把收集的簇内消息发送给基站。仿真表明, 本文所提算法具有更好的能耗均衡性。
摘要:针对现有数据收集算法存在的单点失效问题以及热区问题, 提出了一种能耗均衡和非均匀分簇的数据收集算法。实验表明, 所提算法能够显著地提高能耗均衡性。
关键词:无线传感器,数据收集,WSN
参考文献
非均衡数据范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。


