程度粗糙集范文
程度粗糙集范文(精选8篇)
程度粗糙集 第1篇
通常对锅炉热效率的计算大都采用正平衡法或反平衡法来进行[1]。综合来说,一方面这两种方法对测量都有较高要求,且有些参量只能通过其他在线测量的数据计算或查表得到,计算过程复杂,故用于现场实际的运行监测有一定的困难。另一方面由于锅炉热效率是受设备、工况、燃料等诸多因素综合作用的结果,上述两种方法都是经验公式的总结,不能完全真实地反映运行中的锅炉热效率。实际上,锅炉运行效率是一个复杂系统,与其影响因素之间存在复杂的非线性关系,故可以采用了人工神经网络对锅炉效率进行建模,并利用实炉运行数据对模型进行校验。
1基于神经网络的锅炉效率计算模型
人工神经网络以其高度的非线性映射、自组织结构、高度并行处理的特点,广泛用于非线性系统的建模领域[2,3]。根据锅炉生产过程的机理模型,用神经网络对锅炉效率进行建模时,需要测定以下参数[4,5,6]:排烟温度、排烟处的氧量、飞灰含碳量、应用基低位发热量、应用基灰分、NOx 排放浓度。其中排烟温度、排烟处的氧量等可以从电厂DCS中获得实时数据;应用基低位发热量、应用基灰分等与煤种煤质相关的数据可以从检验部门获得;而飞灰含碳量、NOx 排放浓度数据通常是要靠计算得出来的。该模型充分考虑了直接影响锅炉效率的因素,真实的拟合了这些因素与锅炉效率数值上的关系。但在实际应用中,由于各单位的设备情况和检测手段不一样,不一定对模型中的输入节点的参量都进行检测采集,因此依据上述网络模型对锅炉进行建模在实际中不完全可行。
基于这种情况我们从现场采集的数据出发进行神经网络建模。我们选取锅炉运行的历史数据库的一批数据,将所有测得的可变因素作为输入,将锅炉效率作为输出来建立模型。结果模型的准确度令人极其不满意,平均误差达到了20%多。分析原因发现由于样本的选取不具有代表性和规律性,导致模型结构复杂,求解空间过大。也就是说对于规律性和代表性很差的数据直接用于神经网络建模,就会产生效果不佳的情况。所以原始数据根本不符合神经网络的建模要求。要使精度提高,就必须使数据满足神经网络建模的要求,也就是要弱化数据的无关性。经过反复的研究发现,可以通过粗糙集的方法来优化模型的结构。由此我们将扩展的粗糙集理论引入锅炉热效率的计算模型中,将经过全局属性约简后的数据作为BP神经网络的设计依据及训练数据,来对锅炉效率进行软测量。
2粗糙集和神经网络混合锅炉热效率计算模型
2.1扩展的粗糙集模型
(1)基于全局动态相似测度的论域划分
所谓全局动态相似测度论域划分,就是根据各个属性的距离差限构造相似测度关系矩阵,进而建立基于相似测度关系的划分。由此可以看出影响划分大小(即离散集合大小)的因素就是距离差限。在划分过程中,我们自然联想到在离散过程中利用划分后决策表的相容性的反馈信息来自动调节各个连续属性的距离差限,从而得到连续属性的理想论域划分。
根据各个连续属性的最小间隔和最大间隔,初始的距离差限向量定义为:
其中i∈[1,n],j∈[1,n],且i≠j;m为连续属性的个数。
通过编网法可以得到属性ai∈A在相似测度Ri下对论域U的划分为U/IND(Ri{ai}),其中不同的属性可以采用不同的相似测度对论域进行划分,而属性集A在相似测度R下对论域的划分可以表示为:
其中,A和R分别为属性集与对应的相似测度集;⨂算子定义如下:
决策表的不相容度定义为:
αt =card(C)/card(U) (4)
其中card(C)表示考虑条件属性集C时,U中出现的不相容对象,card(U)表示论域U中的基数。
考虑到由连续属性构成的决策表一般是相容的,我们将α取做原始连续属性构成的决策表的不相容度。在实际处理过程中,我们要求离散后的不相容度αt落在α的某一范围内即可,即|αt -α|β,其中β为预先确定的误差。
算法1输入:决策表T=,其中,C为条件属性,D为决策属性,β。
输出:全局动态相似关系对论域的划分。①计算原始决策表的不相容度,将该不相容度加上一个充分小的数赋值给α;②计算连续属性的最小间隔向量δa和最大间隔向量δb;③根据公式1确定初始的距离差限δ;④对每个属性距离差限构建相似测度关系Ri,并建立相似测度关系矩阵; ⑤根据公式2和3,由编网法得到相似性测度关系R关于对整个论域的划分;⑥根据公式4计算在此相似测度关系R下决策表的不相容度αt;⑦判断|αt -α|β是否成立,若成立,转8);⑧若αt >α+β,则δb=δ;若αt <α-β,则δa=δ,转3);⑨对离散后的属性值进行编码。
显然算法借鉴了二分法的思想,极大提高了计算效率,计算的复杂度由O (n)降为O(log(n))。同时利用编网法对论域进行划分,时间复杂度为O(n2),空间复杂度为O(n),比传递闭包方法都有所提高。
(2)属性约简
在一个决策系统中,约简可以理解为在不丢失信息的前提下,最简单地表示结论属性对条件属性的依赖和关联。通过一组相对约简,可以得到结论属性的最简单的条件属性集。本文是采用基于加权和度量的属性约简算法[7,8]。
算法2输入:决策表T=,其中C为条件属性,D为决策属性
输出:决策表的一个最小属性约简集R
①条件属性C利用全局动态相似测度实现整体划分;
②利用差别矩阵计算Core(C,D), 令R:=Core(C,D);
③ do { for (every a(C-R) 计算SIG(a,R,D)
x=max{ai|SIG(a,C-R,D)}, R:=R∪{x}} while(r(C,D)!=r(R,D));
④输出R.
定义1:设T=为一个决策表,C和D在U上导出的划分为X和Y,即X={X1,X2,...,Xm}, Y={Y1,Y2,...,Yn}。知识D相对于知识C的条件熵为undefined。其中p(Xi)=card(Xi)/card(U),i=1,2,...,m。
定义2:设T=为一决策表,R⊆C,对于任意属性a∈C-R的重要度可以定义为:
其中:ω1(R∪{a},D)=card(POSR∪{a}(D))/card(U),ω2(R∪{a},D)=1-ω1(R∪{a},D)。
2.2BP神经网络模型
BP网络是当前工程中应用最为广泛的一种人工神经网络[9]。算法的核心是通过一边向后传播误差,一边利用最小二乘法的最陡下降梯度进行权值的调整,以实现或逼近所希望的输入输出映射关系。在进行模型设计时,一般应从网络的层数、隐层的神经元个数、权值的选取和学习率等几个方面进行考虑。下面结合自己地实际工作讨论一下各自选择地原则。
(1)网络层数的确定
增加网络层数虽然可以降低误差,提高精度,但同时也使网络复杂化,从而增加了网络权值训练的时间,影响了网络在实际中的应用。事实上,误差精度的提高也可以通过增加隐含层中的神经元数目来获得,其训练效果比增加层数更容易调整。同时根据Kolmogorov定理设计网络的原则,本文提出的预测模型,采用了仅包含一个隐层的神经网络模型。
(2)隐层的神经元数
在实际应用中,人们总希望能够找到合适的隐层节点数:过多的隐层节点数会造成网络结构的庞大,致使网络的推广能力降低;隐层节点数目过少,网络的泛化能力降低,不利于网络精度的提高。在具体工作的时候,人们可以凭借一些经验公式[5]。但是经验公式对某一具体的问题还是显得力不从心,只能给出一些选取的方向。本文采用对不同的神经元数进行训练对比,然后适当的加一点余量进行初步的选取,再采用逐步回归分析法对隐含节点进行合理优化。计算机仿真证明了这种方法是可行的。
(3)权值的选取
由于系统是非线性的,其误差曲面可能具有几个局部极小值点。标准的BP算法中δf'(s),这样在进入误差曲面底部的平缓区时,f'(s) 0,从而δ0。这就使得权值的调整失去了作用。本文采用了附加动量法对标准BP算法的权值进行修正。修正公式为:ΔWji(t+1)=(1-α)ηδpjOpj+αΔWji(t)。其实质是将最后一次权值变化的影响,通过动量因子来传递。同时根据误差变化率的情况动态调整(值。(值调整总结如公式(6):
其中:SSE(k)为第k次迭代时绝对误差变化率
(4)学习速率的确定
学习速率决定每一次循环训练中所产生的权值变化量。大的学习率可能导致系统不稳定;小的学习速率导致较长的学习时间。为了在误差曲面的不同部位配以不同的学习速率,以减少训练的时间和训练的次数,可以在训练过程中自动调节学习速率的大小,以适应不同误差曲面的需求。本文采用公式(7)对学习速率进行调整。仿真实践证明这样处理后神经网络的收敛速度较快。
η(t+1)=η(t)E(t-1)/E(t) (7)
其中:undefined为学习样本容量,E为全局平均误差。
2.3粗糙集和神经网络结合的锅炉效率计算模型
由于企业检验部门及DCS系统监测到的参数数据量非常大,且存在冗余的情况,单独使用人工神经网络进行建模和计算的结果很不理想,误差达到20%以上。在对检验部门提供的数据和DCS监测数据综合考虑的基础上,我们将粗糙集方法引入人工神经网络的模型中。具体的说就是对原始的数据用粗糙集方法进行约简,将约简后的最优属性集作为神经网络的输入节点,选择适当的隐含层,构建神经网络。建模过程如图1所示。
3锅炉热效率计算实例
利用上述模型,对南京热电厂的一台300MW锅炉进行建模,由于针对一台锅炉,锅炉自身的一些参数不会发生改变,因此在建模时这些参数不予考虑。利用DCS 与厂内MIS 网的接口按每1h 下载各种监测参数,包括排烟温度、飞灰含碳量、水份、灰份、低位发热量、锅炉的最高负荷、主汽温度、主汽压力、主汽焓、给水焓、标准煤量、锅炉效率。共选取600h的运行数据。利用扩展的粗糙集模型对监测到的所有数据进行处理,约简出对锅炉效率影响比较大的参数作为网络的输入参数,它们是飞灰可燃物、排烟温度、给水焓、主汽压力、烟气氧量、主汽焓。考虑到各参数数据取值范围相差较大,为了使各参数所起的作用大致相同,对输入数据进行归一化处理。
借助VC++6.0平台,实现系统的仿真。设计模型为3层BP网络,网络的学习速率为0.9,最大迭代次数为6000,系统的平均误差0.001,权值和阀值通过随机函数来初始化。随机选取约简后的60h的数据进行建模。将这批数据分为两组,前50h数据作为初始的训练样本集,用来建立初始模型;用每5h的数据建立检测样本集来检测建模的结果,并和实际效率做比较。为了提高神经网络的泛化能力,测试结束后,将训练样
本集中的前五条样本删除,将检测样本集中的数据加入训练样本集,再通过学习来修正模型。然后再计算新的测试样本数据。另外,我们也将对应的60h的原始样本数据直接采用传统人工神经网络建模, 最大迭代次数为20000次,系统的平均误差为0.005。两种模型计算结果比较如表1所示。
由表1可以看出,采用企业数据库中的全部影响因素(即输入节点数目为11)作为计算的输入节点,输入节点中存在冗余属性,导致模型复杂,求解空间过大,其准确率和时效性比较差。而将粗糙集引入人工神经网络的锅炉运行效率的计算模型,其误差均低于3%,精度比较高,与DCS 下载数据计算得到的锅炉效率基本相当。同时由于该模型比通用经验公式计算速度快,可以对锅炉的效率进行在线监测,为运行人员提供所需的运行指导,降低生产过程中能源消耗,提高热电企业的经济效益[10]。
4 结束语
由于生产实际中锅炉运行监测数据的高度无规律性和波动性,使得单纯使用神经网络的锅炉效率计算模型难以满足精度和时效性的要求。本文针对粗糙集和BP神经网络各自的优势和存在的不足,将扩展的粗糙集理论和神经网络理论结合在一起,提出了基于粗糙集的锅炉效率计算模型。通过对实际数据的仿真结果表明,模糊粗糙集优化后的神经网络模型无论在收敛速度方面还是计算的准确率方面,都取得了比较满意的结果。当然如何根据得到的结果,去指导运行人员调整可调参数,优化锅炉效率的研究还有待进一步深入。
摘要:针对无规律的现场原始数据造成锅炉效率计算模型准确性不理想的问题,本文将扩展的粗糙集理论引入锅炉效率神经网络计算模型中。仿真结果表明,该方法弱化了原始数据的无关性,优化了模型结构,在准确性和时效性方面得到了比较理想的结果。
关键词:锅炉效率,粗糙集,神经网络
参考文献
[1]张明月.锅炉节煤与经济运行.北京:煤炭工业出版社,1990.
[2]王维,李洪儒.BP神经网络在状态监测数据趋势预测中的应用.微计算机信息,2005,
[3]王爱军,张小桃,邱道尹等.火电机组热经济性在线监测系统,汽轮机技术,2005,(6):
[4]李永华,潘朝红,吕玉坤等.发电厂锅炉经济运行研究.中国电力,2004,37(l):51~53
[5]徐国峰,庄正宇,徐国飞等.锅炉的能量平衡分析.热力发电,2004,(9):13~15.
[6]孟勇等.ASM EPTC4.1计算循环流化床锅炉效率的基本方法.热力发电,2003,(10):53~55
[7]Hong Jing,Lu Jing-gui,Shi Feng.Combining Fuzzy Set and Rough Set for Inductive Learning.Shi Zhong-zhi.Intelligent Infor-mation Processing II.America:Springer,2004.143~146
[8]洪菁,陈强.一种基于改进粗糙集模型的归纳学习算法,计算机技术与,2006,16(10):32~36
[9]张立明.人工神经网络的模型及其应用.上海:复旦大学出版社,1993
基于粗糙集的海事事故影响因素分析 第2篇
(上海海事大学 交通运输学院,上海 201306)
0 引 言
船舶海事事故的发生会造成人员和财产的重大损失,研究船舶发生海事事故的影响因素,对避免和减少船舶海事事故的发生有重要的理论和现实意义.国外最新研究关注于机舱火灾及爆炸中的组织因素影响和人为因素对海事安全的影响[1-2];采用的方法主要有模糊故障树分析法[3]和分类树模型[4],重点研究受限水域中的海事安全问题.我国学者对海事事故影响因素的研究则主要集中在碰撞事故与人为失误的关联性分析[5-6]、船舶机损事故人为失误分析[7]、海船船员适任性评价[8]、船舶碰撞危险度评价[9]及船员驾驶行为的研究[10]上.
粗糙集理论是PAWLAK[11]于1982年提出的一种能够定量分析不精确、不一致、不完整信息和知识的数据处理工具.它无须先验知识,可从样本数据中提取简明、直接、易于理解的决策规则,进而计算各属性对决策的重要度,是目前数据挖掘和知识发现的有力工具之一,在模式识别、机器学习、决策分析、知识获取及知识发现等领域有广泛应用.
目前全球海上事故频发,事故原因多样.本文尝试通过对近年来国内外船舶海事事故的调查与数据统计,运用粗糙集理论挖掘船舶海事事故中人、船及环境因素的深层次影响及关联程度,为海事监管部门和航运企业避免海事事故的发生提供参考.
1 粗糙集理论及相关知识
1.1 决策表
1.2 属性约简与核
对一个给定的决策系统S=(U,C∪D),条件属性集合C的约简是C的一个非空子集C′,满足(1)I(C′,D)=I(C,D);(2)不存在C″,使I(C″,D)=I(C′,D).称C的所有约简的集合为C的核,记作o(C),即o(C)=∩r(C),其中r(C)是C的所有简化簇.[13]设P⊂A=C∪D,xi,xj∈U,定义I(P)={(xi,xj)∈U×U|∀p∈P,p(xi)=p(xj)}为不可区分(不分明)关系.
1.3 可区分矩阵
设全集U按决策属性D被分成不相交的类族,即D={X1,X2,…,Xm},则U中C的区分矩阵记作M(C)={mi,j}n×n.其中,当xi,xj∈D的同一等价类时,mi,j=φ;xi,xj∈D的不同等价类时,mi,j={c∈C:f(c,xi)≠f(c,xj)},1
1.4 属性重要度与属性值隶属度
在粗糙集中,使用信息表描述论域中的数据集合.信息表的行代表对象,列代表属性,一个属性对应一个等价关系.为了找出某些属性(集)的重要性,从表中去掉一些属性后考察没有该属性后分类会如何变化.如果去掉该属性,相应分类变化较大,则说明该属性的强度大,即重要性高;反之,说明该属性重要性低.因此,对于一个区分矩阵M(C)={mi,j}n×n,相应的属性a的重要性计算公式为
(1)
式中:λij为属性出现在区分矩阵的长度;C(mi,j)为mi,j包含属性的个数.
为提取具有较多共同特性的重要规则,必须对约简后生成的大量规则集进行优化运算.针对提取出的条件规则,进行属性值的计算.条件属性值的隶属度表示决策事件(决策属性值)Dj依赖于条件事件Cij(条件属性值)的程度,属性值的隶属度(可信度)Fij可定义为
(2)
式中:Ci,j∩Dj≠φ,0 基于粗糙集理论的数据挖掘一般需要经过数据预处理、求核属性、属性约简、规则生成及分析解释结果等几个步骤完成. 2.1 海事事故统计数据的来源及筛选 在遵循海事事故统计数据筛选的完整性、可靠性、时效性、足量性原则的前提下共搜集到国内外168份海事事故报告,这些事故的原始资料分别来自:中国(中国交通运输部海事局网站、中国交通运输部海事局编写的《水上交通事故调查报告》、上海海事局编写的《海事案例集》)、英国海事调查委员会(MAIB,Marine Accident Investigation Bureau)、澳大利亚运输安全委员会(ATSB,Australian Transport Safety Bureau)、美国国家运输安全委员会(NTSB,National Transportation Safety Board of United States)、美国海岸警卫队(USCG,US Coast Guard)、加拿大运输安全委员会(TSB, Transportation Safety Board of Canada)和新西兰运输事故调查委员会(TAIC,Transport Accident Investigation Commission of New Zealand). 在168份海事事故报告中,依据数据的完整性、可靠性、实效性原则,最终确定100份作为研究样本.这100份样本来源于世界主要海运国家的海事事故调查机构对2000—2011年共12年间发生在其管辖水域中的海事事故所做的调查报告,详见表1. 表1 事故样本统计 2.2 海事事故统计数据的预处理 影响海事事故的因素主要是人、船、环境和管理等.本文通过分析影响海事事故的因素及所搜集到的国内外100份海事事故报告,从人、船和环境的角度提取影响海事事故的主要因素,选择事故类型、事故发生时间、船旗国、吨位、船型、船龄、气象、人为因素、事故等级等9个因素建立决策表:论域U={1,2,3,…,100},条件属性集合C={A,T,F,G,S,E,W,H}.具体说明如下: A为事故类型,VA={1,2,3,4,5,6},其中1={碰撞},2={火灾或爆炸},3={设备机器故障},4={搁浅或沉船},5={自然灾害},6={其他}. T为事故发生时间,VT={1,2,3,4,5,6},其中1=[0000,0400],2=[0400,0800],3=[0800,1200],4=[1200,1600],5=[1600,2000],6=[2000,2400]. F为事故船舶的船旗国,VF={1,2,3,4,5},其中,1={亚洲},2={欧洲},3={美洲},4={非洲},5={其他}. G为事故船舶吨位,VG={1,2,3,4,5},其中,1=[0,500],2=(500,3 000],3=(3 000,10 000],4=(10 000,30 000],5=(30 000,+∞). S为事故船型,VS={1,2,3,4,5,6},其中,1={渔船、游艇等小型船舶},2={干散货船,杂货船},3={油船、化学品等液货船},4={集装箱船},5={客船,滚装船,多用途船},6={其他船型}. E为事故船舶船龄,VE={1,2,3,4,5},其中,1=[0,5),2=[5,10),3=[10,20),4=[20,30),5=[30,+∞). W为事故发生时的天气,VW={1,2,3,4},其中,1={良好},2={大风或大浪},3={大雾或能见度低},4={其他恶劣天气}. H为事故发生的人为因素,VH={1,2,3},其中,1={人为处置得当或无明显失误},2={一般性失误},3={严重或重大失误}. 决策属性D为事故等级,是事故造成的影响,依据伤亡人数、经济损失、环境污染等因素确定.划分为一级和二级.一级表示大事故及以上事故,二级表示一般及以下事故.VD={1,2},其中,1={一般及以下事故},2={大事故及以上事故}. 3.1 决策表生成、约简及属性重要度 利用华沙大学的粗糙集数据处理系统RSES[14]导入经过离散化处理的船舶事故等级决策表,共100条记录、9个属性,前面8个为条件属性,最后一个为决策属性.利用粗糙集理论中常见的数据约简和规则生成算法——基因遗传算法,进行属性约简.通过基因遗传算法约简共产生15个约简集,各自包含不同的属性. 条件属性集的核为 o(C)={A,T,G,W}∩{A,T,F,S}∩{A,T,F,E,W}∩{H,G,S,E}∩{A,T,W,H}∩{A,T,S,E}∩{A,F,S,E,H}∩{A,F,S,W,H}∩{H,G,S,W}∩{T,G,S,E,H}∩{T,F,G,S,H}∩{A,S,E,W,H}∩{T,F,G,E,W,H}∩{F,G,S,E,H}∩{T,G,S,W,H}={φ} 根据式(1)分别对8个属性的重要度进行计算,结果见图1. 图1显示:船舶类型的影响程度最大,其次是人为因素,再次是事故发生时间段、天气、事故类型、吨位、船龄和船旗国.船旗国对事故的影响程度最小. 图1 各条件属性与重要度 15个约简后的集合对应产生不相同的916条规则,与没有约简的决策规则集相比扩大近9倍.规则集样本的扩大提高了决策规则的可靠性. 3.2 海事事故主要影响因素数据挖掘结果分析 在已得到的决策规则基础上,运用粗糙集的属性值的隶属度公式(2),计算出决策表中各条件属性相对于不同决策属性值的隶属度.图2为各人为因素与不同等级海事事故的隶属度关系曲线. 图2 不同人为因素相对事故等级的隶属度 3.2.1 人为影响因素数据挖掘结果分析 由图2可知:不管是重大事故还是一般事故,人为因素与事故发生的隶属度成正比,即失误程度越大,发生事故的可能性越大,造成的损失也越大.但人为处理得当或无明显失误对重大事故的影响比对一般性事故的影响更大,反映出人员处理事故的能力对事故损失影响的重要性.因此,提高人员对事故的应变能力对避免重大事故的发生有重要作用.船公司应对船上人员进行安全培训,提高业务处理水平和安全意识,减少重大人为失误的发生. 3.2.2 船舶影响因素数据挖掘结果及分析 (1)事故船舶类型因素.图3显示:干散货船、油船和集装箱船发生重大事故与一般事故的隶属度趋势基本一致.大型集装箱船与油船等专业性船舶发生大事故及以上事故的隶属度相对较低,也就是发生事故后出现严重受损的可能性较低.由此可见提升船舶的专业化有助于提高船舶的安全性.其中集装箱船发生事故的隶属度在这3类船舶中最低,反映出集装箱船的安全性能较好.而渔船、游艇等小型船、客船及滚装船、多用途船舶发生重大事故的隶属度明显高于其他船型,极易发生船舶全损及沉没等大事故及以上事故,因此应加强这类船舶的安全管理. (2)船龄因素的隶属度.图4显示:船龄在5~10年的船舶发生事故的隶属度最低,表明这一船龄段船舶与人员环境等磨合得较好,发生事故的概率较低.新船船龄在0~5年的船舶比5~10年船龄的船舶更易发生事故.随着船龄增大、船体腐蚀、设备老化等,大事故及以上事故的隶属度呈逐渐增大的趋势.船龄在30年及以上船舶发生大事故及以上等级事故的隶属度接近0.6,表明老龄船舶发生严重事故的危险度比较高.船龄在10~20年时船舶发生一般及以下等级事故的隶属度稍高,0~5年船舶发生一般及以下等级事故的隶属度稍低. 图3 不同船舶类型相对事故等级的隶属度 图4 船龄因素相对事故等级的隶属度 (3)船舶吨位的隶属度.图5显示:船舶小于500总吨时,发生事故的危险程度明显高于其他吨位级别的船舶,极易发生船舶全损的危险事故.船舶吨位在30 000总吨以上的船舶发生大事故及以上等级事故的隶属度明显低于中等及以下吨位船舶的隶属度.由此可见船舶的大型化有助于提高船舶的安全性.船舶吨位在500~10 000总吨时发生一般及以下等级事故的隶属度比较高,明显高于其他吨位船舶.大于30 000总吨时发生一般及以下等级事故的隶属度最低. 图5 船舶吨位因素相对事故等级的隶属度 (4)船旗国的隶属度.图6显示:船旗国为美洲国家时船舶发生大事故及以上等级事故的隶属度最高.可能主要源于很多船公司为节省费用挂南美洲国家如巴拿马及其他国家的船旗有关.欧洲船旗国的事故隶属度较低.船旗国属于美洲和亚洲国家的船舶发生一般及以下等级事故的隶属度明显高于其他各洲,且美洲稍高于亚洲. 图6 船旗国因素相对事故等级的隶属度 3.2.3 外部环境影响因素数据挖掘结果及分析 (1)事故发生时间因素的隶属度.图7显示:在[0000,0400],[0400,0800],[2000,2400]时间段发生大事故及以上事故的隶属度较高,尤其在[0000,0400]时间段达到最高,即该时间段最易发生大事故,可能是因为船员疲劳造成的.同时可以看出夜晚发生事故的概率明显大于白天.这可能是因为在夜晚航行中,发生突发事件时,人的视觉、注意力和反应判断能力受到影响所致.在[1600,2000]时间段发生一般及以下等级事故的隶属度高于其他时间段,[0800,1200]发生事故的隶属度最低. 图7 事故发生时间因素相对事故等级的隶属度 (2)事故类型的隶属度.图8显示:船舶碰撞情况下发生大事故或以上事故的隶属度最高;火灾或爆炸、设备机器故障、搁浅或沉没情况下发生大事故或以上事故的隶属度大体相当.而对于一般及以下等级事故碰撞及搁浅或沉没的隶属度较高.搁浅或沉没情况下发生大事故或以上事故与发生一般及以下等级事故的隶属度大体相当. 图8 事故类型相对事故等级的隶属度 (3)气象因素的隶属度.图9显示:大雾、能见度低情况下发生大事故或以上事故的隶属度稍高于大风或大浪,可能是因为大雾或其他恶劣天气的能见度低,导致船舶碰撞、搁浅及触礁的事故更容易发生.而一旦发生此类事故很可能造成船舶人员伤亡及经济损失.大风或大浪条件下发生一般及以下等级事故的隶属度最高,天气良好时发生一般及以下等级事故的隶属度最低. 图9 气象因素相对事故等级的隶属度 以国内外最新的100份海事事故报告为样本,运用粗糙集理论从人、船、环境的角度研究事故类型、事故发生时间、船旗国、吨位、船型、船龄、气象、人为因素与事故等级之间的重要性隶属度关系,克服主观影响,所得结论具有一定的普遍性. 本文的研究结论在人为因素、事故类型、天气因素及船旗国因素对事故等级的影响方面与以往学者的研究结论基本一致:即人为因素与事故发生的隶属度成正比;碰撞型事故类型在各事故中隶属度最高;天气越恶劣,事故发生隶属度越高;船旗国为美洲国家的船舶发生大事故及以上等级事故的隶属度最高. 在事故发生时间、船龄、船舶类型及船舶吨位与海事事故的关系方面,本文的研究结论与以往学者的研究结论有所不同,结果显示: (1)在[0000,0400]时间段发生大事故及以上等级海事事故的概率较高,与闫化然[6]对碰撞事故的研究结论有所不同,表明不同类型事故的高发时间段存在差异. (2)5~10年船龄的船舶事故隶属度最低.0~5年船龄的船舶比5~10年船龄的船舶事故隶属度高,说明新船比5~10年船龄的船舶更易发生事故.原因可能在于新船需要在人、船舶、环境和管理上更好地磨合,但在磨合中比较容易出现事故.这点在海事事故以往的研究中未有体现. (3)总体上事故碰撞率与船舶吨位大小成反比,但500总吨以下小船的碰撞危险度最高. (4)渔船、游艇、杂货船发生事故的隶属度较高,比较容易引发大事故及以上等级事故.集装箱船等大型专业化船舶发生事故的隶属度较低,不易发生重大事故,但三大主力船型中的散货船发生一般事故的隶属度最高,更易发生事故. 参考文献: [1] SCHRÖDER-HINRICHS J U, BALDAUF M, GHIRXI K T. Accident investigation reporting deficiencies related to organizational factors in machinery space fires and explosions[J]. Accident Anal & Prevention, 2011, 43(3): 1187-1196. [2] LENNÉ M G, SALMON P M, LIU C C,etal. A systems approach to accident causation in mining: an application of the HFACS method[J]. Accident Anal & Prevention, 2012, (48): 111-117. [3] CELIK M, LAVASANI S M, WANG J. A risk-based modeling approach to enhance shipping accident investigation[J]. Safety Sci, 2010, 48(1): 18-27. [4] KOKOTOS D X, LINARDATOS D S. An application of data mining tools for the study of shipping safety in restricted waters[J]. Safety Sci, 2011, 49(2): 192-197. [5] 刘正江, 吴兆麟. 基于船舶碰撞事故调查报告的人的因素数据挖掘[J]. 中国航海, 2004, 59(2): 1-6. [6] 闫化然. 基于粗糙集的船舶碰撞受损的影响因素分析研究[D]. 大连: 大连海事大学, 2011. [7] 邹建军, 胡以怀. 船舶机损事故中人为失误的分析[J]. 上海海运学院学报, 2003, 24(2): 119-123. [8] 徐东华, 吴兆麟. 基于粗糙集数据约简的海事事故致因研究[J]. 大连海事大学学报, 2009, 35(3): 37-39. [9] 刘茹茹,胡勤友.一种主观的船舶碰撞危险度评价模型[J]. 上海海事大学学报, 2012, 33(1): 41-44. [10] 郑滨, 金永兴. 基于属性约简的海事人为失误致因分析[J]. 上海海事大学学报, 2010, 31(1): 91-94. [11] PAWLAK Z. Rough set[J]. Int J Comput & Inform Sci, 1982, 11(5): 341-356 [12] 张文修, 吴伟志, 梁吉业, 等. 粗糙集理论与方法[M]. 北京: 科学出版社, 2001. [13] PAWLAK Z. Rough sets: theoretical aspects of reasoning about data[M]. Dordrecht: Kluwer Academic Publishers, 1991. 1数据挖掘算法 1)设对象集为U(i=1 to m),条件属性集为C(j=1 to n),决策属性集为D。 2)确定每一条件属性的隶属函数和语言变量值。 3)fori=1 to m,forj=1 to n对象的条件属性值转化为如下形式: 其中Rjk是条件属性Aj的第k个模糊区域, F 4)由最大隶属度法,取 F 由此得到新表。 5)用粗糙集联系度简化决策表的属性 具有条件属性和决策属性的知识表达系统可称为决策表,记为T=(U,C,D,Va),U为全集,C和D分别为条件属性和决策属性,Va表示属性值的集合。 每一个决策表都存在一个同异型集合联系度: μc(d)=POSc(d)+BNc(d)i,可以唯一的分解为两个决策表: T1=(u1,c1,d1,va1), T2=(u2,c2,d2,va2)。 其中u1=POSc(d),u2=BNc(d)。 粗糙集数值联系度为: 当a=1,b=0时,决策表是相容的;当b≠0时,可分为相容决策表T1和不相容决策表T2。,由此可得到确定规则表和不确定规则表。 6)对相容决策表T1,约简决策规则,即进行属性值的约简。设属性子集: C*j={Cj|j=1,2,...,n,Cj∈C} (9) 满足某一规则Fi相对于结果属性集的联系度为: μck(d)=a+ bi + cj= poscc(x)+bnck(x)i+negck(x)j (10) 由ck属性值组成的属性集对决策集联系度非空正域即可获得该规则的最小属性值简化。 7)列出不相容决策表T2的条件属性等价类,并给出模糊等价类矩阵,根据模糊等价类矩阵,求出对应的模糊等价类C′(d)。 8)令 Ep=C′(d)∩(u/ind(d)), 1p|C′(d)|。 (11) 定义E (12)式中, fj为C′(d)对应模糊区间的值,|U/ind(d)|为E 9)比较C′(d)中F(E 10)由以上可得到确定和不确定规则约简后的最终的决策规则。 2推理机的设计 灵活、高效且同知识库相对独立的推理机的设计,对提高系统性能和系统的扩充起着重要作用。然而,对于用于故障诊断的中型或大型专家系统来说,由于涉及的知识种类比较多(可能包括电气、机械、液压等),上述的推理机并不容易获得。不过,如果我们能充分利用数据库技术,不仅可以简化推理机的编制,也可提高推理机的性能。 实时数据信号的合理利用,应该是大多数故障诊断系统关心的问题,因为这可以大大提高故障搜索的效率。下面就以此为例,探讨数据库技术在推理机设计中的应用。首先假设我们经过算法分析得到表1规则。 为讨论方便,假设有5个信号(可以是开关量、状态和位信号),由于互锁、关联等因素,一条故障的判定可能需要多个信号,这里以两条信号确定一条故障为代表。规则“IF S(1),S(3),THEN F(1)”代表“信号1和信号3同时发生,则故障1发生”,“IF S(1),THEN F(2)”代表“当信号1单独发生时,则故障2发生”;其它意义相同。 将知识整理表示成表,如表2所示。在此,假定所有的实时信号都能按照我们获得数据的顺序编号,且总是先获得顺序靠前的异常信号。实际上无论采用“监听”还是其它方式,即使采样频率很高,获得信号还是有一定的顺序的。 在整理过程中,遵守以下原则: (1)并发信号比较,多信号优先,即关联三个信号的故障比两个信号的故障排在前面。所以上述表格并发信号数为2的故障均排在了并发信号数为1的前面。 (2)在并发信号数相同的情况下,首先按首发信号升序排列,相同则按次发信号排列;所以F(1)排在了F(3)前面,F(3)排在了F(4)前面。 (3)就实际情况来讲,许多借助信号判定故障的情况具有一定的不确定性,所以在此引入了模糊集的概念,即赋予每条判断规则以可信度和设置阈值;当然也可给定每条信号一个可信度,借助某种合适的算法来确定相应规则的可信度。具体实现时,可在试用期借助历史数据进行分析以调整可信度,正式使用时可根据判断准确率进行微调。 以上所需要说明的是相同信号组合只能对应一类故障,可是在受限于当前实时信号数目时,一信号的发生可以得到有限的几种可能,却不能对应唯一故障时,这时可将几种可能作为一种故障描述,以后结合设备改造和历史数据库进一步精确规则。 VC环境下上述问题的推理机示例程序: 可以看出以上的推理机仅是由简单的顺序搜索算法组成,却可以满足复杂的实时故障的诊断,关键是我们结合知识库的设计,充分利用了数据库技术。同样,利用数据库技术可以简化其它搜索策略的设计。 3结束语 随着应用的日趋广泛,以及各类新技术的不断涌现,用户对智能故障诊断系统提出了更高的要求。在这种情况下,开发者应该积极将最新发展的技术,如模糊学、神经网络、数据库及其相关技术,积极体现并融入到系统的设计中,只有这样才能在有限的时间与成本下,开发出性能最佳的应用系统。 摘要:基于专家系统的故障诊断方法与数据库技术都得到了长足的发展和广泛的应用,将二者更好集成已成为当前的一个研究热点。提出一种基于粗集和集对分析的抽取和过滤规则的方法,研究与讨论了数据挖掘技术在实现知识自动获取和简化推理机设计方面的应用,结果表明推理机算法简单,且可以满足复杂的实时故障诊断的需要。 关键词:数据挖掘,粗糙集,推理机,专家系统,故障诊断 参考文献 [1]吴泉源,刘江宁.人工智能与专家系统.长沙:国防科技大学出版社,1999 [2]王国胤.rough集理论与知识获取.西安:西安交通大学出版社,2001:15—156 [3]lak Z P.Rough sets theoretical aspects of reasoning about data.Klumex Academic Pub,1991:20—78 [4]曾黄麟,粗糙集理论及其应用.重庆:重庆大学出版社,1998:56—86 [5]袁保奎.基于粗糙集理论的变压器故障分类.电力系统及自动化学报,2001;13(5):1—4 一、粗糙集理论[2][3] 令U={s1,s2,s3,…,s135}为论域,C={x1,x2,x3,…,x37}为条件属性,D={y1,y2,y3,y4,y5}为决策属性。若A=C∪D,C∩D=,则信息系统S=(U,A)为一个决策表。 令yi∈D,xj∈C,W∈U/yi,V∈U/xj,i≤5,j≤37决策属性yi关于条件属性xi的支持子集为Sxj(yi)=UW∈U/yi(UV∈U/xi,V∈WV),yi关于xj的支持度为。支持度表明数据间规则的强 二、应用实例 本校2011级航海技术专业学生于2014年1月参加适任考试,学生备考过程中并无参考题库,考试结果客观反映教学效果,故本文选取该批学生的期末考试成绩和大证考试成绩组成的信息系统进行分析。 表1-2为表1-1经离散化处理后的结果,s对应学号,x对应课程期末考试成绩,y对应适任考试成绩。 注:9303/9405/9205/9105/9003是三副适任考试科目 2.1考试成绩离散化规则关系如下:5:期末考试成绩>=90或优秀;4:期末考试成绩>=80或良好;3:期末考试成绩>=70或中等;2:期末考试成绩>=60或及格,适任考试成绩>=70(值班避碰>=80);1:期末考试成绩<60或不及格,适任考试成绩<60(值班避碰<80)。 2.2 支持度计算。经计算有如下结果: (注:支持度小于10的予以忽略) 2.3 结果分析:从计算结果看,数据间的规则有:(1)适任考试与对应课程间的规则;(2)适任考试与非对应课程间的规则。 本文选取两种类型中具有代表性的规则进行分析,如下: sptx12(y5)=51/135:该结果表明x12海事基础英语1课堂教学与9003航海英语有密切关联,课堂教学效果显著; sptx11(y1)=18/135,sptx11(y3)=18/135:该结果表明高等数学与9303和9205均有某种联系,该联系可能是知识内容方面的也可能学习思维等其他方面的,当发现学生在高等数学有问题时应及时给予干预,以防对适任考试产生影响;sptx2(y1)=10/135:该结果表明x2船舶管理与9405有相关性,但作为对应的课程该支持度较低,应适当改进授课内容与方式。 三、结束语 本文采首先介绍了粗糙集理论,然后将该理论应用到航海类课程教学评价中,得到航海类课程期末考试成绩和三副适任考试成绩之间各规则的支持度并进行了分析,分析结果可作为教学效果评价的依据,亦可作为提高航海类教学质量和对学生实施学习干预提供参考依据。 参考文献 [1]Pawlak Z.Rough sets.International Journal of Computer and Information Sciences,11(1982):341-356. [2]Pawlak Z.Rough classification.Int.J.Man-Machine Studies,20(1984):469-483. [3]张文修,吴伟志,梁吉业,等.粗糙集理论及方法[M].北京,科学出版社,2002:26-32. [4]王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9:337-344. [5]王杰亮.粗糙集工具My RS的设计与实现[J].北京师范大学学报:自然科学版,2007,43(5):505-507. 三峡库区是全国极为重要的敏感生态经济区, 库区的水环境安全问题受到国内外广泛关注。高度重视三峡库区水环境安全, 对国家的经济建设和长治久安意义重大, 是重大的国家战略和国家需求。水质评价是水环境管理的基础, 它直接影响水资源使用规划的制定, 在水环境管理中占有十分重要的位置。 对于水质评价方法, 国内外学者进行了大量的研究, 主要可以分为几类:单指数评价方法、分级评分法、函数评价法和模糊综合评价方法等[1]。但上述各种方法均有其适用条件和局限性, 至今仍然没有形成统一的确定评价模型。鉴于水质数据具有非线性、非周期性等复杂特征, 由于人工神经网络方法有较好的抑制噪声干扰的能力和泛化能力, 最近有很多学者将人工神经网络方法或人工神经网络与其他理论相结合的方法应用在水质评价中, 并取得了很好的效果。如三峡进坝水域水质评价中应用了概率神经网络[2];文献[3,4]中在水质评价中都应用了模糊神经网络等。 由于数据采集等各种原因, 进行水质评价时总存在一些无用的信息, 通过神经网络却不能确定哪些知识是冗余的, 哪些知识是有用的, 从而不能将输入信息空间维数简化, 当输入信息空间维数较大时, 网络不仅结构复杂, 而且训练时间也很长。粗糙集理论[4]是二十世纪八十年代新兴的一门理论, 它已广泛应用于各行各业, 特别是通过属性约简从数据中去除冗余信息等。结合这两种理论和方法的优点, 本文采用粗糙集与神经网络相结合的方法进行水质评价。 在分析三峡库区水环境各项数据的基础上, 依据数据的特点, 有些数据可能是范围值而不是精确值, 本文采用粗糙元神经网络方法来建立水质评价模型。另外水环境的评价指标比较多, 且其取值按照国家颁布的《地面水环境质量标准》 (GB38382002) 进行分级后全是离散的数值, 利用粗糙集方法对评价指标进行一定的选择, 把一些对最终评价没有贡献的冗余指标进行约简, 从而提高水质评价模型的正确率、快速性和可理解性。 1 粗糙集和粗糙元神经网络基本理论 1.1 粗糙集理论[5] 粗糙集理论是由Pawlak于1982年提出的一种处理模糊和不确定知识的数学工具。它已经在人工智能、数据挖掘等领域获得了较广泛的应用。下面是一些粗糙集理论的基本概念。 定义1 四元组S= (U, A, V, f) 是一个信息表, 其中U表示对象的非空有限集合, 称为论域;A=C∪D, C∩D=Ø, C称为条件属性集, D称为决策属性集; 定义2 对于∀x∈U, P⊆A, 它的P等价类定义为: [x]P={y∈U|∀p∈P, fp (x) =fp (y) } 定义3 在信息表S= (U, A, V, f) 中, 对于每个子集X⊆U和一个等价关系R⊆A, 称子集RX={x∈U|[x]R⊆X}为X的R下近似集; 定义4 集合POSR (X) =R (X) 称为X的R正域, 定义5 在信息表S= (U, A, V, f) 中, P⊆C, 如果满足: (1) POSP (D) =POSC (D) ; (2) ∀a∈P, POSP-{a} (D) ≠POSC (D) 。 则称P是C的一个D约简, P的D约简也简称为相对约简;显然, 相对约简不是惟一的。 1.2 粗糙元神经网络[6,7] 一个粗糙神经元由一对重叠的普通神经元上神经元和下神经元组成。一个粗糙神经元与另一个粗糙神经元之间的连接如图1所示。 上神经元 粗糙元神经网络RNN (Rough Neural Networks) [7]是包含有传统神经元和粗糙神经元, 且彼此相互连接而构筑的神经网络。粗糙元神经网络由一个输入层、一个输出层和任意个隐含层组成, 其神经元中既有粗糙神经元, 也有传统神经元。输入层接受来自外界环境的输入信息, 其输出作为隐含层的输入;隐含层的输出作为输出层的输入;输出层的输出至外界环境。粗糙神经元的输出可以是具有上近似和下近似的一对数值, 而传统神经元的输出则是单个值。下近似或上近似的神经元输入根据以下公式计算权值, 即: 这里神经元i和j可以是传统神经元, 也可以是具有上、下近似的粗糙神经元。粗糙神经元的计算公式为: 而传统神经元i的输出公式仅仅计算单个输出: ouputi=f (inputi) 这里的转移函数仍为sigmoid函数, 定义为: 式中:增益系数gain是由系统的设计者确定的斜率, 当然还有其它类型的转移函数。之所以广泛采用sigmoid型转移函数, 是因为它在0~1范围内具有连续的取值。 如果两个粗糙神经元部分连接, 则神经元的兴奋或抑制特性是根据连接权动态决定的。网络开始时可以假设为兴奋或抑制类型。假定初始化部分连接的粗糙神经元r与另一个粗糙神经元s之间为兴奋型的, 如果ωrs<0和ωrs<0, 则粗糙神经元r与粗糙神经元s之间的连接类型就由兴奋型转变为抑制型, 且ωrs=ωrs和 训练和检测阶段粗糙元神经网络类似于传统神经网络, 权值的连接是迭代修正的, 网络根据训练集重复进行迭代一次或多次。权值根据学习等式进行修正。学习阶段是依据常规的规则进行的, 其迭代修正公式如下: ω 对于sigmoid型转移函数的导数为: f′ (inputi) =f (inputi) [1-f (inputi) ] 误差error的计算如下: errori=desired_outputi-outputi 粗糙元神经网络结构和传统神经网络相比, 主要在神经元的不同上, 所以粗糙元神经网络可以根据每一层是否是粗糙元来区分不同的结构, 如输入层为粗糙神经元, 隐含层和输出层为传统神经元;输入层和各个隐含层都是粗糙神经元, 输出层是传统神经元;或者各层都是粗糙神经元等。以上各层神经元或粗糙神经元的个数在应用时应该根据样本数的复杂程度来选择。 2 评价模型的建立及其在三峡库区水质评价中的应用 2.1 模型网络结构 我们用粗糙集先对数据进行预处理, 去除噪音数据, 得到对最终评价有影响的评价因子作为神经网络的输入, 这样既能找到对预警系统有帮助的评价因子集合, 也能减小网络输入的规模, 减少网络的训练时间;神经网络结构我们采用粗糙元神经网络, 对于网络输入评价因子的数值在可接受的误差范围内的, 采用粗糙神经元, 可以提高模型的评价精度。具体网络结构如图2所示。 为了评测基于粗糙集和神经网络的水质评价模型在三峡库区水质评价上的应用, 我们选取了2005年2月的饮用水源水质评价表作为实验数据来检验模型的合理性。 2.2 数据预处理 因为数据在采集过程中并不完全, 存在一定的缺失值, 所以信息表实际上一个不完备的信息表。采集到的数据是实值类型的, 如PH值的取值为6.98~8.66之间的连续值, 其他的各项指标也是连续值。如表1所示。 我们根据国家地表水环境质量标准GB3838-2002对数据进行等级划分离散化处理。在等级划分过程中我们发现如在江北水厂嘉陵江陈家馆断面处采集的总磷数据为0.102, 按照国家标准0.1为Ⅱ类, 0.2为Ⅲ类, 应被划分到Ⅲ类。但实际只超出0.002, 若考虑到数据采集过程中存在误差, 而这0.002属于可接受误差范围内, 则该断面就有可能实际应被分为Ⅱ类。所以我们对数据表中采集到的数据进行分析, 若其与上下两类评价标准值之间的差很小时, 就认为其离散化后值应是一个区间值, 而不是确定值。在该例中因为取值为0.102, 我们认为该值更趋向于Ⅲ类, 但有可能属于Ⅱ类, 所以其上下区间应为[Ⅲ, Ⅱ+Ⅲ] (在程序实现时转化成了相应易于处理的等价表示方式) 。区间符合[]的左边数值代表粗糙集中的下近似, 右边数值代表上近似。其中我们认为满足相对误差的数据都用区间数值表示, 相对误差公式为: 其中λ表示采集到的实际数值, α和β分别表示国家地表水环境质量标准GB3838-2002中λ位于的上下两类标准的数据。如上文提到的总磷数据为0.102, λ即为0.102, 按照国家标准0.1为Ⅱ类, 0.2为Ⅲ类, 则α为代表Ⅱ类的0.1, β为代表Ⅲ类的0.2, ε代表误差率, 表示我们可接受的误差范围, 在实验中我们取0.05。按此公式离散化后的数据如表2所示。 2.3 实验结果 对于数据表中的缺失值, 我们利用Weka (http://www.cs.waikato.ac.nz/ml/) 平台内嵌的填充缺失值方法对数据进行处理, 从而得到一个完备的且取值为离散形式的信息表。实验平台为Weka, 采用Java语言编写程序。实验主要进行传统人工神经网络 (RSBP1) 和粗糙元神经网络 (RSBP2) 的对比。对于神经网络的输入层, 隐含层和输出层神经元的个数分别为3、10和2, 其中粗糙元神经网络的输入层是由6个传统的神经元组成的3对上下粗糙神经元。 这两种方法都先用粗糙集方法进行属性约简。通过启发式的约简算法[8]得到该属性集合的一个约简。该约简结果中对应每个属性的重要度如表3所示。 我们把总磷、氨氮和高锰酸盐作为神经网络的输入, 从而大大减小了网络的规模。运行结果如表4和表5所示。 通过表4和表5可以看出, 从各项指标上看RSBP2都要优于RSBP1, 在正确率上要高于RSBP1。所以针对存在区间值的数据, 用粗糙神经元网络在性能上要好于传统神经网络。而对于不存在区间值的数据, 粗糙元神经网络输入层的上下近似神经元是一对具有相同取值的神经元, 在结果上是和传统神经网络一样的。所以在不考虑运行时间开销的情况下, 采用粗糙元神经网络要比传统神经网络性能上优越。最终我们在三峡库区水环境安全综合信息分析系统中采用了该评价模型进行水质评价。 3 结 论 本文将粗糙集和粗糙元神经网络相结合的水质评价模型应用在三峡库区饮用水源水质评价系统中, 通过粗糙集的属性约简理论, 把对水质评价不起作用的冗余信息去除, 减小了采集数据的工作量和待处理数据的规模, 提高了数据的代表性。同时针对采集到水质数据存在范围值的情况, 采用粗糙元神经网络进行水质评价, 使其处理能力更强, 适用范围更广, 提高了系统评价的精度。通过对现实数据的仿真实验验证了模型的有效性, 并最终将该评价模型应用于实际系统中。 参考文献 [1]郭劲松, 王红, 龙腾锐.水资源水质评价方法分析与进展[J].重庆环境科学, 1999, 21 (6) :1-3. [2]高千红.概率神经网络在三峡进坝水域水质评价中的应用研究[D].南京:河海大学工程, 2006. [3]刘进涛.模糊神经网络在水质评价中的应用[D].北京:首都师范大学, 2006. [4]王海霞.模糊神经网络在水质评价中的应用[D].重庆:重庆大学, 2002. [5]Pawlak Z.Rough sets-theoretical aspects of reasoning about data[M].Dordrecht:Kluwer Academic Publishers, 1991. [6]谢振华, 商琳, 李宁, 等.粗糙集在神经网络中应用技术的研究[J].计算机应用研究, 2004, 21 (9) :71-74. [7]Lingras P.Rough neural networks[C]//Proceedings of Sixth Interna-tional Conference on Information Processing and Management of Uncer-tainty in Knowledge-Based Systems, Granada, Spain, 1999:1445-1450. 粗糙集理论[1]主要是从近似空间导出上下近似算子, 利用近似算子来描述和刻画不精确的, 模糊的概念。而概念格[2]是利用偏序关系建立了概念的层次结构。概念格和粗糙集都是进行数据分析的有效工具, 它们之间也存在着许多的共同之处。首先, 它们的理论存在许多相通之处, 用概念格中的概念可以表示粗糙集中的上下近似。其次, 它们都面临要简化信息系统的任务, 它们都需要进行属性约简。相互借鉴两个理论的研究方法和思想, 已成为一个研究的热点, 有不少的文献对粗糙集和概念格之间的关系进行了一些讨论[3,4], 其中的大多数都是在概念格中引入上、下近似算子来拓展格中的概念。本文对粗糙集和概念格之间的理论联系作了一些的探讨。 1. 相关概念 本文简要介绍一些相关概念, 详细的描述见文献[2, 5]. 定义1包含x的R等价类记为:称U/R为近似空间的知识基, U/R表示R的所有等价类。σ (U/R) 显然是U的子集集合, 并且对交运算是封闭的, 所以σ (U/R) 是U上的闭包系统。 定义2设R是有限论域U上的等价关系, 则近似空间 (U, R) 的上、下近似集为: 定义3若 (A1, B1) 和 (A2, B2) 是形式背景 (G, M, R) 上的两个概念, 若则称概念 (A1B2) 是概念 (A2, B2) 的子概念, 概念 (A2, B2) 是概念 (A1, B1) 的超概念, 记为形式背景 (G, M, R) 上的所有概念 (49) (G, M, R) 以及关系“<”组成了 (G, M, R) 上的概念格。 定义4设P (G) 为集合G的幂集, 若R满足: 则称R是G上的闭包系统。显然, G上闭包系统是对交运算封闭的子集集合。 定义5设P (G) 为集合G的幂集若R满足: 则称R是R上的内部系统, 显然, R上内部系统是对并运算封闭的子集集合。 定义6映射f:若满足: (3) f (f (X) ) =f (X) (等幂性) , 则称f是一个闭包算子。 定义7映射f:若满足: (1) (压缩性) (3) f (f (X) ) =f (X) (等幂性) , 则称f是一个内部算子。 定义8设是一个半序集, 如果对M中的任何两个元素x, y的上确界和下确界都存在, 则称M是一个格;如果对M中的任意子集X都有上下确界存在, 则称M是一个完全格。 2. 粗糙集近似算子与概念格的理论关系 由上述定义可得: 定理1设 (U, A) 是一个信息系统, 是一个属性子集, 则LB是一个闭包算子。 (2) 若 (1) 根据LB (X) 的定义, 有即LB满足扩展性。 (3) 根据扩展性可得:从而由单调性可得:现证 所以由 (1) (2) (3) 可得LB是闭包算子, 而由LB (X) 的定义可得LB (X) 是U中上近似算子。 同理可证下面的定理成立: 定理2设 (AU, ) 是一个信息系统, 是一个属性子集, 简记为U/B对于则HB是一个内部算子。 由定义2可知:LB, HB是粗糙集中的上、下近似算子。 定理3[2]闭包算子LB的所有的像的集合是一个闭包系统。 定理4[2]设R是一个闭包系统, 则是一个完全格, 反之, 每一个完全格都与由一个闭包系统中的闭包所形成的格同构。 由定理3和定理4可得: 定理5设论域中U所有的可定义集为D (U) , 则是一个完全格。 上述定理就可以把粗糙集中的上、下近似算子与完全格, 概念格联系起来。 摘要:在本文中, 对粗糙集中的上、下近似算子和概念格中的闭包、内部算子之间的关系以及粗糙集中的等价类和概念格中的概念之间的关系作出一些探讨。 关键词:近似算子,概念格,粗糙集 参考文献 [1]Pawlak Z.Rough sets-Theoretical Aspects of reasoning about data[M].Kluwer Academic Publishers, Boston, 1991. [2]Bernhard Ganter.Rudolf Wille.形式概念分析[M].马垣等译.北京:科学出版社, 2007. [3]胡可云, 陆玉昌, 石纯一.概念格及其进展[J].清华大学学报 (自然科学版) , 2000, 40 (9) 77-81. [4]徐红升, 张瑞玲.改进的变精度粗糙集在概念格构造中的应用研究[J].计算机科学, 40 (3) :271-274. 关键词:粗糙集,决策表,约简,依赖度 0 引 言 随着信息时代的到来,各行各业都存储着大量杂乱无章的数据信息,因而如何从这些不确定的数据中挖掘出潜在的有价值的信息显得格外重要,而粗糙集理论正是处理这类复杂不确定系统的行之有效的方法。 信息约简以及在约简基础上的决策支持是基于粗糙集理论的重要应用方面。在粗糙集理论中,知识是基于对对象分类的能力,分类的过程是将相差不大的对象分为一类,它们的关系是不可分辨关系,也称等价关系,而约简则是能保证决策分类质量的最小属性集合。在信息约简基础上的决策支持可以辅助作出更为科学、更为合理的决策。 本文利用了粗糙集的基本理论、属性约简算法,在MATLAB环境下编写了粗糙集工具箱程序,求解了学生英语自主学习成绩决策表的上近似集和下近似集、不可分辨关系、约简、核集、属性依赖度,在分析过程中不需要给定任何先验的知识,便可以得出较为客观、合理的结果。 1 粗糙集工具箱算法描述 本文通过MATLAB程序设计语言,设计了具有界面的可用于实现粗糙集理论应用分析处理的粗糙集工具箱,该粗糙集工具箱具有以下功能: 上下近似集的求解功能、核集的求解功能、约简的求解功能、不可分辨关系的求解功能、决策属性对各条件属性的依赖度的求解功能。 (1) 功能函数:core(c,d,x) 参数: c:条件属性;d:决策属性;x:对象行。 实现功能:求解信息决策表中条件属性的核集,它是不可约简的。而去掉其余的条件属性不会影响整个决策的实现。 (2) 功能函数:ind(a,x) 参数: a:信息决策表中的属性;x:对象行。 实现功能:在给出属性列后,可得出某属性上的不可分辨关系。结果以不可分辨关系集的个数为矩阵的行数、以信息决策表中的对象的个数为列数来显示结果矩阵。 (3) 功能函数:order(c,d,x) 参数: c:条件属性;d:决策属性;x:对象行。 实现功能:求解各条件属性对决策属性的重要度,即条件属性对于决策属性集的重要程度。 (4) 功能函数:posind(c,d,x) 参数: c:条件属性;d:决策属性;x:对象行。 实现功能:求解条件属性C对决策属性D的重要度。 (5) 功能函数:posind(p,q) 参数: p:一个属性集;q:另一个属性集。 实现功能:求解Q的P正域,即求解U中所有根据分类U/P可以准确地划分到关系Q的等价类中去的对象的集合。 (6) 功能函数:redu(c,d,x) 参数: c:条件属性;d:决策属性;x:对象行。 实现功能:求解条件属性的约简,得出能够影响决策的重要因素,而其它不重要因素可以作为次要因素不予考虑。 (7) 功能函数:rslower(y,a,T) 参数: y:对象行;a:条件属性列;T:信息决策表矩阵。 实现功能:求解信息决策表的下近似集,亦即根据现有知识判断肯定属于对象集T的对象所组成的最大集合。 (8) 功能函数:rsupper(y,a,T) 参数: y:对象行;a:条件属性列;T:信息决策表矩阵。 实现功能:求解信息决策表的上近似集,亦即根据现有知识判断可能属于对象集T的对象所组成的最小集合。 (9)功能函数:zhuangyiwen() 参数:变量数组输入 实现功能:对上述的粗糙集工具箱的各功能函数进行整合,在zhuangyiwen.m文件中调用上述已定义过的功能函数,并在此m文件中实现对各回调函数的定义。 2 学生成绩决策分析 选取一个班级的学生英语自主学习成绩报表作为样本来进行算例分析。该自主学习的总成绩由“质”和“量”统筹计量。其中,“已学单元数”为学生在本学期中所自学的单元总数;“口语平均成绩”和“听力平均成绩”为学生已学单元的平均成绩;“总成绩”为学生本学期的最终成绩。表1为一个班级36名学生的自主学习成绩报表。 将已学单元数、口语平均成绩、听力平均成绩作为条件属性列,总成绩作为决策属性列,36个学生样本作为对象行,构成一个364的决策矩阵表。 2.1 学生成绩决策表中的粗糙集基本概念分析 如图1所示,选择120号学生对象,粗糙集工具箱求得的下近似集为{1,2,3,5,6,7,14,15,17},由此可得出在总成绩属性列下,肯定属于120号学生样本集合的为对象集合{1,2,3,5,6,7,14,15,17},亦即在120号学生中这九个学生的总成绩是可以确定的。 如图2所示,选择120号学生对象,粗糙集工具箱求得的上近似集为{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,23,24,28,30,33,35},由此可知,这些对象是可能属于120号学生样本集合的。 如图3所示,选取条件属性2、3,即口语平均成绩、听力平均成绩,得出在这两个条件属性上的不可分辨关系为{11,16,18,19,28,33},{34,35},{12,14},{10,23}。即对象{11,16,18,19,28,33}具有相同的“口语平均成绩”和“听力平均成绩”,同理,{34,35}、{12,14}、{10,23}也分别具有相同的“口语平均成绩”和“听力平均成绩”。 如图4所示,该学生成绩决策表的条件属性的核集和约简结果均为1,2,3,即条件属性“已学单元数”、“口语平均成绩”、“听力平均成绩”在决定学生的“总成绩”时均有同等重要的作用。 2.2 学生成绩决策表条件属性与决策属性间的关系 考虑到口语平均成绩和听力平均成绩都为学生学习的平均成绩,在此仅选取“已学单元数”、“口语平均成绩”来进行学习单元数与学习平均成绩两者重要度的分析。如图5所示,总成绩对已学单元数的依赖度为0.25,总成绩对口语平均成绩的依赖度为0.44444。 定义1POSc(D)表示在条件属性C下可以准确划分到关系D的等价类中去的对象集合。 定义2γc(D)=card(POSc(D))/card(U)表示决策属性D对条件属性C的依赖度,其中card(U)表示集合U的元素个数。 根据表1可知POSc-{口语平均成绩,听力平均成绩}(D)={5,7,16,18,19,28,29,31,33},(其中c-{口语平均成绩,听力平均成绩}表示从条件属性中去除口语平均成绩属性和听力平均成绩属性,POSc-{口语平均成绩,听力平均成绩}(D)表示根据已学单元数可以唯一确定总成绩决策的学生编号集合),从而γc-{口语平均成绩,听力平均成绩}(D)=card(POSc-{口语平均成绩,听力平均成绩}(D))/card(U)=9/36=0.25,(γc-{口语平均成绩,听力平均成绩}(D)表示决策属性对于“已学单元数”的依赖度);POSc-{已学单元数,听力平均成绩}(D)={2,3,5,8,11,16,17,18,19,21,24,25,28,17,8,33},(其中c-{已学单元数,听力平均成绩}表示从条件属性中去除已学单元数属性和听力平均成绩属性,POSc-{已学单元数,听力平均成绩}(D)表示根据口语平均成绩可以唯一确定总成绩决策的学生编号集合),γc-{已学单元数,听力平均成绩}(D)=card(POSc-{已学单元数,听力平均成绩}(D))/card(U)=16/36=0.4444(γc-{已学单元数,听力平均成绩}(D)表示决策属性对于“已学单元数”的依赖度)。即决策属性对于“已学单元数”的依赖度为0.25,决策属性对于“口语平均成绩”的依赖度为0.4444。 在未知该自主学习软件是如何设定成绩评估规则的情况下,仅通过学生成绩报表,粗糙集工具箱便可求解出属性依赖度,从而推导出在决定学生的总成绩时学习的平均成绩要比所学的单元数起更大作用,即对学习的“质”的要求高于学习的“量”的要求。 3 结 论 本文在掌握粗糙集理论相关概念的基础上,使用MATLAB程序设计语言编写了粗糙集工具箱,并利用此粗糙集工具箱求解了学生自主学习成绩决策表的上下近似集、不可分辨关系、约简、核集以及属性依赖度,从而得出了学生自主学习“总成绩”对于学习情况的“质”和“量”的依赖度。该算例分析结果表明,在分析过程中不需要给定任何先验的知识,便可以得出较为客观、合理的结果。 参考文献 [1]张文修,等.粗糙集理论与方法[M].北京:科学出版社,2001. [2]宋笑雪.粗糙集理论及其应用[J].咸阳师范学院学报,2005,20(2):30-31. [3]印勇.粗糙集理论及其在数据挖掘中的应用[J].重庆大学学报,2004(2):44-46. [4]熊君丽,许龙飞.ROUGHSET理论及其应用研究进展(综述)[J].暨南大学学报:自然科学版,2003(3):70-75. 关键词:诱导覆盖,粗糙集 1 引言 粗集理论是一种新的处理模糊性和不确定性知识的数学工具。1982年由波兰华沙理工大学数学家Z.Pawlak首次提出, 其基本思想是用两个经典集合 (即上下近似) 来描述含混概念, 该理论已经在理论和应用上取得了长足的发展, 特别是由于20世纪80年代末和90年代初在知识发现、决策分析等领域的成功应用而受到了国际上的广泛关注。 在Z.Pawlak粗集模型中, 论域上的等价关系起着至关重要的作用, 基于等价关系的划分, 构造了论域上的上下近似算子, 用于刻画不精确概念, 并进而研究相应的知识约简与知识获取问题。但在很多实际问题中, 对象之间的等价关系很难构造, 或者对象之间本质上没有等价关系, 有时论域并非静态。因此将粗糙集理论扩展到更一般的情况, 即基于一般关系的粗糙集或者基于覆盖的粗糙集是非常有意义和必要的。Zakowski首次定义了覆盖近似空间, Bonikowski定义了一种覆盖近似空间下的Rough近似。Mordeson和Eric后来在覆盖近似空间下又定义了另外两种Rough近似。本文是在李扉讨论的基于覆盖理论的诱导覆盖粗集模型基础上研究其性质并给出证明。 2 基本概念 定义1.1 设U为论域, C={C1, C2, …, Cn}是U的子集族, 如果坌i∈{1, ..., n}, Ci≠覫且UCÁ=U, 则称C为U的覆盖。ÂÁÁÂ 定义1.2 设C={C1, C2…, Cn}是U的覆盖, 坌x∈U, 设Cx=∩{Cj:Cj∈C, x∈Cj}, 则Cov (C) ={Cx:x∈U}也是U的覆盖。我们称其为由C诱导的覆盖。 定义1.3 设△={Ci:i=1, …, m}是U的一族覆盖, 坌x∈U, 设△x=∩{Cix:Cix∈Cov (Ci) }, 则Cov (△) ={△x:x∈U}是U的覆盖。我们称其为由△诱导的覆盖。 明显, △x是包含x的Ci中的所有元素的交, 所以坌x∈U, △x是Cov (△) 中包含x的最小的子集, Cov (△) 可以看成△中的所有覆盖的交, △x是包含x的覆盖类。如果△中的每一个覆盖都是划分, 则Cov (△) 也是划分且△x是包含x的等价类。 定义1.4 对于任意X哿U, X相对于△的上下近似为; X相对于△的正域为:POS△ (X) =△ (X) 。 3 性质 任意两个集合X和Y, 有 4性质证明 5 结语 本文利用基于覆盖的粗糙集理论中的上下近似研究了诱导覆盖及其性质并给出了证明, 对于进一步研究覆盖信息系统具有一定的实际意义。 参考文献 [1]Zakoski W.Approximation in the space (U, ) [J].Demonstratio Mathematica, 1983, 16:761-769. [2]Bonikowski Z, Bryniarski E, Wybraniec U.E xtensions and intentions in the rough set the-ory[J].Information Science, 1998, 107:149-167. [3]Mordeson J N.Rough set theory applied to (fuzzy) ideal theory[J].Fuzzy Sets and Sys-tems, 2001, 121:315-324. [4]Eric C C Tsang.On the upper approxi-mations of covering generalized rough sets[C]//Proceedings of the Third Internation Confer-ence on Machine Learning and Cybernetics, Shanghai, 2004:4200-4203. [5]Li Jian Rough Set and Research on Its Several Characteristics. [6]张文修, 吴伟志, 梁吉业.粗糙集理论与方法[M].北京:科学出版社, 2001. [7]张振良, 张金玲, 肖旗梅.模糊代数与粗糙代数[M].武汉:武汉大学出版社, 2007.8.2 基于粗糙集的海事事故影响因素分析的数据预处理
3 基于粗糙集的海事事故影响因素数据挖掘与分析
4 结 论
基于粗糙集的推理机设计 第3篇
基于粗糙集的教学评价研究 第4篇
程度粗糙集 第5篇
基于粗糙集近似算子的概念格研究 第6篇
基于粗糙集的学生成绩决策分析 第7篇
诱导覆盖粗糙集的概念及性质 第8篇
程度粗糙集范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。


