OLAP分析范文-盘古文库

OLAP分析范文（精选8篇）

OLAP分析第1篇

处理后载入数据仓库,可充分利用其中的多维数据分析技术(如OLAP)及数据挖掘工具等对仓库中数据加以智能化分析处理,从而更好地为教学管理者提供决策服务。

本文采用微软公司的Microsoft Visual Studio 2008中的Sql Server Management Studio平台来构建学生成绩仓库,采用Microsoft Sql Server 2008中的Sql Server Business Intelligence Development Studio平台工具来建立BI项目并实现多维数据集的创建、OLAP分析功能。

1 成绩数据仓库的三层建模

本文采用通用的自顶向下、逐步细化的仓库建模方式即三层建模,依次为:概念模型设计、逻辑模型设计、物理模型设计[3]。

1.1 概念模型设计

概念模型设计是一种面向全局的、较高抽象层次上的设计,该阶段主要任务是确定系统中主要主题域及其内容[4]。考虑到学生成绩特点及影响因素,该文把学生成绩分析作为主题来建立成绩数据仓库,仓库中包含学生学籍信息、课程信息、教师信息、班级信息、专业信息、系别信息、学年学期信息和学生成绩信息共八个方面的数据,将学生成绩作为关键性能指标并将除学生成绩信息以外的另外七个方面的信息作为维度数据,所有数据都分别来自学生学籍管理系统、教务管理系统和人事管理系统。

1.2 逻辑模型设计

由于本文需建立的成绩仓库的维度数并不是太多而且数据量并非很大即不会占用较多存储空间,所以针对关系模式的定义以及较高查询效率的需求,这里决定采用星型逻辑模型,如图1所示。

1.3 物理模型设计

目前由于大部分数据仓库都是基于关系型数据库而且数据的最终管理及存放都是由相应数据库系统来处理的,所以这里的物理模型设计就主要考虑关于物理数据库的一些模型设计,如数据的索引、存储及其结构等[5]。

本文设计的数据仓库的核心数据库是微软发布的SQL SERVER 2008企业版关系型数据库管理系统。对实体表的主外键均建立索引以提高响应速度。

2 数据ETL过程实现

本文采用笔者所在工作单位周口职业技术学院几年来的学生成绩相关数据作为数据源。考虑到2007年以前尚未全面启用教务管理系统、时间略显仓促及数据收集和预处理需花费大量时间、精力,所以数据源范围暂先定于信息工程系、机电系和财经系三个系的07级、08级、09级学生成绩数据。

2.1 数据的抽取及清洗

在确定了成绩仓库中事实表及各个维度表的具体结果模型之后,就需要以这些结构模型为重要参考依据分别从各自对应的业务型数据库系统中进一步抽取相关数据并经过预处理后再载入成绩仓库。

数据的清洗主要是对数据中的杂质、噪声、不一致、不规范、遗漏等情况加以处理。一般应视各自具体情况区别对待,不要一律删除。比如对于某名学生,若有少量课程成绩遗漏或出现0-100范围外的个别噪声数据则应考虑取平均成绩替代;若遗漏课程成绩门数较多(4门以上)或因学籍异动造成其数据无法有效参与比较,为保证分析的可靠性则应考虑删除。另外对于一些关于教师、课程、班级、专业维度信息数据的缺失或出现不一致的情况则进一步核实后加以填充。如有重修或补考成绩则均采用正考即首次成绩。

2.2 数据的转换

对于考查课中的“优”、“良”、“中”、“差”四个层次,为了便于统一分析,应向百分制转换。这里对应关系为:“优”-90、“良”-80、“中”-70、“差”-50。此外,对于源数据表中各属性名、类型及长度都要统一设置并与成绩仓库中对应的维度表及事实表保持一致。

2.3 数据的加载

上述各环节工作处理完毕后,接下来就是最后一步即数据的加载。首先在Sql Server 2008 Management Studio环境下建立一个名为“Student MA”的数据库,然后利用Sql Server中的数据导入功能将已整理好的8个数据表导入到新建的数据库中,如图2所示。在载入目标成绩数据仓库数据库后,还需根据星型逻辑结构和物理结构的具体设计来设置好各表主/外键并为其建立相应索引。

3 多维数据集的创建及OLAP技术的应用

3.1 多维数据集的创建

进入Sql Server 2008 Business Intelligence Development Studio集成环境后,新建一个名为“学生成绩多维分析”的Analysis Service即SSAS项目,然后使用“解决方案资源管理器”来分别创建项目的“数据源”、“数据源视图”、“多维数据集”。其中“数据源”所对应的连接字符串代码为:

另外,为了满足决策分析的需要,还需要再通过添加“平均成绩”计算成员来新增度量值,新建的“平均成绩”计算变量(avgScore)所对应的MDX语句为:

CREATE MEMBER CURRENTCUBE.[Measures].avg Score AS round([Measures].[Score]/[Measures].[Score计数],0),VISIBLE=1;

创建后的多维数据集视图如图3所示。

最后,对SSAS项目“学生成绩多维分析”加以部署和处理操作,部署并处理成功的结果如图4所示。

3.2 多维分析及OLAP技术的应用实现

首先可利用SSAS自带的“浏览器”功能进行多维分析和OLAP操作[6]。在“浏览器”界面中,可根据用户的OLAP处理要求来对创建的CUBE加以自由组合其中的维度,只需将左侧窗口界面中的目标对象如维度、维度成员、度量值成员等直接拖动到窗口右侧的显示区域相应位置后即可查看OLAP处理结果。如果要进行数据筛选则需要将筛选条件所涉及到的相应维度名或其成员值拖放到右侧窗口上方的筛选字段指定区域。如图5所示。

另外,由于Microsoft Excel 2007全面支持Sql Server2008的SSAS服务,目前其作为微软前端展现工具中的一个重要组件已在商业智能方面得到了较为广泛的应用[7]。Excel 2007中的数据透视表和数据透视图可直接访问SSAS项目中对应多维数据集,这样就不必开发应用程序即可快速而灵活地生成各种图表及报表。因此可利用该组件来进行多维分析并展现分析结果。

下面通过Excel 2007中的数据透视表来进行多维分析。可在透视表窗口任意组合一些度量值和维度,直接拖动到EXCEL表格模型的相应行列中即可自动生成所需表格数据。如果想以数据透视图方式来展示数据则只需点击工具栏中的柱状小图标即可立即生成对应的透视图。在某些情况下,透视图的显示效果要比透视表会更加直观,如图6、7、8所示。

其中图6为教师、课程、班级所有学年学期信息的汇总显示,细节区域内容为班级人数和平均分;图7为信息工程系建筑设计技术专业在2009年第二学期教师、课程、班级及平均分信息汇总显示;图8为信息工程系道路桥梁工程技术专业在所有学年学期的教师、课程、班级及平均分信息汇总显示。

4 结束语

本文利用Sql Server 2008 Management Studio及Sql Server 2008 BI平台成功构建了学生成绩数据仓库并建立了数据集市,然后进行了OLAP即联机分析处理,最后利用Microsoft Excel 2007前台工具中的数据透视表及数据透视图组件对OLAP分析结果进行了直观展示,为管理者进行科学决策分析提供了重要决策依据。另外,增加数据仓库中的成绩数据量以及对成绩仓库中的数据进行深入挖掘分析将是笔者下一步主要研究内容。

摘要：针对存储在事务型数据库中大量学生成绩数据的彼此分散、不一致及各自独立等现状,利用Sql Server 2008 BI商业智能平台及三层建模方式建立了面向分析型学生成绩数据仓库。通过多维数据集的创建、OLAP分析以及EXCEL 2007前台工具中的数据透视表和数据透视图对OLAP分析结果的展示,为教学管理者在决策分析、教学工作趋势的预测及管理措施的制定等方面提供了有力支持。

关键词：成绩数据仓库,OLAP,多维数据集,数据透视表,数据透视图

参考文献

[1]魏丽,王雁苓.高校学生成绩分析数据仓库的建立[J].吉林省教育学院学报,2010(6):42-43.

[2]Jiawei Han,Micheline Kamber.范明,等,译.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

[3]罗跃国.高校教务系统数据仓库的建模及应用[J].长江大学学报:自然科学版,2009(3):235-237.

[4]王丽珍,周丽华.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.

[5]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[6]黄兴荣,李昌领.基于SQL Server2005的数据挖掘的研究[J].计算机与现代化,2010(5):195-198.

OLAP分析第2篇

OLTP系统最容易出现瓶颈的地方就是CPU与磁盘子系统。

（1）CPU出现瓶颈常表现在逻辑读总量与计算性函数或者是过程上，逻辑读总量等于单个语句的逻辑读乘以执行次数，如果单个语句执行速度虽然很快，但是执行次数非常多，那么，也可能会导致很大的逻辑读总量。设计的方法与优化的方法就是减少单个语句的逻辑读，或者是减少它们的执行次数。另外，一些计算型的函数，如自定义函数、decode等的频繁使用，也会消耗大量的CPU时间，造成系统的负载升高，正确的设计方法或者是优化方法，需要尽量避免计算过程，如保存计算结果到统计表就是一个好的方法。

（2）磁盘子系统在OLTP环境中，它的承载能力一般取决于它的IOPS处理能力. 因为在OLTP环境中，磁盘物理读一般都是db file sequential read，也就是单块读，但是这个读的次数非常频繁。如果频繁到磁盘子系统都不能承载其IOPS的时候，就会出现大的性能问题。

OLTP比较常用的设计与优化方式为Cache技术与B-tree索引技术，Cache决定了很多语句不需要从磁盘子系统获得数据，所以，Web cache与Oracle data buffer对OLTP系统是很重要的。另外，在索引使用方面，语句越简单越好，这样执行计划也稳定，而且一定要使用绑定变量，减少语句解析，尽量减少表关联，尽量减少分布式事务，基本不使用分区技术、MV技术、并行技术及位图索引。因为并发量很高，批量更新时要分批快速提交，以避免阻塞的发生。

OLTP 系统是一个数据块变化非常频繁，SQL 语句提交非常频繁的系统。对于数据块来说，应尽可能让数据块保存在内存当中，对于SQL来说，尽可能使用变量绑定技术来达到SQL重用，减少物理I/O 和重复的SQL 解析，从而极大的改善数据库的性能。

这里影响性能除了绑定变量，还有可能是热快（hot block）。当一个块被多个用户同时读取时，Oracle 为了维护数据的一致性，需要使用Latch来串行化用户的操作。当一个用户获得了latch后，其他用户就只能等待，获取这个数据块的用户越多，等待就越明显。这就是热快的问题。这种热快可能是数据块，也可能是回滚端块。对于数据块来讲，通常是数据库的数据分布不均匀导致，如果是索引的数据块，可以考虑创建反向索引来达到重新分布数据的目的，对于回滚段数据块，可以适当多增加几个回滚段来避免这种争用。

OLAP，也叫联机分析处理（Online Analytical Processing）系统，有的时候也叫DSS决策支持系统，就是我们说的数据仓库。在这样的系统中，语句的执行量不是考核标准，因为一条语句的执行时间可能会非常长，读取的数据也非常多。所以，在这样的系统中，考核的标准往往是磁盘子系统的吞吐量（带宽），如能达到多少MB/s的流量。

磁盘子系统的吞吐量则往往取决于磁盘的个数，这个时候，Cache基本是没有效果的，数据库的读写类型基本上是db file scattered read与direct path read/write。应尽量采用个数比较多的磁盘以及比较大的带宽，如4Gb的光纤接口。

在OLAP系统中，常使用分区技术、并行技术。

分区技术在OLAP系统中的重要性主要体现在数据库管理上，比如数据库加载，可以通过分区交换的方式实现，备份可以通过备份分区表空间实现，删除数据可以通过分区进行删除，至于分区在性能上的影响，它可以使得一些大表的扫描变得很快（只扫描单个分区），

另外，如果分区结合并行的话，也可以使得整个表的扫描会变得很快。总之，分区主要的功能是管理上的方便性，它并不能绝对保证查询性能的提高，有时候分区会带来性能上的提高，有时候会降低。

并行技术除了与分区技术结合外，在Oracle 10g中，与RAC结合实现多节点的同时扫描，效果也非常不错，可把一个任务，如select的全表扫描，平均地分派到多个RAC的节点上去。

在OLAP系统中，不需要使用绑定（BIND）变量，因为整个系统的执行量很小，分析时间对于执行时间来说，可以忽略，而且可避免出现错误的执行计划。但是OLAP中可以大量使用位图索引，物化视图，对于大的事务，尽量寻求速度上的优化，没有必要像OLTP要求快速提交，甚至要刻意减慢执行的速度。

绑定变量真正的用途是在OLTP系统中，这个系统通常有这样的特点，用户并发数很大，用户的请求十分密集，并且这些请求的SQL 大多数是可以重复使用的。

对于OLAP系统来说，绝大多数时候数据库上运行着的是报表作业，执行基本上是聚合类的SQL 操作，比如group by，这时候，把优化器模式设置为all_rows是恰当的。

而对于一些分页操作比较多的网站类数据库，设置为first_rows会更好一些。但有时候对于OLAP 系统，我们又有分页的情况下，我们可以考虑在每条SQL 中用hint。如：

Select a.* from table a;

分开设计与优化

在设计上要特别注意，如在高可用的OLTP环境中，不要盲目地把OLAP的技术拿过来用。

如分区技术，假设不是大范围地使用分区关键字，而采用其它的字段作为where条件，那么，如果是本地索引，将不得不扫描多个索引，而性能变得更为低下。如果是全局索引，又失去分区的意义。

并行技术也是如此，一般在完成大型任务时才使用，如在实际生活中，翻译一本书，可以先安排多个人，每个人翻译不同的章节，这样可以提高翻译速度。如果只是翻译一页书，也去分配不同的人翻译不同的行，再组合起来，就没必要了，因为在分配工作的时间里，一个人或许早就翻译完了。

位图索引也是一样，如果用在OLTP环境中，很容易造成阻塞与死锁。但是，在OLAP环境中，可能会因为其特有的特性，提高OLAP的查询速度。MV也是基本一样，包括触发器等，在DML频繁的OLTP系统上，很容易成为瓶颈，甚至是Library Cache等待，而在OLAP环境上，则可能会因为使用恰当而提高查询速度。

对于OLAP系统，在内存上可优化的余地很小，增加CPU 处理速度和磁盘I/O 速度是最直接的提高数据库性能的方法，当然这也意味着系统成本的增加。

比如我们要对几亿条或者几十亿条数据进行聚合处理，这种海量的数据，全部放在内存中操作是很难的，同时也没有必要，因为这些数据快很少重用，缓存起来也没有实际意义，而且还会造成物理I/O相当大。所以这种系统的瓶颈往往是磁盘I/O上面的。

OLAP分析第3篇

在实际中,专家进行食品风险决策需要考虑复杂多样的食品风险因素,如食品、时间、检疫局、危害项目、企业等。例如,为了统计近段时间内每个企业出口食品在各个国家的不合格情况,用于决策以后该企业往各个国家出口食品的情况,这些统计所涉及到的数据往往呈现多维的形式,而传统的数据分析方法很难适合这种决策分析。联机分析处理(OLAP)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术,它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许决策人员对数据进行深入观察。联机分析处理具有灵活的分析功能、直观的数据操作和分析结构可视化表示等突出优点,从而使决策人员对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确的决策。

为此,该文采用联机分析处理(OLAP)对多维数据进行分析处理。该文首先对食品安全风险因子进行详细分析,得到多维数据模型,然后根据专家的实际需求对多维数据进行各个角度的分析,并以数据立方体的形式展现,使专家很清晰的看到统计信息,从而给出正确的决策信息。

1 OLAP的体系结构

OLAP以数据仓库为基础,通过快速、一致、交互地访问各种可能的信息视图,帮助决策人员洞察数据奥秘,掌握隐藏于其中的规则。OLAP力图处理数据仓库中浩如烟海的数据,并将其转化为有用信息,从而实现对数据的归纳、分析和处理,帮助企业完成决策。

OLAP支持最终用户进行动态多维分析,其中包括跨维、在不同层次之间的计算和建模;在时间序列上的趋势分析、预测分析;切片和切块,并在屏幕上显示,从宏观到微观,对数据进行深入分析;可查询到底层的细节数据;在观察区域中旋转,进行不同维间比较,采用三层C/S结构,其体系结构如图1所示[6]。

由上图可知,第一层为客户机,实现用户最终功能,不仅可以浏览数据仓库中数据,还可以生成数据立方体,支持各种OLAP操作,比如切片、切块、旋转、趋势分析、比较等处理,实现决策。第二层为分析服务器,主要存储数据仓库中综合数据,形成多维分析模型。第三层是企业服务器,存储数据仓库中来自基层数据库的细节数据。

2 食品安全风险因素分析

根据食品出口时所涉及到的各个因素进行分析,得到各因素之间的关系如图2所示。

从上图中可以看出,食品出口的风险与很多因素有关,比如企业、检疫局、危害物风险、国家风险等等。下面一一进行分析。

食品在生产过程中,风险与食品本身所带有的危害物有关,危害物风险越高,对应的食品风险就越高。食品中危害物数量和种类众多,按其危害程度分为限用和禁用危害物两种,限用危害物为限制使用的危害物,如果检测出的含量超过其标准含量,该危害物就有风险。禁用危害物为禁止使用的危害物。如果一旦检出食品含有禁用物质,该食品的风险为高风险。

企业生产食品后,向检疫局报检食品,因此食品的风险与企业有关,如果一个企业有完善的安全卫生质量体系如GMP、HACCP的建立和有效运行,可以使食品风险降低。如果企业出口的食品经常被通报不合格,该企业出口食品的诚信降低,食品的风险会增高,也有可能会被退回。因此不同的企业对食品的风险是不同的。

食品出口到某个国家,有对应的国家技术要求,会产生风险。因为有的国家对食品的技术要求严格,比如日本,对进口的食品技术要求(包括包装、检测项目检测等)相比于其他国家普遍要高,所以出口到日本的食品风险要比其他国家风险高,这就说明食品的风险与出口到的国家有关。

食品安全风险因子复杂,所涉及的法规标准项目十分繁多,而一线人员的专业知识不可能面面俱到,难免带来监管上的漏洞。因此执法者对食品风险也有一定的影响。如果官方对企业生产的食品及时进行抽检,发现问题,解决问题,会降低食品出口风险。如果官方对企业进行定期监管,监督企业对农药的使用、卫生的管理,也会降低食品出口风险。

上述与食品风险有关的因素都有实效性,比如企业风险,在一段时间内某企业向某国家出口的食品有很多检出不合格,该企业的食品风险高,如果该企业经过一段时间的调整,对食品的管理加强,严格控制企业的卫生条件,出口的食品不合格数降低,这时的企业出口食品的风险要降低。

综上所述,食品风险因素主要有时间、食品本身、企业、国家、检疫部门、危害物等,专家要想对食品风险进行决策时需要综合考虑上述因素。

3 OLAP应用分析

3.1 多维数据建模

数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用以支持经营管理中的决策制定过程[7]。该文的主要目是通过对食品安全检测数据的分析得到决策信息,因此数据仓库的主题主要是食品安全风险决策分析主题,它是在较高层次上将食品风险分析中的数据综合、归类并进行分析利用。数据仓库定义了对应的结构元素来实现数据的结构模型:事实、维、粒度。该文采用数据仓库的星型模型表示多维概念模型,星型模型由事实表和若干维表组成。“事实表”中的每条元组都包含有指向各个“维表”的外键和一些相应的测量数据。“维表”中记录有关一维的属性。通过对食品风险因素进行分析后,食品安全风险决策分析主要的事实表为食品安全检测数据通报表,而维度表为食品风险因素。食品风险分析数据仓库的星型模型如图3所示。

由上图可知,事实表中每个元组包含一些指针,每个指针指向一张维表,比如食品hs编号指向了食品表,这就构成了数据库的多维联系,相应每条元组多维外键限定数字测量值,比如检测值。在每张维表中除包含每一维的主键外,还有说明该维的一些其他属性字段。维表记录了维的层次关系也成粒度。比如时间维可按日计,也可按年、月计等。食品安全风险星型模型是数据仓库的复杂查询,为OLAP的分析打下基础。

3.2 OLAP维度分析

OLAP在进行数据操作分析前首先要分析食品安全风险中可能涉及的所有维度,并根据决策者实际要求确定其需要的维度和度量。涉及的维度如表1所示。专家对食品风险数据不同角度的分析要求的数据集不同,涉及的维度也不同。比如,对企业风险进行决策,专家希望看到的信息为某企业在某段时间内向某个国家出口的食品不合格情况,目标维为食品不合格数,条件维为时间维、食品维、国家维、企业维等。对食品的检测项目进行决策,决策者希望看到的信息为某食品在某段时间内检测项目的不合格情况,目标维为检测项目的不合格数,条件维为时间维、国家维、食品维、检测项目维等。

3.3 OLAP在食品风险中的应用

OLAP用于食品安全风险多维数据的分析操作,可以根据分析人员的要求快速、灵活的进行大量食品安全检测数据的复杂查询,它以一种直观易懂的饼图、曲线图、直方图等形式将分析结果提供给决策人员,把知识形式化,方便专家给出合理准确的决策信息。OLAP在食品风险数据分析中产生的决策信息实例如下。

1)企业向不同国家出口食品的决策

专家在对企业向不同国家出口食品做出决策时,需要考虑的因素为时间、食品、企业、国家、食品不合格数,因四维数据立方体的构建比较复杂,这里固定时间的维度,来分析其他维度的变化对专家决策信息产生的影响,国家维、企业维、食品维构成的数据立方体中的小格内存储数据可以表示为食品不合格数,它们依赖于一组“维”,这些维提供了测量值的上下文关系,例如食品不合格数与企业、国家、食品名称和设置的时间有关,这些相关维唯一决定了食品不合格数值。对上述数据立方体的各种操作可以得出不同的结论。比如从国家维的角度来看,对多维数据立方体进行上卷,从得到的切面可以看出,对于特定的出口国家日本,各个企业出口的食品通报次数,通过统计可以清楚的看出那个企业出口的食品报通报次数多,决策者可以给出哪些企业的食品出口到某个国家的风险高的决策,然后采取措施,比如限制该公司对该国的出口,让其进行整顿。

上述数据立方体固定了时间维,专家得到了企业在特定时间内向哪些国家出口食品的信息。下面固定国家维,由时间维、企业维、食品维构成的数据立方体,从企业维的角度来看,对数据立方体进行上卷操作,得到在各个时间内,企业向特定的国家出口食品的通报次数。如果某个企业在某些月份食品不合格的次数多,专家可以做出该企业在这段时间内食品风险高的决策,也可以在这段时间内向该企业发出警告,使该企业整改,减少企业和国家的经济损失。时间、企业、食品数据立方体的上卷分析展现形式如图4所示。图4为2011年,2012年某企业出口蔬菜食品到韩国的不合格数统计,从图中可以看出,在2012年,牛肉通报的不合格数高,专家可以做出在这段时间内该企业出口牛肉食品到韩国的风险高,提醒检验检疫管理人员采取措施。

综上所述,依据专家要求,进行相应的OLAP操作,使专家可以很直观的看到统计信息,并做出相应的决策,因这种分析是多维的,从不同的角度分析可以得到更多的决策信息,这些决策信息符合实际要求,而且有相应的数据和理论依据,符合专家对食品安全检测数据分析的要求。

4 总结

联机分析处理OLAP在食品安全风险数据仓库中的应用,帮助决策人员从海量的食品安全检测数据中提取决策信息,对检疫部门的影响颇大。该文首先对食品安全风险因素进行了详尽分析,为建立数据仓库的星型模型打下基础,便于OLAP的多维数据分析,最后列举了一些OLAP在食品安全风险中的风险决策支持的实例。OLAP能够使用户进行复杂操作和计算的多维分析,使决策人员更深入的了解数据的表现形式,为检验检疫部门决策人员做出决策提供了强有力的科学依据。

参考文献

[1]付昌斌,孙慎侠,李立,孙亚斌,龙川凤.出口果蔬食品风险分析及管理措施研究[J].检验检疫学刊,2011,21(6):64-66.

[2]黄丽玲,苏志坚,张冬冬,等.出入境货物检验检疫风险管理的研究[J].检验检疫科学,2003,13(6):1-6.

[3]季任天,赵素华,王明卓.食品安全预警系统框架的构建[J].中国渔业经济,2008,26(5):61-65.

[4]晁凤英.食品安全监管中的关联规则挖掘[D].杭州:浙江大学,2007.

[5]晁凤英,杜树新.基于关联规则的食品安全数据挖掘方法[J].食品与发酵工业,2007,33(4):107-109.

[6]吉根林.联机分析处理(OLAP)究[J].南京师范大学学报,1999,22(4)23-26.

OLAP分析第4篇

煤炭企业日常生产活动中, 专项资金计划的实施管理是煤炭企业资金管理的重要环节。目前执行的计划有十几类, 现行专项资金计划管理系统可方便地执行数据的增、删、改功能, 但数据查看一次需生成一次, 并且只能生成1a的数据, 无法实现数据的纵向比较, 分析功能严重不足, 企业数据量的激增也使数据生成面临巨大挑战。同时, 现在的煤炭企业经过整合、兼并形成了大型煤炭集团, 不同级别的单位、厂矿众多, 现行专项资金计划管理系统受服务器能力的限制, 无法满足多用户同时进行查询和当前对历史数据进行快速、准确分析的需求。

本文从实际需求出发, 应用SQL Server 2005Business Intelligence开发平台, 运用联机分析处理 (On-Line Analysis Processing, OLAP) 技术对煤炭专项资金数据进行整合分析, 设计了基于多维方式存储、处理的数据分析系统。该系统建立了新的数据存储方式, 将日常操作数据和历史分析数据分开存储, 提高了管理效率;运用数据科学分析手段, 实现历史数据分析, 从而为企业决策提供可靠支持。

1 OLAP技术概述

OLAP是数据仓库的主要应用。OLAP能使分析人员、管理人员及执行人员从多角度对企业数据进行快速、一致和交互的存取, 从而对企业数据更加深入了解。OLAP的目标是满足多维环境下特定的查询服务和报表需求, 达到决策支持的目的。它的核心内涵是“维”的概念, 由此, OLAP可以看成是多维数据分析工具的合集, 是数据仓库中综合性、大容量数据能够充分分析利用的重要保障。其关键之处是由事实表和维度表共同构建多维数据集, 形成数据的立方体结构。

多维数据立方体的分析操作是基于度量值和维度进行数据分析。度量值是在某一维度上数值的体现, 是基于事实表形成的一种数据结构, 需要分析的数据存储其中。维度是数据显示的条件。在多维数据集中, 数据存储突破了传统关系数据库二维存储数据的局限, 多个维度构成立方体。

OLAP的多维操作方法有切片、切块、旋转、钻取[1]。选定多维数据集中某一维度进行数据展现的动作, 称为切片;选定2个及2个以上维度的动作, 称为切块, 切块可看成是多次切片结果的重叠;旋转操作是基于位置关系的改变实现的, 旋转可能交换行或列, 也可能是在维度的层次之间进行交换;钻取操作改变维的层次及粒度, 上钻得到汇总性数据, 下钻得到更低粒度级别数据。

2 系统结构设计

2.1 OLAP物理存储

ROLAP (Relational OLAP, 关系型OLAP) 和MOLAP (Multidimensional OLAP, 多维型OLAP) [1,2,3]是OLAP多维结构的2种物理存储方式。ROLAP以关系数据库为核心, 多维数据结构是通过映射关系链接到关系数据库中的二维表形成的, 构成一个模拟多维数据集, 其操作对象是传统的关系数据库。MOLAP以多维方式存储数据, 通过建立一个复杂的多维方式的数据集市或数据仓库, 从中提取数据构成事实多维数据集。两者相比, ROLAP在数据管理、加载等方面优势明显, 但是其查询效率、分析能力和维护方面远远逊色于MOLAP;MOLAP虽然查询效率高, 但设计复杂, 数据加载难度大。

结合ROLAP和MOLAP优点的HOLAP (Hybrid OLAP, 混合型OLAP) [4]从实际出发, 实现OLAP数据的灵活存储。本系统采用HOLAP构建一个数据集市作为数据源, 通过建立一定结构的表来存储多层次、多维性的数据;而对于维度层次单一的数据, 则把关系数据库中的数据直接映射到数据集市中, 并不在数据集市中存储, 实现系统的最优设计。

2.2 OLAP组织形式

OLAP中多维数据集的组织形式主要有星型模型和雪花模型[5]。星型模型是1个事实表和多个维度表链接, 每个维度表都和事实表通过关键字链接, 能够直接对事实表进行分析, 查询分析效率高。当多维数据集中的“维”呈现层次结构时, 星型模型无法展现出多维结构的层次性。雪花模型由星型模型演化产生, 在雪花模型中, 将某些维度表升级为自身的事实表, 并在其上添加相关维度表。通过对维度表再次进行维度设计实现用户不同层次的分析需求。

本文将以专项资金计划数据为事实表, 以时间、单位、计划类型等为维度表构建多维数据结构。由于计划类型中有更加细致的分类, 以致计划维度含有层次结构, 所以系统的OLAP组织形式采用雪花模型结构。以专项资金计划中的综合折旧费为例, 其组织形式如图1所示。综合折旧费事实表通过外键链接单位、计划类型等维度表。

3 系统实现

系统应用SQL Server 2005 Business Intelligence开发平台, 首先构建综合折旧费计划数据的多维数据集, 然后使用ETL (ExtractTransform-Load, 数据提取、转换和加载) 工具加载数据, 最后在SQL Server 2005Analysis Services的多维数据集浏览器中展现分析结果。

3.1 多维数据集构建

在已建立的数据集市中, 建立了各个计划数据的事实表以及时间、单位等维度表, 或者将相关维度直接映射到传统关系数据库的相关表结构中。构建多维数据集就是要建立各个分析主题的度量值和其相关维度信息, 并将度量值和维度形成雪花模型的分析结构。系统运用SQL Server 2005 Analysis Services多维数据集向导, 应用数据表之间的键值关系, 手动建立了综合折旧费的多维数据集。

(1) 度量值设计。从数据源中选择综合折旧费表定义为事实表, 并选取折旧费和其他资金2个字段作为度量值。

(2) 维度设计。选择时间、单位、计划类型等相关表定义为维度表。单位和计划类型具有相应的层次结构。因此在单位维度表设计中形成集团公司、二级公司、厂矿层次结构;在计划类型维度表中形成计划名称、分类一、分类二的3层结构;其他维度表则采用了单层结构。

3.2 数据加载

系统通过SQL Server 2005中配置的ETL工具将传统关系数据库中的数据经过提取、转换, 最后加载到多维数据集中。在SQL Server 2005Integration Services中, 通过控制流和数据流2种相互独立的构件完成数据提取、转换、加载任务。

综合折旧费数据加载流程:将传统关系数据库中的文本数据合理地选择出来, 并摒弃冗余数据、派生新列, 再添加元数据, 然后转换数据格式, 最后添加到多维数据集中, 同时设置错误响应处理, 最终将其配置后形成包文件以便调用。

3.3 多维处理结果

运用SQL Server 2005Analysis Services的多维数据集浏览器可以将综合折旧费数据建立的多维数据集的分析结果展现出来。

由于综合折旧费数据具有2种数据分类, 在多维数据集中添加了计算成员用来反映综合折旧费的总体数据走向, 命名为合计。将单位维度、计划维度、时间维度分别加入到多维数据集浏览器中, 清楚地展现了不同单位、不同计划层次、不同年度的数据情况。

首先选取时间切片为2011年的计划数据, 得到对计划维度和单位维度向下钻取到最低层次的分析结果, 如图2所示 (图2中金额单位为万元) 。同时, 系统也可以通过旋转维度, 将时间维度和计划维度交换, 得到不同单位在不同时间同一计划类型下的数据走势, 而传统分析手段实现该操作则要耗费大量时间, 且无法保证数据分析的准确性。使用人员在系统中综合应用切块、钻取、旋转等多维操作, 可方便、迅速、正确地对数据进行全面分析, 得到综合折旧费计划的数据构成、历年走势和单位分布情况等在传统方法中难以实现的分析效果, 从而为企业决策提供可靠支持。

4 结语

基于OLAP技术的煤炭专项资金数据分析系统通过建立煤炭专项资金的多维数据集, 运用OLAP多维分析技术, 能够合理分析专项资金数据, 达到了多用户从海量数据中快速提取有用信息的设计目的, 解决了煤炭企业缺乏专项资金数据分析的现状, 使企业数据得到充分利用, 为企业决策提供了必要支持, 具有良好的实际应用效果。

摘要：针对煤炭企业专项资金数据整合分析功能不足的问题, 设计了基于OLAP技术的煤炭专项资金数据分析系统。该系统采用HOLAP混合结构物理存储数据, 以雪花模型组织事实表和维度表数据, 将数据进行ETL处理后加载到多维数据集;最后采用OLAP多维分析技术实现数据分析功能和良好的用户交互, 可满足专项资金数据分析需求, 为企业决策提供了必要支持。

关键词：专项资金,数据分析,OLAP,多维数据集

参考文献

[1]邓苏, 张维明, 黄宏斌, 等.决策支持系统[M].北京:电子工业出版社, 2009.

[2]何林糠, 李建, 麻荣誉.B/S结构下基于关系数据库的OLAP的研究与应用[J].信息技术, 2011, 35 (1) :130-132.

[3]胡杨, 袁建华.数据仓库和OLAP技术在集团财务分析中的应用[J].计算机与现代化, 2013 (4) :31-35.

[4]聂瑞, 卢建军, 卫晨.基于Hadoop平台的OLAP煤炭销售数据分析系统[J].工矿自动化, 2012, 38 (11) :77-80.

OLAP分析第5篇

在IT技术渗入零售业之后, 零售业已经发生了很多变化, 零售企业的数据库里集中了大量的原始交易数据, 这些数据主要包括各个前端设备采集来的原始销售数据和库存数据。如何从这些不断累积的数据中挖掘出有用的信息, 做出科学合理的决策, 获取最大利润, 是企业决策者最关心的问题。

对于数据仓库 (DW) 来说, 是在数据库的基础上发展起来的, 通常情况下, 为决策分析提供服务。数据组织在联机分析处理 (OLAP) 的作用下, 由二维平面结构扩充到多维空间结构, 同时提供了相应的多维数据分析方法。

企业的决策者大都是管理方面的强者, 通过计算机技术对数据库中的数据进行知识挖掘方面精通者不多。针对这种情况, 本文主要研究如何在客户端通过Visual Basic6.0设计一款基于OLAP的零售业销售分析系统, 通过简单的界面操作, 使企业决策者很清楚的了解各种销售信息, 从而制定出科学合理的决策, 及时有效地应对市场变化。

1系统的体系结构

在基于OLAP的零售业销售分析系统中, 采用三层C/S结构进行设计, 对于本系统来说, 主要包括数据仓库层、多维数据集层、客户端层三部分, 如图1所示。

1.1数据仓库层销售分析主要是在某时间内 (日, 月, 季, 年) , 对商品的销售量, 销售利润等进行了解, 分析哪些商品畅销, 哪些商品滞销, 商品的主要消费群体及地区等, 以便制定更好的采购、库存及营销计划。根据销售分析主题, 对数据仓库进行概念模型设计和逻辑模型设计, 在微软SQL Server 2000下实现数据仓库的物理模型设计, 创建DTS包完成数据抽取、清理和转换任务, 将数据装载到数据仓库中。

1.2多维数据集层在MS Analysis Services系统中, 创建多维数据集, 用于OLAP分析。根据销售分析主题, 选择数据仓库中的数据作为数据源, 维度包括时间维、商品维、顾客维和商店维4个维度。其计算成员选择销售额、销售成本、销售量为度量值, 销售利润和销售利润率等。选用MOLAP保存销售分析多维数据集。

1.3客户端层利用微软的VB6.0开发一个良好的人机交互系统, 这是因为该软件能够实现在数据仓库中, 可以有效加载数据, 同时更新多维数据集, 进而在一定程度上实现OLAP的可视化多维分析, 以表格、图形等方式向用户呈现结果, 供用户决策使用。

2系统功能设计

根据模块化思想, 对系统进行功能设计和开发, 其功能模块如图2所示。

2.1多维数据集更新利用SQL Server 2000提供的数据转换服务 (DTS) 创建实现数据仓库和多维数据集更新的DTS包, 并在VB下执行远程DTS包实现数据的更新。

2.2钻取聚合分析维度需要有层次性, 例如时间维由年、季、月、日构成。数据的综合程度通过维度的层次得以真实的反映。对于钻取来说, 通常情况下, 可分为上钻、下钻。其中, 下钻是从汇总数据到细节数据的细化过程, 上钻是从细节数据到汇总数据的聚集过程。聚合实际上是钻取的逆向操作。

通过钻取聚合分析, 可以了解商品的日、月、季、年的销售量、销售额和销售利润。发现商品的销售趋势, 并相应的调整商品的采购和库存计划。

2.3切片分析切片是在多维数据集的两个维上集中观察数据。通过商品分析 (时间商品维) 、地区分析 (时间商店维) 、顾客分析 (时间顾客维) , 进而在一定程度上可以分析出哪些商品畅销, 哪些商品滞销, 同时可以顾客的购物地区, 以及消费主要群体进行分析。根据分析结果, 制定相应的营销策略。

2.4多维切块分析切块是选定若干维度 (通常是三维) 进行分析。可以自由选择维度, 系统会自动生成MAX查询语句, 并将分析结果以表格的形式展现出。

3系统开发

3.1 VB与DTS包借助OLE DB接口, Microsoft公司的数据转换工具DTS能够在关系数据源、非关系数据源以及ODBC数据源之间完成数据的转移;可以从多个异构数据源自动或交互地向数据仓库装入数据;对于使用VBScript或Java Script等脚本语言创建的自定义转换脚本DTS同样能够给予支持, 并且在一定程度上允许使用Visual Basic、Visual C++等编程语言编写自定义的组件, 在转换中能够对数据进行校验、清理等操作。集成在SQL Server 2000中的DTS可以自动调度导入或操作任务, 也可以使用SQL代理服务来进行调度[1]。

利用DTS设计器创建数据仓库更新的DTS包。利用DTS提供的Analysis Services处理任务, 创建多维数据集更新的DTS包, 在VB中执行远程DTS包来实现多维数据集的更新。主要代码如下:

3.2 VB与多维数据集在VB中, 利用ADO (Active X Data Objects) 控件能够访问数据库系统, ADO MD (Active X Data Objects Multidimensional) 是对ADO的扩展, 包含了访问OLAP多维数据集所需的各种对象和集合[2]。

利用ADO MD可以连接多维数据集, 用MDX语句进行多维查询, 并将它查询的结果

通过单位集对象 (Cellset) 返回。在VB中建立ADO MD对象的代码如下:

对多维数据集中的数据切片、切块、钻取及聚合析是利用MDX语句进行的, MDX语句是处理多维数据集的强大工具, 可以在查询中处理一维、二维、三维或多维数据。下面代码是通过ADO MD的Cellset将MDX查询语句的结果集数据提取出来, 以网格的形式展现给用户, 其中Text1.Text是输入的分析时间, Draw Grid Vew是用网格显示数据的函数。

4系统测试

系统运行后, 首先执行多维数据集的更新, 以完成分析数据的更新。

图3为切片分析的可视化界面, 通过分析后, 可得出食品类中的蔬菜类和小吃类商品最畅销, 而罐装商品销量低, 在以后的采购中可用畅销的商品替代滞销的商品, 对于滞销商品可采取促销方式提高销售量。

图4为多维切块分析的可视化界面。管理人员根据销售分析需求, 可以自由选择维度、度量及计算成员, 系统会自动生成MDX查询语句, 将结果以表格形式展现出来。

5总结

本系统界面友好, 操作简单, 利用此系统对零售业的销售数据进行多维分析, 能帮助决策人员全面、深人地了解销售情况, 为企业的管理和决策提供有力依据。

摘要：开发了三层C/S模式的基于OLAP的零售业销售分析系统, 系统能够对多维数据集中的数据进行更新, 能够实现对多维数据集的切片、切块、钻取及聚合分析, 为决策者制定科学合理的销售决策计划提供了有力依据。

关键词：销售分析,OLAP,多维数据集

参考文献

[1]武彦峰, 朱仲英.基于DTS组件的数据仓库的数据抽取工具的设计与实现[J].微型电脑应用, 2004, 20 (3) :1-4.

[2]沈兆阳.Microsoft SQL Server 2000 OLAP解决方案——数据仓库与Analysis Services[M].北京:清华大学出版社, 2001.

OLAP分析第6篇

关键词：数据仓库,OLAP,话务分析,Web展示

近年来, 电信市场竞争日益激烈, 行业发展面临着新的机遇和挑战。2008年, 我国对电信业实施了大规模的重组, 形成了三家电信运营商的鼎足之势。必将使竞争更加激烈。与此同时, 客户对电信服务质量的要求越来越高, 用户规模庞大, 并且目前通信网络中各种网元设备类型多, 系统版本多, 涉及厂家多, 网络结构复杂。这些都给通信网络的运行管理增加了一定的难度。改组以后, 现有网管系统已经难以满足新形势的业务需求, 主要表现在: (1) 专业网管历史数据堆积, 数据价值等待发掘, 网管数据仍然分散在各个不同的子系统当中, 难以形成统一运营信息视图, 急需集成共享。 (2) 满足一线运维人员需求的同时, 还需满足战术层、战略层等各种角色用户的需求。 (3) 缺乏对运营信息的有效分析和全面掌控, 无法有效地提供个性化、差异化的服务。

因此需要建立一套综合的话务数据分析系统, 整合现有各专业网管中的数据, 充分利用运营商积累的丰富经验和宝贵数据, 为其提供各种强有力的分析手段, 从海量数据中发现有用的信息, 为网络建设和维护提供有用信息, 为网络运营决策提供支持。

1 数据仓库与OLAP技术

1.1 数据仓库技术

数据仓库的概念首先由W.H.Inmon提出的, 他把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的数据集合, 用于支持决策管理”[1]。数据仓库功能强大的一个原因是它能够集成来自不同数据源的数据。这种集成能力意味着可以利用数据仓库以一个统一的视图来合并系统内的不同数据。

数据仓库的最根本特点是存放海量数据, 而且这些数据并不是最新的、专有的, 而是来源于其它数据库的。数据仓库的建立并不是要取代数据库, 它是建立在一个较全面和完善的信息应用基础上的, 用于支持高层决策分析[2]。数据仓库是数据库技术的一种新的应用, 相对于操作型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。

1.2 联机分析 (OLAP) 技术

联机分析技术OLAP (On-Line Analytical Processing) 是与数据仓库技术相伴而发展起来的, 作为分析和处理数据仓库中的海量数据的有效手段, 它弥补了数据仓库直接支持多维数据展示方面的不足。

OLAP能够使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取, 从而获得对数据的更深入了解[3] 。OLAP的技术核心是“维”这个概念。维实际上是人们观察数据的角度, 是考虑问题时的一类属性。同一个问题, 可以从不同维进行观察分析。可以通过这些维度建立数据立方体 (Cube) , 也叫多维数据集。这是进行OLAP分析的基础。

OLAP多维分析操作包括切片、切块、钻取、旋转等基本操作手段。切片或切块的操作可以降低多维数据集的维度, 将注意力集中在较少的维度上进行观察。钻取是改变维的层次, 变换数据分析的粒度。旋转是改变维度的位置关系, 如行列互换[4]。通过这些操作可以对多维数据集进行深入研究, 从而达到从多个角度、多个细节分析数据的目的。

2 系统设计

考虑到系统应该具有开放性、易于扩展和管理以及使用方便等特性, 系统采用前端数据采集层、SQL SERVER数据仓库和用户终端三层体系结构。数据采集层将各网管系统数据库中的原始业务数据进行ETL处理后存放于数据仓库中, 在数据仓库中建立多维数据集, 用户可以通过Web 浏览器访问多维数据集, 完成所需的OLAP分析操作。

某电信运营商现有的话务网管系统主要有固话网管系统, 信令网管系统和C网网管系统。数据仓库将各网管中的数据做相应处理后集成汇总, 作为数据分析的基础。OLAP能够实现从不同的角度观察和理解数据, 找出网络中存在有价值信息, 并通过Web方式展现出来。

2.1 数据建模

数据建模是解决数据仓库中如何组织数据的问题。维度建模是数据仓库建设过程中的重要数据建模方法。在维度建模中按照事实表和维表来构建数据仓库。数据仓库是面向主题的, 通过对数据源中原有数据进行分析, 确定要建立的主题, 然后按主题进行维度建模, 创建事实表和维度表。以C网话务数据为例, 将一类网元 (如MSC, BSC, HLR, CELL等) 的数据存在一张表里, 因此我们以网元为主题建立数据模型。

由一个事实表和一组维度表构建雪花模型。事实表包含的有关网元的各种业务数据, 维表用来描述事实表中的数据的属性。事实表和主维表通过外键关联。确定数据模型之后, 就可以在数据仓库中根据模型设计创建相应的事实表和维度表。

2.2 数据集成

数据集成是是数据仓库系统的重要组成部分。ETL (Extract, Transform, Load, 即抽取、转换、加载) 是企业数据集成的主要解决方案。通过ETL工具将C网话务网管数据、固网话务数据、信令数据等集成到数据仓库中, 图1是ETL的体系结构。

SQL Server 2008的数据转换服务SSIS是用于生成企业级数据集成和数据转换解决方案的平台。通过 Business Intelligence Development Studio 中的SSIS 图形设计器设计ETL包, 通过调用ETL包将各网管数据库中的数据采集到数到据仓库的事实表和维表中[5]。

2.2.1 数据的增量抽取

数据仓库的数据来自各网管数据库, 如何及时准确地追加数据是保证数据仓库数据质量的关键。网管数据库中的数据都包含时间字段, 因此我们可以利用时间戳方法来解决数据仓库中数据追加的问题。即对时间字段的进行比较, 正确地插入新增数据。为了防止源数据库数据因故未能及时采集数据, 出现数据漏采现象, 在设置采集方案时, 设定每天定时采集前三天的数据, 重复采集, 提高数据的完整性和准确性。

2.2.2 渐变维的处理方法

随着通信技术的不断发展, 为了优化和扩容网络, 网元割接的情况时有发生, 因此网元维就发生了变化。变化是相对缓慢的, 所以称为渐变维。

对于渐变维, 有三种解决方案:

(1) 覆盖当前记录, 不保留历史记录。

(2) 保留历史记录, 增加新的记录。

(3) 保留旧记录, 增加新字段记录变化值。

根据网管数据库的特点, 采用第二种解决方案, 即保留原来的信息, 将割接后的网元的所属关系作为一个新的记录插入到维表中;并在维表中加入开始时间字段和结束时间字段, 开始时间表明网元的启用时间, 结束时间表明网元的停用时间, 结束时间为空则说明网元仍在使用。

2.3 创建多维数据集

将原始的业务数据装载到数据仓库中之后, 就为分析决策打下了重要的基础。但是, 我们进行对数据的多维分析却不是直接针对数据仓库的, 而是从数据仓库中提取的子集, 以此建立多维数据集 (也称数据立方体Cube) 。因此在具体的OLAP分析数据之前通常要创建多维数据集。

多维数据集是二维表格的多维扩展, 数据已经过处理的并聚合成立方的形式。多维数据集通过创建Analysis Services项目来实现。将数据仓库作为数据源, 按照主题内容选定事实表和维表创建数据源视图, 在此基础上把事实表和维表聚合到一起生成多维数据集。

2.4 OLAP展示数据

多维数据集建立后, 就可以在此基础上进行各种查询分析操作。OLAP的前端展现方式运用Web技术, 采用现在较为流行的B/S (Browser/Server) 结构。客户端只需利用浏览器而无需其他终端软件就可以浏览丰富多彩的信息。客户端零维护, 系统扩展容易。

用户在Web浏览器上发出请求, 通过HTTP链接至Web服务器, Web服务器则将请求解析成MDX语句, 并通过ADOMD.NET和OLAP服务器建立连接。通过查询多维数据集将结果返回给Web服务器, 最终由Web服务器传送到用户浏览器上。用户访问基于Web的数据仓库可以是跨部门, 跨区域的, 不同的用户权限会有所不同, 所能浏览的信息也不同。系统在Web上的总体设计如图 2所示。

3 系统应用

通过ETL过程把各网管数据库中大量的业务数据进行清理、抽取和转换, 汇总到数据仓库中, 并按主题的需要重新进行组织, 长期保存。在数据仓库的支持下, 以OLAP技术为手段, 通过建立多维数据集, 实现对数据的灵活动态分析。

3.1 首页呈现

首页为管理人员和网络维护人员提供统一的信息视图, 比较全面了解网络发展和运行状况信息。通过WEB页面的方式向省/地市分公司管理层等相关部门发布前一天移动网络运行的主要信息, 及时了解整个网络的整体运行情况。对各地市系统前一天的运行情况进行量化考核打分和排名, 以及呈现各地市的无线接通率和交换接通率, 了解各地区的整体运行情况。对于得分较低及接通率较低的地市用红色标记, 督促查找原因, 保证网络运行良好。对于公司较为关心的重要指标, 如A接口话务量、业务信道话务量、VLR开机用户数和HLR生成用户数等, 呈现本月和上月的趋势曲线进行观察和对比, 了解公司的话务总量及用户的规模变化, 为公司经营决策提供依据。系统首页如图3所示。

3.2 网络状况分析

由于将各网管数据进行了集中管理, 可以对公司的整个通信网络概况有更全面的了解。为管理者和分析人员提供统一的信息视图, 通过监控和查看重要的网络业务负荷和网络性能指标来实现对整个网络状况进行监控, 观察和分析。根据指标的意义将指标归类, 分为网络发展、网络质量和网络负荷三部分, 各部分包括具体的KPI指标。

从网络运营宏观分析C网、固网重要KPI指标, 便于用户全方位查看KPI指标的波动情况对比情况。能够实现不同时间粒度、不同地域粒度, KPI指标的同比分析、分布分析、环比分析、24小时趋势分析。

3.3 专题分析

专题分析是根据用户的要求, 将用户关心的KPI指标分成各个分析专题, 如考核指标专题、话务量分析专题、系统性能指标专题、网络负荷专题、CDR业务专题等, 便于分析人员根据通信网络的某些指标, 有针对性的对网络的运营情况进行观察分析, 找出网络存在的问题和隐患, 为网络优化和发展提供决策支持。

3.4 自定义分析

自定义分析能够给分析人员极大的灵活性, 能够进行有针对性的深入分析。选定分析专题, 根据需要方便地设定观察指标和维度, 可以帮助分析人员从不同的角度跟灵活的观察数据, 便于发现存在的问题。例如, 某一时段发现有某个指标的数据不正常, 通过自定义分析对这个指标进行深入分析, 通过OLAP的下钻上钻操作, 找出问题发生在哪一层次上 (MSC、BSC、基站或小区等) , 便于维护人员查找问题。

同时系统还提供报表服务, 为报表分析人员、网优人员、监控人员、维护人员等提供有关C网和固网的相关指标报表。

4 结束语

随着电信业竞争的加剧, 电信运维必将走向集中监控、集中维护、集中管理的格局。逐步实现对各专业网络进行集中监控、综合分析等, 使得网络管理机构相对集中, 减少管理层次, 实现网络快速的指挥调度。

话务综合分析系统运用数据仓库技术将各专业网管的数据有效集成和管理, 解决了数据分散和历史数据堆积的问题;利用OLAP技术进行灵活深入的查询分析, 并通过WEB应用连接多维数据集将查询结果展现出来, 满足多层次用户灵活的多视角的网络和业务分析需求。辅助领导层进行网络维护决策, 提高网络业务管理水平, 提升网络运行质量, 提高客户满意度。

参考文献

[1]陈志柏.数据仓库与数据挖掘[M].北京:清华大学出版社, 2009:3-5.

[2]祖巧红, 高海耀, 王慧.基于数据仓库的在线分析及其多维可视化研究[J].武汉理工大学学报, 2009, 31 (18) :108-111.

[3]P lattnerH.A common database approach for OLTP and OLAP usingan in-m emory column database[C].Proceed ings of the 35 th ACMSIGMOD International Conference on Managem ent of Data.USA, 2009.

[4]樊同科.OLAP在电信数据仓库中的设计与实现[J].电子设计工程, 2009, 17 (10) :114-115.

OLAP分析第7篇

随着自动化技术的不断提高,尤其是实时/历史数据库在生产中的广泛应用,使得生产过程中产生的大量数据被保存到实时/历史数据库中。对于电站机组而言,这些数据能够反映电站机组生产过程的运行规律:故障诊断[1,2]、设备维修[3,4]、优化运行[5,6]以及负荷预测[7,8]等。但由于受到知识和技术的限制,绝大数电站机组无法从时间和空间意义上深层次地理解并有效地利用这些数据,使其中含有的许多规律、有用信息被“冻结”,尤其给领导决策层提供有效决策信息更显得无能为力了。因此通过分析电站机组中的数据,能够给电站机组高层管理人员提供决策信息成为了一项非常有意义的研究课题。

商业智能(Business Intelligence,BI)系统中,数据仓库、OLAP等技术可以对商业数据进行分析、统计,得到汇总的数据报表,进而帮助管理人员快速地进行商业决策[9-10]。这在商业销售、医疗、保险等领域中已经得到了广泛的应用。目前,商业智能在电站机组中的应用较少,本文则是把这项技术引入到电站机组的实际运行过程中,通过建立数据仓库和OLAP汇总展示提取蕴涵在电厂生产数据库中的深层次信息,帮助电站管理人员找到安全稳定运行情况下提高优化运行的决策战略,使电站机组运行更安全、更可靠,实现节能减耗的最终目的。

2 电厂机组OLAP系统的设计

2.1 电厂机组OLAP系统结构

如图1,电站机组OLAP系统结构包括:电站机组数据ETL处理过程、电站机组数据服务器、分析服务器以及客户机。其中,ETL就是把实时/历史数据库的数据进行抽取、转换、加载形成有主题的数据仓库。数据源就是实时/历史数据库,一般常用的有:e Dna、PI、i H、Vestore等。其数据服务器就是存储经ETL转化得来的数据仓库中的数据。分析服务器是由OLAP和Web服务器组成。OLAP服务器是支持和管理多维数据结构的数据处理引擎。Web服务器专门用来提交用户请求或向用户浏览器发送处理结果以供浏览。客户机就是浏览电厂机组数据仓库多维数据集展现查询结果。

2.2 电站机组数据仓库的主题设计

建立数据仓库,首先明确的是数据仓库建立的目的,它是解决什么问题的即主题的确立。根据电厂机组目前的需要,建立以下主题并作已详细介绍。

(1)经济性主题

经济性主题的建立就是为了有效控制和降低生产成本,提高企业经济效益。具体的任务就是:降低煤耗、提高锅炉效率、降低厂用电率、降低机组热耗量及热耗率等。例如煤耗情况:生成在某一时间段的同一种工况下煤耗情况的报表,找出最优煤耗值,然后其他煤耗值情况跟最优煤耗值进行比较,找出具体影响煤耗的因素,然后按照最优煤耗值的情况进行对其它情况进行相应参数的调整,朝着最优的趋势逼近。以此来达到降低煤耗的目的。

电厂机组运行非常复杂,关于经济性指标也非常多主要的指标如下:发电煤耗、供电煤耗、厂用电率、机组热耗量、机组热耗率、机组汽耗率、机组热效率、循环热效率等。

(2)安全性主题

安全性是一切生产的基础,只有在此前提下别的工序才能有条不紊的进行。分析生产出现事故时,主要影响安全生产指标的变化情况。在下次运行安全指标出现异常时,充分掌握设备的状况和运行趋势,指导运行人员进行有效调控。

主要指标:负荷率、运行小时、备用小时、计划停运小时、非计停小时、将出力等效停运小时、等效可用系数、等效强迫停运率。

(3)环保性主题

大量地燃烧煤炭会对环境造成极大破坏。火电发电排放的粉尘及有害气体(SO2、NOX、COX)使电厂被称为“环境杀手”。而国家一再强调,要切实加大节能环保投入,认真落实节能减排责任制。突出抓好节能减排重点工程建设,努力实现节能减排目标。电厂机组的环保工作义不容辞。

主要指标:SO2排放浓度、脱硫效率等。

2.3 电厂机组数据仓库的建立

这里以经济性主题为例,介绍电厂机组数据仓库的建立。

(1)维度的选取

维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。不同的主题需要,选择的所需要的维度不同。以机组运行经济性为主题的数据仓库可选择时间维、负荷维、循环水进口温度维、煤质系数维和参数维。至于是否选取的合理要看OLAP的结果来衡量。

(2)维度的层次

维的层次是观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面。例如这里时间分为日、月、季度、年不同的时间层次来观察对象。图1中负荷小类是按照满负荷的5%,负荷大类是按照满负荷的10%划分的。煤质系数和循环水进口温度也是如此划分的。而报表显示的是百分比的样式例如:F100就代表负荷是100%的情况。图2是以电厂机组经济性为主题的数据仓库多维结构图。

3. 实例

以唐山盘山电厂2005年9月的数据进行分析,其中机组容量600MW。图3展示的是机组在负荷工况条件下,发电标准煤耗率的最优值情况的一个报表。从图中可以看出不同负荷段煤耗最优的情况。例如F100煤耗最优值为302.7929g/KW.h,当同为F100的情况下煤耗值没有达到最优,就通过最优值情况下机组运行参数值为标准进行相应的调试已达到降低煤耗的效果。从表中也看以看出负荷值越大煤耗就越小。

对上报表进行钻取操作,就会得到在负荷、循环水进口温度和煤质系数全工况运行下的一个煤耗最优值报表情况。按照这三个参数划分的全工况就更详细分析就更有意义,从图4中分析知道:以2005年9月全工况F100X100M15,工作在这一全工况下的一共有10条记录。发电标准煤耗率最小的为312.4304g/KW.h,最大的为323.0559g/KW.h。相差10.6225已经很大了也就是提高经济性的空间还是很大的,其它记录也是如此,只要没达到最优的情况提高经济性的空间就存在。决策者根据此依据对运行的机组进行调整,来完成提高经济性的目的。

4 结束语

本文把OLAP技术引入到电站机组中,然后对建立机组数据仓库进行了探讨。最后又举了一个OLAP在电厂机组运行经济性决策支持的实例。OLAP技术的引入,将更有利于电站机组的安全经济运行,为决策提供更有力的科学依据。

摘要：随着实时/历史数据库在电厂中的广泛应用,海量的生产数据得到长期地在线保存,如何分析这些数据所蕴含生产过程的运行规律,对于提高生产管理及决策水平具有重要意义。本文首先给出了电站机组联机分析处理(On-Line Analysis Processing,简称OLAP)系统结构,然后对电站运行机组的经济性、安全性、环保性主题进行设计;以经济性分析为例,给出了经济性工况分析主题数据仓库的建立、利用OLAP技术进行多维分析的实例。实例表明,利用OLAP技术能有效地展示数据间的关系,反映过程的运行状况及运行规律。

关键词：OLAP,决策支持,数据仓库,电站机组

参考文献

[1]来五星,轩建平,史铁林,杨叔子.分布式监测诊断系统中历史数据库系统开发的设计[J].振动、测试与诊断,1998,18(2):129-133.

[2]张双全,袁晓辉.水电机组在线监测技术与故障诊断专家系统[J].水力发电,2003,29(7):43-45.

[3]王建梅,蔡锴,胡念苏,杨俊.史君宁汽轮机计算机维修管理系统的设计与运行管理操作[J].热力发电,2008,37(11):76-79.

[4]刘振祥.设备状态维修数据库系统的研究与设计[J].汽轮机技术,2002,44(6):324-326.

[5]陈兵,李俊娥,聂剑平,田强.电厂实时监控信息系统的设计与应用[J].电力系统自动化,2003,27(8):81-83.

[6]刘吉臻,牛成林,李建强,于希宁.锅炉经济性分析及最优氧量的确定[J].动力工程,2009,29(3):245-249.

[7]庞松岭,刘岱,曹杰.基于MapInfo和VB的空间负荷预测系统设计与实现[J].计算机应用与软件,2008,25(6):163-164,210.

[8]白迪,赵龙.数据挖掘在电力负荷预测中的应用[J].计算机与信息技术,2005,5(8:)21-23.

[9]王冬星,代保强.商业智能系统的研究与应用[J].大庆师范学院学报,2007,27(2):85-87.

OLAP分析第8篇

一、财务数据仓库设计

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库技术作为一项数据管理领域的新技术, 精髓在于针对联机分析处理 (OLAP) 提出了一种综合的解决方案, 存放了企业的整体信息, 是一种概念, 而不是一种产品。财务数据仓库对于企业的贡献在于效果, 能适时地提供高级主管最需要的决策支持信息, 利用该支持系统, 企业可以灵活地分析所有细致深入的数据, 以建立强大的财务管理决策优势。一方面, 数据仓库的数据内容、结构、粒度和其他物理设计需要根据用户的反馈信息不断地调整完善;另一方面, 应用环境发生重大变化或者新技术出现都有可能导致用户的应用需求发生重大变化, 使现有系统不能满足用户要求, 需要重新设计系统, 开始一个新的生命周期。

(一) 数据仓库的相关概念具体包括: (1) 事实表。事实表中的

一条记录代表一个度量, 一个度量事件也总是会产生一条事实表记录。每个事实表都包含与特定业务过程相关的度量, 例如接受一个订单, 显示一个网页, 打印预订单或者处理一个顾客的服务请求。 (2) 维表。维度是维表的基础, 用来描述业务的对象, 每个维度表联系着所有参与其中的业务过程, 维表的主键组成了事实表的外键。根据财务分析事实表设计的维表有时间维表、公司维表、行业维表和指标维表。 (3) 粒度。事实表中包含信息的详细程度称为粒度。粒度级越低, 细化程度越高, 一般在设计事实表的时候可以对于近期的财务数据选取细化到月的数据, 对于比较久远的历史财务数据选取细化到年的数据。 (4) 多维数据库。多维数据库就是以多维方式来组织数据, 以多维方式来显示数据。多维数据库可以直观地表现现实世界中的“一对多”和“多对多”关系, 可以通过多维视图来观察数据, 与关系数据库相比, 其优势在于可以提高数据处理速度, 加快反应时间, 提高查询效率。 (5) 多维数据立方体。OLAP中的多维数据模型将数据看作数据立方体 (data cube) 形式。数据立方体允许以多维对数据建模和观察, 多维数据模型由维和事实定义, 数据立方体结构由维表和事实表组成。多维数据立方体通常作为主要的逻辑层结构用来描述多维数据库, 是实现OLAP分析的数据对象。比如由“时间”、“上市公司”、“盈利能力”可以组成一个三维的盈利能力立方体。时间轴由每个具体的年度组成, 上市公司轴由具体的上市公司名称组成, 盈利能力由选取的指标总资产收益率、净资产收益率、销售净利率、营业利润率组成, 具体如图1所示。多维数据集是一种结构, 包含了一个或者多个度量, 还包含了由维度层次结构形成的聚合, 以及一个或者多个维度从层次结构中提取出来时所形成的聚合。在图1所示的多维数据集内, 每个度量都是三个维度的成员交叉, 比如A点描述了江西铜业在2008年的净资产收益率的值。

(二) 财务数据仓库的创建

上市公司财务数据分析系统中包括一个事实表和四个维表, 分别由指标维表、时间维表、公司维表和行业维表组成。根据指标选取的系统性、敏感性、可度量性原则选取了财务指标。指标维表由指标编号和表1中所选取的14个财务比率组成, 时间维表由时间编号、年度、半年度和季度组成。公司维表由上证50指数中选取的37家数据较齐全的上市公司编号、公司代码和公司简称组成。行业维表由行业编号和行业名称组成。

(三) OLAP技术查看财务数据方式

OLAP系统围绕构造度量、维度、层次结构和多维数据集的数据进行创建, 这样可以使用户很容易地按照需要分割组合信息, 使用多种方式查看数据。具体包括: (1) 切片和切块。在多维数据结构中, 按二维进行切片, 按三维进行切块, 可查询到所需数据, 例如, 特定年份的盈利能力构成多年数据的一个切片, 多个切片叠合起来即为切块。 (2) 旋转。旋转是改变页面显示的维方向, 比如行和列之间的交换。 (3) 钻取。钻取是改变维的层次, 变换分析的粒度, 包括向上钻取和向下钻取, 向上钻取是指由低层次向高层级数据的查看, 即维度的减少, 例如从半年度数据向年度数据的汇总;向下钻取是由高层次数据向低层次数据的查看, 即维度的增加, 例如从季度数据向半年度数据的深入。

二、利用财务数据仓库进行OLAP分析

SQL Server 2005在商业智能方面提供了三大服务和一个工具来实现系统的整合。SSAS是从数据中产生智能的关键, 通过这种服务, 可以构建数据立方 (Cube) , 也就是多维数据集, 然后进行OLAP分析。首先对OLAP的多维数据结构进行设计, 包括维度和多维数据集的设计, 然后创建维度和多维数据集, 系统采用Analysis Service做分析服务器, 最后利用SSRS展示查询数据, 实现对上市公司财务数据的分析。

(一) 生成多维数据集

多维数据集的创建建立在数据源视图的基础上, 通过设置事实表和维度表, 系统会自动检测层次结构, 这些都是和原始财务数据中的逻辑结构相符合的。完成向导后, 可以查看建立的多维数据集结构, 图2所示为多维数据集的数据源视图, 这里的视图表达出多维数据集的表间关系, 中间是事实表, 箭头所指向的是维度表。

(二) 创建报表和前端展示如果说SSAS对数据进行了相应的

分析, 创建了Cube和OLAP服务所需的数据库, 那么报表和EXCEL展示应该是属于商业智能体系中的前端展现部分, 需要使用SSRS报表服务来实现。例如查询有色金属冶炼行业2007年度盈利能力的财务指标比率, 可先选择数据仓库中的所有企业2007年度～2009年度的净资产收益率、总资产净利率、销售净利率和营业利润率, 然后在查询生成器中设置相应的查询条件, 将查询结果导入到EXCEL 2007中, 显示如图3所示的数据透视表。通过图3可以很清晰地看出, 2007年金钼股份净资产收益率最高, 企业自有资本获取收益的能力最强, 运营效率越好, 并且其他三项财务指标的比率也是最高, 说明金钼股份盈利能力很强, 且具有稳定性和持久性。这只是一个简单的展示过程, 另外财务人员可以通过设置查询条件简单、方便地调用出自己所需要的报表, 利用构造的MDX语句, 实现上钻、下钻、切块、切片、旋转等OLAP运算。在盈利能力的各项指标中, 数据透视表更形象地展示出金钼股份均优于其他公司, 因为数据的实时更新, 这样的图表更能支持财务决策的产生, 充分体现了商业智能辅助有效决策的目标。

随着国家颁布XBRL企业会计准则分类标准, 商业智能将更为广泛地应用于财务分析工作中, 另外如何将XBRL于现有的商业智能技术相结合也是会计信息化发展所需要探讨的问题。借助计算机的力量财务工作会逐步实现智能化, 实现对财务数据的整合, 实现数据的即时反馈, 从而更有效地利用现有数据资源, 为经营者的决策提供现实依据, 提高上市公司的运作效率。

参考文献

[1]张明、陈乃激:《基于财务数据分析的数据仓库模型》, 《中国管理信息化》2007年第5期。

[2]关德君:《数据仓库和OLAP技术在教学管理中的应用》, 《电脑知识与技术》2008年第7期。

OLAP分析范文

OLAP分析第1篇

OLAP分析第2篇

OLAP分析第3篇

OLAP分析第4篇

OLAP分析第5篇

OLAP分析第6篇

OLAP分析第7篇

OLAP分析第8篇

OLAP分析范文

猜你喜欢

栏目

最近更新

热门标签

OLAP分析范文

OLAP分析 第1篇

OLAP分析 第2篇

OLAP分析 第3篇

OLAP分析 第4篇

OLAP分析 第5篇

OLAP分析 第6篇

OLAP分析 第7篇

OLAP分析 第8篇

OLAP分析范文

猜你喜欢

栏目

最近更新

热门标签

OLAP分析第1篇

OLAP分析第2篇

OLAP分析第3篇

OLAP分析第4篇

OLAP分析第5篇

OLAP分析第6篇

OLAP分析第7篇

OLAP分析第8篇