成绩数据仓库范文
成绩数据仓库范文(精选10篇)
成绩数据仓库 第1篇
处理后载入数据仓库,可充分利用其中的多维数据分析技术(如OLAP)及数据挖掘工具等对仓库中数据加以智能化分析处理,从而更好地为教学管理者提供决策服务。
本文采用微软公司的Microsoft Visual Studio 2008中的Sql Server Management Studio平台来构建学生成绩仓库,采用Microsoft Sql Server 2008中的Sql Server Business Intelligence Development Studio平台工具来建立BI项目并实现多维数据集的创建、OLAP分析功能。
1 成绩数据仓库的三层建模
本文采用通用的自顶向下、逐步细化的仓库建模方式即三层建模,依次为:概念模型设计、逻辑模型设计、物理模型设计[3]。
1.1 概念模型设计
概念模型设计是一种面向全局的、较高抽象层次上的设计,该阶段主要任务是确定系统中主要主题域及其内容[4]。考虑到学生成绩特点及影响因素,该文把学生成绩分析作为主题来建立成绩数据仓库,仓库中包含学生学籍信息、课程信息、教师信息、班级信息、专业信息、系别信息、学年学期信息和学生成绩信息共八个方面的数据,将学生成绩作为关键性能指标并将除学生成绩信息以外的另外七个方面的信息作为维度数据,所有数据都分别来自学生学籍管理系统、教务管理系统和人事管理系统。
1.2 逻辑模型设计
由于本文需建立的成绩仓库的维度数并不是太多而且数据量并非很大即不会占用较多存储空间,所以针对关系模式的定义以及较高查询效率的需求,这里决定采用星型逻辑模型,如图1所示。
1.3 物理模型设计
目前由于大部分数据仓库都是基于关系型数据库而且数据的最终管理及存放都是由相应数据库系统来处理的,所以这里的物理模型设计就主要考虑关于物理数据库的一些模型设计,如数据的索引、存储及其结构等[5]。
本文设计的数据仓库的核心数据库是微软发布的SQL SERVER 2008企业版关系型数据库管理系统。对实体表的主外键均建立索引以提高响应速度。
2 数据ETL过程实现
本文采用笔者所在工作单位周口职业技术学院几年来的学生成绩相关数据作为数据源。考虑到2007年以前尚未全面启用教务管理系统、时间略显仓促及数据收集和预处理需花费大量时间、精力,所以数据源范围暂先定于信息工程系、机电系和财经系三个系的07级、08级、09级学生成绩数据。
2.1 数据的抽取及清洗
在确定了成绩仓库中事实表及各个维度表的具体结果模型之后,就需要以这些结构模型为重要参考依据分别从各自对应的业务型数据库系统中进一步抽取相关数据并经过预处理后再载入成绩仓库。
数据的清洗主要是对数据中的杂质、噪声、不一致、不规范、遗漏等情况加以处理。一般应视各自具体情况区别对待,不要一律删除。比如对于某名学生,若有少量课程成绩遗漏或出现0-100范围外的个别噪声数据则应考虑取平均成绩替代;若遗漏课程成绩门数较多(4门以上)或因学籍异动造成其数据无法有效参与比较,为保证分析的可靠性则应考虑删除。另外对于一些关于教师、课程、班级、专业维度信息数据的缺失或出现不一致的情况则进一步核实后加以填充。如有重修或补考成绩则均采用正考即首次成绩。
2.2 数据的转换
对于考查课中的“优”、“良”、“中”、“差”四个层次,为了便于统一分析,应向百分制转换。这里对应关系为:“优”-90、“良”-80、“中”-70、“差”-50。此外,对于源数据表中各属性名、类型及长度都要统一设置并与成绩仓库中对应的维度表及事实表保持一致。
2.3 数据的加载
上述各环节工作处理完毕后,接下来就是最后一步即数据的加载。首先在Sql Server 2008 Management Studio环境下建立一个名为“Student MA”的数据库,然后利用Sql Server中的数据导入功能将已整理好的8个数据表导入到新建的数据库中,如图2所示。在载入目标成绩数据仓库数据库后,还需根据星型逻辑结构和物理结构的具体设计来设置好各表主/外键并为其建立相应索引。
3 多维数据集的创建及OLAP技术的应用
3.1 多维数据集的创建
进入Sql Server 2008 Business Intelligence Development Studio集成环境后,新建一个名为“学生成绩多维分析”的Analysis Service即SSAS项目,然后使用“解决方案资源管理器”来分别创建项目的“数据源”、“数据源视图”、“多维数据集”。其中“数据源”所对应的连接字符串代码为:
另外,为了满足决策分析的需要,还需要再通过添加“平均成绩”计算成员来新增度量值,新建的“平均成绩”计算变量(avgScore)所对应的MDX语句为:
CREATE MEMBER CURRENTCUBE.[Measures].avg Score AS round([Measures].[Score]/[Measures].[Score计数],0),VISIBLE=1;
创建后的多维数据集视图如图3所示。
最后,对SSAS项目“学生成绩多维分析”加以部署和处理操作,部署并处理成功的结果如图4所示。
3.2 多维分析及OLAP技术的应用实现
首先可利用SSAS自带的“浏览器”功能进行多维分析和OLAP操作[6]。在“浏览器”界面中,可根据用户的OLAP处理要求来对创建的CUBE加以自由组合其中的维度,只需将左侧窗口界面中的目标对象如维度、维度成员、度量值成员等直接拖动到窗口右侧的显示区域相应位置后即可查看OLAP处理结果。如果要进行数据筛选则需要将筛选条件所涉及到的相应维度名或其成员值拖放到右侧窗口上方的筛选字段指定区域。如图5所示。
另外,由于Microsoft Excel 2007全面支持Sql Server2008的SSAS服务,目前其作为微软前端展现工具中的一个重要组件已在商业智能方面得到了较为广泛的应用[7]。Excel 2007中的数据透视表和数据透视图可直接访问SSAS项目中对应多维数据集,这样就不必开发应用程序即可快速而灵活地生成各种图表及报表。因此可利用该组件来进行多维分析并展现分析结果。
下面通过Excel 2007中的数据透视表来进行多维分析。可在透视表窗口任意组合一些度量值和维度,直接拖动到EXCEL表格模型的相应行列中即可自动生成所需表格数据。如果想以数据透视图方式来展示数据则只需点击工具栏中的柱状小图标即可立即生成对应的透视图。在某些情况下,透视图的显示效果要比透视表会更加直观,如图6、7、8所示。
其中图6为教师、课程、班级所有学年学期信息的汇总显示,细节区域内容为班级人数和平均分;图7为信息工程系建筑设计技术专业在2009年第二学期教师、课程、班级及平均分信息汇总显示;图8为信息工程系道路桥梁工程技术专业在所有学年学期的教师、课程、班级及平均分信息汇总显示。
4 结束语
本文利用Sql Server 2008 Management Studio及Sql Server 2008 BI平台成功构建了学生成绩数据仓库并建立了数据集市,然后进行了OLAP即联机分析处理,最后利用Microsoft Excel 2007前台工具中的数据透视表及数据透视图组件对OLAP分析结果进行了直观展示,为管理者进行科学决策分析提供了重要决策依据。另外,增加数据仓库中的成绩数据量以及对成绩仓库中的数据进行深入挖掘分析将是笔者下一步主要研究内容。
摘要:针对存储在事务型数据库中大量学生成绩数据的彼此分散、不一致及各自独立等现状,利用Sql Server 2008 BI商业智能平台及三层建模方式建立了面向分析型学生成绩数据仓库。通过多维数据集的创建、OLAP分析以及EXCEL 2007前台工具中的数据透视表和数据透视图对OLAP分析结果的展示,为教学管理者在决策分析、教学工作趋势的预测及管理措施的制定等方面提供了有力支持。
关键词:成绩数据仓库,OLAP,多维数据集,数据透视表,数据透视图
参考文献
[1]魏丽,王雁苓.高校学生成绩分析数据仓库的建立[J].吉林省教育学院学报,2010(6):42-43.
[2]Jiawei Han,Micheline Kamber.范明,等,译.数据挖掘概念与技术[M].北京:机械工业出版社,2007.
[3]罗跃国.高校教务系统数据仓库的建模及应用[J].长江大学学报:自然科学版,2009(3):235-237.
[4]王丽珍,周丽华.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.
[5]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
[6]黄兴荣,李昌领.基于SQL Server2005的数据挖掘的研究[J].计算机与现代化,2010(5):195-198.
数据仓库与数据挖掘学习心得. 第2篇
通过数据仓库与数据挖掘的这门课的学习,掌握了数据仓库与数据挖掘的一些基础知识和基本概念,了解了数据仓库与数据库的区别。下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。
《浅谈数据仓库与数据挖掘》这篇论文主要是介绍数据仓库与数据挖掘的的一些基本概念。数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。主题是数据数据归类的标准,每个主题对应一个客观分析的领域,他可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据极少更新的。数据仓库内的数据时间一般为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大。
数据仓库的特点如下:
1、数据仓库是面向主题的;
2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;
3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,它在商业领域取得了巨大的成功。
作为一个系统,数据仓库至少包括3个基本的功能部分:数据获取:数据存储和管理;信息访问。
数据挖掘的定义:数据挖掘从技术上来说是从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。
数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的的关系,从而服务于决策。数据挖掘的主要任务有广义知识;分类和预测;关联分析;聚类。
《数据仓库与数据挖掘技术在金融信息化中的应用》论文主要通过介绍数据额仓库与数据挖掘的起源、定义以及特征的等方面的介绍引出其在金融信息化中的应用。在金融信息化的应用方面,金融机构利用信息技术从过去积累的、海量的、以不同形式存储的数据资料里提取隐藏着的许多
重要信息,并对它们进行高层次的分析,发现和挖掘出这些数据间的整体特征描述及发展趋势预测,找出对决策有价值的信息,以防范银行的经营风险、实现银行科技管理及银行科学决策。
如何建设数据仓库 第3篇
2008年,四川销售公司完成了ERP系统在全公司的全面推广,不仅实现了销售“一体化”管控,而且实现了财务业务无缝集成及物流、资金流、信息流的三流合一。2009年加油站管理系统在四川销售公司1400余座加油站部署实施,对加油站的采购、销售、结算、库存、客户、加油卡等进行全面的专业性管理,控制了零售业务的每一个环节,优化业务流程,提高运行效率和管理水平。2011年二次配送系统和油库系统在全公司推广运用,实现对油品品种、运输路径、运输车辆、油站库存、配送时间的统筹安排和优化,并对配送过程进行跟踪与监控,提高了配送效率和管理水平。2012年以ERP为核心的五大信息系统全面集成,油库、加油站、二次配送和ERP系统实现了信息数据自动流转,减少人为干预,提高了数据的准确性。2013年,销售应用集成系统将在四川销售公司试点运用,实现与各销售信息系统管理者视图的集成。
四川销售公司的各个信息系统几乎覆盖了公司的各项经营和管理的方方面面,这些业务操作型信息系统的上马和推广运用,不仅实现公司各个层面的管控信息化,而且为数据仓库建设提供了大量的历史数据源。
建设省级数据仓库的意义
四川销售公司建设省级公司的数据仓库是对中石油总部数据仓库数据支持功能的补充和完善,有利于提高信息系统数据利用效率,弥补总部数据仓库无法满足四川销售公司对精细化管理等方面信息数据挖掘利用需求的缺陷。
总部数据仓库“脏数据”过多。由于总部数据仓库涉及面广,涵盖了整个中国石油的勘探与生产、天然气与管道、炼油与销售、化工与销售和其他部分,因而数据非常庞大。假设仅仅以全国32家销售公司的数据在一起建立一个数据仓库,那么对于四川销售公司来说,不仅其他板块的数据甚至其他销售公司的大量数据基本上为“脏数据”(按32家来计算,96.8%的数据为脏数据)。大量的“脏数据”不仅牺牲了分析的效率,而且降低了分析质量。
总部数据仓库的数据粒度级过粗,无法满足四川销售公司个性化分析需求。全国中石油旗下加油站每日产生的可以作为客户分析价值高的卡交易记录,每日总共可达13亿条,平均每月记录过亿,所以在总部级数据上无法提供卡客户低粒度级的分析。在交易明细记录上,每年的记录数预计高达53亿条以上,在上亿条记录的数据库中做任何统计计算几乎都是要命的事,所以要总部数据仓库提供“购物篮分析”之类细粒度级的数据挖掘功能是不可行的。
总部级的数据仓库的主要服务对象不是销售公司一般管理者(特别是二级公司级以下的管理者)。总部级数据仓库对四川销售公司来说,还达不到提升管理和精细化管理的要求。2013年中石油总部推广运用的销售应用集成系统主要运用对象是销售公司、地区公司和地市公司的领导,提供日常办公、业务数据查询分析、业务决策、舆情监控和应急指挥等功能;而对于需要大量数据进行分析、挖掘的一般管理人员缺乏分析工具和支持。
数据仓库设计思路
建立四川销售公司的数据仓库不仅是总部数据仓库数据支持功能的补充和完善,而且是四川销售公司整合自行开发各类辅助管理信息系统,新增数据挖据分析、商务智能等需求的核心和基石。近年来,四川销售公司为了满足自身管理提升需要,陆续开发了加油站辅助管理系统、油库辅助管理系统、商品管理辅助管理系统、非油辅助管理系统等诸多管理系统。然而这些系统都相互孤立,信息数据没有集成共享,大部分数据靠人工干预,不仅大大增加了工作量,而且各类信息数据的完整性、正确性和及时性大打折扣,信息数据共享和挖掘功能无法真正发挥。“顶层设计”的总部数据仓库的数据主要来源于五大系统,虽然确保了不同销售企业执行同一管理标准,为系统顺利集成、统一应用、科学评价奠定了基础,但是无法满足因地区和管理差异而新增的个性需求。特别是涉及到与四川本地相关的数据上,总部数据仓库几乎是空白。例如分析四川销售公司及其各个二级的销售总量、增幅与四川省及其对应地市GDP的总量、增速、能耗的关系时,总部级数据仓库是无法提供的。如果四川销售公司有自己的数据仓库,就可以把四川省及其对应地市GDP的相关数据作为外部数据源进行采集分析。再如需要分析路网建设、竞争对手网点布局对公司自身销售的影响时,必须要有独立的数据仓库,才能快速地得到量化的、科学的分析结果。有了数据仓库,商务智能才成为可能。没有数据仓库,商务智能只能是一个理论。
综合上述多方考虑,结合中国石油四川内江销售公司的研究成果、业务经营管理现状和前期需求调研分析,四川销售公司的主题需求可分为油品销售分析、非油品销售分析、卡客户分析、商品管理分析、加油站配送分析、财务分析、人力资源分析和市场分析八个主题。根据四川销售公司信息系统运用状况,数据源将涉及内部信息系统的有ERP、HOS、FMIS、油库、二配、加油站管理等,其中市场分析涉及外部数据的采集。
数据仓库系统接口设计
将数据放置在数据仓库中既是建设的难点,也是起点。一般数据集成和转换的过程需要花费约整个数据仓库建设80%的开发资源。由于ERP、HOS、油库、FMIS等操作型系统是总部统一开发设计,接口的最佳方式是总部能够提供对应的数据接口。但是由于“顶层设计”需要,总部没有开放相关数据接口。如何建立ERP等系统和数据仓库之间的接口,如何构思编写ETL软件实现自动将ERP等操作系统历史数据到数据仓库中,是四川销售公司构建自己数据仓库的重点和难点,这也是数据仓库攻关的难点。
通过对当前使用的ERP等系统的调研和分析发现,对于所有系统的数据源可以分为三类。一类是有数据库访问方法的系统(例如加油站管理系统的站级系统);第二类是没有数据库访问方法的系统,但有统一的数据导出方式的系统(例如ERP、HOS、FMIS等);第三类是既没有数据库的数据源,也没有统一的数据导出方式的系统(例如外部系统数据)。第一类由于能直接访问数据库,ETL设计的重点是数据的清洗和集成;第二类有统一的数据导出方式,ETL设计的重点是数据的采集、纠错和集成;第三类只能依靠设计模版,人工统一导入相关数据。因此对不同系统数据采集接口需采用不同的方法。
nlc202309041210
数据的集成到清洗
数据集成、转换和清洗数据是提高数据集成和提高利用效率的必要步骤。数据在从操作型环境向数据仓库环境的传送过程中所经历的转换非常复杂,一是DBMS的变化,二是操作系统的变化,三是硬件体系结构的变化,四是语义的变化和编码的变化等,所以必然存在转化和清洗。在这个过程中首先要将数据集成,当数据进入仓库时,要对各个应用的不同值进行正确的译码,重新编码为合适的值;其次必须建立各个不同源字段到数据仓库字段的映射;然后还需将各个系统不同技术存储的数据必须转换到同一种技术下存储。
在数据的转换与再清洗过程中,可以将数据以一种称为“时间间隔”的方式装载进入数据仓库,操作型环境新更新的数据可以在操作型环境中停留达24小时,然后才转移到数据仓库。例如在加油站管理系统得TILLITEM(交易明细记录表)含有大量的控制类数据,我们取数主要取对应的交易序号、营业日期、油品、价格、数量、金额、折扣、支付方式、卡号、枪号、罐号、起泵、止泵等数据。
保证数据采集准确性
数据的正确性验证是提高数据仓库数据准确有效的必要措施。提高访问现有系统数据采集正确主要有五种方法:一是扫描在操作型环境中那些被打上时间戳的数据(例如采集ERP等系统的销售订单时以创建时间为准,因为创建时间是系统自动生成的时间,不能任意更改);二是只扫描增量文件(例如采集加油站管理系统的站级数据);三是对取数机制进行了程序自动纠错,对没有获取完全的数据自动重新获取;四是对后台数据载入清洗程序进行修正,增加容错机制,对数据临时变化等问题进行了日志记录;五是将有对应关系的数据采集后进行对比(例如HOS的油品销售日报与ERP系统的纯枪销售订单进行对比),这种方法相对麻烦、复杂。其纠错验证在导入数据仓库前的临时数据库里,一旦验证正确后,方才导入到数据仓库。
此外,外部数据的采集对于数据仓库的建设格外重要,因为可以在一定时间范围内将外部数据与内部数据进行比较,以便给管理者提供一个独特的视角。例如天气变化给公司销量的影响是多少,节假日对公司销量的影响是多少,各个二级公司销量与GDP总量的关系,各个二级公司销售增量与GDP增量的关系?对此,有必要针对主题需求,增加成品油价格行情,四川(各地区)天气记录,四川(各地区)GDP数据(总量、增幅、能耗等)等外部数据的录入。
细化数据粒度
数据的粒度与分区是进行数据仓库设计决策的两个最重要方面。保存所有细节数据是错误的,一是存储和处理的开销可能是个天价;二是大量数据是有效分析技术的一个障碍;三是前面做的细节分析不可复用。所以对于四川销售公司来说,采用双重粒度是非常有意义的。
根据测算,全四川省站级系统的交易明细记录表一年的总记录数超过亿条,卡交易明细记录表一年的总记录数也有千万以上。所以,必须要根据DSS(决策分析)主题需求,进行双重粒度设计和分区。例如可以对卡交易记录进行概要记录统计(例如开卡时间、总消费额、消费次数、最大消费额、最小消费额、消费品种、消费区域、最近消费时间),便于以后的卡客户的相关分析,而对交易明细进行海量存储;同时可以对数据进行分区设计,比如按照年度来分区。这样大大提高了数据近期数据的访问速度。
由于非油业务开展还处于初级阶段,预计一年的记录数据估计在几百万条,可以保存做类似“购物篮分析”的数据挖掘运用。所以需要对卡交易明细和非油交易明细进行不同粒度的设计,以尽可能低的数据粒度来满足四川销售公司DSS分析。
数据集市设计与构想
数据集市主要是针对数据仓库的主题进行设计。例如在数据仓库体系结构中将四川销售公司的主题需求分为油品销售分析、非油品销售分析、卡客户分析、商品管理分析、加油站配送分析、财务分析、人力资源分析和市场分析八个主题。其中每个主题对应一个数据集市,每个数据集市的数据来源于数据仓库。这样四川销售公司的辅助管理系统都可以从数据仓库中来获取数据,而且也可以根据后期需求不断调整。例如每次调价对四川销售公司销量的影响(上调、下调),地震对四川销售公司的销量的影响分析,卡客户购买非油货品的比例,卡客户购买非油货品中哪种商品最多,卸油时停止加油对公司的销量有多大影响,某个加油站从开业以来每天的销售数量的分析趋势图,某张加油卡在四川销售公司所有加油站的消费情况,新的激励机制出台后对公司销量的影响有多大等需求。只要对数据仓库设计时不断地完善与修正,数据做到准确、及时、完整,实现上诉需求科学量化的分析是完全可以的。 (作者单位:张中淋 中国石油内江销售公司;李亮、陈涛 中国石油四川销售公司)
高校数据仓库数据模型设计研究 第4篇
数据模型的构造是数据仓库建设过程中最关键的一步。它决定了DW所能够进行的分析类型,分析细致程度,分析的效率以及响应时间。不同的模型会导致不同的存储空间以及数据更新策略,并直接影响着DW项目的投资。
1.1 概念模型构造
构建概念模型之前必须先提到企业模型(Enterprise model,EM),企业模型并不是构建数据仓库过程中的一种数据模型,而是对企业整体数据需求的一种抽象描述。
在构造企业模型时,最常用的方法是E-R图法,以高教领域中教务部门成绩管理业务为例给出该业务的简单企业模型。首先,确实潜在实体:(1)教师:全职教师,兼职教师(2)课程:必修课程,选修课程(3)学生;第二步考虑各实体之间的联系;第三步给出E-R图;最后对E-R图进行评价及修改。有了企业模型后,进一步细化就成为概念模型,细化的过程,包括对实体进行标识,实体关系图表的细化等。
1.2 逻辑模型中关系模型的构造
高层数据模型建好之后要建立下一层逻辑模型。现阶段广泛采用的模型有两种:关系模型和多维模型。关系模型是事务性系统设计的核心数据模式也适用于数据仓库设计。关系模型一旦设计并创建后,就可以对用户表进行高效访问。
由E-R模型向关系模型的转化也是相对容易的。首先,为每个实体定义一个关系,关系的名字就是实体的名字,关系的属性就是实体的属性。然后利用规范化准则检查每个关系,并做必要的改变。使用关系模型表示联系,则要分1对1,1对多,多对多几种情况来处理。1对1联系表示起来非常直观。每个实体用一个关系表示,然后将一个关系的关键字置于另外一个关系中。1对多联系则是一个实体由一个关系表示,然后将代表父实体的关系的关键字置于子实体的关系中(父关系在“1”那一侧,子关系在“多”那一侧);多VS多联系则要分解成两个1对多联系,建立一个交叉关系,交叉关系的关键字总是其父关系的关键字组合。以上给出了由E-R模型向关系模型转化的几个要点,其它细节就不在此详述。成绩管理业务的E-R模型则可以根据转化要点稍作改动成为关系模型。
1.3 逻辑模型中多维模型的构造
多维模型方法的中心是星形连接,星形连接的表示方法以“星”为中心,周围围绕着其他数据结构,中心是一张事实表。事实表是包含大量数据值的一种结构,它的周围是维表,用来描述事实表的摸个重要方面。通常,星形连接只包含一张事实表,但在数据仓库的设计中往往有些复杂情况需要用多张事实表结合,因此形成了星形连接的一种扩展结构雪花结构。在雪花结构中,不同的事实表通过共享一个或多个公共维表连接起来。
雪花结构与星形连接本质上是相同的,它们都是由事实表,维表构成。它们之间最大的区别在于雪花结构将维表按照层次进行了规范化,因此在维度很多的情况下可以节省存储空间,并使复杂维度的层次结构清晰。但雪花结构在查询的时候可能涉及到更多的连接操作。
多维数据仓库的设计可以按四个步骤来进行:(1)选取要建模的业务处理过程。(2)定义业务处理的粒度。(3)选定用于每个事实表行的维度。(4)确定用于形成每个事实表行的数字型事实。
1.4 关系模型与多维模型的比较
相比较下,关系模型与多维模型两者之间存在很多不同。最重要的区别是在灵活性和性能方面。关系模型具有高灵活性,但是对用户来说在性能方面却不是理想的。多维模型在满足用户需求方面是非常高效的,但是灵活性不好。另一重要区别在于设计的范围不同。多维设计只能在有限的范围内进行。在这种方法中,是通过请求过程建立模型,当收集到很多请求过程时设计会被中断。也就是说,数据库设计只能在一组请求过程下得到最优化。
2. 结束语
当设计对象是整个高校全局业务时,采用关系模型更为合适,当进入到各个子部门,如高校众多业务中的成绩管理业务时,则应选择多维模型。
摘要:数据仓库设计至关重要的一步是数据模型的选择。本文阐述了在高校数据仓库设计过程中两种常用的数据模型:关系模型和多维模型。
关键词:数据仓库,数据模型,关系模型,多维模型
参考文献
[1]苏新宁.数据仓库和数据挖掘[M].清华大学出版社,2006.
怎样去宣传数据仓库?数据库教程 第5篇
主 题:怎样去宣传数据仓库?
作 者:hem
所属论坛:数据仓库
问题点数:300
回复次数:1
人气指数:6
发表时间:-9-13 16:38:32
数据仓库是 面向主题的、集成的、随时间变化的非易失的数据集合,用于支持管理层的决
策分析,
数据仓库对历史的数据做分析,以得出所分析主题的发展趋势,来支持决策层的决策分析。用于联机分析处理。
数据库 普通关系型数据库 大多用于联机事务处理,处理当前的事务、交易。
集成的例子:
就拿一家百货公司来说, 公司有好多的分公司,每个分公司有自己的日常交易纪录数据。
有真实的详细的交易历史纪录、也有月度、年度归总数据。总公司需要了解公司的运营状
况,以决定以后如何拓展业务,了解客户购物趋势,推广新产品等系列决策。试想想,如果
每个子公司将所有的历史数据都送到总公司,请问,总公司需要多少磁盘、多少资源来存储
这些数据? 总公司要这些数据干什么?总公司不需要这些详细的数据,如果子公司根据一
定的周期归总之后在送到总公司,这样一来,数据量小了,有利于分析了,
但是,这么多子
公司里面,每个公司的数据结构定义可能不相同。需要统一数据定义。
送到总公司来的数据是比较全面的。这样一来,公司可以对用户购物趋势、购物能力等主题
做一个比较全面的分析,以发掘客户、扩大公司规模。
面向主题:
通讯公司可能只是纪录用户的应收款、预付款、通话纪录、费率。如果建立一个客户主题区
域,用来纪录用户所购买的服务、用户所在地域。这个主题区域可以帮助通讯公司预测客户
增长率、客户的地域分布、客户购买服务的倾向以增加新的服务,在那些区域出售什么通讯
产品等等的决策。
随时间变化:
上面两个例子都提到这个。百货公司的记账系统、通讯公司的记账系统都是随时间变化的最
好的例子,记账系统定期归总数据,然后将归总数据不断加到数据仓库里面来,这样数据仓
库也就是随时间变化的。
非易失性的:
一般的,追加到数据仓库里面的数据是不允许更改的,它不同于联机事务处理系统,允许修改数据库纪录。这样数据仓库的数据一般不会丢失。
数据仓库有几个要点:
集成 (抽取、转换、装载) ETL
元数据 (描述数据的数据)MetaData
主题星型结构
数据仓库中 数据的查询是最重要的。 视图、索引是提高查询的选择。
浅析数据仓库与数据挖掘 第6篇
一、数据仓库
1、数据仓库概述
“数据仓库之父”William H.Inmon在90年代初提出了数据仓库概念:“一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合, 它用于对管理决策过程的支持。”
(1) 面向主题:主题是一个抽象的概念, 是在较高层次上将企业信息系统中的数据综合、归类并进行分析。在逻辑意义上, 它是对应企业中某一宏观分析领域所涉及的分析对象, 是针对某一决策问题而设置的。面向主题的数据组织方式, 就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描述, 能完整、统一地刻画各个分析对象所涉及的企业的各项数据, 以及数据之间的联系。
(2) 集成的数据:数据仓库的数据不能直接从原有数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水账, 这些数据不适合于分析处理, 在进入数据仓库之前必须经过综合、计算, 抛弃分析处理不需要的数据项, 增加一些可能涉及的外部数据。数据仓库每一个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方, 必须将这些数据转换成全局统一的定义, 消除不一致和错误的地方, 以保证数据的质量。
(3) 数据不可更新:这是指当数据被存放到数据仓库中以后, 最终用户只能通过分析工具进行查询、分析, 而不能修改其中存贮的数据。
(4) 数据随时间不断变化:数据仓库数据的不可更新是针对应用而言, 即用户进行分析处理时不对数据进行更新操作, 但不是说, 数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间变化而定期地被更新, 每隔一段固定的时间间隔后, 运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中, 而数据的过去版本仍被保留在数据仓库中。
(5) 使用数据仓库:建立数据仓库的目的是为了将企业多年来已经收集到的数据按一个统一、一致的企业级视图组织、存贮, 对这些数据进行分析, 从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有用信息, 帮助企业及时、准确地把握机会, 以求在激烈的竞争中获得更大的利益。
2、数据仓库的数据组织
数据仓库采有以下不同的组织形式:简单堆积文件组织方式, 是将每天由数据库提取并处理后的数据逐天存储起来。在定期综合文件组织方式中, 数据存储单位被分成日、周、月、季度、年等多个级别, 数据被逐一的添加到每天的数据集合中。
3、数据仓库的逻辑、物理结构
数据仓库是存储数据的一种组织形式, 它从传统数据库中获得原始数据, 先按辅助决策的主题要求形成当前基本数据层, 再按综合决策的要求形成综合数据层 (又可分为轻度综合层和高度综合层) 。
数据仓库中数据的物理存储形式有多维数据库组织形式 (空间超立方体形式) 和基于关系数据库组织形式 (由关系型事实表和维表组成) 。在数据立方体上可以进行上卷或下钻等OLAP (联机分析处理) 操作, 即对不同的数据层次进行概化或细化。
二、数据挖掘
1、概念
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的, 以及最终可理解的模式的非平凡过程。
2、数据挖掘的功能
(1) 自动预测趋势和行为:数据挖掘自动在大型数据库中寻找预测性信息, 以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
(2) 关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性, 就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。
(3) 聚类:数据库中的记录可被化分为一系列有意义的子集, 即聚类。聚类增强了人们对客观现实的认识, 是概念描述和偏差分析的先决条件。
3、概念描述
概念描述就是对某类对象的内涵进行描述, 并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述, 前者描述某类对象的共同特征, 后者描述不同类对象之间的区别。
4、偏差检测
偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
综上所述, 数据挖掘的任务就是从存放在数据库、数据仓库中的大量数据中发现有用的信息。数据仓库技术是为了有效的把数据集成到统一的环境中以提供决策型数据访问的各种技术的总称。
摘要:本文介绍了数据仓库和数据挖掘概念、数据仓库的数据组织结构及数据挖掘的功能进行了探讨。
关键词:数据仓库,数据挖掘
参考文献
[1]苏新宁, 杨建林, 江念南, 粟湘, 《数据仓库与数据挖掘》, 清华大学出版社, 2006年[1]苏新宁, 杨建林, 江念南, 粟湘, 《数据仓库与数据挖掘》, 清华大学出版社, 2006年
[2]安淑芝等《数据仓库与数据挖掘》, 清华大学出版社, 2005年[2]安淑芝等《数据仓库与数据挖掘》, 清华大学出版社, 2005年
数据仓库与数据挖掘概论 第7篇
1.1数据仓库
随着数据库技术的发展,数据仓库(Data Warehouse, DW)的概念出现了。相对一般的数据库技术而言,数据仓库是一种高层管理,高层智能,辅助决策的新型数据库技术。 通过该技术安全,平稳,有效地将分散在诸多数据库系统(Data Base System,DBS)中的数据,集成到一个公共信息平台模式下,就是从多个数据源收集数据以统一的模式的数据体形式进行存储,这是建立数据仓库的基础。
1.2数据挖掘
随着信息技术的发展,数据和信息大量出现和积累,如何从可能含有大量冗余信息中提取有用的,有价值的知识成为信息技术研究的重要问题,出现了数据挖掘技术,及其相关理论和方法用来研究这类问题。
数据挖掘可以认为是从大量的,不完全的,不规范的, 有噪声的,模糊的,随机的存放在数据库,数据仓库或其他信息体中的大量数据中挖掘有趣知识的过程中,从中提取在其中隐含的,事先不知道,又是潜在有用的,有价值的隐藏事件,并利用科学技术,进行深入分析,提取有用知识,作为进行决策时的依据的用来进行高层智能辅助决策的信息和知识的过程。
数据挖掘的概念随着科学技术的发展而发展,其内容和实践因而随之得到充实。
2数据仓库与数据挖掘的关系
2.1作用与性质关系
数据仓库与数据挖掘作为用于决策支持的新技术,发展迅速,两者相互结合,相互影响。数据仓库与数据挖掘的发展关系是融合与互动的;数据仓库和数据挖掘的建立具有不同的目的和过程。
2.1.1数据仓库与数据挖掘的融合与互动发展
数据仓库中的数据是经过预处理的,在预处理过程中已清除了原数据的不规则性,进行了数据汇总,在此基础上数据挖掘的使用只是进行进一步的预处理。数据仓库与数据挖掘的协同工作中,一方面,数据仓库因在建立数据仓库阶段就进行了预处理,迎合和简化了数据挖掘过程中的重要步骤, 提高了数据挖掘的效率和能力。另外,作为一种重要的技术, 数据挖掘技术成为数据仓库应用中的重要和相对独立的方面和工具,影响和推动着数据仓库应用和发展,数据挖掘的很多相关技术成为建立数据仓库的借鉴。
2.1.2数据仓库和数据挖掘的目的和过程不同
数据仓库是数据库技术的一个新主题,是一个存储着由整合组织作业数据库得来的数据的非常大的数据库。将作业中的数据转换成有用的策略性信息是整个数据仓库的重点, 这个转换和整合过程是建立数据仓库的最大问题和挑战。一个数据仓库应具有整合性数据(Integerate Data),详细和汇总性数据(Detailed and Summarized Data),历史数据, 解释数据等。数据仓库先行建立,数据挖掘才能有效率进行, 数据挖掘是从数据仓库找出有用信息的一种过程和技术。数据仓库为数据挖掘提供了整合后的更好,更规则,更规范, 更广泛地数据源,数据挖掘为数据仓库提供了更好的具有高层智能和高层管理的决策支持。
2.2功能关系
从功能关系方面界定,数据仓库和数据挖掘是不同的信息技术,虽然目标都是辅助决策,但只有通过数据挖掘,数据仓库才能更好地体现出辅助决策的功能和作用,否则仅仅数据仓库,尽管数据丰富而信息匮乏。另外,数据挖掘虽然不一定建立在数据仓库之上,但数据仓库却能大大提高数据挖掘的效率,因为数据仓库的建立已进行了数据整合等预处理。不必为了数据挖掘一定非得建立一个数据仓库,对数据挖掘的使用而言,数据仓库不是必需的。
2.3耦合结构关系
根据数据挖掘系统与数据库或数据仓库的耦合程度,可以将其分为不耦合、松散耦合、半紧耦合和紧密耦合4种结构耦合关系。
相对而言,不耦合是指数据挖掘中不利用数据库或数据仓库的任何功能,不耦合系统结构简单,但有不少缺点。松散耦合是指数据挖掘系统将使用数据库或数据仓库中的某些工具进行数据挖掘,然后将结果存放到文件,数据库或数据仓库或其它信息体中。半紧密耦合是指数据挖掘的一些基本原语已经在数据库或数据仓库中实现或基本实现,数据挖掘的一些功能已经在数据库,数据仓库或其它信息体中得到实现。紧密耦合是指数据挖掘系统平滑地集成到数据库或数据仓库中,这种结构是期望的,但实现起来不容易,很多问题需要进一步研究。
3数据仓库与数据挖掘的使用技术
3.1数据仓库的主要使用技术
数据仓库的使用使数据和信息在软硬件领域,Internet和企业内部网解决方案以及数据库等方面可以节省了许多的经济高效的计算资源,可以用来保存极大量的数据供分析使用,且允许使用多种数据访问技术对其进行访问。
为了解决大量数据信息的海量存储,数据仓库主要使用了并行,分区,数据压缩等技术。海量数据的存储,查询, 汇总以及记录等,需要很多操作并行进行。数据仓库采用并行技术解决大数据的海量存储,查询等具有重要现实性,并行也是数据仓库相关联的计算机软硬件环境,操作系统(OS), 数据库管理系统(DBMS),查询工具和技术的现实需求和要求,这些都可以从并行的最新成就中获益,进而从物理上和逻辑上促进数据仓库的功能实现。数据仓库的另一个重要技术是分区。分区功能使得支持大型表和索引变得更为容易, 同时从物理逻辑上提高了数据管理和查询效率和性能。数据压缩技术的引入和发展也从技术层面有力支持和促进了数据仓库的使用和发展,使大大压缩了数据仓库海量数据的存储空间。数据压缩功能降低了数据仓库环境中的磁盘系统的成本开销,而新的数据压缩技术也已经消除了压缩数据对查询性能造成的负面影响,进一步促进了数据仓库的实用性和存储便捷(方便)性,使数据压缩成为建立数据仓库的一项重要支持技术。
3.2实现数据挖掘的使用技术
相对与数据仓库而言,数据挖掘从分析方法讲主要技术及方法(算法)有分类,估计,预测,关联规则,聚类分析, 粗糙集技术,进化计算,灰色系统技术,模糊逻辑技术,人工智能技术,地理信息系统等,在对数据挖掘对象的表示方面主要有描述和可视化技术等。对于复杂的数据挖掘类型, Text、Web、图形图像、视频和音频等技术得到使用。主要使用技术,方法(算法)如下。
(1)分类(Classification),是指预测离散的分类标号,从数据中选出已经分好类的训练集,通过该训练集,建立分类模型,对于没有分类的数据进行进一步分类。分类算法根据训练集得到分类规则和模型,然后对其准确率进行测试,如果测试达到要求,就可以将其用于未见新数据的分类。
(2)估计(Estimation)与分类类似,不同于分类的是, 分类描述的是离散型变量的输出,而估值处理连续值的输出; 分类的类别是确定数目的,估值的量是不确定的。
(3)预测(Prediction),一般是通过分类或估值起作用的。
(4)关联规则(Affinity grouping or association rules)技术决定哪些事情将一起发生。在数据库中存在一类重要的可被发现的知识,若两个或多个变量之间存在某种规律性,称为关联;关联规则的目标是从交易数据,关联数据等信息载体中,查找存在于项目集合,或对象集合之间的频繁或频率模式,关联,相关性或因果等关系结构,提取有用数据信息集。关联属性挖掘较好的算法有著名的Apriori算法。
(5)聚类分析(Clustering Analysis)技术是根据事物的特征对记录分组,把相似的记录在一个聚集里,同一个聚集中的数据对象彼此相似,不同聚集中数据对象相异。要求是适用于大数据和不同的数据类型;存在并能够发现不同形状和类型的聚类;尽量少的领域知识;对噪声不敏感;模型可解释。在数据挖掘中用到的统计分析方法还有相关分析和回归分析、差异分析、因子分析、辨别分析等。
(6)粗糙集(Rough Sets)技术采用粗糙集理论,将约简技术应用在不确定数据的范化和数据挖掘,可以解决的实际问题有不确定性(不精确)数据的简化,关联性发现,决策模型,所产生的范化,以及知识发现等。
(7)神经网络方法通过对待分析数据进行学习来构造模型。
(8)公式发现对数据项进行数学运算来找到数据模型。
(9)进化计算(Evolutionary Computation,EC)技术是基于自然选择和自然遗传机制的计算方法,来设计、控制和优化人工系统,可以在承受的时间内很好的解决复杂的非线性优化问题,也可解决复杂的组合规划,整数规划等问题。
(10)灰色系统(Grey System)技术是通过对原始数据的收集与整理寻求其发展变化的规律,通过灰色数据序列建立系统反应模型或训练集来预测系统的可能变化。
(11)模糊逻辑(Fuzzy Logic)技术可以实现模糊综合判断、模糊聚类分析等多种数据挖掘模型。
(12)人工智能(Artificial Intelligence ,AI)技术包括多种技术,其中最基本的知识表示,推理,搜索在数据挖掘中都得到了体现。
(13)地理信息系统根据仓库里数据的地理位置,比较相同产品的不同地域的差异,或者相同地域不同产品的差异进行分析。
(14)描述和可视化(Description and Visualization) 是对数据挖掘结果的表示方式。
(15)对于复杂数据类型挖掘,Text、Web、图形图像、 视频和音频等技术也经常被使用。
4常见问题
4.1数据库与数据仓库
从数据库到数据仓库企业的数据处理大致分为2类:一类是操作型处理,也称为联机事务处理,主要是针对具体业务在数据库联机的日常操作;另一类是分析型处理,一般针对的是数据仓库,针对某些主题的历史数据进行分析,支持管理决策,对修改,删除等操作要求严格,或不允许。
两者具有的不同的特征,从处理性能、数据集成、数据更新、数据时限和数据综合等方面主要体现如下:
日常业务涉及频繁、简单的数据存取,因此对操作型处理的性能要求是比较高的,需要数据库能够在很短时间内做出反应,相对而言数据仓库很少进行删除等操作,保留记录以维持数据的历史沿承。企业的操作型处理通常较为分散, 传统数据库面向应用的特性使数据集成困难,而数据仓库是面向集成的。
4.2 OLAP与数据挖掘(Data Mining)的不同
OLAP(Online Analytical Process)与数据挖掘(Data Mining)主要差异在于功能和实效上,数据挖掘用在产生假设,而OLAP则用于查证假设。OLAP是使用者先有一些假设, 然后使用者主导,利用OLAP来查证假设是否成立;而数据挖掘(Data Mining)则是通过技术和方法(算法)进行数据汇总, 提供高层辅助决策功能,形成高层智能来帮助使用者产生假设。
4.3 Web Mining与数据挖掘的不同
Web Mining可单纯看作数据挖掘(Data Mining)在网络数据的应用的泛称,属于复杂的数据类型挖掘。
企业数据整合与数据仓库设计 第8篇
现今大多数企业都有多个不同部门的应用系统,但是普遍存在问题是,这些企业的应用系统不是建立于统一平台之上,数据库系统也是相互独立,甚至是异构系统,每个系统的数据都形成了一个独立的烟囱。可能每个部门数据资源已经很丰富,但是各系统之间数据不能相互连通。但要使数据发挥决策辅助作用,企业决策层组织需要看到的是一个企业跨职能部门的统一的数据联合展现和挖掘,因为单个部门的应用系统数据反映的仅仅是此部门的业务信息,而跨职能部门的数据联合分析将反映整合企业的发展状况和未来的发展趋势,所以不仅需要企业数据的纵向深入,同时也需要数据的横向联合。为了实现这一目标将对企业数据进行整合,建立统一的数据仓库。如何建立数据仓库将是本文论述内容。
数据仓库的建立首先要分析数据的主题域,确立数据可以划分为几大主题,然后选择合适的数据存储粒度,主题数据库粒度的确立与数据分析的实际需要和数据分析的可扩展度密切相关。主题和粒度确立后,选择不同切入点,进行数据维度分析,确认数据分析的不同切面,以及切面的组合。
1 主题数据库
主题数据库主要实现数据仓库支持功能。首先分析数据源可以划分为几大主题,针对主题结构建立主题数据库。每个主题数据库中可以划分域。
2 粒度分析
确认数据库主题和域后,根据源数据构成的实际结构,以及数据分析的需求,可以确认主题数据库每个主题中数据的粒度级别。数据粒度要适中,如果粒度过大,在数据钻取过程中可能不能向下钻取到所需数据,如果粒度过细可能会存储一些不会钻取到的数据,从而加大幅度加大了数据库存储量。例如零售业主题数据的保存可以根据需要包括月数据,从而上钻到季度、年度数据,但是一般情况下不需要保存每天的数据,这样既可以达到数据分析目的,又不需要存储成倍增长的细节数据,有效规划了存储空间。
3 维度分析
对数据库的分析可以通过设计数据库维度作为分析数据的入口,数据维度从不同方面展现了数据库数据的构成。例如可以包括时间维、地区维、组织维、人员构成维等。时间维可以包括:年、季度、月等层次,通过对时间维的分析,可以展现不同时间维度内数据在时间上的变化过程。地区维可以包括区域层次,通过对地区维的数据分析可以展现不同区域内数据的分布情况。组织维可以将数据产生于的组织的进行划分,可以分析不同组织之间产生数据情况的不同。人员构成维可以从人员性别、人员年龄层、人员工作性质等多个方面来设计,通过对人员构成维来分析数据,可以分析出面对不同人群数据的构成的不同。
仍以以上4种维度进行分析,例如在零售业对于以上数据分析的利用。通过对销售量在时间维度的分析,可以得出销售额随时间的变化趋势。通过对地区维度的分析可以识别不同产品在不同地区的不同销售分布。对于组织维,在这里可以将每个零售店看作数据来源组织(其他情况统计:例如病例情况统计可以将医院看作不同病例数据的来源组织)可以分析不同零售店的销售情况。人员构成维可以细分为:人员性别维度、人员年龄层维度、人员工作性质维度等,通过人员性别维度分析可以得出不同性别人群对不同商品的需求不同;通过对人员年龄维度的分析可以得出不同年龄段的购买力不同;通过对人员工作性质的分析,可以看出不同工作的人群对不同行业所需商品的购卖种类不同。通过以上分析可以推断出零售店将如何根据时间、地域、面对的销费人群去进行商品调配,以及如何根据销售组织的销售能力进行组织的有效管理。以上仅是抛砖引玉,大型零售系统的维度将不仅仅是这些,而是通过供应商管理、订货、运输、销售、售后、库存、客户关系管理、人力资源管理等等一系列维度种类的划分,进行多方面维度分析与钻取实现数据分析,从而进行专家预测。
主题数据库建立的同时也需要进行元数据设计,元数据的建立主要是提供数据结构的描述数据,描述了数据的结构、内容、链和索引等项内容。可以划分为数据库系统元数据、主题数据元数据、TRS元数据等。
最后进行数据库的物理设计,主要包括数据存储规划、索引设计、分区设计等方面。物理设计包括了各种实体表的具体化,例如表的数据结构类型、索引策略、数据存放位置和数据存储分配等。对于数据索引的设计,需要为频繁检索的大数据表建立索引。索引的建立将大大改善数据检索的速度,但同时在数据变更的过程中也会导致数据加载时间的延长,所以要适当地建立索引。索引主要分为B-tree索引、位图索引、全局和局部索引等,不同的数据列可以根据数据类型选择不同类别的索引。对于大数据量表可以对表进行分区设计。
数据仓库在实际运行过程中其性能很大程度上决定于数据库参数的设置。以Oracle数据性能调优为例,主要包括内存调优、I/O设计、索引设计、查寻优化、SQL调整等方面。
Oracle数据库运行性能很大程度上决定于内存参数的设置。内存调优主要包括数据缓冲区、日志缓冲区、共享池、排序区等内存参数的调整。
Oracle数据库数据缓冲区主要保存存入内存准被写入磁盘的数据以及从磁盘读取的数据。当应用系统向数据库请求数据检索结果时,数据库首先访问数据缓冲区,查询此数据是否已经存在于缓冲区之中,如果存在则从内存中读取,如果不存在则需要从磁盘中读取,从内存中读取的速度将极大程度上优于从磁盘中读取的速度。在数据库运行过程中数据库管理员可以监控内存的数据命中率,如果命中率过低建议调整数据缓冲区参数,一般比较理想的数据缓冲区命中率在90%以上。
日志缓冲区保存日志信息,当日志缓冲写满后,数据库系统将把日志信息保存于重做日志文件。如果日志缓冲区设置过小,将发生频繁的日志写操作,增加I/O频率,会影响到数据库性能。
共享池主要为SQL、PLSQL、函数、触发器、包、存储过程等分析与编译、执行的内存区域。分析结果将保存于共享池,同样的SQL、PLSQL、函数、触发器、包、存储过程等请求内存,数据库系统将首先查询其是否有相同的分析结果保存于内存中,如果存在于共享池数据库将不再进行相同解析。全新的解析过程将占用SQL等运行时间的60%,所以提高共享池的命中率,同样可以有效提高数据库访问性能。
排序区主要保存数据库在排序过程中的数据,当排序区写满后系统将调用临时表空间来进行排序数据保存。适当地扩大排序区,尽量减少排序过程中对临时表空间的调用,可以有效提高数据库排序检索效率。
磁盘I/O分配也是数据库优化的一方面,在进行表空间分配时应考虑到I/O竞争问题。例如前面提到的,可以将生产数据库的读写表分离,将频繁读的数据表放置于另一表空间中,并且可以将索引存储于单独的表空间中。
4 结语
数据仓库的建立将实现对企业零散的业务数据的转化、清洗、整合过程,使数据的存储结构更加规范化,并且符合数据分析的存储要求。数据仓库的检索已不再是仅针对某一业务过程,而是站在更高层面以图形、表单、多维模型等方式展现了数据深层关联关系,实现了企业决策的深度需求。
摘要:目前企业的数据资源可能已经很丰富,但是各系统之间数据不能相互连通。企业决策层组织需要看到的是一个企业跨职能部门的统一的数据联合展现和挖掘,所以需要构建数据仓库。数据仓库的构建过程主要包括:划分主题域、进行事实表和粒度分析、维度设计、元数据设计、数据库物理设计以及性能调优。
浅析数据仓库和数据挖掘 第9篇
在90年代初, 数据仓库这个概念第一次是由数据仓库支付提出的。一般一个面向集成、主题的, 随着时间变化并且信息本身能够相对稳定的数据集合就成为一个数据仓库, 它主要用于对管理决策过程的支持。
(一) 数据仓库的类型
根据数据仓库所管理的数据类型和它们所解决的企业问题范围, 数据仓库可以分为三种类型:企业数据仓库、操作型数据仓库和数据集市。
(1) 企业数据仓库也被称为通用数据仓库, 它含有大量的详细数据信息, 也包括一些累赘的信息, 具有不易改变性和面向历史性。通常这类的数据仓库被用作对多种企业领域的战略决策。
(2) 操作型数据仓库与企业数据仓库相比较, 是面向综合的, 容易更新改变的, 可以排除历史性的数据, 只保有当前的、详细的数据。既可以被用来对工作数据进行决策支持, 也可以作为数据加载到数据仓库的过渡区域。
(3) 数据集市是针对特定的应用领域和目的, 将数据仓库中一部分数据独立出来, 也可以称为主题数据或者部门数据。几组数据集市就可以组成一个小型的企业数据仓库。
(二) 数据仓库的特性:
(1) 面向主题:主题是一个抽象的概念, 是处在一个较高层次对企业的信息系统中的数据进行归类、综合和分析。从某种逻辑意义上, 它与企业中的某一个宏观分析领域中所涉及的分析对象相对应的, 也是专门针对某一个决策问题而设置的。这种面向主题的数据组织方式, 能够在某一较高的层次上对要分析的数据对象实现一个完整又统一的描述和刻画, 对企业中各个对象所涉及的数据以及数据之间的关系有一致的描述。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析, 而不是组织机构的日常操作和事务处理。
(2) 集成的数据:数据不能够直接地从原有的数据库系统中获得。在原有的数据库系统中记录的都是每一项业务处理的流水作业账目, 这些数据并不适合用来进行分析处理, 在进入数据数据仓库之前必须要对其进行综合分析计算, 舍去冗余的数据项, 再增加一些可能会涉及的外部数据。数据仓库在原有的数据库中每个主题对应的源数据是不同的, 应当将这些数据采用统一的定义来存储和分析, 删去不一致的数据, 从而保证数据库内的信息是关于企业一致的全面信息。
(3) 非易失的数据集合:这是指当数据被存放到数据仓库中以后, 最终用户只能通过分析工具进行查询、分析, 而不能修改其中存贮的数据。数据仓库的数据主要是为企业决策分析所用, 主要的数据操作是数据查询、修改和删除操作, 一般只需要定期的进行加载刷新。事实上, 数据仓库的主要操作时初始化载入和数据访问, 因此数据相对稳定, 极少需要更新。
(4) 数据随时间不断变化:数据仓库数据的不可更新是针对应用而言, 即用户进行分析处理时不对数据进行更新操作, 但不是说, 数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间变化而定期地被更新, 每隔一段固定的时间间隔后, 运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中, 而数据的过去版本仍被保留在数据仓库中。
(5) 使用数据仓库:建立数据仓库的目的是为了将企业多年来已经收集到的数据按一个统一、一致的企业级视图组织、存贮, 对这些数据进行分析, 从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有用信息, 帮助企业及时、准确地把握机会, 以求在激烈竞争中获得更大的利益。
作为一种存储数据的组织方式, 数据仓库是具有逻辑性和物理特性的。它能够在当前传统的数据库中获取数据, 再根据相应的辅助决策主题形成基本的数据层结构, 最后根据综合决策的需要再形成综合的数据层。数据仓库采用的物理数据存储形式有空间数据库组织形式和基于关系的数据库组织形式。在数据立方体上可以对数据进行上卷等联机分析处理操作, 通俗点说就是对不同的数据层次进行了宏观化或微观化。
2 数据挖掘概述
数据挖掘, 又称为数据库中知识发现数据挖掘是一种将大量随机的、不完整的、有噪声的、模糊的数据集中识别为新颖的、潜在有用的、可被理解的模式的非平凡过程。它是一个从大量数据中抽取挖掘出未知、有价值的模式或规律等知识的复杂过程。整个知识挖掘过程是由若干挖掘步骤组成, 而数据挖掘仅仅是其中的一个主要步骤。整个知识挖掘的主要步骤有:
(1) 数据清洗:其作用就是将于挖掘主题明显无关的数据噪声清除掉。
(2) 数据集成:其作用就是将从多个数据源中汇集的相关数据组合到一起。
(3) 数据转换:其作用就是将数据转换为一种能够方便进行数据挖掘的数据存储形式。
(4) 数据挖掘:它是知识挖掘中的一个最基本步骤, 利用智能方法挖掘数据模式或法律知识。
(5) 模式评估:其作用就是按照一定评估标准在挖掘结果中找出有意义价值的模式知识。
(6) 知识表示:其作用就是利用可视化和知识表达技术, 向用户展示所挖掘的相关知识。
(一) 数据挖掘的功能特征
(1) 自动预测趋势和行为:数据挖掘摒弃了以往的采用大量手工方式分析问题的路线, 能够自动的从大型的数据库中找到预测性信息。迅速而直接的根据数据本身, 得出结论。
(2) 关联分析:数据关联是数据库中一类存在的可被发现的重要知识。假若两个或多个变量的取值之间存在某种规律性, 就可以称之为关联。关联又可分为简单关联、时序关联和因果关联。关联分析的主要目的是为了找出数据库中隐藏的关联网。
(3) 聚类:数据库中的记录可被化分为一系列有意义的子集, 就称为聚类。聚类不但增强了人们对客观现实的认识, 也是概念描述和偏差分析的先决条件。
数据挖掘和传统的数据分析是有本质的区别。数据挖掘是在没有进行明确的假设的前提下去挖掘和发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识, 甚至是违背直觉的信息或知识, 挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。
3 数据仓库的应用
当今社会, 客户关系在各种交易中所起的作用越来越重要, 在市场经济这个天平上的砝码也是越来越沉重了, 从而使得在目前竞争激烈的知识经济环境和电子商务经济模式下, 重要的信息往往可以决定企业的成败, 甚至决定企业的生死存亡。因此, 很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。如我们平时所说的飞机票订票系统、银行ATM系统、证券交易系统、期货交易系统、铁路售票系统、移动通信用户信息管理与服务系统等都是建立在大型数据库基础之上的数据仓库。
(一) 证券
证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理, 并结合行情走势, 上市公司资料、宏观微观经济数据等、在掌握大量数据的情况下, 对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析, 从而获得以往一直想获得但无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。证券商在获得这些信息后, 就有能力为客户提供针对其个人习惯、投资组合的投资建议, 从而真正做到对客户的贴心服务。
(二) 银行
随着社会主义市场经济改革的深化、传统的计划经济金融模式逐渐瓦解, 市场金融模式逐渐形成。在这个变革过程中, 由于体制、市场、企业、个体等经济要素变化、发展的不平衡性, 带来了银行对各种金融变量控制的随机性和模糊性。如何防范银行的经营风险、实现科学管理以及进行决策, 成为当今金融研究的一个重要课题。利用数据仓库的强大功能, 银行可以建立企业客户群、个人客户群的数据库, 并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织, 形成一个一体化的存储结构, 为决策分析奠定基础。通过先进的信息加工、分析、处理软件, 加上银行的经营决策、信贷营销人员的个人经验, 对每一个投资方向、每一笔贷款做出科学的判断, 可以有效控制投资、信贷风险。
(三) 税务
增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的, 要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术, 对税收部门的内部和外部数据进行综合分析处理, 可以解决三个方面的问题: (1) 查出应税未报者和瞒税漏税者, 并对其进行跟踪; (2) 对不同行业、产品和市场中纳税人的行为特性进行描述, 找出普遍规律, 谋求税务策略; (3) 对不同行业、产品和市场应收税款进行预测, 制定最有效的征收计划。数据仓库技术之所以能够查出漏税者, 其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场从业人员及企业的纳税能力, 并与其实际纳税金额进行对比, 从而查出可能的偷漏税者。
4 数据挖掘的应用
数据挖掘是近年来迅速发展起来的技术, 它主要用于构建企业的决策支持系统。
目前, 数据库技术及其应用已从关系模型发展到面向对象模型, 从单机应用发展到分布式应用, 从局域网数据库应用发展到Web数据库应用, 从联机事务处理发展到联机分析处理, 从数据库发展到数据仓库, 从数据的统计分析发展到数据挖掘。而数据挖掘的方法是建立在联机分析处理 (On Line Analytical Processing, OLAP) 的环境基础之上的。数据挖掘需要对大量数据进行反复查询操作, 关心数据存取方式的方便性与可操作性。联机分析处理和传统的联机事务处理 (On Line Transaction Pro-cessing, OLTP) 是两种性质不同的数据处理方式。OLTP主要用来完成基础业务数据的增、删、改等操作, 如订票系统、储蓄系统等等, 对响应时间要求比较高, 强调的是密集数据更新处理的性能和系统的可靠性及效率。而OLAP应用是对用户当前及历史数据进行分析、辅助领导决策, 主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。
企业内部的数据状况相对来说是比较分散的, 业务数据往往被存放在缺乏统一设计和管理的异构环境中, 不容易被综合查询访问, 而且还有大量的历史数据处于脱机状态, 不能在线集中存储查询。数据挖掘在对这些数据进行分析前, 必须对这些数据进行不同程度的整合和清理, 这是数据挖掘的首要环节, 因此, 科学的数据环境是确保数据挖掘有效和正确实施的基础和关键。需要服务于数据挖掘总体目标的数据再组织, 需要有单独的数据分析和数据处理环境。
5 数据仓库与数据挖掘的协同关系
在数据展现方面主要的方式有:查询:用于实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格, 并进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法, 从数据中得到关于数据关系和模式的知识。
数据挖掘和数据仓库的协同工作, 可以简化数据挖掘过程中的重要步骤, 提高数据挖掘的效率, 确保数据挖掘中数据来源的广泛性和完整性。数据挖掘技术已成为数据仓库应用中极为重要和相对独立的工具。数据挖掘和数据仓库是融合与互动发展的, 它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果, 如何有效而快速地存储、选取和管理数据, 确是有一套真功夫。在IT的骨架上把统计的精髓放进去, 这是对现在这个信息时代的挑战。
结语
发展数据仓库可以促进数据挖掘越来越成熟, 但是数据挖掘并不一定要有数据仓库的支持。因为数据仓库并不是数据挖掘的必要条件, 有很多数据挖掘可直接从操作数据源中挖掘信息, 而且数据挖掘仍然经常被看做是数据的后期市场产品。数据仓库平台的数据挖掘的构造具有很强的实用性, 效率很高, 节省资源。
大量数据的产生和收集导致了信息爆炸, 现代社会的竞争趋势要求对这些数据进行实时和深层次的分析。虽然现在有了更强大的存储和检索系统, 但是使用者发现在分析和使用所拥有的信息方面将变得越来越困难。数据仓库提供了容纳大量信息的场所, 但只有和数据挖掘技术的应用结合起来才能最终解决用户的困惑, 使用户能从大量繁杂的数据中找到有价值的信息和知识。随着数据挖掘和数据仓库集成的进一步深化, 必然会给用户带来更大的利益。
摘要:本文介绍了数据仓库和数据挖掘概念、数据仓库和数据挖掘的应用方式以及两者的关系进行了简要的阐述。
数据仓库和数据挖掘技术浅析 第10篇
1.1 数据仓库的概念及特性
数据仓库概念的创始人W.H.Inmon在《建立数据仓库》一书中指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合, 用以支持经营管理中的决策制定过程。“虽然还没有形成统一的定义, 但以上观点都或多或少地指出了数据仓库有以下几个特点:1.1.1面向主题:典型的主题领域 (客户;产品;交易;帐目) ;1.1.2集成的:数据提取、净化、转换、装载;1.1.3非易失的:数据仓库的数据通常是一起载入和访问的, 但并不进行一般意义上的数据更新;1.1.4随时间的变化性:数据仓库中的时间期限要远远长于操作型系统中的时间期限 (5-10年) ;数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。
1.2 数据仓库的体系结构
一个数据仓库的基本体系结构中应有几个基本组成部分:1.2.1数据源, 指为数据仓库提供最底层数据的运作数据库系统及外部数据。1.2.2监视器, 负责感知数据源发生的变化, 并按数据仓库的需求提取数据。1.2.3集成器, 将从运作数据库中提取的数据经过转换、计算、综合等操作, 并集成到数据仓库中。1.2.4数据仓库, 存贮已经按企业级视图转换的数据, 供分析处理用。1.2.5客户应用, 供用户对数据仓库中的数据进行访问查询, 并以直观的方式表示分析结果的工具。
1.3 数据仓库的开发过程
数据仓库的开发过成由以下几个步骤组成:1.3.1建立或获得企业的数据模型;1.3.2定义记录系统;1.3.3设计数据仓库并按主题领域进行组织;1.3.4设计和建立操作型环境中的记录系统和数据仓库之间的接口, 这些接口能保证数据仓库的载入工作能有序的进行;1.3.5开始载入第一个主题领域, 进入载入和反馈过程, 数据仓库中的数据在此过程中也在不断地改变。在接口中需完成的工作有:数据抽取、对来自操作型、面向应用型环境的数据的集成、数据时基的变更、数据压缩、对现存系统环境的有效扫描。
1.4 数据仓库的典型应用
数据仓库从出现开始就受到了重视, 在很多领域都可以应用, 如在税务领域可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者, 并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述, 找出普遍规律, 谋求因势利导的税务征稽策略;三是对不同行业、产品和市场应收税款进行预测, 制定最有效的征收计划。
2 数据挖掘概述
数据挖掘 (DM, Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中, 提取隐含在其中的、事先未知的、但又潜在有用的信息的过程。数据挖掘技术是面向应用的, 它不仅面向特定数据库的简单检索查询调用, 而且要对这些数据进行深入的统计、分析和推理, 发掘数据间的相互关系, 完成从业务数据到决策信息的转换。
2.1 数据挖掘的功能。
2.1.1聚类。就是将数据库中的记录划分为一系列有意义的子集, 包括传统的模式识别方法和分类学。聚类是概念描述和偏差分析的先决条件, 它增强了人们对客观现实的认识。2.1.2概念描述。就是找到描述数据的可理解模式, 并对这类数据的有关特征和内涵进行概括和描述。概念描述分为特征性描述和区别性描述, 前者偏重描述数据间的共同特征, 后者则是描述数据之间的区别。2.1.3关联分析。关联就是数据库中两个或多个数据之间存在的某种规律性, 它是一类隐含的、具有重要价值、并可发现的知识, 关联可分为简单关联、时序关联、因果关联。2.1.4趋势预测。数据挖掘自动在数据库中寻找预测性信息, 运用相关算法和技术, 分析和认识事物演变的规律性, 从已知信息推出未知信息, 从现有信息导出未来信息, 从而对事物的未来发展作出科学、合理的预测。
2.2 数据挖掘语言的分类
对于数据挖掘语言, 根据功能和侧重点不同, 我们将其分为三种类型:数据挖掘查询语言;数据挖掘建模语言;通用数据挖掘语言。
第一阶段的数据挖掘语言一般属于查询语言;PMML属于建模语言;OLE属于通用数据挖掘语言。
数据挖掘查询语言DMQL由数据挖掘原语组成, 数据挖掘原语用来定义一个数据挖掘任务。用户使用数据挖掘原语与数据挖掘系统通信, 使得知识发现更有效。
PMML主要目的是允许应用程序和联机分析处理 (OLAP) 工具能从数据挖掘系统获得模型, 而不用独自开发数据挖掘模块。
通用数据挖掘语言合并了上述两种语言的特点, 既具有定义模型的功能, 又能作为查询语言与数据挖掘系统通信, 进行交互和特殊的挖掘。
2.3 数据挖掘的技术方法。
2.3.1决策树 (Decision Tree) 。其核心是某种归纳算法, 通常是先利用训练集生成一个测试函数, 根据不同取值建立分支, 并在每个分支子集中重复建立下层结点和分支, 这样便生成一个决策树, 然后使之转化为规则, 利用这些规则可以对新事例进行分类。2.3.2神经网络。神经网络是建立在可以自学习的数学模型 (以MP模型和Hebb学习规则为主) 基础之上的, 在结构上模仿生物神经网络, 是一类非线性的、通过训练达到学习目的预测模型。2.3.3规则归纳。这是数据挖掘领域中最常用的格式, 由一连串的“如果就”这样的逻辑规则对数据进行细分, 产生一组非体系结构的条件集, 然后将该条件集用于预测新数据各项目的值。
2.4 数据挖掘的工作流程。
数据挖掘的工作流程主要由三个阶段组成:首先进行数据准备, 这个阶段又可细分为数据集成、数据选择、数据预处理三个步骤。数据集成是对多文件或多数据库运行环境中的数据实行合并处理, 解决语义二义性问题。数据选择和预分析阶段, 包括根据一定的标准对数据进行选择、删除、充实、分类等, 进一步缩小数据范围, 提高数据挖掘的质量。
然后即可进行数据挖掘, 选择合适的工具, 运用相应的算法, 在数据中发现模式和规律, 证实发现的知识。最后是结果分析和评价阶段, 将发现的模式解释成为可以用于决策的信息。当然, 以上的流程并非单向的, 若结果不能令决策者满意, 可以递归地执行上述过程。
3 数据仓库和数据挖掘的OLAP
数据仓库是管理决策分析的基础, 要有效地利用数据仓库的信息资源, 必须要有强大的工具对数据仓库中的信息进行分析决策。在线分析处理或联机分析处理就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求, 迅速、灵活地对大量数据进行复杂的查询处理, 并以直观的、容易理解的形式将查询结构提供给各类决策人员, 使他们能够迅速、准确地掌握企业的运营情况, 了解市场的需求。
OLAP技术主要有两个特点:一是在线性, 表现为对用户请求的快速响应和交互式操作, 它的实现是由客户机/服务器体系结构完成的;二是多维分析, 这也是OLAP技术的核心所在。
4 结论
通过的介绍, 我们可以认识到数据仓库和传统数据库系统有着本质的不同, 必须采用不同的研究方法。作为一个新兴的研究领域, 数据仓库的应用发展很快, 但其建设及技术具有很大的复杂性, 仍有许多领域需要深入研究。
摘要:介绍了数据仓库和数据挖掘的相关知识。包括数据仓库的概念、结构、设计以及应用, 数据挖掘的概念、技术以及在此基础之上的联机分析业务。
关键词:数据仓库,数据挖掘,联机分析
参考文献
[1]安淑芝等.数据仓库和数据挖掘[M].北京:清华大学出版社, 2005.[1]安淑芝等.数据仓库和数据挖掘[M].北京:清华大学出版社, 2005.
[2]刘爽英, 张静.基于SQL Server2000的数据仓库和数据挖掘[J].华北工学院学报, 2004, 25 (5) :322-324.[2]刘爽英, 张静.基于SQL Server2000的数据仓库和数据挖掘[J].华北工学院学报, 2004, 25 (5) :322-324.
[3]杨卫民, 谭骏珊, 汪斌.数据仓库和数据挖掘技术在DSS中的应用研究[J].计算机工程与设计, 2004, (10) :1659-1661.[3]杨卫民, 谭骏珊, 汪斌.数据仓库和数据挖掘技术在DSS中的应用研究[J].计算机工程与设计, 2004, (10) :1659-1661.
成绩数据仓库范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。


