电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

大数据分析与挖掘

来源:漫步者作者:开心麻花2026-01-071

大数据分析与挖掘(精选12篇)

大数据分析与挖掘 第1篇

一、实施数据分析的方法

正确地对数据进行分析过程已经作为大数据时代对待信息量极大的数据处理的关键性环节。即使大数据的优势较为突显, 但仍然在处理阶段存有务必解决的3大问题:大容量数据、分析速率以及多格式的数据。

1.1 Hadoop HDFS

Hadoop HDFS主要是采用流失数据询问形式进而实现容量较大文件的储存, 主要是运用在商业化硬件群体中, 而所谓的商业化硬件群体, 即是区别于低端硬件, 且相对于低端硬件群体而言其产生问题的机率是大大地降低的。Hadoop可以不用在价格较高且可信度高的硬件上运用, 即便是面对产生问题机率较高的群体, HDFS在面对问题之际仍然会采取继续运用的手法而且与此同时不会让用户发现较为突兀的间断问题, 这样的理念从本质上大大地减少了针对机器设备的维修维护费用, 特别是对于同时监管成千上万部机器设备的用户。

1.2 Hadoop的优点与不足

Hadoop是一项可以针对诸多数据实行分布型模式解决的软件架构, 与此同时其处理过程主要是依据一条可信、有效、可伸缩的途径进行的, 这点也是Hadoop所独有的优点。然而众所周知, 每样事件都不能做到完全的完美, Hadoop与其它新兴的科学技术相同, 一定的不足在实际应用过程中变得日益明显:第一, 现阶段的Hadoop针对企业内外部信息的维护、保护效用较为匮乏, 项目的设计工作人员务必选择自行手动的方式进行数据的设置, 并且这一过程较大程度上依赖设计工作人员确定相关数据信息的准确性, 形成时间浪费的局面;第二, Hadoop需求社会具备投资构建专用的计算集群, 可是这一般会容易形成单个储存、计算数据信息和储存或者CPU应用的难题, 并且这样的储存形式在其它项目上仍然会存有兼容性的难题。

二、实施数据挖掘的方法

现阶段的大数据时代常用于数据挖掘项目的方法较多, 比如分类法、回归分析法、关系规则法、Web数据挖掘法等, 本文主要是针对分类法、回归分析法、Web数据挖掘法对数据挖掘过程进行分析

1. 分类法。

分类法主要寻找规模较大的数据库当中其中一组数据的相同特质且依据划分形式把数据划分为不一样的种类, 对其实施分类的主要目的是利用划分形式, 把数据库当中的数据项目投放至特定的、规定的类型中。比如现今淘宝商店主要是依据用户最近的购买状况对用户实行相关的划分工作, 再者能够更为有效地对用户实行推荐, 进而逐渐提高淘宝店铺的销售量。

2. 回归分析法。

回归分析法主要是展现数据库当中数据信息的独有特质, 利用函数来展现相关数据间的不同联系进而察觉相关数据信息特质的依赖程度。回归分析法能够被运用至各项针对数据序列的预计与测量以及存有联系的数据探究中, 而在市场营销方面, 回归分析法能够在每一层面上有所体现。

3. Web数据挖掘法。

Web数据挖掘法主要是针对网络式数据的综合性科技, 目前在全球范围内较为常用的Web数据挖掘算法主要有Page Rank算法、HITS算法和LOGSOM算法, 以上的三种算法所涉及的用户主要是指较为笼统的用户, 没有较为鲜明的界限对用户进行详细、谨慎地划分。然而当前Web数据挖掘法也正迎来了一些挑战, 比如用户分类层面、网站公布内容的有效层面、用户停留页面时间长短的层面等。在大力推广与宣传Web技术的大数据时代。

总而言之, 即便现今我国正步入大数据时代, 可是现阶段我国数据的相关技术仍然停留在初创的时期, 更深一层地改进与发展有关数据分析技术仍然是目前社会针对数据专题的热门话题。

摘要:不断形成与发展的新型服务推动着人类经济社会项目的数据形式与规模向着更快、更准的方向发展, 这无疑也预示着现代大数据时代正朝着我们推进。众所周知, 数据并不单单是一项解决问题的手段, 数据的种类逐渐从原有的结构模式向现今的结构化、半结构化以及非结构化的数据模式转换, 这也预示着数据已不再只是一项简单的工具, 而已逐渐作为一项较为基本的资源。那么应当如何正确、合理地应用现代数据呢?应当如何分析、研究数据资源?这已经逐渐成为当代人较多关注的问题。

关键词:大数据,数据分析,数据研究

参考文献

[1]唐东波.基于神经网络集成的电信客户流失预测建模及应用[J].大众商务.2010 (06)

[2]刘蓉, 陈晓红.基于数据挖掘的移动通信客户消费行为分析[J].计算机应用与软件.2006 (02)

[3]魏娟, 梁静国.基于数据挖掘技术的企业客户关系管理 (CRM) [J].商业研究.2005 (07)

高校教育大数据的分析挖掘与利用 第2篇

摘 要,本文从高校教育大数据的汇聚融合与挖掘应用的角度,分析了如何运用教育大数据技术推动大学管理和人才培养的创新改革的思路和方法。首先,分析了教育大数据对高校现代化、精细化、规范化管理的4个价值,其次,给出了高等教育大数据技术平台的基本技术架构,第三,结合教育大数据实际应用,介绍了陕西省高等教育质量监管大数据中心、MOOC中国、西安交通大学教学质量综合监控与评价三个典型案例,最后,提出了教育大数据分析挖掘中的3项基础性关键技术

关键词,高等教育,大数据,分析,挖掘

一、教育大数据分析挖掘的价值

高校大数据分析挖掘至少有四个典型价值, 一是使得大学的管理更加精准高效,可以朝着智慧治理、分类管理、过程监控、趋势预测、风险预警的方向发展,真正实现基于大数据分析规律的精准治理,改变管理的模糊性, 二是可以更加准确地分析评价课堂教学的质量,过去我们对课堂、对老师的评价是定性和模糊的,而在大数据智慧课堂的模式下,可以真正实现采集样本的持久化,采集方式 的多元化,挖掘手段的多样化,分析技术多维度,通过这些方式可以提高课堂教学的质量, 三是使得教和学更加智慧,更加有效。对学生来说,老师可以了解学生学习的进展情况,发现学习兴趣点,以及对老师讲的哪些内容理解或者不理解,学习路径分析及课程推荐等等。对教师而言,不仅可以跨校跨地域分享他人的优秀课程,而且可以对学习者进行精准分类,进行个性化指导, 四是资源服务的个性化、精准化推荐与服务,学习绩效的个性化评价,以及个性化教学管理,个性化手机内容推送等等,这些功能将有效提升教与学的效率和质量

二、教育大数据技术平台的总体设计

首先,我们对高等教育大数据技术平台有一个总体的顶层设计,如图1所示。这不仅是学校自己要有一个大数据的管理平台或者是数据中心,而且也是面向区域乃至全国的平台。教育部评估中心正在努力建立国家级高等教育教学质量监控大数据中心,陕西省也是这样考虑的。数据来自高校、教育管理部门以及行业、第三方、企业用人单位等等各方面采集的数据,该数据平台既有大学的业务数据、课程资源,也有政府部门的统计数据,还有学生网上学习的日志数据,用户产生的UGC数据,比如微信、微博、论坛等等的数据,基于大数据平台,开展面向学习者、面向高等教育管理机构、教师、高校等提供服务,并和教育部评估中心、主管部门等

进行数据交换与对接

显然,这样一个大数据平台必须是一个高性能的计算平台,没有这样的基础设施一切无从谈起,所以去年我们学校花了很大的力气做了两件事,一个是把校内二级单位原来小的集群计算进行整合,形成学校统一的高性能云计算平台,既面向校内的科学研究、人才培养提供服务,其实也可以为社会提供合作共建共享模式。目前,我们已建立了一种自我造血机制,四两拨千斤,以这个平台吸引更多的外部资源,努力扩展平台的性能和应用

三、教育大数据分析挖掘的典型应用案例

目前,我校的高性能平台除了应用于材料、航天、能动、信息等大型科学计算之外,还开展了以下三项典型的大数据应用

案例1,陕西省高等教育质量监控与评估大数据应用

图2所示的是陕西省高等教育的整体架构。其数据基础是来自陕西省100多所高校的各种办学状态数据,有将近700个表格,以及陕西省教育厅各个职能部处的各种各样的管理数据,此外还有行业第三方提供的数据,包括招生、就业数据等等,这个平台上我们开展预测预警、查询在线分析、信息发布、统计决策等等,主要是为省级教育管理部门、评估机构、教育管理机构提供各种各样的办学状况的分析、统计、关联分析

建设全省高等教育大数据服务平台,实时采集各高校的办学状态数据,其根本目的是为了汇聚全省各高校的办学状态数据,打破数据孤岛,融合各方数据,实现横向关联比较、纵向历史分析,提供精准服务,支持科学决策

首先,该平台面向省教育厅提供了11项功能,从根本上解决了原来各处室间的数据孤岛的问题,实现了数据融合,横向关联,纵向融通,这个数据和各个高校是实时融通的,为省教育厅领导和职能部处提供了领导仪表盘、各职能处室的专项服务、81张高基表及年报年鉴表格的自动生成、绩效分析、招生就业及办学指标计算、教育评估等功能,从根本上解决了数据碎片化及其治理问题

其次,面向全省高校辅助决策,为高校领导以及校内各个职能部处提供了系列功能,包括办学情况综合分析和在线查询,专业结构分析比较,校级的教学质量监控评测体系,教师管理等等,这些功能非常实用,这是大学实现精细化、规范化、现代化管理的必备基础。以我校为例,我们过去教师的数据可能在人事处、教务处、科研院等学校的职能部门,采取本平台以后,把教师有关的所有数据都进行了融合,打通了所有原来割裂的数据。从去年开始,我们学校的职称评聘,考核全部基于这一平台,全部在大数据里,建立健全了基于数据驱动的精准化服务,解决了数据碎片化历史遗留问题,实现了从管理信息化向服务信息化的根本转变

第三,为本科教育教学评估及专业认证提供技术支撑。鉴于本平台能提供比较全面的高校办学状态数据,便于专家在进校之前全面系统地掌握学校办学的情况,找到问题,精准查看验证,提高效率,给高等教育评估提供了重要支持。基于本平台,我们成立了中国西部高等教育评估中心,接受陕西省教育厅指派的省属本科高校的审核评估和专业论证。如果没有这一高等教育大数据平台的支撑,工作量和难度是极其巨大的,甚至难以实现

案例2,MOOC中国技术平台

MOOC中国成立于2015年1月,到目前为止已经有121所高校加入,理事单位40家,会员单位80家。该平台的宗旨是,做政府想做的,做社会愿意做的,做单一高校做不了的事情。例如,真正解决校际资源共享、学分互认等,开拓远程教育国际化等未来发展的难题。图3给出了MOOC中国的技术框架。其核心是互联网+教育,实现互联网教育从1.0到2.0的升级。基于这一平台,既要开展网络教育业务的国际化,比如我们牵头成立的“丝路大学联盟”,其目的之一是借助MOOC中国平台,实现网络教育业务的国际化,通过MOOC中国平台,面向“一带一路”国家开展开放教育和技能培训

到目前为止,MOOC中国已经有了9911门课程,用户将近600万,其中光IT培训的有500多万,学历教育在读

学生50多万

案例3,西安交大教育教学大数据分析挖掘与应用

学校非常重视教育信息化技术融入和应用到教育教学之中,去年一次性建成了80个智能教室,把物联网技术、云计算技术应用于智能教室和教学一线,基于物联网技术实现教室设备的集中管理、智能控制,同时,将互联网技术深度融入到教室的管理当中,除了多媒体的直播录制功能以外,还提供了学生考勤和专家的精准督导,通过云平台来集中管理各个教室,比如说开投影机、关电源、关多媒体设备等等,都可以通过后端的云平台集中管控,真正实现教室管理的数字化、智能化、精细化,提升了教学保障的能力,也大大提高了教室管理的效率。更重要的是,这些教学的过程数据可以全程采集下来,获得数据,有了这些数据,就可以做精准化分析服务,建立西安交大教学质量大数据监测中心 目前,我校的教学大数据主要包括两大部分,一是教师在授课过程中的全程录制的课堂实况,二是学生在学习过程中产生的大量日志数据。基于这个平台,我们可以开展教育教学的大数据关联分析,开展课堂教学质量的综合评价,实现正面激励、负面惩戒、精准督导,实现教学评价从模糊宏观到量化精准、从每学期制到持续常态、从部分随机到全面覆盖、从事后评价到实时动态的根本转变。通过评价激励老师敬畏课堂,评选精品课堂、示范课堂,在全校内进行正面

表彰,另外也作为教学质量评价的重要依据,包括教师的职称晋升,评选最喜爱的老师等等

此外,本系统还为学院领导和管理部门提供了针对性的信息服务与决策支持,以数据说话,量化分析,改变了以前我们的模糊评价,采取多维度、全覆盖、持续化、精细化的过程评价与监控

四、教育大数据分析挖掘的若干关键技术

首先,介绍一下大数据人工智能的基本原理。前段时间,AlphaGo战胜世界围棋冠军这一故事炒得很热。这对我们的教育科研工作者提出了一个重要的课题,到底人工智能会不会战胜人类的智能,将来教师存在的主要价值是否还有必要,863计划正在研究一个项目,到2020年,人工智能软件参加高考得分要超过一本线,这就是说,计算机教出来的机器软件参加高考都能达到一本线以上。这就引起我们的思考,这是一个深层次的方向性问题。当然我们今天不是谈这个问题,而是我们要看看AlphaGO的原理,其核心是价值计算函数,用收益函数来判断围棋下一步该落子到哪里其收益是最大的,其中采用了人工智能深度学习方法。AlphaGO并非天生聪明,其实他的智慧是分三步完成的, 第一步,给AlphaGO输入了3000万个人类围棋高手的棋谱和走法,任何一个人是不可能记住3000万个棋局的,只有人工智能才能记住 第二步,AlphaGO自己和自己对弈,在对弈过程中找到自己的薄弱点,进而改进和完善,这其实和人的学习原理类似

第三步,才是人机对弈,从职业选手到世界围棋冠军,通过这样不断的对弈完善算法,校正学习,使得AlphaGO具有强大的智能计算能力。AlphaGO的难点在哪,其关键在于在一个巨大的落子空间选一个最大的收益点,或者落子点,称之为MovePicker,函数,这个空间很大,有10170次方,在如此庞大的计算空间中选择最优函数,只能依靠高性能计算平台

AlphaGo为我们研究大数据问题提供了思路和启发。我们在研究教育大数据问题中需要着力攻克以下理论与技术难题

第一,大数据造成了严重的认知碎片化问题。比如,大家在百度搜糖尿病会检索出4440万个数据源,谁也看不过来,并且里面还有一大堆真假难辩的数据。所以,碎片化知识的聚合是一个非常基础的难题,高度的碎片化降低了知识的可用性,造成了分布性、动态化、低质化、无序化等典型的问题

一方面是知识的碎片化,另一方面是每个人的兴趣和需求还不一样。所以,资源的碎片化整合以及个性化推荐是今后人工智能中的关键问题。我们的思路是,一方面,我们要

从资源的角度把无序、分散、低质的资源进一步重组以后形成知识点,形成有序的知识地图,另一方面,要对学习过程进行跟踪,实现兴趣、个性、情感等方面的动态分析与挖掘,两者结合起来,建立基于用户兴趣和个性的资源推荐,最后实现个性化精准过滤,通过知识地图面向用户提供导航学习,从而缓碎片化知识的问题。开展这一研究也要建立庞大的基础数据,就像刚才讲的AlphaGO,光靠智能软件肯定不可能那么聪明,需要建立庞大的知识地图、知识图谱,并将其放到了国际开源社区和开放数据平台之上 第二,碎片化知识的聚合问题。其目的是解决“既见树木,又见森林”的问题,破解“学习迷航”、“认知过载”的问题。我们正在承担国家自然科学基金重点项目,研究如何将多源、片面、无序的碎片化知识聚合成符合人类认知的知识森林,找出主题与主题之间的认知关系,最后形成一个知识森林,其中需要解决主题分面树的生成、碎片化知识的装配、知识森林生成、学习路径选择与导航等有关知识地图、知识图谱构建与应用等许多基础性关键技术

第三,学习行为的分析和挖掘技术。网上学习最大的好处我们可以把教师和学生所有的教与学的行为记录下来,讨论、作业、习题、笔记及进度记录下来,有了这些数据,我们可以进行后续分析,开展学习行为的特征识别和规律发现等等,既可以跟踪挖掘某个个体的学习规律,也可以找出一

个群体、一个小组的特征和规律。针对不同的课程,开展课程点击率、学习人群、知识关注点、学习时间等的分析与跟踪,刻画一个学生学习的过程,从时间、空间和课程知识导航的角度,甚至围绕某个知识点,研究学习者的特征、行为、交互等相互之间的关系,为老师深化课程改革、探索以学生为中心的教学设计具有非常重要的意义

高校教育大数据的分析挖掘与利用 第3篇

关键词:高等教育;大数据;分析;挖掘

一、教育大数据分析挖掘的价值

高校大数据分析挖掘至少有四个典型价值:

一是使得大学的管理更加精准高效,可以朝着智慧治理、分类管理、过程监控、趋势预测、风险预警的方向发展,真正实现基于大数据分析规律的精准治理,改变管理的模糊性;

二是可以更加准确地分析评价课堂教学的质量,过去我们对课堂、对老师的评价是定性和模糊的,而在大数据智慧课堂的模式下,可以真正实现采集样本的持久化,采集方式的多元化,挖掘手段的多样化,分析技术多维度,通过这些方式可以提高课堂教学的质量;

三是使得教和学更加智慧,更加有效。对学生来说,老师可以了解学生学习的进展情况,发现学习兴趣点,以及对老师讲的哪些内容理解或者不理解,学习路径分析及课程推荐等等。对教师而言,不仅可以跨校跨地域分享他人的优秀课程,而且可以对学习者进行精准分类,进行个性化指导;

四是资源服务的个性化、精准化推荐与服务,学习绩效的个性化评价,以及个性化教学管理,个性化手机内容推送等等,这些功能将有效提升教与学的效率和质量。

二、教育大数据技术平台的总体设计

首先,我们对高等教育大数据技术平台有一个总体的顶层设计,如图1所示。这不仅是学校自己要有一个大数据的管理平台或者是数据中心,而且也是面向区域乃至全国的平台。教育部评估中心正在努力建立国家级高等教育教学质量监控大数据中心,陕西省也是这样考虑的。数据来自高校、教育管理部门以及行业、第三方、企业用人单位等等各方面采集的数据,该数据平台既有大学的业务数据、课程资源,也有政府部门的统计数据,还有学生网上学习的日志数据,用户产生的UGC数据,比如微信、微博、论坛等等的数据,基于大数据平台,开展面向学习者、面向高等教育管理机构、教师、高校等提供服务,并和教育部评估中心、主管部门等进行数据交换与对接。

显然,这样一个大数据平台必须是一个高性能的计算平台,没有这样的基础设施一切无从谈起,所以去年我们学校花了很大的力气做了两件事,一个是把校内二级单位原来小的集群计算进行整合,形成学校统一的高性能云计算平台,既面向校内的科学研究、人才培养提供服务,其实也可以为社会提供合作共建共享模式。目前,我们已建立了一种自我造血机制,四两拨千斤,以这个平台吸引更多的外部资源,努力扩展平台的性能和应用。

三、教育大数据分析挖掘的典型应用案例

目前,我校的高性能平台除了应用于材料、航天、能动、信息等大型科学计算之外,还开展了以下三项典型的大数据应用。

案例1:陕西省高等教育质量监控与评估大数据应用

图2所示的是陕西省高等教育的整体架构。其数据基础是来自陕西省100多所高校的各种办学状态数据,有将近700个表格,以及陕西省教育厅各个职能部处的各种各样的管理数据,此外还有行业第三方提供的数据,包括招生、就业数据等等,这个平台上我们开展预测预警、查询在线分析、信息发布、统计决策等等,主要是为省级教育管理部门、评估机构、教育管理机构提供各种各样的办学状况的分析、统计、关联分析。

建设全省高等教育大数据服务平台,实时采集各高校的办学状态数据,其根本目的是为了汇聚全省各高校的办学状态数据,打破数据孤岛,融合各方数据,实现横向关联比较、纵向历史分析,提供精准服务,支持科学决策。

首先,该平台面向省教育厅提供了11项功能,从根本上解决了原来各处室间的数据孤岛的问题,实现了数据融合,横向关联,纵向融通,这个数据和各个高校是实时融通的,为省教育厅领导和职能部处提供了领导仪表盘、各职能处室的专项服务、81张高基表及年报年鉴表格的自动生成、绩效分析、招生就业及办学指标计算、教育评估等功能,从根本上解决了数据碎片化及其治理问题。

其次,面向全省高校辅助决策,为高校领导以及校内各个职能部处提供了系列功能,包括办学情况综合分析和在线查询,专业结构分析比较,校级的教学质量监控评测体系,教师管理等等,这些功能非常实用,这是大学实现精细化、规范化、现代化管理的必备基础。以我校为例,我们过去教师的数据可能在人事处、教务处、科研院等学校的职能部门,采取本平台以后,把教师有关的所有数据都进行了融合,打通了所有原来割裂的数据。从去年开始,我们学校的职称评聘,年度考核全部基于这一平台,全部在大数据里,建立健全了基于数据驱动的精准化服务,解决了数据碎片化历史遗留问题,实现了从管理信息化向服务信息化的根本转变。

第三,为本科教育教学评估及专业认证提供技术支撑。鉴于本平台能提供比较全面的高校办学状态数据,便于专家在进校之前全面系统地掌握学校办学的情况,找到问题,精准查看验证,提高效率,给高等教育评估提供了重要支持。基于本平台,我们成立了中国西部高等教育评估中心,接受陕西省教育厅指派的省属本科高校的审核评估和专业论证。如果没有这一高等教育大数据平台的支撑,工作量和难度是极其巨大的,甚至难以实现。

案例2:MOOC中国技术平台

MOOC中国成立于2015年1月,到目前为止已经有121所高校加入,理事单位40家,会员单位80家。该平台的宗旨是:做政府想做的,做社会愿意做的,做单一高校做不了的事情。例如,真正解决校际资源共享、学分互认等,开拓远程教育国际化等未来发展的难题。

图3给出了MOOC中国的技术框架。其核心是互联网+教育,实现互联网教育从1.0到2.0的升级。基于这一平台,既要开展网络教育业务的国际化,比如我们牵头成立的“丝路大学联盟”,其目的之一是借助MOOC中国平台,实现网络教育业务的国际化,通过MOOC中国平台,面向“一带一路”国家开展开放教育和技能培训。

到目前为止,MOOC中国已经有了9911门课程,用户将近600万,其中光IT培训的有500多万,学历教育在读学生50多万。

案例3:西安交大教育教学大数据分析挖掘与应用

学校非常重视教育信息化技术融入和应用到教育教学之中,去年一次性建成了80个智能教室,把物联网技术、云计算技术应用于智能教室和教学一线,基于物联网技术实现教室设备的集中管理、智能控制,同时,将互联网技术深度融入到教室的管理当中,除了多媒体的直播录制功能以外,还提供了学生考勤和专家的精准督导,通过云平台来集中管理各个教室,比如说开投影机、关电源、关多媒体设备等等,都可以通过后端的云平台集中管控,真正实现教室管理的数字化、智能化、精细化,提升了教学保障的能力,也大大提高了教室管理的效率。更重要的是,这些教学的过程数据可以全程采集下来,获得数据,有了这些数据,就可以做精准化分析服务,建立西安交大教学质量大数据监测中心。

目前,我校的教学大数据主要包括两大部分:一是教师在授课过程中的全程录制的课堂实况;二是学生在学习过程中产生的大量日志数据。基于这个平台,我们可以开展教育教学的大数据关联分析,开展课堂教学质量的综合评价,实现正面激励、负面惩戒、精准督导,实现教学评价从模糊宏观到量化精准、从每学期制到持续常态、从部分随机到全面覆盖、从事后评价到实时动态的根本转变。通过评价激励老师敬畏课堂,评选精品课堂、示范课堂,在全校内进行正面表彰,另外也作为教学质量评价的重要依据,包括教师的职称晋升,评选最喜爱的老师等等。

此外,本系统还为学院领导和管理部门提供了针对性的信息服务与决策支持,以数据说话,量化分析,改变了以前我们的模糊评价,采取多维度、全覆盖、持续化、精细化的过程评价与监控。

四、教育大数据分析挖掘的若干关键技术

首先,介绍一下大数据人工智能的基本原理。前段时间,AlphaGo战胜世界围棋冠军这一故事炒得很热。这对我们的教育科研工作者提出了一个重要的课题,到底人工智能会不会战胜人类的智能,将来教师存在的主要价值是否还有必要?863计划正在研究一个项目,到2020年,人工智能软件参加高考得分要超过一本线,这就是说,计算机教出来的机器软件参加高考都能达到一本线以上。这就引起我们的思考,这是一个深层次的方向性问题。当然我们今天不是谈这个问题,而是我们要看看AlphaGO的原理,其核心是价值计算函数,用收益函数来判断围棋下一步该落子到哪里其收益是最大的,其中采用了人工智能深度学习方法。AlphaGO并非天生聪明,其实他的智慧是分三步完成的:

第一步,给AlphaGO输入了3000万个人类围棋高手的棋谱和走法,任何一个人是不可能记住3000万个棋局的,只有人工智能才能记住。

第二步,AlphaGO自己和自己对弈,在对弈过程中找到自己的薄弱点,进而改进和完善,这其实和人的学习原理类似。

第三步,才是人机对弈,从职业选手到世界围棋冠军,通过这样不断的对弈完善算法,校正学习,使得AlphaGO具有强大的智能计算能力。AlphaGO的难点在哪?其关键在于在一个巨大的落子空间选一个最大的收益点,或者落子点,称之为MovePicker()函数,这个空间很大,有10170次方,在如此庞大的计算空间中选择最优函数,只能依靠高性能计算平台。

AlphaGo为我们研究大数据问题提供了思路和启发。我们在研究教育大数据问题中需要着力攻克以下理论与技术难题。

第一,大数据造成了严重的认知碎片化问题。比如,大家在百度搜糖尿病会检索出4440万个数据源,谁也看不过来,并且里面还有一大堆真假难辩的数据。所以,碎片化知识的聚合是一个非常基础的难题,高度的碎片化降低了知识的可用性,造成了分布性、动态化、低质化、无序化等典型的问题。

一方面是知识的碎片化,另一方面是每个人的兴趣和需求还不一样。所以,资源的碎片化整合以及个性化推荐是今后人工智能中的关键问题。我们的思路是:一方面,我们要从资源的角度把无序、分散、低质的资源进一步重组以后形成知识点,形成有序的知识地图;另一方面,要对学习过程进行跟踪,实现兴趣、个性、情感等方面的动态分析与挖掘,两者结合起来,建立基于用户兴趣和个性的资源推荐,最后实现个性化精准过滤,通过知识地图面向用户提供导航学习,从而缓碎片化知识的问题。开展这一研究也要建立庞大的基础数据,就像刚才讲的AlphaGO,光靠智能软件肯定不可能那么聪明,需要建立庞大的知识地图、知识图谱,并将其放到了国际开源社区和开放数据平台之上。

第二,碎片化知识的聚合问题。其目的是解决“既见树木,又见森林”的问题,破解“学习迷航”、“认知过载”的问题。我们正在承担国家自然科学基金重点项目,研究如何将多源、片面、无序的碎片化知识聚合成符合人类认知的知识森林,找出主题与主题之间的认知关系,最后形成一个知识森林,其中需要解决主题分面树的生成、碎片化知识的装配、知识森林生成、学习路径选择与导航等有关知识地图、知识图谱构建与应用等许多基础性关键技术。

第三,学习行为的分析和挖掘技术。网上学习最大的好处我们可以把教师和学生所有的教与学的行为记录下来,讨论、作业、习题、笔记及进度记录下来,有了这些数据,我们可以进行后续分析,开展学习行为的特征识别和规律发现等等,既可以跟踪挖掘某个个体的学习规律,也可以找出一个群体、一个小组的特征和规律。针对不同的课程,开展课程点击率、学习人群、知识关注点、学习时间等的分析与跟踪,刻画一个学生学习的过程,从时间、空间和课程知识导航的角度,甚至围绕某个知识点,研究学习者的特征、行为、交互等相互之间的关系,为老师深化课程改革、探索以学生为中心的教学设计具有非常重要的意义。

教育是全人类、全社会发展的基础性事业,随着互联网+技术全面渗透和深度融入教育教学,不仅产生了大量的课程资源和学习内容,而且还产生了巨量的教育教学管理数据、行为数据、服务数据,蕴藏着巨大的价值,亟需我们开展深入研究,可谓前景广阔,挑战巨大!

大数据的特征、管理与挖掘 第4篇

关键词:大数据,数据采集,数据管理

随着计算机和信息技术的迅猛发展和普及应用, 行业应用系统的规模迅速扩大, 行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业、企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力。因此, 寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。世界权威IT信息咨询分析公司IDC研究报告预测: 全世界数据量未来10年将从2009年的0. 8ZB增长到2020年的35ZB ( 1ZB = 1000EB =1000000PB) , 10年将增长44倍, 年均增长40% 。而且, 大量新数据源的出现导致数据结构的多样变化, 非结构化、半结构化的数据呈爆发式增长。这些信息背后产生的大量数据远远超越了目前人力所能处理的范畴, 大数据时代正在来临。

1大数据的特征

大数据 ( Big Data) 是指 “无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。” 业界通常用4个V ( 即Volume、Variety、Value、Velocity) 来概括大数据的特征。

1.1数据体量巨大 (Volume)

截至目前, 人类生产 的所有印 刷材料的 数据量是200PB ( 1PB = 210TB) , 而历史上全人类说过的所有的话的数据量大约是5EB ( 1EB = 210PB) 。当前, 典型个人计算机硬盘的容量为TB量级, 而一些大企业的数据量已经接近EB量级。

1.2数据类型繁多 (Variety)

这种类型的多样性也将数据分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据, 非结构化数据越来越多, 包括网络日志、音频、视频、图片、地理位置信息等, 这些多类型的数据对数据的处理能力提出了更高要求。

1.3价值密度低 (Value)

价值密度的高低与数据总量的大小成反比。以视频为例, 一部1小时的视频, 在连续不间断的监控中, 有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值 “提纯”成为目前大数据背景下亟待解决的难题。

1.4处理速度快 (Velocity)

这是大数据区别于传统数据挖掘的最显著特征。根据IDC的 “数字宇宙” 的报告, 预计到2020年, 全球数据使用量将达到35. 2ZB。在如此海量的数据面前, 处理数据的效率就是企业的生命。

一个基本的大数据处理流程, 可以概括为四步, 分别是采集、导入和预处理、统计和分析, 以及挖掘。

2大数据的采集方法

2.1系统日志采集方法

对于系统日志采集, 很多互联网企业都有自己的海量数据采集工具, 如Hadoop的Chukwa, Cloudera的Flume, Facebook的Scribe等, 它们均采用分布式架构, 能满足每秒数百MB的日志数据采集和传输需求。

2.2网络数据采集方法:对非结构化数据的采集

网络数据采集可以将非结构化数据从网页中抽取出来, 将其存储为统一的本地数据文件, 并以结构化的方式存储。可以通过网络爬虫或网站公开API等方式从网站上获取数据信息。它支持图片、音频、视频等文件或附件的采集, 附件与正文可以自动关联。对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

2.3其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据, 可以通过与企业或研究机构合作, 使用特定系统接口等相关方式采集数据。

3大数据存储 (导入) 和管理

3.1并行数据库

并行数据库系统大部分采用了关系数据模型并且支持SQL语句查询, 在无共享的体系结构中进行数据操作的数据库系统。

3.2NoSQL数据管理系统

No SQL指的是 “Not Only SQL”, 即对关系型SQL数据系统的补充。No SQL最普遍的解释是 “非关系型的”, 强调键值存储和文档数据库的优点, 而不是单纯地反对关系型数据库。它采用简单数据模型、元数据和应用数据的分离、弱一致性技术, 使No SQL能够很好地应对海量数据的挑战。

3.3云存储与云计算

在云计算概念上延伸和发展出来的云存储, 是一种新兴的网络存储技术, 将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作, 共同对外提供数据存储和业务访问功能的一个系统。云存储是一个以数据存储和管理为核心的云计算系统。

3.4实时流处理

所谓实时系统, 是指能在严格的时间限制内响应请求的系统。流式处理就是指源源不断的数据流过系统时, 系统能够不停地连续计算。所以, 流式处理没有严格的时间限制, 数据从进入系统到出来结果可能是需要一段时间。然而, 流式处理唯一的限制是系统长期来看的输出速率应当快于或至少等于输入速率。否则, 数据会在系统中越积越多。

4大数据的分析

数据分析主要利用分布式数据库, 或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等, 以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大, 其对系统资源, 特别是I/O会有极大的占用。如果是一些实时性需求会用到EMC的Green Plum、Oracle的Exadata, 以及基My SQL的列式存储Infobright等, 而一些批处理, 或者基于半结构化数据的需求可以使用Hadoop。

5大数据的挖掘与展示

大数据技术不在于掌握庞大的数据信息, 而是将这些含有意义的数据进行专业化处理, 将海量的信息数据在经过分布式数据挖掘处理后将结果可视化。数据可视化主要是借助于图形化手段, 清晰有效地传达与沟通信息。依据数据及其内在模式和关系, 利用计算机生成的图像来获得深入认识和知识。这样就对数据可视化软件提出了更高的要求。数据可视化应用软件的开发迫在眉睫, 数据可视化软件的开发既要保证实现其功能用途, 同时又要兼顾美学形式。例如, 标签云、聚类图、空间信息流、热图等。

大数据成为推动经济转型发展的新动力。以数据流引领技术流、物质流、资金流、人才流, 将深刻影响社会分工协作的组织模式, 促进生产组织方式的集约和创新。大数据成为重塑国家竞争优势的新机遇。在全球信息化快速发展的大背景下, 大数据已成为国家重要的基础性战略资源, 正引领新一轮科技创新。大数据还成为提升政府治理能力的新途径。大数据应用能够揭示传统技术方式难以展现的关联关系, 推动政府数据开放共享, 促进社会事业数据融合和资源整合, 将极大提升政府整体数据分析能力, 为有效处理复杂社会问题提供新的手段。

参考文献

大数据分析与挖掘 第5篇

【课程目标】

本课程为综合课程,包含基本的数据分析,到高级的数据挖掘,数据建模,以及大数据在市场营销方面的应用,帮助企业的相关人员提升数据分析的综合能力,解决业务问题和企业决策问题。

本课程从实际的业务需求出发(特别是市场营销领域的业务),结合行业的典型应用特点,围绕实际的商业问题,对数据分析及数据挖掘技术进行了全面的介绍(从数据收集与处理,到数据分析与挖掘,再到数据可视化和报告撰写),通过大量的操作演练,帮助学员掌握数据分析和数据挖掘的思路、方法、表达、工具,从大量的企业经营数据中进行分析,挖掘客户行为特点,帮助运营团队深入理解业务运作,以达到提升学员的数据综合分析能力,支撑运营决策的目的。

通过本课程的学习,达到如下目的:

1、了解大数据的核心理念,以及大数据思维。

2、掌握数据分析的基础知识,掌握数据分析的基本过程。

3、学会数据分析的框架和思路,掌握常用数据分析方法来分析问题。

4、掌握数据挖掘,数据建模,以及模型优化,能够解决商业问题。

5、掌握常用分析和挖掘工具,学习使用Excel、SPSS、Modeler工具来做数据分析、数据挖掘,以及数据预处理和建模。

【授课时间】

5天时间

【授课对象】

市场营销部、业务支撑、经营分析部、网管/网优中心、数据分析部等对业务数据分析有要求的相关人员。

【学员要求】

1、每个学员自备一台便携机(必须)。

2、便携机中事先安装好Excel 2010版本及以上(常规分析)。

3、便携机中事先安装好IBM SPSS Statistics v19版本及以上(数据挖掘)。

4、便携机中事先安装好IBM SPSS Modeler v19版本及以上(数据预处理和建模)。注:讲师可以提供试用版本软件及分析数据源。

【授课方式】

数据分析/挖掘基础 + 思路分解 + 方法讲解 + 实际业务问题分析 + 工具操作 采用互动式教学,围绕业务问题,展开数据分析过程,全过程演练操作,让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。

不空谈理论,不空谈方法,以业务分析为核心,以解决问题为目的。

一切不以解决业务问题的数据分析/挖掘都是耍流氓!

【课程大纲】

第一部分:解构大数据

1、大数据时代已经来临

2、大数据的三层理解

 理论层:以数据为基础  技术层:以平台为手段  应用层:以应用为导向

3、大数据的4V特征

4、大数据的核心价值

 发现业务运行规律  预测事物未来

5、大数据在各行业是如何应用的

 医疗卫生  政治军事  行政执法  金融银行  ……

6、数据分析的核心理念

 数据变化意味着业务变化  数据间关系意味着因素间的关系

7、大数据战略  大数据成为企业的核心资产  大数据成为业务创新的核心引擎  从数据化运营到运营数据

8、大数据的思维变革

 定量思维  相关思维  实验思维  ……

9、大数据的商业模式分析

10、大数据的人才培养

第二部分:数据分析篇

问题:数据分析是神马?数据分析基本过程?

1、数据分析面临的常见问题

2、认识数据分析

 什么是数据分析  数据分析的三大作用  数据分析的三大类别 案例:喜欢赚“差价”的营业员

3、数据分析的六步曲

 明确目的  收集数据

 处理数据(预处理) 分析数据

 呈现数据(可视化) 撰写报告

案例:终端精准营销项目过程讨论

4、数据分析师需要什么样的能力  懂业务、懂管理、懂分析、懂工具、懂呈现

5、大数据应用系统的四层结构

 数据基础层、数据模型层、业务模型层、业务应用层

6、数据分析方法的层次

 基本分析法(对比/分组/结构/趋势/…) 综合分析法(交叉/综合评价/杜邦/漏斗/…) 高级分析法(相关/方差/验证/回归/时序/…) 数据挖掘法(聚类/分类/关联/RFM模型/…)

7、基本分析方法及其适用场景

 对比分析(查看数据差距)

演练:按性别、省份、产品进行分类统计  分组分析(查看数据分布)演练:银行信用卡月消费分析(银行)演练:呼叫中心接听电话效率分析(呼叫中心)演练:客服中心科学排班人数需求分析(客服中心)演练:客户年龄分布分析 案例:排班后面隐藏的猫腻  结构分析(评估事物构成)案例:用户市场占比结构分析

案例:物流费用占比结构分析(物流) 趋势分析(发现变化规律)案例:破解零售店销售规律

8、综合分析方法及其适用场景

 交叉分析(两维分析)演练:用户性别+地域分布分析  综合评价法(多维指标归一)演练:人才选拔评价分析(HR)案例:南京丈母娘选女婿分析表格

 杜邦分析法(关键因素分析-财务数据分析)案例:电信市场占有率分析

演练:服务水平提升分析(呼叫中心)案例:销售额的影响因素分析(零售店/电商)

 漏斗分析法(关键流程环节分析-流失率与转化率分析)演练:终端销售流程分析(电信营业厅)案例:业务办理流程优化分析(银行营业厅)案例:物流配送效率分析(物流)

 矩阵分析法(产品策略分析-象限图分析法)案例:工作安排评估 案例:HR人员考核与管理 案例:波士顿产品策略分析

9、最合适的分析方法才是硬道理。

10、数据分析思路(如何细化业务问题)

案例:利用5W2H来分析产品销售情况

第三部分:概率与数理统计篇

1、数据统计指标

 集中程度:平均数/中位数/众数

 离散程度:全距/四分位距/标准差/四分位  分布形态:偏度/峰度  正确理解各指标的含义 案例:如何用Excel计算统计指标 案例:如何用Excel画直方图

2、概率论基本知识

 随机事件与概率  古典概率与条件概率  全概率公式与贝叶斯公司  概率分布函数  数学期望与方差  大数定律与中心极限定理

3、参数检验分析

 假设检验概述  假设检验步骤

 样本T检验(单样本、两独立样本、两配对样本)及适用场景 案例:电信运营商ARPU值评估分析(单样本)案例:营销活动前后分析(两配对样本)案例:吸烟与胆固醇升高的分析(两独立样本)

4、非参数检验分析

 非参数检验概述

 样本检验(单样本、两独立样本、两相关样本)案例:产品合格率检验(单样本-二项分布)

案例:训练新方法有效性检验(两配对样本-符号/秩检验)案例:促销方式效果检验(多相关样本-Friedman检验)案例:客户满意度差异检验(多相关样本-Cochran Q检验)

第四部分:高级数据分析

本篇包含三大内容:影响因素分析,数值预测模型。

1、相关分析(衡量变量间的的相关性)

问题:营销费用会影响销售额吗?影响程度大吗?  什么是相关关系

 相关系数:衡量相关程度的指标  相关分析的步骤与计算公式  相关分析应用场景 演练:体重与腰围的关系 演练:营销费用与销售额的关系

2、方差分析 问题:哪些才是影响销量的关键因素?  方差分析解决什么问题

 方差分析种类:单因素/双因素可重复/双因素无重复  方差分析的应用场景  如何解决方差分析结果

演练:产品摆放位置与销量有关吗?(单因素方差分析)案例:2015年大学生工资与父母职业的关系

3、回归分析(预测)

问题:如何预测未来的销售量(定量分析)?  回归分析的基本原理和应用场景

 回归分析的种类(一元/多元、线性/曲线) 回归分析的几种常用方法  回归分析的五个步骤与结果解读

 回归预测结果评估(如何评估预测质量,如何选择最佳回归模型)演练:散点图找推广费用与销售额的关系(一元线性回归)演练:推广费用、办公费用与销售额的关系(多元线性回归)演练:最佳选择的预测销售额的回归模型(一元曲线回归) 回归分析(带分类变量)案例:汽车销量的季度预测

演练:工龄、性别与终端销量的关系 讨论:终端销售预测分析(营业厅)

4、时序分析(预测)

问题:随着时间变化,未来的销量变化趋势如何?  时序分析的应用场景(基于时间的变化规律) 移动平均的预测原理  指数平滑的预测原理

案例:销售额的时序预测及评估 演练:产品销量预测及评估 第五部分:建立预测模型与模型优化(Excel工具)

本篇包含内容:数值预测建模、模型优化,季节性预测模型、S曲线预测模型。

1、常见预测模型类别

 数值预测  分类预测

2、回归分析建模

 寻找最佳回归拟合线来判断和预测

 模型优化七步法(因素、异常值、相互作用、非线性关系…)案例:汽车销量预测分析

案例:工龄、性别与销量的回归分析

3、季节性预测模型

 季节性预测模型的参数

 常用季节性预测模型(相加模型、相乘模型)案例:美国航空旅客里程的季节性趋势分析 案例:产品销售季节性趋势预测分析

4、新产品销量预测与S曲线

 如何评估销量增长的拐点

 常用模型(珀尔曲线、龚铂兹曲线)

案例:预测IPad产品的销售增长拐点,以及销量上限

5、规划求解与自定义模型 案例:大数据下的产品定价方法

案例:如何对客流量进行建模及模型优化

第五部分:数据挖掘篇(SPSS工具使用)

1、数据挖掘概述

2、数据挖掘的标准流程

 商业理解  数据准备  数据理解  模型建立  模型评估  模型应用

案例:通信客户流失分析及预警模型

3、聚类分析(市场细分与客户细分)

问题:如何实现客户细分,开发符合细分市场的新产品?  聚类分析及其作用  聚类分析的种类  层次聚类:发现多个类别  R型聚类与Q型聚类的区别

演练:中国省市经济发展情况分析(Q型聚类)演练:裁判评分的标准衡量(R型聚类) K均值聚类

演练:宝洁公司如何选择新产品试销区域? 演练:如何评选优秀员工?

4、分类分析

案例:美国零售商(Target)如何预测少女怀孕

问题:如何提取客户流失者、拖欠货款者的特征?如何预测其流失的概率?

 分类与聚类  决策树分类的原理  如何评估分类性能

演练:识别银行欠货风险,提取欠货者的特征

5、关联分析

案例:啤酒与尿布、飓风与蛋挞

问题:购买面包的人是否也会购买牛奶?他们同时购买哪些产品?  关联分析解决什么样的问题  如何提取关联规则  关联规则的应用场景

案例:超市商品交叉销售与布局优化(关联分析)

6、RFM模型

问题:如何评估客户的价值?如何针对不同客户采取不同的营销策略?  RFM模型介绍

 RFM的客户细分框架理解 演练:淘宝客户选择促销客户的方式

演练:结合响应模型,宜家IKE实现最大化营销利润

第六部分:数据挖掘实战篇(Modeler工具实操)

1、数据挖掘处理的一般过程

 数据源数据理解数据准备探索分析数据建模模型评估

2、数据读入

3、数据集成

 变量合并(增加变量) 数据追加(添加记录)

4、数据理解

 取值范围限定  重复数据处理  缺失值处理  无效值处理

 离群点和极端值的修正  数据质量评估

5、数据准备:数据处理

 数据筛选:数据抽样/选择(减少样本数量) 数据精简:数据分段/离散化(减少变量的取值) 数据平衡:正反样本比例均衡  其它:排序、分类汇总

6、数据准备:变量处理

 变量变换:原变量值更新  变量派生:生成新的变量  变量精简:降维,减少变量个数

7、基本分析

 单变量:数据基本描述分析

 双变量:相关分析、方差分析、卡方检验(列联检验) 变量精简:特征选择、因子分析 案例:通信基本费用与开通月数的相关分析 案例:开通月数对客户流失的影响分析 案例:套餐类型对对客户流失的影响分析

8、特征选择

 特征选择方法:选择重要变量,剔除不重要的变量  从变量本身考虑

 从输入变量与目标变量的相关性考虑

9、因子分析(主成分分析)

 因子分析的原理  因子个数如何选择  如何解读因子含义

案例:提取影响电信客户流失的主成分分析

10、常见分类预测模型  分类预测基本过程

 如何评估分类模型的性能(查准率、查全率)

11、决策树分类  决策树分类原理

 决策树构建的三个关键问题  决策树算法

案例:识别银行欠货风险,提取欠货者的特征 案例:客户流失预警与客户挽留模型

12、神经网络  神经网络概述  神经元工作原理  BP反向传播网络(MLP) 径向基函数网络(RBF)13、14、实战:电信客户流失分析与预警模型 支持向量机 贝叶斯分类

颂大教育:从数据中挖掘价值 第6篇

在他的商业逻辑中,全世界只有两类生意:“第一是资源类如矿山、土地、石油,第二则是人口的生意。”

他,是武汉颂大教育科技股份有限公司(以下简称“颂大”)董事长徐春林。2015年,颂大实现营业收入2.53亿元,在新华网和新三板智库联合发布的2015年新三板软件行业20强中名列第五,并成为中国数据研究中心发布的“2015中国最具口碑教育企业百强榜”中,唯一进入前15强的湖北企业。

蓝色格子衬衫、黑色西服,一口浓浓蔡甸味的普通话,这个46岁的武汉男人,喜欢用风趣直白的语言来解析他所从事的教育信息化产业。

“‘人口生意’最关键的阶段是童年,因为人小时候经历的事会终身不忘。不少公司想切入教育行业,就是想把产品从小植入孩子心中。”徐春林说。

在徐春林眼中,教育信息化的本质是数据,而颂大做的是将服务中收集的大量教育数据分析提炼,不仅获取商业价值,更产生社会价值。

花五年时间选择商业“蓝海”

30岁前,徐春林的履历表像个“杂货铺”:做过餐饮、饮料、进出口贸易、广告……赚过很多钱,也欠过很多债,事业像浮萍一样找不到方向。

30岁那年,徐春林进入了事业上的迷茫期。

“年轻时,我总觉得自己很聪明,身体也很好,世界充满无限可能。30岁后有了老婆孩子,父母年纪越来越大,会特别迷茫,压力非常大。”

1999年开始,徐春林决定选择一个行业深耕下去,一选就是五年,“我当时的选择标准是,既要极具商业价值的‘蓝海’,又要具备一定社会价值。”

后来,徐春林在一家上市公司武汉分公司担任项目经理。“做项目时,我发现国家发展教育信息化力度很大,但教育领域信息化程度很低,做教育信息化建设应该是片蓝海。”于是,徐春林开始学习教育理论和教育政策,并着力研究IT、信息化方面的知识。

教育信息化覆盖面很广,既有大量硬件建设,又有涉及教育教学管理、在线教育等软件系统配置的刚性需求,徐春林决定从事教育软件研发。

2005年,徐春林找到一位合伙人,在武汉东湖高新区创立颂大,从事教育软件及系统平台的设计、开发、销售及相关技术服务。这位合伙人女儿名字中有个颂字,公司便取名“颂大”,也意为对儿童健康成长的期待。

“后来,我们想给颂大配个英文标注,查字典发现,‘颂’字的发音让人联想到单词SUN,即太阳的意思,‘大’的发音让人联想到单词DATA,则有数据含义。且‘SUNDATA’的发音也与‘颂大’的发音接近。从此‘阳光数据(SUNDATA)’,便成为颂大发展的产品理念和服务方向。”徐春林表示,这也算是一种机缘。

在教育信息化领域起步早人一步,让徐春林获得了先行优势。“现在国内不少大互联网企业都开始布局教育信息化,如果七八年前他们就开始介入,那么颂大就很难与之抗衡,但现在我们已发展壮大了。”

“免费思维”获取种子客户

不少人听到徐春林从事教育信息化时,总会误解这与“可汗学院”是一样的模式。

“可汗学院”,是由孟加拉裔美国人萨尔曼·可汗创立的一家教育性非营利组织,主旨在于利用网络视频进行免费授课,有关数学、历史、金融、物理、化学、生物、天文学等科目的教学视频超过2000段,机构的使命是加快各年龄段学生的学习速度。

颂大的业务,更多是针对现有的基础教育体系。

颂大成立之初,徐春林做得最多的事,便是到各个教育局、学校串门,蹭各种会议,了解领导、老师的想法和实际困难。

徐春林发现,全国各地学生学籍管理还停留在纸质阶段,整理起来繁琐且不准确。针对这一难题,颂大成立后研发出第一款产品是“中小学生学籍管理系统”。

不过,这款产品刚开始无人掏钱购买。徐春林决定,免费推广使用。

“您想知道自己辖区学校的布局及各项数据吗?你想准确地掌握学生信息数据吗?我可以免费帮你们做一套信息管理系统。”这是徐春林面对各地教育主管部门的开场白。

电子化的中小学生学籍管理系统,让纸质资料档案相形见绌,数据查询、统计、分析快捷,录入更加准确。慢慢地,许多教育管理部门开始主动接纳颂大。

趁热打铁,徐春林又带领团队研发出“中考网上阅卷系统”和“中考招生系统”。

“没使用中考招生信息系统前,一些地方中考经常出现录取错误,甚至有‘暗箱操作’现象,教育公平性受到质疑。‘中考网上阅卷’充分发挥信息技术优势,有效避免手工阅卷的人为错误,充分体现出考试的‘阳光’特性。”徐春林说。

由于有之前免费模式建立的信任,颂大中标“湖北省高中阶段招生与服务系统”研发建设项目。这个由颂大研发并建设的全国首个省级中考招生平台很快投入使用,湖北省中考招生各类数据都在平台上运行。

此后,颂大又推出一款将教育管理和资源应用融为一体的平台——云教育平台(课内网)。

教师可在云平台上备课、发布教学任务、组织教研活动、分享教学资源;学生能在云平台上预习、获取学习资源、写作业,还能记录学习过程;学生家长能通过云平台与学校互动沟通;教育管理部门和学校可以通过云平台进行行政和教育质量管理……

如今,颂大业务板块已进一步拓展,譬如在线教育已成为颂大新的数据运营业务增长点。徐春林介绍,颂大已创办知名教师在线教学的“颂大学堂”,为小学一年级到高中三年级学生开辟网上学习空间。

做“雪中送炭”的生意

随着一批互联网巨头纷纷进入教育信息化行业,教育信息化蓝海开始变为红海,产业很快步入“洗牌”阶段。

面对竞争,2008年起,徐春林要求员工走出湖北省,加速在全国各地跑马圈地。

nlc202309081104

玉林、酒泉、腾冲、常德……很快,这些地方都能看到颂大员工的身影。一些人不解,颂大为何大多选择三四线城市做信息化项目?

“边远、少数民族地区是教育欠发达、更需要得到帮助的地方,那里亟须‘雪中送炭’,我们这种民营企业的市场机会也会更大。”徐春林说。

徐春林介绍了几个经营案例。

2015年7月,颂大与湖北省教育信息化发展中心签署“湖北—新疆远程同步教学系统建设捐赠项目”协议。新疆博乐市锦绣小学收到来自颂大捐赠的 “远程同步教学系统”,该系统已于2015年9月1日正式投入使用。

从此,锦绣小学和武汉市水果湖第二小学师生,在系统上开展同步课堂教学、互动学习、网络教研和学习交流等活动,实现内陆名校与新疆民族地区学校师生远程共享优质资源、不同民族师生“面对面”交流。

在恩施州,颂大建立了“教育云平台”,目前恩施已有1万余名教师,22万余名学生注册进入颂大“教育云平台”。老师们每天在课内网上备课、分享教学资源,还能向学生推送电子作业。

为满足不同地区对教育信息化建设的特殊需求,颂大开始尝试“政府和社会资本合作的(PPP)建设运营模式”,即政府通过特许经营、购买服务、股权合作等方式,与社会资本建立利益共享、风险分担的模式及长期合作。

2015年3月,颂大中标湖南岳阳市教育信息化项目,签署教育信息化PPP整体运营建设项目协议,获得15年教育信息化领域独家特许运营权,而颂大也成为全国第一个在教育领域采用PPP模式经营的公司。

针对边远地区教育经费不足的问题,颂大则采用“融资租赁”模式,以减轻地方资金压力。

2015年,颂大联合三井住友融资租赁有限公司(以下简称“三井住友”),向云南省文山市、宜良县分别投入8999万元和7961万元教育信息化建设项目资金,加快这两个资金不足市县的信息化建设,让学校师生触摸到信息技术。

今年3月,融资租赁模式继续发力。颂大再次联合三井住友向云南腾冲市投入资金5000万元,开始教育信息化项目的建设。

教育信息化实施的根本在应用,关键是教师。一些地区教师面对现代教学工具和手段更新,会有不适应、不想用、不会用现象。对此,颂大也构建了一套服务体系。

颂大建立了一个教育信息技术培训学院,在培训提升教师信息素养的同时,也开辟了颂大新的业务板块。

如今,颂大产品与服务已覆盖全国50多个地市、400多个县区、12000多所学校,存储着2000多万名师生的数据信息。2015年,颂大实现营业收入2.53亿元,同比增长287.94%;净利润3193.33万元,同比增长93.80%。

“颂大现有业绩已是过去,面对着高科技迅猛发展、行业竞争、人才不足等方面的挑战。我们只能向前,不可以也不可能向后。”徐春林说。

数据是最大价值

谈起颂大的发展经验,徐春林多次强调“数据为王,服务为本”的经营理念。“教育信息化,旨在促进信息技术与教育教学的深度融合,如果没有数据,根本谈不上融合,更不可能有深度。”

颂大产品的研发,就是让各类数据在云平台上流转、共享,为不同用户提供不同维度的数据应用服务。

在徐春林看来,现在学校硬件设施差距越来越小,教育的真正差距开始在数据发掘和应用上产生。“一个班有很多学生,每个学生情况都会有差别。如果我们能让教师精准快速地收集学生信息,并对其进行加工、分析,为学校教师调整和改进教学方法提供指导,就会促进因材施教、提高教学质量。”

对一个区域而言,颂大产品则具备更大意义。

“颂大产品能通过数据处理,对一定区域、学校、学科、班级、学生单次、单科、单题和多次、多科考试成绩做统计,并进行诊断分析,为教育管理部门提供科学、真实、有效的教学质量管理信息。”徐春林说。

如今,在获取和处理教育数据上,颂大比其他互联网企业更具优势,但徐春林并不满足,他希望建立更加完整的数据体系。

“学校不仅是学习知识的地方,也是学生成长、生活的地方。”徐春林计划将来做体育“健康软件”,记录学生体质健康测试数据并提供健康测评服务。

此外,徐春林还希望为学校开发“物联”软件和综合教育质量测评软件,记录学生在学校的购物数据,引导学生健康消费以及德、智、体、美诸方面的全面发展。

“分割的数据很难产生价值,一方面基于整体才能为地方给出通盘的解决方案,另一方面多重数据结合才能不断增值。”面对未来,徐春林充满信心。(支点杂志2016年6月刊)

基于大数据的数据挖掘技术与应用 第7篇

1 数据挖掘的概念及功能

1.1 数据挖掘概念

数据挖掘是从大量的随机、模糊并带有噪声的数据集合中通过采用一定的算法对信息进行提取, 发现规律和有用的价值信息的过程。一个完整的数据库挖掘系统主要包括了:数据库、数据库服务器、知识库、数据库挖掘引擎、模式评估模块、可视化用户界面。

1.2 数据挖掘方法和步骤

数据库挖掘的主要方法有基于遗传算法, 粗集方法, 决策树方法和神经网络方法。数据挖掘的一般步骤为:分析问题, 判定源数据库是否满足数据挖掘的标准;提取、清洗和校验数据, 去除数据中的噪声, 得到数据完整、格式统一的数据;创建和调试模型, 将选用的数据挖掘算法应用到数据中创建模型, 通过数据来对模型进行校验和调整, 得到满足使用要求的数据模型;维护数据挖掘模型, 随着数据量的增加, 需要对模型进行调整和维护, 一些关键信息的改变有可能严重模型的精度, 模型维护是数据挖掘的重要环节, 通过模型维护可以保持模型的活力, 不断完善模型。

1.3 数据挖掘的主要功能

数据挖掘的功能主要可以分为五大类:自动预测趋势和行为, 关联分析, 聚类分析, 概念描述, 偏差检测。采用数据挖掘技术在大型的数据库中寻找预测性信息, 市场预测就是数据挖掘技术在自动预测趋势和行为方面的典型应用;关联分析是采用数据挖掘技术研究数据空中自变量和因变量之间的某种规律, 找出数据库中存在的隐藏的关联网;聚类分析通过数据挖掘定义具有共同特征的子集, 增强人们对于客观事实的理解和认识, 数据挖掘技术避免了传统的模式识别和数学分类方法的片面性, 是一个更加先进的聚类分析方法;概念描述建立在聚类分析的基础上, 提取对象的特征, 形成对概念的描述;偏差检测, 数据库中的数据很可能存在着异常记录或者是数据噪声, 通过偏差检测提出异常数据。

2 数据挖掘技术的应用

数据挖掘技术已经应用在了各个行业中, 数据量巨大的互联网行业、天文学、气象学、生物技术, 以及医疗保健、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中, 数据挖掘的结果参与到政府、企业、个人的决策中, 发挥数据挖掘的社会价值, 改变人们的生活方式, 最大化数据挖掘的积极作用。以互联网行业为例, 探究数据挖掘技术在社交网络中的应用。

互联网时代的信息爆炸给互联网用户的使用需求带来了一定的不便, 用户如何快速获取有用信息, 网站如何快速定位用户需求成为了研究课题。以社交网络为例, 社区中的视频、音频、图片、文字等信息各式各样, 每个人的兴趣、习惯不同, 要得到的内容也不同。采用数据挖掘技术对社交网络数据分析, 通过细分用户, 挖掘不同用户的需求, 开出出符合不同用户个性特征的服务和产品, 满足WEB2.0时代对于网络个性化智能化的要求。

数据的采集和预处理是数据挖掘技术实现的前提, 数据的预处理内容主要包括数据收集与录入、数据清洗与净化、用户识别、会话识别、文本提取。数据收集与预处理的系统结构图如图1所示。采集的数据一般会存放在数据库中, 数据库中的数据具有组织性、结构性、易存取的特点, 数据为了达到数据挖掘的要求还需要进行数据清洗、数据集成、数据转换和数据简化。

数据挖掘器的设计目的是对文本数据的内容进行分析与挖掘, 提取能够代表和概括整个文本内容的标签。文本挖掘的步骤包括识别中文词, 去除停用词, 检测短语, 检查同义词, 创建单词向量。中文中字、句、段之间都有间隔, 只有词之间没有, 本文采用机械分词法进行识别处理, 通过扫面句中字符串, 将其余词典词语进行匹配, 识别出词汇。去除停用词是将文本中常用的词汇去除, 这些词汇在文本数据挖掘中属于无用词汇, 去除后能够减小数据处理的复杂程度。检测短语和检测同义词的方法类似, 都是通过类来实现, 检测短语通过类Phrases Cache实现, 检测同义词通过类Synonymous Cache实现, 通过词汇和记号词的匹配实现短语和同义词的识别。构建单词向量, 通过单词向量来表示一个项目, 单词向量是通过文本单词及其权重来构成的, 通过单词检索可以得到用户想要获得的文档和信息。

3 结语

本文主要分析了大数据的含义和特点, 数据挖掘的概念和主要功能, 着重探究了数据挖掘技术的主要应用, 并结合数据挖掘技术在互联网社交网络中的应用进行了实例分析, 通过数据挖掘技术更好的匹配用户想要得到的信息。

参考文献

[1]郭春.基于数据挖掘的网络入侵检测关键技术研究[D].北京邮电大学, 2014.

大数据分析与挖掘 第8篇

1 数据源

有线电视的数据多数来自于终端设备机顶盒。终端设备厂商多, 同一厂商的机顶盒型号也很多, 硬件配置不同, 中间件在各类机顶盒上运行都存在差异。为了避免中间件在网络升级中造成不必要的损失, 工作中数据采集采用了成熟的AJAX技术, 结合中间件的特性, 不需要升级中间件, 而只需要简单地升级UI即可完成部署。采集标准应符合《三网融合用户终端综合数据采集规范研究及DSS系统示范工程》制定的数据采集规范。

采集的数据种类主要有:心跳数据、页面数据、栏目数据、点播数据、直播数据、时移数据、回看数据、开关机数据、广告数据、错误信息等。

2 数据汇聚

数据汇聚指实时接收终端采集系统推送的数据, 是数据平台的重要中枢, 为数据源服务, 实现数据平台的原始数据传输存储。如图1所示。

由于采集数据量大, 为了安全高效传输, 在工作中设计数据采用压缩文件形式传送。当接收到传输的数据之后, 由数据汇聚推送到存储系统, 传输通讯协议基于TCP/IP协议, 保障传输的稳定。数据传输过程中, 均支持数据校验以保证数据的完整性。

实时数据与非实时数据, 将前端采集数据进行汇聚再分发处理, 并呈现为实时数据, 存储后经后期清洗数据为非实时数据。数据汇聚可将数据向第三方分发, 在工作中采用Redis通道技术进行数据分发。

3 分布式数据存储

工作中搭建的数据中心, 数据存储系统采用的是开源Hadoop存储系统方案。该系统广泛运行于大型搜索引擎、巨型网站等, 对海量数据的使用及存储进行优化设计, 确保高安全高性能存储管理, 为数据分析提供可靠的支持和基础。

3.1 HDFS

Hadoop Distributed File System, 简称HDFS, 是一个分布式文件系统, 有着高容错性的特点, 而且它提供高吞吐量来访问应用程序的数据, 适合有着超大数据集的应用程序。它放宽了POSIX的要求, 这样可以实现以流的形式访问文件系统中的数据。

如图2所示, HDFS可能由成百上千的服务器所构成, 每个服务器上存储着文件系统的部分数据。错误检测和快速、自动的恢复是最核心的架构目标。它在设计中更多地考虑到了数据批处理, 其关键点在于数据访问的高吞吐量。一个典型文件大小一般都在G字节至T字节, 能够在线扩容到PB级存储空间。

3.2 存储容量规划

假设某广电网络公司用户数约100万, 每天有85%的用户开机收视, 则每天开机用户为85万;用户每天可产生的交互数据记录为100条, 每条交互数据记录为200字节。

Hadoop HDFS数据存储为3倍冗余率备份, 硬盘实际存储可用率为90%;保留一部分容量用于分布式计算。

数据量=单用户所有交互数据记录×每条记录字节长度×开机用户数×365天×2年=100条×200字节×850, 000户×365天×2年=12.4TB

硬盘容量=数据量×冗余率/硬盘可用率=12.4TB×3/0.9=42TB

由此得出, 想要存储2年收视行为数据量, 并考虑一定余量, Hadoop存储集群系统配置50TB磁盘容量, 可满足数据的存储需要。

4 数据挖掘

为工作中基于数据中心的基础数据建立数据仓库, 对数据仓库中的信息进行数据挖掘。

4.1 ETL

即“Extract”、“Transform”、“Load”三个单词的首字母缩写, 也就是“抽取”、“转换”、“装载”, 日常工作中我们简称其为数据清洗。数据清洗过程的质量决定了数据仓库的质量。

(1) 抽取

将数据从分布式文件系统中读取出来, 这是所有工作的前提。

(2) 转换

按照预先设计好的规则, 将抽取的数据进行转换, 使异构的数据能统一起来, 转换出有挖掘价值的广电行业数据。

(3) 装载

将转换完的数据按计划增量或全部导入到数据仓库中。

4.2 结构设计

为挖掘出有价值的数据, 需要设计清洗出的数据结构。根据对广电业务的了解、工作中的经验以及对数据抽样的分析, 定义好数据结构。

(1) 直播业务用户收视数据

数据字段包括:频道编号、直播频道换台方式、直播频道播放状态、逻辑频道号、频道名称、机顶盒编号、智能卡号、用户地址编码。

(2) 点播业务数据

数据字段包括:栏目名称、栏目页面当前页码、当前栏目页面的影片个数、节目名称、节目分集数、当前节目播放时间、节目播放状态、节目类型、免费、付费、高清、标清、上线时间、节目时长。

(3) 时移业务用户收视数据

数据字段包括:时移节目频道编号、原始播出时间、播放状态、时移频道名称。

(4) 回看业务收视数据

数据字段包括:节目播出日期、回看频道名称、回看节目名称、回看频道名称、节目播出日期、节目播出时间、当前节目播放时间、节目播放状态。

(5) 广告数据

数据字段包括:广告位置、显示秒时长、广告表现形式、广告名称。

(6) 节目单数据

数据字段包括:频道编号、频道名称、播出日期、播出时间、结束时间、节目名称、集号、小标、节目冠名、节目大类、节目中类。

4.3 业务指标

(1) 直播业务指标

包括收看户数、收看率、收看份额、互动户数、互动率、互动份额和流入流出等指标。

(2) 点播业务指标

包括在线户数、在线率、点播户数、点播率、到达户数、到达率、累计到达户数、累计到达率、节目到达户数、节目到达率、节目累计到达户数、节目累计到达率、节目收看时长、节目收看份额、点播频次、转化率等指标。

(3) 时移业务指标

包括时移业务在线户数、时移业务在线率、时移业务用户份额、时移频道收视率。

(4) 回看业务指标

包括回看业务在线户数、回看业务在线率、回看业务用户份额、回看节目收视率。

(5) 广告业务指标

包括到达户数、到达率、曝光频次等指标, 以及各广告位实时曝光频次、各广告位累计曝光频次、整体广告实时曝光频次、整体广告累计曝光频次。

(6) 增值业务指标

包括在线户数、在线率、用户份额、、累计到达户数、累计使用时长和户均使用时长等指标。

4.4 挖掘工具

工作中的数据挖掘工具使用的是Hadoop架构, Pig实现了ETL数据清洗功能, Hbase处理HDFS中分布存储的文件数据, Map/Reduce提供高性能计算能力, Hive可使用SQL操作来实现对数据仓库中的数据进行处理。

5 小结

通过深度分析行业数据, 对节目、业务、广告等深入挖掘, 可以为相关机构在内容选择、产品定价、市场推广等诸多方面提供精准的决策报告。全网海量数据的采集、存储、挖掘、分析、呈现等需要根据广电自身的条件, 采用合理的技术实现。

摘要:大数据时代, 如何对海量的有线电视数据进行分析, 充分挖掘潜在的有价值的信息, 提高运营商运营效率和服务水平, 加强市场竞争力, 将是有线电视运营商未来发展的关键。本文介绍了有线电视大数据分析平台的数据汇聚、数据存储与数据挖掘技术, 简要分析了数据存储与规划, 数据挖掘中机构设计与业务指标的确立。

大数据分析与挖掘 第9篇

关键词:电磁频谱感知,全过程管理,大数据,数据融合

电磁频谱贯穿于陆、海、空、天、电、网“六维”作战全时空,是唯一能够支持机动作战、分散作战和高强度作战的理想介质,是信息化战争“无形之魂”,而电磁频谱感知数据是实现“无形之魂”可见、可控、可用的核心和基础。因此,亟待实现准确、可信、全面的电磁频谱感知数据的综合管理,从而有效履行电磁频谱感知职能、提高电磁频谱管理能力、实现装备高效用频。

当前我军电磁频谱管理领域的业务范围和装备技术发展迅速,也极大地促进了电磁频谱频管理数据获取和处理能力的提升。然而,电磁频谱感知数据的管理融合一直是研究的难点和热点问题,特别是电磁频谱感知“全过程”在战备值勤、重大任务保障、干扰查处、信息服务和科研工作等方面积累了大量数据,这些数据存在“文件类型多、地理位置分散、历史周期长、存储数据量大、融合运用难”等问题,而大数据、云计算等新技术给感知数据管理提供新的思路和手段,笔者受全频谱作战启发,提出了电磁频谱感知全过程数据管理和融合的概念,并在文中对系统组成和相关内容进行了阐述。

1 电磁频谱感知迎来大数据时代

近年来,大数据迅速发展成为世界各国和军事应用关注的热点,不同于传统的数据,信息社会的大数据具有“4V”特征[[1]],即数据体量大(volume)、产生速度快(velocity)、数据模态多(variety)和价值大密度低(value)。但大数据的主要难点并不在于数据量大,难以对付的挑战来自于数据类型多样、要求及时响应和数据的不确定性。

大数据已经逐渐渗透到当今每一个行业和业务职能领域,成为重要的生产因素[[2]],特别是在电磁频谱感知领域,随着用频武器装备和台站的种类不断增加,频谱使用方式不断演进,半结构化和非结构化数据日益增多,短波监测站、超短波监测站、卫星监测站、短波探测站等设备产生了大量电磁频谱感知数据,数据类型包括频谱数据、音频数据、文本数据、地理信息和时间标记等,具备了多类型数据的特点。传统的电磁频谱感知主要是开展实时的电磁环境感知,产生的感知数据量较小,也满足大数据分析的基础要求,其结果也很难形成大数据的预测性分析,但随着数字化接收机的扫描速度越来越快、实时带宽越来越宽、站点部署越来越多,电磁频谱感知的数据量按指数增长,不断呈现出很强的大数据特征[[3]],电磁频谱感知数据已迎来大数据时代。

2 电磁频谱感知数据管理现状

电磁频谱感知数据基本样式包括原始数值、频谱图、统计数据表、分析报告等。经过多年的积累,我军的电磁频谱感知数据从数量到覆盖面上都有了长足的发展和进步,但是数据管理仍存在着很多问题。

(1)数据类型多,管理方式落后。电磁频谱感知数据存在“台站要素多、设备种类较多、控制终端多、存储格式多、数据属性多”等“五多”问题,根据设备类型分,包括固定监测数据、机动监测数据、探测数据和频谱参数检测数据等;根据控制终端分,包括设备原始感知数据、工控机人工记录数据、备份存储数据等;根据存储格式分,包括以CSV、Excel等格式存储的原始感知数据,以Excel、Word、PDF等格式存储的人工记录数据,以JPG、BMP等格式存储的图片数据,以MP3、wav等格式存储的音频数据,以及以avi、wmv等格式存储的视频数据,而且数据分散存储在机房中、办公室中和单独的服务器上,没有形成统一的电磁频谱感知数据服务。

(2)处理方法单一,有价值信息亟待深入挖掘。目前常用的数据库管理技术可以高效地实现对监测数据的录入、查询、统计、修改、删除等功能,同时利用数理统计的相关知识也可对电磁频谱感知数据库中的数据进行简单的统计分析,从而得到一些统计知识[[4]],但这些数据处理方法单一,简单的统计分析不能发现海量数据中潜在的相关联系和规则,不能探测到异常信号数据,也不能根据现有的数据预测未来的频谱特性,而且现有的感知数据分析手段仅仅是对单一种类的感知数据进行分析,不能实现多类数据融合分析和关联分析,很难在原始监测数据的基础之上进行二次分析获得有用价值,进而不能为高效监测和使用频谱资源提供辅助决策。

(3)管理缺乏统一的硬件保障,数据抗毁和容灾能力极低。目前我军电磁频谱感知数据从网络到服务器配置均不高,没有集中的数据管理中心或者平台为感知数据存储提供软硬件运行环境,各台站要素有的自行购买台式计算机保障运行,台式计算机可靠性差、不稳定、易出现死机等硬件故障;有的依托其他系统的服务器进行存储,数据存在误删风险,且管理灵活性无法得到保障。且电磁频谱感知数据缺少双机备份机制,网络不甚稳定,这为数据的高效管理和融合利用也带来了很大的阻力。

3 基于大数据的电磁频谱感知数据管理和分析

3.1 电磁频谱感知大数据构成

未来信息化战场,频管数据量大,类型繁多,感知网数据汇聚速度快,频谱信息蕴藏丰富。频谱数据可以归结为三部分组成。一是频管基础类数据,包括信号样本、频率划分、卫星资源数据,频管法规、频管基础知识、频管新闻动态、频管训练、计量、监控装备故障检测数据,电波传播计算、干扰分析、工程计算分析结果数据。二是感知类数据,包括感知网获得的各类格式化的监测数据以及视频、图像、表报数据,感知网的编号、网络运行状态数据,各类感知设备本身的运行状态、地理位置数据等。三是频管态势数据,包括电磁环境态势、频谱感知网系覆盖态势、无线电管制态势、可用频率资源态势数据等。

3.2 大数据分析要素组成

(1)完备的大数据感知网络。完备频谱大数据网络是频谱数据体系的基础,是频谱大数据分析的前提,获取的是各类频谱数据,其作用是完成频谱大数据的汇聚。没有完备的感知网感知数据的积淀,也无法得到全要素、全地域的感知数据,依靠频谱感知网络,利用大数据处理技术,对获取的海量频谱数据进行统计、分析、发现、预测,充分发挥各类感知数据的效能。

(2)高效的大数据云处理平台。如果频谱感知数据是流通的血液的话,那么电磁频谱感知网络就是血管,大数据分析处理平台就是心脏,是提取电磁频谱信息的“炼金炉”。云计算与大数据相辅相成,他们的关系静与动的关系:云计算强调的是计算和存储,这是动的概念;而数据是计算的对象,是静的概念。大数据云处理平台采用类似Map Reduce任务分解汇总技术和Hadoop并行处理技术。

(3)数据可视化技术。数据可视化是关于数据视觉表现形式的研究,其基本思想是将数据库中的每一个数据项作为单个图元元素表示,同时将数据的各个属性值以多维数据的形势表示,可以从不同维度观察数据,从而对数据进行更深入的观察和分析。数据可视化通过分析频谱数据结构,将各种频谱信息以多维、形象、直观的方式进行表示,为指挥中枢快速决策提供支撑。战场电磁态势显示就是利用可视化技术的重要体现,其功能主要是实现战场多维态势显示,包括武器装备的部署分布信息、运动目标的飞行轨迹、各类辐射源的工作状态和辐射范围信息,以及电磁信号的密度特征、强度特征、样式特征和分布特征的显示。

4 结语

信息化条件下的联合作战高度依赖数据信息,而电磁频谱感知数据是作战数据的重要组成之一。论文针对我军电磁频谱感知数据存储单一、分析处理方法有限等问题,提出了基于大数据技术的电磁频谱感知数据管理和挖掘架构,全面存储电磁频谱感知过程中的客观原始感知数据和主观分析数据,并从海量的感知数据中挖掘出潜在的有价值的信息和知识。

参考文献

[1]程学旗,靳小龙,王元卓.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.

[2]Manyika J,Chui M,Brown B,Bughin J.Big data:The next frontier forinnovation,competitionand productivity.2011.

[3]杜立,新吴刚.辽宁省全时频谱监测站建设探索[J].中国无线电,2014(3):53-54.

[4]张辉,陈少刚,谭乐.数据挖掘技术在频谱监测数据分析中的应用[J].中国科技信息,2014(22):135-136.

大数据分析与挖掘 第10篇

大数据时代最为宝贵的资源是数据, 如何有效地分析利用海量数据将是数据挖掘需要解决的全新问题。数据挖掘的相关算法已非常成熟, 并且在各个领域已取得了广泛应用。但是大数据环境下的数据挖掘理论与算法需要针对结构化数据、非结构化数据、多媒体数据具有更加强大的运算和处理能力。因此, 数据挖掘技术及应用等相关课程应与时俱进地适应大数据的要求, 对数据挖掘相关课程的教学内容进行变革。

二、大数据环境特征

Gartner认为大数据是海量的、高增长率和多样化的信息资产, 需要新的处理模式才能实现对其发现和优化。维基百科认为大数据所涉及的资料量规模巨大, 以至于目前无法通过主流软件工具, 在一定合理的时间内对其获取、管理、处理并整理成为能起到决策支持作用的数据资源。大数据是包括交易和交互数据集在内的所有数据集, 其规模或复杂程度超出了常用技术, 麦肯锡认为大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合, 因此需要通过数据挖掘实现对大量的结构化和非结构化数据集合进行分析, 以便提供有用的数据洞察。大数据一般具有四个主要特征: (1) 数据体量巨大 (Volume) , 随着时间的推移, 衡量数据体量的单位从G, T, P到E。 (2) 数据种类繁多 (Variety) , 互联网、物联网、传感网的发展, 使数据类型变得更加复杂, 不仅包括传统的关系数据类型, 也包括以网页、视频、音频、E-mail等形式存在的未加工的、半结构化的和非结构化的数据。 (3) 流动速度快 (Velocity) , 面对快速动态变化的流式数据, 获取、存储及挖掘有效信息的速度都难以用传统的系统进行处理。 (4) 价值密度低 (Value) , 数据量呈指数增长加大了获取有用信息的难度, 如何快速高效发现隐藏在海量数据中的潜在有价值模式更加困难。

三、数据挖掘系统

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道, 但又潜在有价值的信息和知识的过程。数据挖掘系统最初仅支持一个或少数几个数据挖掘算法, 发展为与数据库和数据仓库之间存在有效接口而支持数据库和数据仓库, 又能进一步挖掘Internet/Extranet的分布式和高度异质的数据, 而研究开发分布式、移动式的数据挖掘系统成为第四代数据挖掘系统的重要课题之一, 使得数据挖掘系统与其他系统联合提供决策支持的功能。根据数据挖掘系统与数据库或数据仓库的耦合程度, 可以将数据挖掘系统分为不耦合、松散耦合、半紧耦合和紧密耦合四种结构。面对大数据环境, 半紧密耦合和紧密耦合是在性能和效率方面比较理想的。半紧密耦合是指除了将数据挖掘系统连接到一个数据库或数据仓库系统之外, 一些基本的数据挖掘原语还可以在数据库或数据仓库系统中实现, 这种设计将提高数据挖掘系统的性能。紧密耦合系统是指将数据挖掘系统平滑地集成到数据库或数据仓库系统中, 数据挖掘子系统被视为信息系统的一个部分。根据数据挖掘的研究体系 (如图1所示) , 给出数据挖掘相关课程的主要讲授内容, 包括:预测 (Forecast) , 关联规则 (Association Rules) , 聚类分析 (Clustering Analysis) , 粗糙集 (Rough Sets) , 进化计算 (Evolutionary Computation, EC) , 灰色系统 (Grey System) , 模糊逻辑 (Fuzzy Logic) , 人工智能与机器学习 (Artificial Intelligence, Machine Learning) , 决策树 (Decision Tree) , 统计分析 (Statistical Analysis) , 知识获取、知识表示、知识推理和知识搜索 (Knowledge Acquisition, Representation, Reasoning and Search) , 决策与控制 (Decision and Control) , 可视化技术 (Visual Technology) , 并行计算 (Parallel Computing) 和海量存储 (Mass Storage) 等。

四、大数据环境下的数据挖掘

大数据的“4V“特征表明对海量的数据分析将更加复杂、更追求速度、更注重实效。大数据环境下的数据挖掘应实现海量数据建模, 通过数理模型对海量数据进行整理与分析, 发掘在海量数据之中隐藏的分析与决策所需的规律性知识。将数据挖掘作为大数据环境下重要的研究方法或发现新知识的技术工具, 而不是把数据本身当成研究目标, 与传统数据挖掘方法有密切联系又有本质区别。因此在大数据环境下的数据挖掘相关课程教学中应注意以下变化: (1) 数据预处理:除利用数据仓库加载传统数据, 针对大数据分析所涉及到的非结构化数据, 应保证输入数据的完整性和相关的ETL (Extraction-Transformation-Loading, 数据提取、转换和加载) 流程的正确性。 (2) 数据存储机制:通过多维立方体实现结构化的多维数据组织与管理, 多数是建立在关系数据模型和关系数据库基础之上。而需将非结构化数据考虑进大数据分析时, 应采用分布式文件系统, 以流的形式访问文件系统中的数据, 提供访问拥有超大数据集的高传输率的应用程序 (如Hadoop和其他开源的分布式系统基础架构) 。 (3) 数据挖掘算法处理能力:面对数据规模的增大, 需解决数据挖掘算法的效率问题, 提高算法的有效性和可伸缩性。 (4) 数据挖掘算法处理效率:数据规模的不断增大导致分析处理的时间相应加长, 而大数据条件下对信息处理的时效性要求越来越高, 应建立简单有效的人工智能算法和新的问题求解方法。

五、小结

大数据时代的到来对数据挖掘的研究和教学都提出了新的挑战。应从数据预处理、数据存储机制、数据挖掘算法处理能力和效率等多个方面进行创新, 以适应大数据环境下知识管理与智能决策的需要。

摘要:大数据时代已经到来, 需要对大量的结构化和非结构化数据集合进行挖掘, 数据挖掘领域需要进行彻底变革, 数据挖掘课程的授课内容和实践环节都需进行相应的调整。本文通过分析大数据的内涵、特征, 数据挖掘的核心课程, 探讨大数据时代对数据挖掘课程提出的新要求与新挑战。

关键词:大数据,数据挖掘,教学改革

参考文献

[1]陈燕.数据挖掘技术与应用[M].北京:清华大学出版社, 2011.

[2]陶雪娇, 胡晓峰, 刘洋.大数据研究综述[J].系统仿真学报, 2013, (25) :142-146.

大数据分析与挖掘 第11篇

关键词:大数据;数据挖掘;烟草;分析

中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2014)22-5375-02

1 大数据和数据挖掘

随着互联网和信息技术的快速发展,数据量出现爆炸式增长,但要到多大级别才称得上是大数据呢?根据大数据研究的先驱麦肯锡公司,发布的一篇名为《大?数?据?的?下?一?个?前?沿?:?创?新?、?竞?争?和?生?产?力》的报告中是这么说的:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它还同时说明,并不是说一定要超过特定TB (1TB=1024GB,1PB=1024TB,1EB=1024PB)值的数据集才能称作大数据。维基百科中给出的大数据的定义是这样的:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯”。国际数据公司(IDC)则从大数据的四个特征来定义,即四个V:Volume(体量大),Velocity(快速化),Variety(类型杂),Value(价值大)。大数据的概念是比较宽泛的,见仁见智,智者见智。但前面的三种定义无一例外地都突出了“大”字,但“大”还远远不是全部。笔者比较肯定的一个对大数据的定义是:大数据是“在多样的或者大量数据中,迅速获取信息的能力”。这个定义里更关心大数据的功用,大数据能帮助大家干什么?在这个定义中,重心是“能力”二字,大数据的核心能力就是:发现规律和预测未来。

大数据之所以具备这样的核心能力,关键在于数据挖掘。如果把大数据比作矿石的话,那么数据挖掘就是在矿石中淘金。数据挖掘(Data Mining)就是从海量的数据中提取、转换、分析,从中获得潜在的、有价值的信息,这些信息是隐含的、事先未知的,它可以表示为概念、规则、模式等形式。数据挖掘也是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。从商业角度来看,数据挖掘是一种商业信息处理技术,即是按照企业既定的业务目标,对大量的业务数据进行转换、分析,从中提取出有商业价值的信息,使得企业可以更合理地进行销售分析与预测,帮助企业做出更有利的决策,提高市场的竞争能力。

2 数据挖掘技术在烟草商业企业的应用分析

目前在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。烟草商业企业信息化经过这么多年的发展,已经建立了营销、专卖、物流、OA等各类经营管理的支持系统,这些信息系统每天都会产生大量的多种多样的经营管理数据,为了进一步提高企业生产经营管理水平,提升零售客户和消费者的满意度,有必要将先进的信息技术手段融入到企业的管理理念当中。通过对这些数据进行分析挖掘,提炼出对经营管理有效和有用的信息,为制定合理有效的经营策略提供数据支持。

数据挖掘的分析方法有很多,常用的几种介绍如下:

· 关联规则:用关联规则挖掘隐藏在数据间的相互关系。对于给定的一组项目集和一个数据集,通过分析数据找出项目之间的关联规则,那么其中一个项目就可以通过其他项目进行预测。

· 分类和聚类:分类定义了一种从属性到类别的映射关系,通过这种映射关系可以把数据库中的数据项映射到特定的类别中。聚类是根据一定的规则,按照相似性吧样本分成若干类别的分析过程,与分类不同的是,它要划分的类是未知的。

· 孤立点分析:经常存在一些数据对象,它们不符合数据的一般模型,这样的数据对象就是为孤立点(outlier),它可能是度量或执行错误所导致的,也可能是固有数据变异性的结果。孤立点分析就是找出数据中的这些孤立点。

· 分类树:分类树是决策树的一种类型,它输出的是样本的类标。分类树的目标是连续的划分数据,使依赖变量的差别最大。分类树的真正的目的是将数据分类到不同组或分支中,在依赖变量的值上建立最强划分。

2.1 卷烟营销领域的应用

1) 用于精准营销。卷烟精准营销是现代营销理论在烟草行业的创新发展,是推动卷烟市场营销上水平的重要途径。传统营销模式下,市场把握更多停留在感性认识,营销决策主要依靠经验判断,货源投放“供非所求、供不应求、供过于求”等现象时有发生,客户需求无法有效满足。为此通过数据挖掘技术的探索和研究,运用聚类分析、相关分析和决策树等工具,它将有利于解决服务资源“怎么分”、卷烟品牌“谁来卖”、“卖多少”、“怎样卖好”等问题。通过数据挖掘技术的深入研究和探索,来进一步提升货源精准投放和客户精细服务水平,为行业精准营销提供了一条可深入探索的路径。

2) 用于消费者分类。目前商业企业所收集的数据是以零售客户为主体,终端消费者的数据未被收集。这是一项庞大的工程,未来可以考虑通过销售终端来实现。收集到数据后,我们可以通过生活型态(时间和金钱的处理态度)指标对所有消费者进行分类,描述现阶段主要消费群体特征,以便在营销措施上迎合这部分消费者需求,提高营销效率。我们还可以通过卷烟低焦指标对消费者进行分类,分析支持卷烟低焦的消费群体是主要的还是次要的,以决定是加速卷烟低焦化的步伐还是减缓。

2.2 专卖稽查领域的应用

真烟非法流动是商业企业面临的难题,给企业带来很多不利影响。通过孤立点分析法可用于确定极低或极高以及品牌高集中的客户的进货行为。孤立点是数据集中与其它数据对象显著不同的数据,它可能是度量或执行错误所导致的,也可能是固有数据变异性的结果。孤立点分析法就是找出数据中的这些孤立点。这些客户的实际经营能力值得警惕,我们要采取相应对策做提前预防。采用孤立点分析技术对客户群进行分析,找出与其他客户明显不同的客户进行重点关注和防范。例如某卷烟零售客户在当地烟草专卖批发企业进货量比较少,但是经营规模比较大,则有可能从其它渠道购进卷烟或销售假烟。

2.3 物流配送领域的应用

目前的物流配送仍是按照行政区域的方式为主,以后打破行政区域规划后的配送中心选址问题属于最优成本问题,即求解是固定成本、运输成本和变动成本和等之和为最优的问题。

配送中心的选址需要考虑两方面因素,一是中心点数量,二是中心点分布情况。单一中心点的选址问题较为简单,这里我们主要讨论多个中心点选址的问题。多个中心点的选址需要在打破行政区域的限制,订单统一采集并集中处理的基础上才能实施。多中心选址可以在一些已知的备选地点中选出一定数目的地点来设置配送中心,从而使形成的物流网络的总成本最小,其中包括各种投资费用、不可变费用和可变的费用。而在实际操作中,当这类问题的规模变得很大或者要考虑一些市场因素(比如顾客需求量)时,数学规划就存在一些困难。不过,这个问题可以通过数据挖掘中的分类树方法来解决。

分类树的目标是连续的划分数据,使依赖变量的差别最大。用分类树的方法解决这种问题时,需要四个方面的数据:中心点的位置、备选点的位置、中心点的业务需求量及中心点和备选点之间的距离。通过这种方法,不仅能确定中心点的位置,同时也能确定每年各个地址物品的运输量,使销量得到保证。

3 前景展望

数据挖掘技术的方法很多,不同的方法适用的范围和目的也不一样,单一的算法往往都有其局限性,因而需要不断改进或者将多种方法结合运用,才能很好地发挥数据的作用。我们期待数据挖掘技术可以在可以应用、可以拓展的地方应用它、拓展它,同时让不断发展的数据挖掘技术在烟草行业得到广泛应用,它也必将发挥出巨大能量,为提高我国烟草行业竞争力提供强有力的保障。

参考文献:

[1] 田临卿,许自成.数据挖掘技术在烟草行业中的应用[J].中国农业科技导报,2012(6).

大数据分析与挖掘 第12篇

大数据 (big data, mega data) , 或称巨量资料, 指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[1]。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法 (抽样调查) 这样的捷径, 而采用所有数据进行分析处理。大数据具有4V特点:Volume (大量) 、Velocity (高速) 、Variety (多样) 、Value (价值) [2]。当前大数据技术应用的成功案例有:Facebook通过数据对人际关系的深度挖掘来构建开放服务体系;GOOGLE通过数据预测的强大力量对受众深度挖掘, 理解受众需求。

电信运营商在大数据存储方面拥有丰富、立体、饱满的天然优势, 国外电信运营商在大数据挖掘应用方面已开展了诸如基于移动互联网用户感知、优化网络管理、精确指导前端营销、与第三方数据合作等多方面实践;而国内电信运营商由于传统观念、战略导向、管理体制等多方面因素制约, 当前大数据技术在网络运营价值的深度挖掘方面并未发挥真正效益。对此, 笔者认为有必要进行相关论述, 以期促进电信网络运营价值的大数据挖掘发展。

2移动互联网时代运营商面临的大数据挑战

2.1大数据时代已经来临, 不进则退

新摩尔定理认为网络环境下每18个月产生的数据量等于有史以来数据量之和, 大数据时代已经来临。这是一个最好的时代, 也可能是一个最坏的时代;好在如果能够顺应并运用这个时代, 就可以如虎添翼;坏在如果错过这个时代将被无情淘汰。

对于电信运营商而言, 当前竞争环境愈发恶劣, 大数据技术已经成为创新和运营的核心竞争力。流量井喷, DPI和信令监测, 产生的大量事件在存储和用户通信行为分析的实时处理性能带来挑战;运营商一体化集中运营和透明管控, 催生巨大的经营分析数据仓库, 对大数据处理的存储、性能、开放带来挑战;ICT融合, 核心网络、运营支撑和VAS业务数据的融合催生海量User Profile并集, 对大数据的关联分析计算效能带来挑战[3]。

2.2思想重视不足, 缺乏顶层设计

2015年初, 中国电信江苏公司提出网络运维向运营战略转型, 即从单纯的指标维护向基于用户感知的大数据挖掘方向转型, 这一转型无疑具有极大意义, 但相对于大数据时代的快速发展, 这一口号的提出仍显相对滞后。

当前电信运营商已有的大数据实践仅局限于个别部门或者在局部业务上的浅尝, 从整个运营商层面, 缺乏对大数据战略的统一规划。

2.3缺乏对大数据平台的统一部署

目前电信运营商内部部门已开展了大数据项目规划, 并进行实践试点, 但只是限于独立专业的数据分析, 并未形成跨专业的统一大数据平台, 如从核心侧到无线侧的端到端系统等[4]。

3基于大数据技术的电信网络运营价值挖掘策略建议

3.1准确定位大数据技术对于电信网络运营价值挖掘的作用

大数据对于电信网络运营商的价值主要体现在“五位双层”, 即对外层次的开放数据盈利;对内层次的提升客户感知、精确指导市场营销、支撑领导经营决策、提升网络运营效率。

对外层次的开放数据盈利是指基于电信网络的大数据天然优势进行用户行为挖掘, 将部分数据资产对商业联盟 (如携程网、快捷酒店、旅游景区等) 开放, 进行合作盈利, 创新后向经营的商业模式。移动互联网时代没有单打独斗的胜者, 这一点尤为重要。

对内层次主要包括基于个性化用户行为感知的大数据挖掘以提升客户感知;基于DPI、CDR话单数据挖掘以洞察客户市场行为, 精确指导市场营销;基于大数据的网络资源管理IT化, 降低人工现场行为, 提升网络运营效率;基于大数据智能管道以提供领导决策参考。

3.2深度解析流量话单, 让网络运营可视

如下图1, 通过融合BSS、OSS、MSS平台数据源, 形成基于流量话单的管道开展运营的基础分析能力, 构建电信运营需要的基础分析体系。

通过平台整合, 最终实现基于流量话单的网络运营统一价值可视化体现:

(1) 业务内容分析:对管道内的流量能够分辨到具体的业务, 如QQ, BT等;

(2) 用户行为洞察:对流量的使用者可区分, 用户在何时, 何地使用的流量;

(3) 内容偏好分析:对流量承载的内容可分析, 能够分辨用户浏览网页的内容、微博内容等;

(4) 终端使用分析:能分辨具体使用流量的终端信息, 提供终端型号、品牌等;

(5) 位置营销可视:能分辨用户使用业务的具体网络位置和实际地理位置;

(6) 网络运营可视:结合网络设备数据, 提供网络布点优化、客户体验、业务质量等信息。

如下图2, 目前中国电信江苏公司网优平台已经能够实现以上功能, 更好地支撑了网络运营价值的可视化挖掘。

3.3搭建DPI大数据监控平台, 实现端到端感知立体评价体系, 支撑经营决策

从用户感知入手实现端到端多维感知关联分析, 构建关键KQI和KPI关联模型, 建立用户端到端感知评价体系, 实现用户业务感知的准确评价和管理, 为前后端运营提供决策参考数据。

如上图3为DPI系统架构, DPI识别技术大致流程分为四大阶段:协议解析识别阶段 (采集全网流量数据—>对数据进行协议解析、识别—>实时传输协议识别后的流量数据到分析机—>实时传输协议识别后的流量数据到分析系统中) ;IP流分析阶段 (与采集机实时通信—>对流量数据进行二次解析—>生成ip流原始数据) ;IP流分拣阶段 (与存储服务器实时通信—>实时处理IP流原始数据—>根据集团规范输出字段格式—>可灵活配置的APP应有规则库) ;记录文件形成阶段 (存储日志文件—>提供查询接口) 。

以用户HTTP行为为例, 终端用户使用浏览业务的基本过程为:

(1) 用户点击访问某个网页;

(2) 操作系统进行DNS查询, 查询完成后, 发起TCP建立请求;

(3) 终端操作系统与服务器建立完成TCP三次握手后, 终端发送第一个Get请求报文;

(4) 服务器响应Get请求报文, 向终端下发第一个页面的数据, 第一个页面的下载会包含多个数据报文的下发, 第一个报文的格式可能是压缩的。

针对以上HTTP行为, 基于统一网元库的DPI分析成果展示如下图:

(1) 互联网业务监控:基于集团规定的10大标准网站, 建立标准网站的主要感知指标的时延分析体系, 并根据网站特点制定获得基准指标值域, 并细化到5分钟准实时粒度, 对网站指标的劣化提出预警。

(2) 业务多维度分析:基于定制的的SP网站, 建立各网站按时间维度、地市/基站维度、域名/服务器IP地址维度的钻取分析, 层层分解要感知指标, 对可能的网络异常点进行精细化分析。

(3) TOP网站访问量统计:掌控用户HTTP访问轨迹, 可将数据源对外开放, 支撑商家联盟和后向运营。

通过DPI大数据监控, 最终建立用户应用档案模型, 包括:应用的全网渗透率、流量使用和资源消耗, 认识应用的价值和对网络冲击影响;不同时段使用习惯, 可用于分时段流量包的设计;挖掘强相关应用, 关注客户兴趣点, 便于关怀服务推送等方面的价值数据。

4中国电信淮安分公司无线网络大数据挖掘场景成果分享 (部分)

如图8, 淮安分公司基于“三层五大类”数据源平台进行无线侧大数据挖掘, 为网络运营提供决策参考。

基于统一网元库的用户终端———APP应用———场景分布三维大数据分析, 得出如下阶段性结论:

(1) 智能终端是客户使用的第一门户, 其业务适配度直接影响客户体验, 屏幕尺寸对业务应用有潜在的影响, 随着屏幕的增大, 侧面反映出用户在特质和应用偏好方面的不同:IM类 (5寸屏幕以上用户使用开始减少) ;网页浏览 (5寸屏幕以上用户更偏向) ;电子商务 (大屏用户更喜欢使用) ;地图导航 (应用度与屏幕大小有直接联系) 。

(2) 不同档位的终端在主流业务使用上表现出不同的特征, 说明终端等级对业务应用有很大影响, 对客户终端维护和终端营销有重要参考价值。

基于网优平台话单、GIS功能模块与统一网元库DPI功能模块进行平台融合大数据挖掘, 实现2015年春节期间的移动互联网运营价值挖掘, 有效地支撑了市场营销决策:

5结束语

在移动互联网+的大数据时代, 数据和信息已成为推动电信运营业整体转型的战略资产, 与其他行业企业竞争对手相比, 电信运营商能够得到的数据比单一的互联网公司得到的数据要丰富、立体、饱满, 电信运营商发展大数据具有无可比拟的天然优势, 决定其将是未来大数据时代的最强势的竞争者[5]。

大数据时代的到来让数据成为新的生产力, 未来发展道路上挑战与机遇共存, 电信运营商需充分发挥自身的优势, 掌握大数据这把利剑发掘自身网络运营潜力, 才能运筹帷幄立足于数据时代。

摘要:从大数据的概念与特征入手, 探讨基于大数据技术的电信网络运营价值的深度挖掘。首先提出移动互联网时代电信运营商所面临的数据挑战;其次从智能管道、流量话单可视化运营、DPI分析等方面提出运用大数据技术和工具平台进行电信网络运营价值的挖掘策略, 同时输出相关场景案例成果;最终明确电信运营商在大数据时代的挑战和机遇。

关键词:电信网络运营,价值挖掘,大数据技术

参考文献

[1]杨旭, 汤海京, 丁刚毅.数据科学导论.北京:北京理工大学出版社, 2014

[2] 中国企业需要怎么来面对大数据时代的来临.大数据网, 2014

[3] 尹凯.中国电信大数据技术与应用交流.北京:中国电信, 2014

[4] 韩晶.面向统一运营的电信运营商大数据战略.电信科学, 2014 (11)

大数据分析与挖掘

大数据分析与挖掘(精选12篇)大数据分析与挖掘 第1篇一、实施数据分析的方法正确地对数据进行分析过程已经作为大数据时代对待信息量极大...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部