规模数据范文-盘古文库

规模数据范文（精选10篇）

规模数据第1篇

相对于英特网上不断增长的海量数据来说, 海量数据之间的联系显得十分薄弱, 业界越来越重视使用轻量级技术整合数据资源是过去十年一个重要发展趋势。这些轻量级的技术有个共同的目标:使用松散一体化的数据空间代替紧密一体化的数据库或分布式数据库。早期轻量级的数据资源集成方式主要基于Web协议, 使用URI (Uniform Resource Identifier) 标识数据表中的每一列, 不同数据表的列通过URI和Web协议来链接, 通过这种链接表示列之间的联系。

数据资源轻量级集成方式中, 最成功的要数蒂姆·伯纳斯-李提出的关联数据原则:

(1) 使用URI作为任何事物的标识名称, 不仅是标识文档;

(2) 使用HTTP URI, 使任何人都可以参引 (dereference) 这一全局唯一的名称;

(3) 当有人访问名称时, 以RDF形式提供有用的信息;

(4) 尽可能提供链接, 指向其他的URI, 以使人们发现更多的相关信息。

本文将集中介绍云计算环境下的大规模的关联数据管理, 即使用No SQL等云计算技术处理大规模的关联数据。一般大规模的数据或科学领域大规模的数据不在本文的讨论范围之列。

大规模关联数据管理需要解决的问题

关联数据经过多年的发展, 在很多方面出现了需要解决的问题。在很多领域的项目中, 关联数据的研究者与应用实践者展开合作, 经过研究得出:关联数据管理需要面对的急需解决的问题。结合本人对关联数据近期的研究, 认为关联数据急需解决的问题主要包括:运行硬件环境、吞吐量、数据规模及处理系统的扩展性等等, 具体如下:

1支持URIs标示

关联数据必须支持URIs作为主键 (Primary keys) 。关联数据原则的第一条规定必须使用URIs标示任何实体的名称。关联数据管理系统必须能允许使用URIs作为名称标示, 或者能够高效的将URIs标示转换为系统自己格式的标示。

2支持RDF

关联数据管理系统必须能够高效的访问RDF数据集。在LOD云中, 数据都是以RDF序列表示输出的, 因此, 系统要求能够导入RDF小规模数据集 (如RDF/XML文件) , 也能够导入大规模数据集 (大的N-Triples文件或者大的N-Quads文件) 。

3系统接口

关联数据管理系统必须提供使用HTTP协议访问的服务。经常需要使用HTTP协议访问关联数据集, 使用URIs链接访问关联数据元素等附加信息的时候也要使用HTTP协议。

4数据更新

关联数据系统必须提供便利的数据更新方式, 如, 通过HTTP协议的HTTP PUT/POST或者通过SPARQL更新语句来实现对数据集的插入和更新操作。

5检索功能

关联数据系统须提供模块化的检索子系统, 如, 可以通过SIREn (Semantic Information Retrieval Engine) 已有的文本检索系统来扩展关联数据系统的检索功能。这种检索功能对于LOD应用程序来说是很重要的, 如, Same As.org就提供了全文本的检索接口和联合参考服务的功能。

6逻辑推理

关联数据系统须支持推理能力, 如, 通过owl:same As推理出等价语句, 或者借助RDFS及OWL的其他逻辑推理框架。

7宽泛的数据处理功能

关联数据管理系统须提供便利的查询功能。查询的范围根据实际应用程序功能及可扩展性的需求而定, 包括范围从简单关联数据三元组查询到复杂的连接查询及各种SPARQL查询。

几种关联数据管理系统综合比较

云计算及数据存储方面的概念及术语可以参考相关文献[1]。下面将介绍几种数据存储系统, 并比较他们在管理大规模关联数据方面的能力。

1 Big Query

Big Query是有Google提供的云计算查询工具, Big Query主要是为了弥补Map Reduce在交互查询处理方面的不足, 在2010年, 由Google连同Google存储及Google预测API一起推出的。2010年后可以利用Big Query Endpoint来进行关联数据的查询处理, Big Query Endpoint是基于GAE平台 (Google App Engine) 的, 首先将RDF/N-Triples数据载入到Google存储系统中, 然后再是用Big Query Endpoint进行查询。

2 Hapood/Pig

Apache Hadoop是使用Java编写的软件框架, 它能提供可靠的、可扩展的分布式计算。Apache Pig是一种基于Hadoop/Mapreduce编程框架的高级数据分析语言。

3 HBase

Apache HBase是一种分布式、基于列的数据存储模型, 也是使用Java编写的, 采用了Google’Bigtable的实现原理。Mendeley、Facebook、Adobe等公司使用HBase存储模型。

4其他系统

还有一系列其他系统都能够在云环境下管理关联数据, 但是这些系统的云部署或其它特征在实际应用是不可行, 如, Neo4j、Microsoft’s Trinity、Golden Orbit、Monet DB、Sindice等系统。

以上这些系统中, 有的系统需要首先将RDF三元组结构转换成键值对的存储结构, 有的系统注重于优化数据的连接处理能力。另外, 有的系统已经很成熟, 提供了插入、更新和查询的用户界面, 而有的系统还处于原型研究阶段, 还需进一步完善。

总结及展望

规模数据第2篇

2018-08-14 20:21 来源：人民银行网站

初步统计，7月份社会融资规模增量为1.04万亿元，比上年同期少1242亿元。其中，当月对实体经济发放的人民币贷款增加1.29万亿元，同比多增3709亿元；对实体经济发放的外币贷款折合人民币减少773亿元，同比多减560亿元；委托贷款减少950亿元，同比多减1113亿元；信托贷款减少1192亿元，同比多减2424亿元；未贴现的银行承兑汇票减少2744亿元，同比多减707亿元；企业债券净融资2237亿元，同比少384亿元；非金融企业境内股票融资175亿元，同比少361亿元。

注1：社会融资规模是指实体经济（境内非金融企业和住户，下同）从金融体系获得的资金。其中，增量指标是指一定时期内（每月、每季或每年）获得的资金额，存量指标是指一定时期末（月末、季末或年末）获得的资金余额。

注2：社会融资规模统计数据来源于中国人民银行、中国银行保险监督管理委员会、中国证券监督管理委员会、中央国债登记结算有限责任公司和银行间市场交易商协会等部门。

规模数据第3篇

中国工程院院士邬贺铨说，随着社交网络的逐渐成熟、移动带宽迅速提升，更多的传感设备、移动终端接入网络，产生的数据及其增长速度比历史上任何时期都要多，互联网上的数据流量正在迅猛增长。邬贺铨认为，在云计算、物联网等技术的带动下，中国的移动互联网已经步入“大数据”时代。继云计算后，大数据成为信息技术领域最为热门的概念之一。

信息技术的发展推动人与自然之间的信息沟通方式的发展，因此人们生活的环境将越来越具备“智慧”特征，人们也将能更“智慧”地利用信息，对世界和他人做出更加“智慧”的判断与回应。而智慧城市的发展是城市信息化发展的新阶段，只有确立了“智慧来自大数据”的核心共识，推进智慧城市建设才能够达到“四两拨千斤”的效果。

规模数据第4篇

在数据信息技术应用的不断深入之下, 尤其是在电子扫描枪、图像识别技术管理信息系统和数据库的系统的普遍应用下, 使得人们对数据的收集能力逐渐提高。在对日常生活数据的管理之中, 越来越多的数据被存储在企业、政府、银行以及各个不同的领域的信息管理系统中, 数据规模表现出爆炸式的增长趋势, 但是面对如此庞大的数据量, 人们对数据进行处理的能力确是十分有限的。互联网技术的快速发展在一定程度上也加剧了这种形式的发展, 面对日益严峻的数据处理危机, 人们逐渐发展出了一种高效性的数据挖掘算法, 并取得了一定的成绩。

1 高效数据挖掘的应用

1.1 在商业银行中的应用

高效数据挖掘技术在金融领域中应用的十分广泛。针对金融事业来说, 每天需要处理和收集巨大的数据信息, 并对这些数据进行仔细分析, 从而在此之中发现存在的潜在类型的客户, 以及对客户的信用等级进行评估等等。比如说, 美国的Firstar银行中使用的数据挖掘工具Marksman, 就可以依据消费者的储蓄金额、家庭贷款情况以及投资产品的种类, 将银行中的客户进行分类, 从而预测出在确定的时间该向客户提供何种产品最适合。与此同时, 数据挖掘在信用卡的积分数据处理中的应用也十分广泛。

数据挖掘也能应用在对金融进行投资的方面。典型的金融分析领域有相应的股份交易预测以及投资评估两种, 在进行分析时, 采用的方法一般情况下包括有模型预测分析法。在这方面的预测系统包括有LBS Capital Management以及Fidelity Stock Selector等等。其中前者是利用了专家系统以及基因算法来对有价证券进行操作的, 后者是利用了神经网络中的有关模型来进行投操作的[1]。

另外, 数据挖掘还可以应用在对数据欺诈甄别的应用领域之中。在银行中经常会出现一些恶意欠费等现象的发生。因而在这方面也取得了一定的成果, 包括有:FAIS系统和FALCON系统。FALCON系统是由HNC公司在信用卡欺诈中来进行应用的, 现已经被许多银行用在对可疑信用卡进行探测交易的过程中。FAIS系统是一种用于识别金融交易的洗钱系统, 可以应用数据挖掘技术对其进行分析。

1.2 在电信行业中的应用

高校数据挖掘技术在电信行业中也得到了十分广泛的应用。在应用的过程中, 其可以帮助企业制定出较为合理的服务标准以及电话收费的标准以及针对特定客户制定的相关优惠政策等等。

例如在IBM公司中就利用了数据挖掘技术针对电信行业中的商业智能方案提出了一整套解决的方案, 与此同时, 还对市场业务发展预期、客户关系分析以及市场综合策略分析方面提供了良好的技术支持。

1.3 在科学探索中的应用

现如今, 数据挖掘已经应用到对科学领域探索的过程中去了。数据挖掘在生物科学方面的主要应用主要集中在对基因工程的建设中。近年来, 生物分析序列的研究特别是在基因数据库的搜索方面做出了伟大的贡献。例如, DNA序列的研究一直以来都被人们认为是对顽疾实现征服最有希望的一项课题。然而, DNA序列的变化形式多样, 因而数据挖掘技术在这一方面的应用就为一些特殊序列的疾病DNA研究提供了可能[2]。数据挖掘技术在对分子生物学的研究上的工作大致上可以分为两种。一种是在基因数据库中搜索出和某种蛋白质结构具有高阶相似性的DNA序列, 而不是一种简单式的线性结构DNA, 另一种是在某种生物体的DNA序列中对具有特定功能的基因串进行定位。

数据挖掘在天文学领域的应用系统有SKICAT系统。它是由加州理工学院中的喷气推进式实验室以及天文科学家进行合作开发的对遥远类星体进行探测和观察的一种工具。SKICAT系统的主要任务是对星体进行分类处理, 并使用了决策树分类法进行分类, 采用数据挖掘进行处理之后, 能使探测到星体的亮度分辨率提高到一个数量级之上, 于此同时, 探测的效率也提高了近40倍之上。

1.4 在信息安全中的应用

随着在各行各业中对敏感信息的储存以及处理的越来越频繁, 网络信息安全问题已经成为网络安全系统中的首要解决问题。随着信息安全技术的实践过程不断深化之下, 现代社会中的信息安全问题早已不是单纯的对信息的保护, 而是对整个信息安全系统的保护, 在这之中包括有对信息的检测、反应以及保护能力的等。一个系统的信息安全系统性差只是是由发展模式进行规定的, 对一些新出现的入侵行为, 原有的数据安全系统很难对其发现。因而人们希望可以对审计中的相关数据进行更高层次、自动化的控制分析, 并从中能够提取出具有概括性和代表性的信息的特征模式, 从而减轻人们在工作时的任务量, 也能实现对新入侵的行为进行及时地发现。数据挖掘技术为这一设想提供了可能, 数据挖掘技术可以对大量的数据同时进行智能化的分析, 并将人们感兴趣的信息提取出来。利用数据挖掘技术作为对信息数据进行分析的工具, 可以在最大程度上提取出数据信息中包含的安全隐患信息, 从而对未知性的信息进行及时发现。采取这样的数据处理方式, 可以依靠一种自动化的处理方式来对数据信息进行处理, 同时这种系统也具备了一定的对入侵系统进行自动检测的功能, 从而克服了原有数据检测系统的扩张性差等缺点, 大大提高了系统的反应速度[3]。

2 高效数据挖掘的未来发展方向

2.1 数据挖掘技术选择和规划

数据挖掘技术的应用领域是面向大型数据来进行发展和规划的, 而且在原数据库中的数据变化呈现出相应的动态变化, 数据存在一定的不确定性、信息冗余以及分布稀疏等问题。所以, 数据挖掘在前期中的预处理工作就显得尤为重要了。同时数据挖掘技术也是面对具有特定商业目标和数据选择性利用程度很强的企业[4]。所以, 针对特定挖掘问题对数据进行选择和规划是数据挖掘未来工作中的一项重点研究工作。

2.2 数据挖掘语言和系统可视化的研究问题

针对OLTP系统来说, 结构形式的查询语言SQL在现代技术中已经得到了专业化的发展, 并已经成为了在数据库应用中的重要基础。然而, 针对数据挖掘技术来说, 由于发展的时间较晚, 加上其在应用过程中表现出来的复杂性, 使得数据挖掘语言的操作变成了一项富有挑战性质的工作。系统可视化在现代企业中已经逐渐发展成为一项必不可少的组成部分, 针对数据挖掘系统来说, 也是一项十分重要的工作[5]。可视化挖掘技术除了要和先进的交互技术进行结合之外, 还要对知识模式的可视化以及挖掘结果的可视化进行不断的探索和实践。数据可视化模型的建设在一定程度上可以提高人们对知识不断发展的进程, 并以其直观化的形象对知识进行理解和挖掘。

3 结语

高效数据挖掘技术是一门多学科交叉性质的综合性技术, 它不仅包括了机器学习、统计学、数据库技术、高性能计算分析法以及数据可视化技术等多种技术含量高的新型技术, 在商业银行、电信行业、科研以及网络信息安全方面都有特定的应用。数据挖掘技术被认为是未来对信息处理中的骨干技术, 主要是因为其正以一种全新的技术概念改变人们对数据的处理方式。于此同时, 数据挖掘技术已经使数据处理技术进入了一个全新的发展阶段。使得其不仅能够找出和过去数据具有的紧密联系, 还能促使其做出更好的决策。

参考文献

[1]汪海风, 赵英.我国国家高新冈发展的闪子聚类分析[J].数理统计与管理, 2012, 31 (2) :270-278.

[2]赵恩来, 郝文宇, 刘航等.基于时序聚类的北斗位置冗余数据压缩算法[J].计算机工稈, 2012, 38 (4) :40-42.

[3]李昆仑, 曹铮, 曹丽苹等.平监督聚类的若干新进展[J].模式识别与人工智能, 2009, 22 (5) :735-742.

[4]周昭, 林昭文.基于Open Flow的数据流管控系统的研究与实现[J].软件, 2013, 34 (12) :114-116.

规模数据第5篇

1、生产统计数据的作用

生产统计数据分析、生产计划、岗位操作手册、周技术培训例会、现场技术指导和工资计件考核是猪场生产六大管理模块，其中统计数据是生产计划和统筹生产管理的基础，是预测生产结果和监督生产的重要手段，是成本核算和工资计件的依据。通过对统计数据深层次的分析能及早准确地发现生产管理中存在的系统问题，洞察问题的趋势性和严重程度，从而找到提高生产成绩和经济效益的方法。从某种意义讲，猪场的业绩、效益和利润取决于生产统计体系的建设以及对数据的准确分析，生产统计和数据分析是猪场生产经营管理的方向盘。

2、生产统计数据分类

（1）生产数量统计：返情流产空怀数、配种数（断奶、返情、流产、空怀）、分娩窝数、产仔数（健仔、弱仔、畸形、死胎、木乃伊）、断奶数、转群数、死亡数、淘汰数、购入数、销售数、各品种阶段猪只（包括基础母猪、后备母猪、妊娠母猪、临产母猪、哺乳母猪、空怀母猪、成年公猪、后备公猪、哺乳仔猪、保育猪、育成猪等）存栏数、待售猪只数。

（2）业绩指标统计：断奶周配率、配种分娩率、失配率、返情率和流产率等，胎产总仔、健仔、弱仔、畸形、死胎、木乃伊胎和无效仔率等，窝平均断奶仔猪数、窝平均转保育正品仔猪数，净产量，成活率、死亡率、淘汰率，上市率、正品率等。

（3）消耗指标统计：饲料、药物、低值易耗品、人工（计件工资）、水电等群栋批消耗量，各阶段、全程、全群等料重比，各阶段头药费，仔猪落地物料人工消耗成本、各阶段消耗增重头成本和斤成本等。

（4）性能指标统计：日增重、100千克上市日龄、后备母猪初情日龄、胎龄结构、后备母猪利用率、公猪利用率、生产母猪更新率、生产公猪更新率、繁殖周期、年分娩胎次、年均窝产总仔数、每头母猪年提供断奶仔猪数（PSY）等。

3、计概念含义及逻辑关系 3.1主要统计概念（1）生产母猪：即基础母猪，指进入生产状态的母猪（含已配好种的后备母猪）。

（2）正常配种：指母猪断奶7天内（含7天）配种及后备母猪体重在130千克以内第3、4次发情配种。

（3）异常配种：指母猪断奶超过7天和母猪返情、流产、空怀，以及后备母猪超体重或第5次以上发情配种。

（4）断奶母猪：是指断奶7天内（含7天）正常发情配种的母猪。

（5）空怀母猪：包括断奶超过7天发情母猪、配种后60天内返情和60天后空怀的母猪以及妊娠过程中流产的母猪。

（6）空断母猪：是空怀和断奶母猪的统称。

（7）初生健仔：初生体重大于等于0.8千克、无畸形、能站立行走、神态健康、能吃奶的仔猪。

（8）断奶合格仔：21日龄断奶体重大于等于5千克，28日龄断奶体重大于等于7千克，无残缺的健康仔猪。

（9）保育正品猪苗：63日龄转群个体重15千克以上，70日龄转群个体重20千克以上，无残缺的健康保育猪苗。

3.2主要指标概念

（1）净产量=本期产健仔数-本期哺乳至生长肥育猪群死亡数（场外购入、调入猪及死亡数不计算在内）。

（2）总产仔数=健仔+弱仔+畸形+死胎+木乃伊。

（3）配种分娩率=本期分娩母猪数/17周前配种母猪数×100%。

（4）失配率=当期配种后17周内返情、流产、空怀的母猪数/当期配种母猪数×100%。（5）断奶周配率=本期断奶后7天内（含7天）配种母猪数/上周对应当期断奶母猪数×100%。

（6）哺乳仔猪成活率=（期初存栏+本期新初生合格仔-本期死亡）/（期初存栏+本期新初生合格仔）100%。

（7）保育猪成活率=（期初存栏+本期新转入仔猪-本期死亡）/（期初存栏+本期新转入仔猪）×100。

（8）生长培育成活率=（期初存栏+本期转入-本期死亡）/（期初存栏+本期转入）×100%。（9）批次成活率=该批次上市总量/该批次转入总数×100%。

（10）综合成活率=（本期上市总数+期末存栏）/（本期上市总数+期末存栏+本期死亡数）×100%。

（11）生产母猪死亡率=本期母猪死亡数/（上期末存栏+本期末存栏）/2×100%。（12）阶段料重比=该饲养阶段饲料消耗总量/该饲养阶段总增重。（13）全程料重比=哺乳至肥育猪饲料消耗总量/哺乳至肥育猪总增重。（14）全群料重比=全群饲料消耗总量/哺乳至肥育猪总增重。

（15）繁殖周期=（平均妊娠期+平均哺乳期+断奶至配种平均天数）/年配种分娩率/断奶周配率。

（16）年分娩胎次=365/繁殖周期。

4统计基础工作及原始记录工作 4.1做好统计基础工作（1）统一猪舍编号规则。“G”代表公猪站，“H”代表配怀车间，“F”代表分娩车间，“B”代表保育车间，“S”代表生长育成车间。在每栋猪舍大门左上方用红色油漆涂刷数字编号如“1”“2”“3”„„，1米见方。“车间代码+猪舍序号”就是猪舍编号，比如配怀车间10号则编号为“H10”。分生产线（区）在编号前加“X1”、“X2”、“X3”等；猪舍分单元的在编号后加“D1”、“D2”、“D3”等，比如生产1区分娩舍6号第2单元则编号为“X1F6D2”。猪舍内栏位编号，在对应墙正中也用红色漆涂刷数字编号如“1”“2”“3”„„，30厘米见。以便为生产原始记录及日报、周报、月报等设计填写关联计算汇总跟栏位实物对应，确保会计统计“账栏物”四相符。

（2）统一区分产品阶段对应名称。

初生活仔分健仔和弱仔，断奶猪仔分合格仔和不合格仔，保育猪苗分正品苗和残次苗，育成肉猪分正品猪和残次猪，种猪分特优、特级、优级种猪，以方便财务统计与生产、销售、考核等多部门交流，避免出现误解。具体要严格按照《猪场产品及转群质量标准的规定》执行。

（3）统一固定统计概念排序。

如：①D（杜洛克）、L（长白）、Y（大约克）；②健仔、弱仔、畸形、死胎、木乃伊；③空断=断奶+空怀母猪[包括超期发情（断奶后超过7天以上发情）+返情+流产+空怀等]；④期初存栏、转入、转出、死亡、淘汰、上市、期末存等等，是统计工作交流及提高统计效率的必备条件。

（4）统一统计上报时间。

如：①日报当天晚上10：00前录入，第2天早上9：00上报。②周报：指周日至周六，周六晚上及周日录入汇总，周一上午9：00上报。③月报：指月初1号至月末31号（或29、30号），次月1~2号录入汇总，3号上午12：00前报。

④季报：次季第1个月1~4号录入汇总，5号上午12：00前上报。⑤年报：次年1月1~5号录入汇总，6号上午12：00前上报。以便提高统计分析速度，及早发现和解决问题。

（5）严格计量制度，按照生产管理和统计、成本管理的要求。不断完善计量和检测设施，如猪只的出生、转群、销售、淘汰、死亡等的称重，存栏猪只并栏头数重量清点和称重，妊娠检查和妊娠天数记录等。

（6）做好均衡生产和全进全出的生产管理工作。

须按生产工艺和周节律均衡生产要求，严格做好猪群、栋舍、批次管理，做好猪群的全进全出和合理转群工作，以便使统工作落实到车间、班组，落实到人，利于盘点和结存，这样分析结果才有针对性，改进措施才能落到实处。

4.2做好原始记录工作

4.2.1原始记录表格设计。

依据生产管理、考核计件、成本核算及育种分析需要原始数据来源，以及统计目的设计原始记录表格。根据猪场生产目的，如原种场、祖代场、父母代场、测定场、培育场和肥育场等及猪场发展不同阶段重点提升指标来细化，增减表格及内容项。为简化报表便于存档，每栋猪舍尽量做到日报和周报二合一。如“隔离后备舍周报表”设计见表1。

4.2.2原始报表填报要求

（1）所有车间原始报表必须用纸质填写，作为统计工作最基本的原始凭证。（2）猪场车间原始报表由车间组长填写，各栋舍原始报表由饲养员填写。

（3）填写报表要求做到统计及时、数据准确、内容完整、格式规范、文字清晰，不得弄虚作假。（4）所有原始报表必须当天填写当天汇总，做到日事日清，周事周毕，日清周结。（5）休假者休假前必须与替班人员交代清楚报表的填报工作。（6）人事变动时必须做好报表资料的交接工作，不得带走或销毁。

（7）猪场所有原始报表填写完后，交到上一级主管，经查对、核实后及时交给猪场场部财务统计；会计复核后，如有发现不实或有投诉，交由统计部门到生产线核实后再审核、复核签字，才能作为统计的原始凭证。

4.3.3表2给出猪场各车间及栋舍原始报表填报数量及具体责任人。

5、统计报表及报表体系建设一些采用全自动饲喂系统或全面信息化远程管理的猪场使用猪场管理软件或ERP软件，统计报表和成本核算报表自动生成，自不必说。但由于猪场管理软件或ERP软件使用起来，生产统计数据不全，生产指标设计缺乏个性化，数据采集和录入工作量大，分析不够深入不能细化，对比较专业的生产管理者来说反而麻烦。特别是ERP软件使用起来由于电脑缓存不足，服务器配置、网速、流量限制及站点（数据包）多导致运算速度非常慢，猪场具体操作人员操作起来特别费劲，有时运算一个数据需要等几秒钟，尤其是猪场大部分员工不会使用电脑，各生产车间未配置电脑，光靠财务统计人员使用工作量太大，很多养猪公司用过ERP软件后还是舍弃。选择用Excel表格来设计报表体系，用起来工作量少，方便快捷，便于数据分析利用。下面就Excel统计报表及报表体系建设谈些体会，与同行分享

（1）各类数据报表的上报根据需求及用途等分为即时上报、日报、周报、月报、季报、年报等不同类型。即时上报主要是疫情、急淘、异常淘售、异常淘埋、超正常死亡等。日报主要是购入、销售数量及生产统计情况“日快报”；“日快报”是猪场各车间每天关键数据汇总快报和猪场每天关键数据汇总快报。周报表跟日报表格式基本相同，“周快报”是周报表简化的基础上增加配种分娩率及断奶周配率、孕损率等生产指标快报。月报、季报、年报报表格式基本相同，季报是月报的累计，年报是季报的累计。月报主要包括生产数量统计、业绩指标统计、消耗指标统计及一部分性能指标统计。年报除了月报内容外还包括全部的性能指标统计等。

（2）日报表和周报表：以繁殖场为例包括汇总表、配种明细表、配怀车间生产情况表、种猪死淘明细表、产仔明细表、分娩车间生产情况表、保育车间生产情况表、育成车间生产情况表、车间转群上市明细表、猪场销售明细表等。周报表在日报表基础上通过Excel表2级或3级显示的方式汇总获得，2级显示每周“周日至周六”生产数据情况，3级显示每天每车间各栋舍的具体生产数据情况。“周快报”主要是周生产情况报表、周动态平衡报表及周待售报表3张快报，从周报表获取数据及逻辑运算得出指标数据，通过Excel表2级显示详细情况，如图1和图2。

3）月报以父母代猪场为例，包括生产指标月报、生产情况月报、生产费用月报、猪群盘存月报表、配怀车间生产月报、分娩车间生产月报、保育车间生产月报、育成车间生产月报、各栋舍饲养员饲料消耗明细月报表、各栋舍饲养员药品消耗明细月报表、各栋舍饲养员低耗品消耗明细月报表、各栋舍饲养员水电消耗明细月报表，其中生产指标月报、生产情况月报、生产费用月报数据自动生成即通过表与表之间连接及填写猪群盘存月报表、配怀车间生产月报、分娩车间生产月报、保育车间生产月报、育成车间生产月报、各栋舍饲养员饲料消耗明细月报表、各栋舍饲养员药品消耗明细月报表、各栋舍饲养员低耗品消耗明细月报表、各栋舍饲养员水电消耗明细月报表等9张表数据后自动生成，具体以自动生成的生产指标月报为例，见图3。

6、统计数据分析及运用

通过对生产结果数量和业绩、性能、消耗指标的统计开展生产趋势分析，与计划生产量对比计算达成率，与计划指标进行偏差分析，进行环比、同比、内部横比，与行业标杆企业对比找差距。

（1）猪场年度、季度、月度生产计划量达成率分析：生产计划量主要包括生产公猪、基础母猪存栏数，备公猪、母猪补充数，配种数，分娩窝数，产健仔数、哺乳仔猪死淘数、断奶合格仔数，保育仔猪死淘数、保育正品苗猪上市量，育成阶段死淘数、育成猪上市量，纯种猪销量、二元母猪销量等。根据月报、季报、半年报、年报计算达成率，分析原因，制定纠偏措施。

（2）猪场计划指标月度、年度分析：计划指标包括生产指标、性能指标和消耗指标，总仔、窝均健仔、无效仔率，窝均断奶仔猪、窝均转保正品，哺乳仔猪死淘率，保育死淘率，育成死淘率，上市率，正品率，日增重，100千克上市日龄，料重比，头药费，头成本，斤成本。年度分析指标在月度分析指标的基础上增加胎龄结构、生产母猪更新率、生产公猪更新率、繁殖周期、年分娩胎次、年均窝产总仔数、每头母猪年提供断奶仔猪数（PSY）。根据月报、季报、半年、年报进行偏差分析，分析原因，制定改进措施。半年报和年报为下年度生产计划制定提供依据。

（3）周快报是猪场每周例会的主要通报和重点分析研究解决问题的内容，重点关注：①配种情况，包括断奶、返情、流产、空怀配种头数和正常配种率、异常配种率分析，断奶周配率分析，配种分娩率分析；②分娩情况分析；③断奶情况分析；④孕损情况分析，包括检定返情、流产、空怀及妊娠母猪死淘、孕损率等；⑤存栏、转入、转出、死淘、待售、上市售情况分析。及时发现问题，拿出解决问题的方案。

（4）每日浏览日报及关注公猪精液监测、返情检定等个体记录信息，出现异常及时拿出解决方案，不留后患。

7、统计相关责任人职责要求

（1）各生产线车间员工均有义务向组长提供完整、真实、准确的报表所需数据。

（2）各组组长为各车间原始报表填写直接责任人，按照要求每天或每周下班前检查核对数据无误后填写报表一式两份，经审核、复核签字后，自留1份，当天下班后上交财务统计员1份。组长对所填报表质量和及时性负责，严禁虚报、瞒报、伪造、篡改、拒报或者屡次迟报等。

（3）场长为各类报表的统计总负责人，副场长或场长助理为各类报表统计的具体执行人，负责对各类报表的填报进行指导、监督、分析、管理，发现问题及时正。

（4）财务统计员为生产统计操作责任人，负责原始报表装订成册、数据录入、拷贝存盘和日报，每天和周一早上9：00之前必须完成各类周报表的统计汇总上报工作，按财务生产部门要求完成日报、周报、月报、季报、年报统计上报工作，数据的上报方式以书面正式报表、电子表格、传真形式上报。在数据录入前认真检查核实数据完整性、真实性和逻辑性，数据录入时必须严谨，避免错录漏录。

（5）生产和财务统计人员协作做好盘点核对工作，每日对产房、每周对保育舍、每月对全场定期进行现场盘点，随时抽查饲养员数据填写的真实性，每周每月对配种分娩等组间关联数据进行核对，对历史关联数据进行核对，电脑数据录入系统利用逻辑关系对数据真实性进行判定，最后对系统输出数据进行核对，确保数据的真实性、逻辑性、准确性。

8、总结

规模数据第6篇

随着国产化战略的发展,“自主可控、安全可信、高效可用”的国产信息化产品已逐步在政府、事业单位等机构进行全面使用,而在国产化推进进程中,如何实现主流数据库中的历史数据向国产化数据库的迁移成为推进过程中的难点,也制约着部分机构推进国产化的积极性。本文描述迁移前的模型对比、策略和方法的选择及迁移工具准备,详细介绍了Oracle数据向国产数据库迁移的准备、转换、校验各阶段,并就数据迁移后的性能、系统的调优工作给出了建议。

2 研究向国产数据库迁移的必要性

2.1 国家信息安全的要求

随着国家信息化的建设, 我国软件业虽然发展很快,但基础软件仍被外国公司控制,就数据库产品,国外产品当前的市场占有率在95%以上,这种情况存在着严重的安全隐患。如“棱镜门”事件,如果这类基础软件被外国控制,那我国的信息系统、网络系统在外国信息监控计划面前几乎没有防御能力。因此,国家提出了“核高基“重大科技专项课题,要以国产可靠基础软件替换国外软件,在这个项目中把Oracle数据向国产数据库迁移是重要组成部分。所以说,研究向国产数据库迁移是国家信息安全的要求。

2.2 打破国外垄断的重要条件

目前在国内商用市场, 特别是金融和通信领域,商用数据库Oracle和DB2处于垄断地位, 其中Oracle占了大部分的市场。 Oracle进入国内市场较早,有先入为主的优势,同时在技术上不断创新奠定了Oracle的领先地位。国产数据库软件行业已有一定发展,如达梦,神州通用、人大金仓等均具有自主知识产权,且已应用于国民经济的诸多行业,成熟度较高。软件基础已经具备,那下一步需要研究怎么实现大规模的把Oracle数据向国产数据库迁移,这是打破国外垄断的重要条件。

2.3 促进国产软件产业链发展的必要条件

我国国产软件产业链发展缓慢的原因主要有两点:第一,由于我国软件行业起步较晚,国内市场已被进口软件垄断了,造成国内基础软件的市场需求很小,很难进一步发展;第二,国外基础软件公司利用其垄断地位制定行业标准,并与国外基础硬件形成产业联盟,为国产数据库软件进入行业设置了门槛,如我国金融行业的信息系统基本上被IBM、Oracle和EMC三家所控制,被称之为“IOE”依赖症。国内基础软件的发展,特别是数据库基础软件的发展,能形成和促进国内的软件产业链的发展,实现“去IOE”。但是,如何保证数据安全完整的从国外数据库迁移到国产数据库上, 是难以避开的难题,这是发展国产数据库、促进国产软件产业链发展的必要条件。

3 数据迁移的技术前提

3.1 数据迁移前的对比分析

对原Oracle数据库与国产数据库分析的目的在于了解数据模型,判断数据迁移的工作量及确定迁移工作的重点和方案,主要包括一些内容。

(1)原Oracle数据库的相关信息 ,包括其后台的操作系统、数据库的版本、前台的开发模式、应用系统常用的接口、运行的中间件环境、应用涉及到的库数量及之间的关系等等。

(2)涉及的数据类型 ,常规的如CHAR、VARCHAR等,这些各种国产数据库一般都支持。如果系统用到了如日期、时间、文本、图像等类型时,在做数据迁移的时候要注意Oracle与国产数据库之间的差异,主要关注长度、精度、标度信息 ,有时候需要做些类型转换 ,如在Oracle中的VARCHAR(8000), 在达梦数据库中可考虑将其转换成TEXT类型或采用16KB以上的建库模式加以解决。

(3)注意表的定义信息 ,主要是关注自定义的数据类型、自定义的缺省值。如Oracle数据库可使用create type的语句创建自定义的数据类型和自定义的缺省值 ,而使用国产数据库(如达梦)的DTS工具无法将这些信息转换出来,需要在原系统中查找。

(4)原Oracle数据库中是否使用到了视图、存储过程、存储函数、触发器、序列等;如果没有使用到这些,则比较简单,主要进行纯数据的迁移;如果用到了这些,且数量较多,则数据迁移工作将主要是脚本的迁移转换工作。

(5)原Oracle数据库是否用到了系统字典 ,因各数据库的系统字典格式和内容均不一样,这时候需要分析原数据库的系统字典的涵义,再根据使用的实际情况作相应的手工处理。

(6)是否有其它的特别的要求 ,如安全控制、双机热备、数据同步等,如果有这些要求,这些要求也要加到数据迁移工作的重点和难点中。

3.2 数据迁移的策略和方法

数据迁移的方法主要有三种, 一种系统升级前通过手工的方式录入, 另外一种是系统升级前通过工具进行迁移, 最后一种是系统升级完成后, 在新系统中生成所要的数据。目前, 最主要的数据迁移方式还是通过工具进行数据迁移, 通过计算机工具来对数据进行清洗和规范化, 同时搭配另外两种方式进行处理, 大量数据通过工具迁移, 少量数据通过手工和系统生成, 这样即可以保证数据迁移的效率, 同时又保证了数据迁移的质量。

Oracle数据库向国产数据库的数据迁移工作主要是脚本的移植和纯数据的迁移工作。一般采用的顺序是先进性脚本的移植,再进行纯数据的迁移,这样做的好处主要有几点:1) 整理好脚本之后, 便于快速搭建移植环境;2) 有了脚本文件,能够对系统有一个整体的了解,便于对系统的把握;3) 容易进行相应的特殊处理, 如缺省值、类型、主键、外键等的处理;4) 便于存储模块的移植;5) 便于优化系统等。

3.3 数据迁移工具的准备

数据迁移的工作原本就具有复杂、工作量大的特点, 尤其是面对大规模的Oracle数据向国产数据库迁移,难度更大。海量的数据靠人工执行各种各样的脚本来完成数据迁移是难以想象的,出错的风险非常高。同时当数据迁移出错时,查找问题变得非常困难。所以使用迁移工具来完成可以极大的降低风险,提高效率。目前主流的国产数据库都已经开发出各自的数据迁移工具,支持从Oracle迁移数据,包括表结构、数据、主键、外键、索引以及视图等的迁移,如达梦DM数据库DTS数据迁移工具,人大金仓的Kingbase数据库的JDTS迁移工具等。数据迁移工具必须具备完整性、可扩展性、可移植性、并发性的特点。但在使用迁移工具之前需测试工具是否满足项目要求,如一些国产数据库自带的迁移工具在处理大体量的数据时会出现数据丢失和效率低下的问题,这种情况可从第三方迁移工具中挑选合适的工具,合理有效地利用迁移工具可以事半功倍。

4 Oracle 数据向国产数据库迁移迁移流程

大规模Oracle数据向国产数据库迁移的流程可分为三个阶段:准备阶段、转换阶段以及校验阶段,如图1所示。

4.1 准备阶段

首先搭建系统环境,包括原系统运行环境和新系统环境,便于后续开展迁移工作。其次,一方面对比新旧系统的数据库的表结构及数据字典,把Oracle数据库的数据与国产数据库系统数据作差异化分析,将它们之间的映射关系找出来, 并且制定新旧数据的转换规则; 另一方面分析应用系统的数据库操作代码,根据数据库的差异调整代码。

4.2 转换阶段

Oracle数据库中的数据不是一提取出来就可以直接导入到国产数据库的, 而是需要一系列的变换、运算,才能成为国产数据库中的数据。所以第二步根据提取出来的新旧系统映射关系, 利用数据迁移工具把Oracle数据经过数据抽取,多次转换之后,生成中间数据,同时移植应用系统到新的系统平台上。

4.3 校验阶段

在数据迁移完成后, 对数据的校验和测试分别从两个方面展开; 一是对迁移后数据库的校验, 主要包括完整性检查( 检查外键约束是否存在) 、一致性检查( 检查相同含义的数据在不同位置的值是否一致) 、记录条数检查( 检查新旧数据库对应的记录条数是否一致) 、特殊样本数据的检查( 检查同一样本在新旧数据库中是否一致) ;二是检查国产数据库系统运行是否正常,进行数据一致性测试、执行功能测试、性能测试、数据备份和恢复测试等。这两个方面校验的结果是判断国产数据库系统内能否正式启用的重要依据。

在应用系统迁移完成后,对应用系统的校验和测试同样从两个方面展开:一是对功能的校验,验证系统是否能正常运行,功能点是否都能实现,执行结果是否正确等;二是进行性能测试,找出运行缓慢的功能点,并进行针对性的优化处理。

5 数据迁移后的调优工作

5.1 数据迁移后的性能调优

对于数据迁移后查询效率变低的问题,需要对国产数据库系统做性能优化。可跟踪系统实际运行的SQL语句,分析SQL语句组成、功能和相关的表,建立合适的索引一般能解决性能问题;如有必要,也可采用改写等价SQL语句的方法进行。 SQL优化主要包括几个方面:(1) 在合适的地方建立适当的索引;(2)IN,NOT IN,<> 等操作符的转换 ; (3)OR的优化 ; (4)IN到EXISTS的转换;(5)只查询用的列等。

5.2 数据迁移后的系统调优

在数据成功迁移后, 为保证国产数据库能平稳运行,还应该对其进行系统测试,测试内容至少包括数据库系统可用性测试,数据库系统综合压力测试,数据库系统性能测试,数据库系统健壮性测试。在投入运行前应进行一定周期的模拟运行和试运行,并建立相关的测试报告。根据系统测试报告,对国产数据库硬件的配置和各种数据库参数的配置进行优化,这也是影响国产数据库性能的重要源头之一。

国产数据库的硬件配置调优,主要包括CPU、内存、I/O的配置, 需要根据运行状况提高配置或者优化资源分配。对国产数据库参数的调优,主要包括数据缓冲区、共享池、日志缓冲区、数据库块大小等参数,需要根据处理事务的类型调整各参数大小,以提高运行速度。

6 结束语

面向大规模定制的产品数据重叠研究第7篇

面向大规模定制的主要工作是:根据客户需求,在产品主结构和零部件(包括形状特征)的主模型、主文档基础上,采用变型设计和配置设计等方法迅速设计出定制的产品[1]。文献[2]提出了知识累积函数和设计返工函数,针对下游活动的介入时间和信息交流次数,建立了信息单向传递的并行产品开发模型,通过构造考虑产品开发时间和成本权衡的全局收益变量,证明了全局收益极大值的存在性。文献[3]提出了基于产品平台的产品配置方法,通过寻找客户所需的产品平台来实现产品配置,检验了配置流程,并对配置流程中产品平台的选择、平台结构的确定及产品结构的配置等关键技术进行了分析。

在国内外有大量科研学者对产品配置平台进行了研究。Jianxin Jiao在对大规模进行分析后,进一步对客户进行了分析,提出了定制的三个方面:设计的定制,过程的定制和客户的定制[4];F.Salvador对产品配置做了一系列的分析,提出基于产品功能和产品组件的配置方式,通过调查,说明不同行业在设计对配置要求侧重点不同,并提出配置的框架[5]。

祈国宁从总体上对大规模定制做出了系统的说明,并指出大规模定制的研究关键和面向大规模定制的开发设计流程[1];文献[6]对大规模定制在并行工程的应用方法做了系统的研究,并应用企业工程实例做了一定的分析;文献[7]就大规模定制的属性约束在产品中的运用做出了系统的规划。

然而产品在设计过程中产生的数据可以通过知识沉淀,转化为知识库,利用大规模定制的模式,使产品数据在其它产品设计过程中重叠使用,进而提高产品设计效率,节约成本。

2 面向大规模定制的数据重叠特点

产品具有结构复杂、零部件种类繁多、集成化、模块化程度更高的特点:1)零部件种类多,数量多,集成化、模块化程度高;2)品种多,内部结构变化多;3)大部分属于小批量生产,还有部分产品属于按照用户需求单件设计生产,设计任务繁重,设计时间紧;4)技术更新快,对新技术的应用要求高。但同时它又是一种系列化的产品,可以充分利用原有的产品数据,减少新开发的工作量。

而在面向大规模定制的产品设计过程中,由于产品的种类较多,数据重叠现象明显,在这些数据中又存在以下特点。

1)层次性强。层次间数据交流量大,产品概念设计、外形工业设计、工艺设计、零部件设计等层次分明,上一层的设计必须兼顾考虑下一层,而下一层设计完成时又需要返回上一层去检查工艺性以及匹配性。

2)继承性强。在一个新产品中,超过90%的零件和工艺技术是通过继承和吸收以往的技术资料得到的,真正的完全创新不到10%。

3)涉及学科众多。产品设计涉及各种各样的知识点,应用范围广,要求设计人员的知识面广,学科知识跨度大,因此一般不可能由某个设计者来完成,需要联合设计。

由于数据重叠过程中存在以上特点,为了更好地利用企业的产品数据,需要将产品数据进行有序的分类。

3 产品数据的分类

产品在设计过程中产生了多种数据,任务、组织、过程是产品设计与工艺设计过程的三要素,它们之间是相互影响、相互依存的关系。任务需要组织经过一定的过程来完成;组织没有任务只能是空设,有了任务而没有合适的处理过程也不能实现效益最大化;过程需要服务于实际的任务,需要组织的参与实施。

从数据结构出发,产品数据可分为结构化数据和非结构化数据。管理型数据多为结构化数据,而技术型数据则两者皆有。产品信息集成的研究内容就是将各种类型的数据集成于一个单一的逻辑数据库中。对于管理型数据而言,产品信息集成的主要研究内容是多数据库集成,数据仓库是其中的一种模式,而技术型数据的集成则困难得多,其根源在于这些数据依赖于具体的应用系统,其数据结构、文件结构不公开或不规范,而且数据之间关系复杂。一个管理数据库可能只需要20个关系就可以定义,而一般复杂程度的产品信息至少存在300个关系,并随着模型的增大而变得更为复杂。

企业产品数据种类繁多,可将这些数据进行有效的整合后进行集成,并分为四个层次。

1)通信层。这是最低级的信息集成层次,是目前绝大部分软件所采取的方式,也是现有操作系统如Windows、Unix所支持的方式。但由于消息结构过于简单,难以表达复杂数据结构,因而不能支持企业内的产品数据集成。

2)共享层。这是产品数据在不同部门之间流动的前提。数据库、数据仓库技术无疑是实现数据共享的极好解决方案。但由于前述原因,企业内还有大量的技术型数据采用非数据库管理方式。因此,除采用数据库外,还必须为技术型数据提供实现数据共享的机制,Iges、Step等标准可以在一定程度上实现产品数据共享。

原有的数据共享理论中有一个难以逾越的障碍,即参与共享的两个(或多个)软件之间必须拥有完全一致的信息模型,数据信息不能从一个软件系统传递到另一个软件系统内。显然,企业内的Cax软件是面向不同专业领域的,非同类软件不可能拥有完全一致的信息模型。这个障碍使企业信息集成难以实现。为此采用Xml描述需共享的数据(及其结构),从一个软件系统传递到另一个软件系统中,从而解决了信息模型不能流动的问题。

3)互操作层。数据共享只能实现数据在产品全生命周期各个环节中的流动,但对于企业级产品信息集成的要求而言还不够,还需要支持对数据的加工操作。只有企业内的所有软件都具备互操作能力,产品数据的流动、加工才是一个完整的过程。目前,在支持互操作的解决方案中,Corba和Dcom是最为典型的两种,但软件互操作需要制定大量的标准,两者仍有很长的路要走。美国国家工业信息基础结构协议(NIIIP)数据小组进行的测试表明,对于大型复杂产品数据(20MB以上),在异质异构软件环境下,目前还没有互操作的解决办法。

4)数据重叠层。企业如果实现了上述三层技术,产品信息集成就已基本实现。但产品信息集成只是为企业产品生产提供了一个信息化的环境。要实施并行工程,重组业务流程,还需要实现数据与知识重用,将企业管理者和工程师长期以来所积累的产品开发经验化为企业的资源。数据挖掘(data mining)是实现产品数据与知识重用的一种重要方法。

4 面向大规模定制的产品数据重叠建模方法

4.1 产品数据重叠建模的步骤

由于企业的产品种类较多,存在较多的产品数据,产品之间的数据互用率明显增加,产品数据重叠现象随着企业的发展也越来越明显,为了较高效率地利用此类数据,现利用PDM系统,将数据进行重新整合,以便达到企业产品数据的有序化,产品数据重叠建模步骤如图1所示。

1)建立产品编码。根据产品特性,针对产品的属性,如材料、外观、形状、重量等,建立一套能涵盖所有产品范围的、便于计算机查询的产品编码体系。

2)零件总库的管理。按照企业产品数据库编码属性和组件、零件数据库的零件号属性之间的函数依赖关系,实现组件、零件之间的数据重用,使用户能方便地查找到与组件、零件有关的图纸、技术文档和产品数据等。

3)图文档管理。建立一套图纸、文档的归档、存放和查询系统,使用户能够快速方便地查找、浏览所需的图纸和文档。

4)工作流程管理和项目管理。根据企业研发的工作流程管理模型,建立工作流程管理。主要在审批管理和更改管理两个方面,通过计算机提交一项作业或任务给相关人员,完成开发、编辑、审核或批准工作,对流程进行控制。

5)产品配置管理。以产品结构树的方式反映组件、零件之间的层次关系。在结构树的基础上查询这些零部件的其它属性,如材料、重量、供应商等信息,使描述组件和零件的文件信息与树结点上相关零件有机地连接起来,实现不同的产品数据管理。

6)用户权限管理。对于各职能部门而言,不同的级别和部门的人员对PDM系统应具有不同的使用权限,以保证数据信息的安全。根据各职能部门的组织结构图和人员职能分布表,为不同的用户设定浏览、修改权限。其具体操作方法是,系统提供用户名和口令级的安全,当一个用户登录时,访问被限定在产品结构树的一定范围的窗体、报表(表甚至表的某些列)上;作为一个多用户系统,控制的关键部分是确定必须作为一单元完成的工作界限,即与事务有关的控制类型。

4.2 产品数据重叠建模的优点

面向大规模定制的产品数据重叠运用其实质是在现有的数据基础上,根据产品和客户的需求,通过变型设计和参数化驱动来完成的,因此需要采用多客户端的设计方式进行。为此根据企业的实际生产和办公情况,采用中央数据库,将分散在企业各个部门的计算机作为客户机的客户机/服务器结构(Client/Server)是最适合企业分布式数据管理的模式。与传统资源共享模式相比,采用面向大规模定制的产品数据建模方法建模有以下几个优点:1)网络通信量小,响应时间短,能为用户提供更好的服务,尤其在企业网络日益庞大复杂的情况下更是如此;2)PDM在网络互连的服务器与客户机上分别运行,可以充分发挥两者功能,均衡网络负荷,建立有效的分布式处理环境;3)保证产品数据既能符合产品设计要求,又能针对大规模定制的特点,运用参数化和变型设计思想进行系统建模,便于整个工作过程文件的管理。

5 重叠数据的使用方法

5.1 重叠数据的信息转换

在面向大规模定制的产品数据重叠使用过程中,数据的重组是必要的内容之一,重组产品开发过程的行为,必然涉及产品信息的变化,包括数据结构和数据。完成数据建模后,产品数据之间的关系只能在单个数据库(或文件系统)的内部得到维护,跨系统的数据关系仍然处于被割裂状态。此时应将数据处理流程与数据存放系统进行比较,找到需要跨系统处理的数据,采用Xml描述这一类数据。由于产品在不同系统内极有可能具有不同的数据视图,Xml所描述的其实是不同系统内数据的映射关系,很多情况下可能是数据的剪切与粘贴,这时也可采用Express-x映射语言描述。但是企业的生产过程往往包含许多更改过的循环,所建立的数据连接必须是双向的。为保证数据不被破坏,合理的解决方法是建立一个中间件,管理跨系统的映射数据。这时交互式更改比自动更改更恰当,重叠数据使用方法如图2所示。

传统模式的部门制按职责逐层定义、操纵企业的信息。不同信息的控制由不同部门实施,其实质则是在不同阶段、不同部门中,信息的操作者、操作方式、操作对象均会出现变异,产品信息控制的统一性和连贯性难以得到保障,而大的阶段划分则难以保障产品信息的时效性。

并行工程的集成产品开发团队(IPT)消除了信息的操作者、操作方式、操作对象因为部门制而带来的割裂,保证了产品信息控制的统一性和连贯性。跨部门、跨阶段的微循环使许多原来封闭于部门内、阶段内的信息可以更多地被揭示出来,更符合产品信息自身的流动规律,从而保障产品信息的时效性。

5.2 数据的重叠运用

在面向大规模定制的产品数据中,重叠数据在产品中进行运用时,往往没有意识到要为数据资产的重复使用建立清晰的架构,从而陷入数据集市(data mart)部署的误区。数据集市部署的首要原则是要针对特定业务流程的具体需求进行设计。由于多数据集市的部署将产生多个数据来源,数据复制将不仅使企业基础设施的开支增加,而且也将提高企业在统一多个报告的数据上所需的成本。如果一个企业有多个产品数据系统,则有可能引起因数据源不一致而引起的数据冗余,过程文件数据不统一等不良现象。

为此采用创新的方法部署数据仓库,在企业级数据仓库中,信息成为可重复使用的资产,基本的数据模型也不再针对某一特定报告或分析要求。这种基本数据仓库的设计不再以流程为重点,而是更加注重数据间的相互联系,加大开发部、制造部、生产部、供应商、客户等多环节的沟通,使产品重叠数据能达到高度的统一。企业级数据仓库的设计可采用一些概括性和其它非规范化的处理,但仍保留了详细的历史记录,且不影响任何业务关系。由于在数据仓库设计中进行的任何概括性或非规范化的处理都必须对企业的业务需求有一定的了解,因此可以更为有效地重复使用数据。通过保留详尽的历史记录,可将企业级数据仓库中的信息方便地用于其它分析用途。

设计目标是将数据一次性导入企业级数据仓库,并满足多种用途,换言之,即一次存储,多次使用。这样,可以根据设计规范要求把数据导入数据仓库中,积累起来以支持企业标准数据库,并实现数据的动态变更。但除此之外,面向大规模定制的产品设计过程中,要实现产品的模块化设计,其前提是配备一个企业逻辑数据模型(EL-DM),作为对企业级数据仓库信息进行有效组织的框架,这种ELDM可确保信息地组织能够很好地满足多领域的分析用途。

事实上,数据清理、数据整合以及将数据导入到数据仓库所需开支占其建设总成本的比例一般为50%～70%。如果以精心设计的数据仓库方式将数据转化为可重复使用的信息资产,企业只需一次性支付上述成本费用,而在多数据集市的部署中则会产生多次费用。若通过部署单一用途数据集市来满足产品设计规范要求,企业就得面临巨大的成本压力,且无法获得竞争优势。而另一方面,若采用企业级数据仓库,相关的产品就可转化为企业的产品数据资产,用于多种战略用途。

6 小结

作者在厦门某大型机械厂做PDM项目时,针对该企业产品种类较多,零部件较复杂的工程实际,向企业提出了面向大规模定制的设计思想,并将在产品设计过程中产生的过程文件进行整合,提炼了一批核心的产品工程数据作为该企业的重叠数据,并结合工程实际,利用PTC公司的Winchill数据库作平台,提出了面向大规模定制的产品数据重叠管理方案,实现了在企业在设计过程中有序化作业,为企业嬴得了效益,将产品设计速度提高了30%。

通过对大规模定制的现状和面向大规模定制的产品重叠数据的特点进行了系统分析后,本文提出了企业在产品设计过程中利用产品重叠数建模的方法,并提出了通过产品属性,建立面向大规模定制设计时重叠数据的信息转换和变更的方法。这些方法为提高企业的产品设计速度起到了明显的作用,并为以后继续研究面向大规模定制的设计方法提供了一定的帮助。

参考文献

[1]楼健人,张树有,谭建荣,等.面向DFMC的产品配置设计技术研究[J].中国机械工程,2004,15(1):42-44,49.

[2]马文建,刘伟,李传昭.并行产品开发中设计活动间重叠与信息交流[J].计算机集成制造系统,2008,14(4):630-636.

[3]赵灵宣,檀润华,张换高,等.基于产品平台的产品配置方法研究[J].机械设计与制造,2008(6):213-215.

[4]Jianxin Jiao,Mitchell M.Tseng.Customizability analysis in design for mass customization[J].Computer-Aided Design,2004(36):745-757.

[5]F.Salvador,C.Forza.Configuring products to address the cus-tomization responsiveness squeeze:A survey of management issues and opportunities[J].Int.J.Production Eonomics,2004(91):273-291.

[6]周欢伟,陈新度,陈新.面向大规模定制设计的并行工程研究及应用[J].机械设计与制造,2006(8):22-24.

[7]周欢伟,陈新度,钟燕锋,陈新.面向大规模定制装配的属性约束平台研究及应用[J].机电工程技术,2006(12):17-20.

规模数据第8篇

目前, 社区问答服务包含了大量用户生成内容 (usergenerated contents, 简记为UGC) 。以Yahoo!Answers为例, 目前Yahoo!Answers包含问题涵盖26大类、1 400多小类, 共有超过3亿规模的问题和10亿的答案由用户提出和发布。如此庞大的数据规模, 促进了非事实问答研究的大规模开展, 使得问答系统不再局限于对应命名实体、日期等较短答案的事实类问题上。

这些用户生成内容不仅具有海量、多样性等特点, 还有着高质量和重用的价值, 充分利用这些资源可以高效、准确地满足人们对信息的需求。如Liu等[1]研究的发现, 在Yahoo!Answers中的四个流行问题分类中, 有接近83%的最佳答案可以重用来回答相似的问题。

因此, 随着各类问题数据的积累与各项相关技术的成熟, 研究面向大规模问答数据的问题检索方法, 是一个既具研究挑战又有应用前景的重要技术课题。

全文共分为五部分, 其内容具体安排为:第一部分引言, 介绍面向问答社区的问题检索课题的研究背景和研究意义。第二部分介绍相关领域的研究现状。第三部分介绍问题检索的模型与特征选择。第四部分介绍实验和结果分析。最后第五部分是本文的结论和对下一步研究的展望。

1 相关工作

问题检索依赖于已经建立的问答对数据集, 对于给定的查询问句, 自动返回相关的问题及其对应答案。问题检索任务的主要挑战是如何解决已有问题和查询问句的词语不匹配问题, 因为多数情况下查询问句和问题句并不是字面上相同的。

Jeon等[2]比较了不同检索方法在解决查询问句与问题的词汇不匹配问题的效果, 所得出的统计机器翻译方法最为有效。研究中, 构造机器翻译的平行语料的方式是以问题的答案作为索引, 并用答案去查询其他相似答案。如果某问题的答案与查询答案的相似度高于一定阈值, 则认为这两个答案是相似的, 同时又假设其对应问题也是相似的。以此方法构造平行语料来训练统计机器翻译模型。基于以上工作, Xue等[3]提出一个统计机器翻译[4]加语言模型[5]的混合模型来进行问题检索, 通过利用问题句和答案作为平行语料来进行机器翻译模型的训练。Wang等[6]提出了一个基于句法树结构的新的检索方法来处理相似问题匹配任务, 可通过句法分析将问题和查询问句转化为句法树, 再通过句法树之间的相似度来衡量问题和查询问句的语义相似度。Bian等[7]提出一个新的问题检索方法GBrank以及其后续工作中的GBrank-MR都能够较好地处理事实性问题, 并给出较为满意的答案。Cao等[8]提出基于叶分类信息进行平滑的语言模型来解决词语之间的不匹配问题。该方法的基本思想是同一分类下的问题通常比不同分类下的问题更相似, 于是用同一个分类下的词分布信息对语言模型进行平滑, 如此可有效提高问题检索的相关性。Zhou等[9]考察了应用用户权威性和用户信息评价对于问题检索相关性的影响, 其结论是由于问答社区中的信息过于稀疏, 直接应用这些信息并不能够为问题的检索效果带来明显的提升。Duan等[10]应用短语级别的问题焦点和主体识别方法来提高问题检索的相关度。

2 问题检索的模型与特征选择

2.1 问题检索模型

问题检索的目的是给定一个查询问句, 系统返回与该问句语义相同或者相似的问题, 而由于同义问题语言表达的多样性特点, 仅仅对问句和问题进行词语级别的匹配是远远不够的。本文应用排序支持向量机 (Ranking SVM) 算法作为问题检索的排序模型。

在进行问题检索前, 本文应用朴素贝叶斯分类器来构建查询进行分类。这样做法的目的在于相似的问题通常会被分到同一类别当中, 对查询问句进行分类, 而且只查询与查询问句分类相同的数据就既可以提高检索的效率, 也可在一定程度上增强检索的效果。

本文利用1.2亿的Yahoo!Answers数据集训练得到的分类器, 将训练数据中的120万的Yahoo!Answers问题句作为测试数据, 可达到超过85%的预测准确率。

2.2 问题检索的特征选择

在问题检索过程中, 特征和模型的选择同样重要。为了提高问题检索过程中的词语不匹配问题的解决能力, 本文考察了大量的可用于量测字符串相似度的特征。

2.2.1 基于统计分布的特征

基于统计分布的特征是指应用社区问答数据中的所有问题的词语分布信息来调整问题中每个词语的权重信息。

词频-反向文档词频TF-IDF:很多的检索模型都是应用IDF这一指标来对词语的权重进行调整的, 如Okapi BM25和向量空间模型VSM (Vector Space Model) 。

信息熵:熵是用于表示信息不确定度的计量标注, 应用问题中的类别信息即可计算一个词语对不同类别下问题的权重贡献, 由此达到调整词权重的目的。

2.2.2 基于结构的特征

基于结构的特征是指应用查询问句和问题中的短语、词语顺序和句法结构等信息来衡量查询问句和问题相似度的特征。文中涉及的相关概念如下:

N元文法:由于存储空间和计算效率的限制, 本文只采用了二元文法Bigram。

短语:对于查询问句和问题, 可以应用组块分析技术抽取其中的名词短语NP (Noun Phrase) , 动词短语VP (Verb Phrase) 和介词短语PP (Prop Phrase) 。本文应用Jaccard相似度指标来计算短语集合的相似度。

命名实体:命名实体NE (Named Entity) 是指文本中预先定义了类别的词语或结构片段, 如人名、地名、机构名等。同样应用Jaccard相似度指标来计算命名实体的相似度。

最长公共字串和最长公共子序列:本文利用最长公共字串和子序列与问题长度的比例来衡量查询问句和问题之间的相似度。

编辑距离:编辑距离是衡量两个字符串之间差别的一个标准。由于编辑距离和两个词序列之间的相似度成反比, 故本文选取编辑距离的倒数来衡量查询问句和候选答案的相似度。

字符串核函数:本文应用了Bu等[11]提出的字符串重写核函数 (String Re-writing Kernel) 来计算查询问句和问题之间的相似度。

依存分析:依存分析 (Dependency Parsing) 是通过依存文法对语句进行句法分析生成依存句法树的过程。图1为语句“Bell, based in Los Angeles, makes and distributes electronic, computer and building products.”的依存句法树示意图。

如图1所示, 树的任意节点和其子孙节点都会形成一个依存路径 (Dependency Path) 。路径的长度为路径中节点的数量。本文中统计查询问句和问题的依存句法树中的全部长度为2的依存路径, 并加上其中的弧标签。再通过计算两个依存路径集合的相似度来得到查询问句和问题的相似度。

以上基于统计和基于结构的特征可以概括为基于词的特征, 这些特征从最简单的无结构特征 (如关键词) , 到浅层结构特征 (如N元文法、短语、命名实体等) , 再到结构化的依存句法树, 分别表示了查询文件和问题所包含的各个层面的信息。

2.2.3 基于语义的特征

为了更好地解决查询问句和问题的词语不匹配问题, 仅仅利用基于词的特征是远远不够的, 本文还考察了基于语义的特征在问题检索过程中的应用。基于语义的特征是指应用查询问句和问题的词语之外的可以表征语句的语义或语义特点的信息的特征。现将该技术中的各类方法综述如下:

(1) LML:LML应用了问题的叶节点分类信息来调整语言模型, 用以查询问句与问题之间的相似度。该方法的基本思想是:在Yahoo!Answers的分类系统中, 每个大类下面都会分为很多小类, 这些分类信息都可以通过一个树形结构形象表示, 而树中的叶子节点则代表某问题的最小分类信息, 如图2所示。

在叶节点分类中, 由于话题限定更窄, 用户更倾向于讨论相近的问题, 如果查询问句中的词在某一叶节点分类中出现的频率更高, 则该分类中的问题便极有可能和查询问句相似。

(2) 翻译语言模型:模型的关键是训练得出词到词的翻译概率, 而用于训练的、可对齐的平行语料却很难获得。本文使用基于商业搜索引擎点击数据中查询问句和网页的标题而训练得出的词到词翻译概率作为翻译模型来计算两个句子的相似度。

(3) 复述模型:复述 (Paraphrasing) 是指对相同信息的不同表达方式, 而问题检索的目的便是要找到与查询问题一样或者是查询问句的复述的问题。本文应用通过商业搜索引擎的网络查询日志而训练得出的复述模型判断查询问句和问题之间互为复述的概率。

(4) Word Net语句相似度:Word Net是英文的语义词典数据库。通过Word Net中同义词集合语义的关系, 可以应用Wu和Palmer提出的相关性公式来计算两个词之间的相关性。词a和词b在Word Net中同义词的集合关系如图3所示, 并可由如下公式计算得出:

其中, depth为树中节点的深度, Icaab为节点a和节点b的最近公共祖先。

最后, 应用查询问句和问题中每个词的Word Net相似度进行组合, 即可得到两句话间的Wordnet语义相似度。

3 实验和结果分析

3.1 训练数据与工具

3.1.1 训练工具

本文应用Joachims开发的SVMRank工具包来训练Ranking SVM排序模型, 该工具简单高效, 只需将特征文件编写成其要求的格式作为输入, 并指定误差容忍度参数c, 运行该工具即可生成模型文件和排序预测结果。

3.1.2 训练数据

为了避免出现训练得到的模型发生对训练数据过度拟合的问题, 在训练数据中需包含两个部分:训练集和调试集。分别论述如下:

(1) 训练集:选取商业搜索引擎的部分查询日志的标注数据, 所有的查询都是问题查询, 且用户输入查询后点击了Yahoo!Answers的页面。数据采用5级标注, 将标注中得分为3及以上的问题视作正例 (相关) , good以下的当作负例 (不相关) 。最后, 正负例共有29 485条。

(2) 调试集:在三百万的Yahoo!Answers数据集上随机选出200条问题, 并在剩余的数据上通过应用语言模型进行检索。每个问题取出前100个候选结果, 再对问题的相关性进行标注, 去掉找不到相关结果的问题, 最后剩余176个问题, 即正负例共有17 600条。

基于调试集依次通过比较第一项准确率 (Precision@1) , 平均准确率 (Mean Average Precision) , 平均倒数排名 (Mean Reciprocal Rank) 三个指标来选取排序模型。

3.2 实验结果与分析

3.2.1 实验数据

本文应用了两组不同的实验数据来验证问题检索方法的有效性。

(1) 从2012年上半年的商业搜索引擎查询日志中选取200条高频的查询问句和100条较长的中等频度的查询问句, 共300条查询问句。

(2) Cao等提出LML方法时用到的Yahoo!Answers的问答数据。全部数据中包含超过三百万的问题及其答案, 其中测试数据为252条查询问句。因其提供的数据同时给出了对应的每个查询问句, 应用其方法即找到相关问题。

(3) 应用上一节中提到的调试数据集对和一些传统经典信息检索模型进行对比。随机选取156个问题作为测试集, 剩余20个问题作为模型参数的调试集。

3.2.2 实验结果与分析

在搜索引擎日志查询问句数据集1中, 对每个查询问句在全部超过130亿的问题数据中进行检索, 给出10个相似度最高的问题, 然后对所有问题进行人工标注, 并计算其Precision@1, MAP和MRR三个评价指标, 实验结果如表1所示。

如表1所示, Precision@1、MAP和MRR三个指标的结果比其他的实验结果要高出很多, 这是因为该测试数据集中的查询问句主要由查询日志中的高频查询组成。应用该测试数据集的目的是为了检测本文构建的问答系统的实用性, 因为大部分用户提出的问题与查询日志中的查询问句都是一致的, 这个结果也说明本文的问答系统具有很高的实用性。

在Cao等实验数据集2中, 为了得到真实的对比效果, 本文应用其小规模的问答数据重新构建了一套检索系统, 即两种方法均是在相同的实验数据集上进行对比的。表2为实验对比结果。

在表2中, R-Prec是Cao等在评测时用到的一个评测指标R-Precision, R则指该问题有R个相关问题标注。因为其公开的数据中只有一个查询问句的相关问题, 而并未给出其方法找出的不相关问题, 就使得绝大部分的结果都是未标注的。本文结果A是指直接应用其方法找出的相关问题, 并以其作为相关问题。这样相当于将全部的未标注问题均当成不相关的进行处理, 就会对结果产生很大影响, 因此结果中, 只有MAP略高于Cao等的方法。本文结果B是对检索结果进行了补充标注, 即评测时不再包含未标注问题, 从结果中可以看出, 本文在各项指标上都要优于Cao等的方法, 而在MAP和P@5上则有明显的提高。

在人工标注的调试集3中, 本文和传统的经典信息检索模型进行了对比, 包括向量空间模型 (VSM) 、Okapi BM25语言模型 (LM) 、LML、翻译模型 (TM) 。对比结果如表3所示。

从表3可以看出, 其中LML的结果是应用本文的数据重新训练生成模型计算得到的, 这与数据集2中LML直接对照Cao等的实验结果是根本不同的。相对于传统的经典信息检索模型, 本文的方法表现了很大的优势, 在各个评测指标上都有显著提高。

4 结束语

本文应用查询问句和问题的结构信息和语义信息, 并结合排序学习算法来融合多种不同类别的特征的方法, 再应用训练数据生成排序模型来提高问题检索的相关性和词语不匹配等问题。实验表明, 本文的方法在各个数据和评价指标上都要明显优于基准方法。在接下来的研究中, 本文可利用问题检索过程中得到的问题及其答案来构造高质量的问答知识库, 以将其应用到信息检索系统和其他信息服务当中。

参考文献

[1]LIU Y, LI S, CAO Y, et al.Understanding and summarizing answers in community-based question answering services[C]//Proceedings of the 22ndInternational Conference on Computational LinguisticsVolume 1, COLING’08, Stroudsburg, PA, USA, 2008:497–504.

[2]JEON J, CROFT W B, LEE J H.Finding similar questions in large question and answer archives[C]//Proceedings of the 14thACM international conference on Information and knowledge management.ACM, 2005:84-90.

[3]XUE X, JEON J, CROFT W B.Retrieval models for question and answer archives[C]//Proceedings of the 17thACM international conference on Information and knowledge management, 2008:475–482.

[4]BERGER A, LAFFERTY J.Information retrieval as statistical translation[C]//Proceedings of the 22ndAnnual International ACM SIGIR Conference on Research and Development on Information Retrieval, 1999:222–229.

[5]PONTE J M, CROFT W B.A language modeling approach to information retrieval[C]//Proceedings of the 21stannual international ACM SIGIR conference on Research and development in information retrieval.ACM, 1998:275-281.

[6]WANG K, MING Z, CHUA T S.A syntactic tree matching approach to finding similar questions in community-based qa services[C]//Proceedings of the 32ndAnnual International ACM SIGIR Conference on Research and Development on Information Retrieval, Boston, MA, USA, 2009:187–194.

[7]BIAN J, LIU Y, AGICHTEIN E, et al.A few bad votes too many?:towards robust ranking in social media[C]//Proceedings of the 4thinternational workshop on Adversarial information retrieval on the web.ACM, 2008:53-60.

[8]CAO X, CONG G, CUI B, et al.A generalized framework of exploring category information for question retrieval in community question answer archives[C]//Proceedings of the 19thinternational conference on World wide web.ACM, 2010:201-210.

[9]ZHOU Z, LAN M, NIU Z, et al.Exploiting user profile information for answer ranking in cQA[C]//WWW'12 Companion Proceedings of the 21stinternational conference companion on WWW, Pages 767-774.

[10]DUAN H, CAO Y, LIN C Y, et al.Searching questions by identifying question topic and question focus.[C]//Proceedings of 46th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies (ACL:HLT) , Columbus, OH, June2008.

规模数据第9篇

v'和w'分别为投入产出的度量权。设决策单元有效条件:如线性规划问题 (2) 最优解w和v满足E=1, 则决策单元弱有效;如 (2) 最优解满足w>0、V>0, 则DMU为DEA有效。变换模型, 引入非阿基米德穷小, 得线性规划模型:

对偶规划问题为

xo和yo分别为投入产出向量:SA和SB分别为投入产出的松弛变量:θc为DMU0效率评估结果:λi为投入产出指标的权系数。当该问题的解为时, 有: (1) 如θc*=1, 则弱势有效; (2) 如θc*=1, 且SA=SB=0, 则技术有效; (3) 如θc*<0, 则非技术有效。

择组织结构及经营侧重点各不同的中国人民、中国人寿保险和中国平安股份有限公司为评价对象, 结合计算近年行业数据, 得综合评价结果。以人力资源资本、数据份资产投入、经营费用、已发生赔款支出为决策单元投入项。其中, 经营费用包含递延保单成本变动、保户利益、寿险责任准备金增加、衍生金融负债公允价值变动、佣金支出、营业管理费、保险保障金。相应, 产出指标为保费收入和利润总额。

所选数据时间窗口为20062010年、来自各大保险公司年度报表及保险年鉴。现仅列示行业数据:

以Matlab求解行业整体各年效率系数:

由此, 我国保险业近年规模效率平稳而有波动。06、07及10年, 行业处经营效率前沿。依定义, 这三年行业规模至少为弱势有效, 即基本规模经济。此外, 分别计算三家样本公司数据, 得效率值:

因此, 近年始终规模经济的是中国人寿及人保财险, 值稳定为1, 至少弱势有效, 其技术水平、管理能力与经营规模相适应。平安的集团经营导致内部低效率, 使整体未达规模经济状态。而其效率值渐趋于1, 也预示绩效进一步提高, 契合了行业整体趋势。

再依据方程 (3) 求解松弛变量值 (人保计算结果类似中国人寿, 略去) :

由此, 2006、2008和2010年保险业呈相对规模经济, 人力资本、固定资产、经营费用投入为最佳水平。相反, 2007和2009年分别出现规模不经济、投入产出不均衡。2007年, 固定资产及经营费用投入大体适度, 劳动力投入过多、与实际产出不相配, 行业应适当缩减劳动力规模、改善经营降低赔付率以保证合理利益。2009年, 保险业总体劳动力规模适当, 固定资产、保险金赔付及经营费用明显过多。相对地, 实际利润过小, 技术效率明显降低, 为严重规模不经济。从个别公司来看, 其投入产出的不配比均主要体现在2007和2009年, 与行业整体情况相符, 印证了前述分析结果。

摘要：本文应用数据包络分析, 择代表性的保险公司、与我国保险行业分别作为研究对象, 评价规模效率水平。个体与整体效率评价相互印证, 得保险业规模效率研究综合结果, 形成对行业发展现状的深刻认识。

大规模天线下的数据传输方案研究第10篇

随着无线通信需求的增加，为进一步提升频谱效率和增加系统的容量，在无线系统中引入大规模天线技术。大规模天线(Massive MIMO)技术，通常指基站天线数目庞大，而用户终端采用很少的天线数接收的通信方式，是未来5G通信中的重要技术。大规模天线阵列带来的巨大阵列增益和干扰抑制增益，使得小区总的频谱效率和边缘用户的频谱效率得到极大提升[1]。与现有的2、8天线相比，其天线数目可达64、128根[2,3]。在此条件下，可以综合利用无线信号的空间传输特性、用户与基站的距离(功率)、UE对无线信道的反馈等条件，确定下行数据的传输方案。

目前，3GPP(第三代合作伙伴计划)R10/R11中的多天线技术只支持最大8天线端口的水平维度波束赋形技术[4]。现有技术基于码本反馈的方案，首先需要确定出对应的层数，然后再确定出相应的码本[5]。这在大规模天线下，例如128根天线，其层数可能是1～128中的任意数值，并且每一层对应的码本个数也是相当多的，其反馈量是相当大的，UE的处理也会相当的复杂。UE反馈相应的码本以后，基站还要经过复杂的运算和处理(尤其是多个用户共同使用相同的时频资源进行MU-MIMO配对传输时)，才能确定UE的下行传输方案。因此，设计一种合理、优化的下行数据传输方案具有非常重要的意义。

1 基于子空间反馈的方案

本文设计了一种基于子空间反馈的数据传输方案，通过计算信道系数矩阵协方差矩阵最大特征值对应的特征向量，判断其与不同子空间的夹角是否在一定门限内，从而将UE划分为相同或者不同的子空间，UE将相应的子空间上报给基站，用于基站确定UE的下行传输方案，或者MU-MIMO配对算法使用。

1.1 方案设计原理

对于基站是多个天线的系统来说，可以按照以下方式进行数据的传输:

首先，按照图1分区域的方式设计下行参考信号，不同区域的参考信号占用不同的时频资源，相同区域的参考信号用不同的正交码进行区分。

如图1所示，共32个天线端口，分成A、B、C、D四个区域，不同的区域使用不同的时频资源进行区分。对于特定的某一区域，如A，在指定的时频资源上，用正交码再次区分同区域的不同的天线端口。

举例来说，A区域的8个天线端口共用图2的相同的时频资源，不同的天线端口用正交码进行区分，如图2所示。

可以采用的正交码如表1所示。

其次，UE对基站发送的下行参考信号进行测量，并且计算信道矩阵协方差矩阵最大特征值和其对应的特征向量。然后计算特征向量与子空间的夹角，根据预设的门限，判断UE是否可以划分到某个子空间。

举例来说，对于某个UE，其最大特征值为λ，并且其对应的特征向量为α=(a1,a2，…，a32)。设向量ek为第k项为1，其余项为0的行向量。

ΧA是由基向量e1,e2,e3,e4,e5,e6,e7,e8构成的子空间;

ΧB是由基向量e9,e10,e11,e12,e13,e14,e15,e16构成的子空间;

ΧC是由基向量e17,e18,e19,e20,e21,e22,e23,e24构成的子空间;

ΧD是由基向量e25,e26,e27,e28,e29,e30,e31,e32构成的子空间;

分别计算特征向量α与子空间ΧA、ΧB、ΧC、ΧD之间的夹角，取夹角中的最小值与设定的门限值进行比较(如门限值设定为70°)，如果小于门限值，则将对应的特征空间上报给基站。

设夹角为θ，计算夹角公式如式(1)所示:

举例来说，特征向量α与子空间ΧA、ΧB、ΧC、ΧD之间的夹角最小值分别为45°、80°、90°、85°，由于α与ΧA之间的夹角最小并且小于70°，则将ΧA上报给基站。

如果特征向量α与子空间ΧA、ΧB、ΧC、ΧD之间的夹角均不小于门限值，则将此结果上报给基站。

1.2 反馈信息设计

设置1个bit位表示UE的特征向量与子空间ΧA、ΧB、ΧC、ΧD之间的夹角是否小于门限值，例如1表示小于门限值，0表示所有的值均不小于门限值。

对于1的情况，紧接着用一定的bit位表示与特征向量夹角最小的子空间。例如上面的示例中，可以用2bits表示相应的子空间，具体的对应关系如表2所示。

2 下行传输方案选择

根据UE上报的结果，基站确定下行数据的传输方式。首先根据UE上报结果的第1个bit位将所有的UE划分为两个组，值为1的UE在一个组，值为0的UE在另外一个组。不同组的UE按照时分的方式进行调度(即不在同一个子帧上进行调度)。对于值为1的情况，在同一个子帧上，优先选择不同子空间的UE进行MU-MIMO配对。对于值为0的情况，可以采用下行波束赋形方案进行传输。

类似的，可以将天线的端口数目进一步的扩大，并且使用上述方法进行下行数据的传输。图3所示为128天线子空间划分图，此时，子空间划分多，MU-MIMO可配对的用户数增多。

3 结束语

对于Massive MIMO系统来说，下行传输模式的确定、多用户配对算法、波束赋形等是资源调度问题的核心研究内容。本文提出一种大规模天线系统下的数据传输方案选择方法，基于子空间反馈，可以大大减小UE反馈量，比较简单地确定下行传输方案，也比较容易进行下行多用户MIMO配对。但在实际系统中也要考虑天线数较大时，计算信道矩阵协方差矩阵最大特征值和特征向量所带来的矩阵运算复杂度问题，这在一定程度上增加了系统的延时，如何设计合理的方案还需要进一步研究。

参考文献

[1]许森,张光辉,曹磊.大规模多天线系统的技术展望[J].电信技术,2013(12):25-28.

[2]Fredrik Rusek,Thomas L,Marzetta,et al.Scaling UP MIMO:Opportunities and challenges with very large arrays[J].IEEE Signal Processing Magazine.2013-03-21.

[3]Marzetta T L.Noncooperative cellular wireless with unlimited numbers of base station antennas[J].IEEETransactions on Wireless Communication.Nov.2010,9(11):3590-3600.

[4]3 GPP TS 36.211 V11.0.0,Evolved Universal Terrestrial Radio Access(E-UTRA);Physical Channels and Modulation[S].2012-09.

规模数据范文

规模数据第1篇

规模数据第2篇

规模数据第3篇

规模数据第4篇

规模数据第5篇

规模数据第6篇

面向大规模定制的产品数据重叠研究第7篇

规模数据第8篇

规模数据第9篇

大规模天线下的数据传输方案研究第10篇

规模数据范文

猜你喜欢

栏目

最近更新

热门标签

规模数据范文

规模数据 第1篇

规模数据 第2篇

规模数据 第3篇

规模数据 第4篇

规模数据 第5篇

规模数据 第6篇

面向大规模定制的产品数据重叠研究 第7篇

规模数据 第8篇

规模数据 第9篇

大规模天线下的数据传输方案研究 第10篇

规模数据范文

猜你喜欢

栏目

最近更新

热门标签

规模数据第1篇

规模数据第2篇

规模数据第3篇

规模数据第4篇

规模数据第5篇

规模数据第6篇

面向大规模定制的产品数据重叠研究第7篇

规模数据第8篇

规模数据第9篇

大规模天线下的数据传输方案研究第10篇