产品粒度范文
产品粒度范文(精选7篇)
产品粒度 第1篇
1 平衡剂的粒度分布及相应
CC产品分布(1)
1.1 平衡剂的粒度分布
不同生产时期一催化及二催化平衡剂的粒度分布列于表 1。
注:1# 取样时间为2005-01-05;2# 取样时间为2005-05-11;3# 取样时间为2007-05-25。
1.2FCC 产品分布
采用表 1 所列不同生产时期一催化及二催化装置的工业平衡剂,在 XTL-5 提升管中试装置上进行裂化性能评价。评价时,同一时期一催化和二催化的工业平衡剂,采用了相同的原料油和操作条件,评价结果见表 2。
由表 2 可见,应用 1# 试样时,与一催化平衡剂相比,二催化平衡剂所得干气和焦炭收率相当,液化气收率提高了 2.11 个百分点,汽油收率增加了 6.11 个百分点,轻柴油收率略有降低,重油收率降低了 7.97 个百分点,转化率提高了 9.67 个百分点;总液收增加了 7.52 个百分点。这表明粗度系数小的二催化平衡剂其重油转化能力较强,产品分布较好,目的产品收率较高。
由表 2 还可见,应用 2# 试样时,与一催化平衡剂相比,二催化平衡剂所得干气和焦炭收率相当,液化气收率降低了 1.15 个百分点,汽油收率增加了 3.56 个百分点,轻柴油收率增加了 1.71 个百分点,重油收率降低了 3.61 个百分点,转化率提高了 1.90 个百分点,总液收增加了 4.12 个百分点,可见该平衡剂(粗度系数小)表现出了与 1# 二催化平衡剂相同的特点。
应用 3# 试样时,与二催化平衡剂相比,一催化平衡剂所得液化气的收率增加了 3.64 个百分点,轻柴油收率降低了 1.10 个百分点,重油收率降低了 2.68 个百分点,转化率增加了3.78个百分点,总液收增加了 2.29 个百分点。
以上结果均表明,在操作条件和原料性质相同的情况下,粗度系数较小的工业平衡剂,其重油转化能力强,裂化产品分布较好,目的产品收率较高。
2平衡剂粒度分布与其流化效果的关系
FCC 流化床属于聚式流化,聚式流化的气体主要是以气泡形式通过床层向上运动,气泡在床层中的运动状态对传质和催化反应起着重要作用。催化剂颗粒在气流作用下运动的滑动速度、床层起始流化速度与首次出现气泡的表观起始气泡速度是衡量流化性能的主要参数。在催化剂颗粒的流化输送过程中,气泡的存在对输送过程会产生干扰。一般希望输送过程中气泡的干扰愈小愈好,无气泡干扰输送最为理想,即表观起始气泡速度与床层起始流化速度比值越大越好[2]。文献[2]给出了粗粒与细粉不同质量比混合物的塌落曲线,从中可以看出,随着细粉含量的增加,气泡的表观起始气泡速度与床层起始流化速度比值增大,说明其流化性能变好。
粗度系数大的平衡剂,其粗颗粒含量高,流化质量差,易产生大气泡。大气泡与催化剂颗粒接触不充分,不利于 FCC 反应的进行。在有细粉存在的情况下,细粉包围在粗颗粒周围,有如滚珠轴承的作用,使产生的气泡较小,同时乳化相运动加快,与油气接触较好。可以大大改善流化质量,强化气固接触,从而提高生产效率[1]。
陈俊武等[2]采用床层塌落技术进行了标准化催化剂流化试验,结果表明,随着平衡剂中细粉含量的增加,平均粒径下降,平衡剂的流化性能明显变好。这意味着其在相同的流化环境下,可获得较好的床层流化质量和易于实现稳定的催化剂循环。综上所述,采用粒度分布宽、含有一定量细粉的催化剂有利于平衡剂的流化。
3平衡剂粒度分布的影响因素及控制措施
3.1影响因素
平衡剂的粒度分布取决于 3 个因素:补充新鲜催化剂的粒度组成、催化剂在设备中的操作状况及其耐磨性、催化剂回收系统的工作效率。一般工业装置中平衡剂所含细粉量不多,主要是由于床层流速较高、旋风分离器回收效率差及未使用电除尘器所致[1]。
3.2控制措施
魏耀东等[3]在对炼油厂 FCC 装置跑损催化剂颗粒粒度测量后,认为从跑损催化剂的颗粒粒度分布可以反映再生器和沉降器的流化运行状态。在生产现场,可采用一些简单的方法粗略判断平衡剂的流化状况,如观察床层温度分布、测量床层压力波动及径向差压、监听设备响声、测量跑损催化剂的颗粒粒度分布等。当检测到平衡剂的流化状态较差时,可以通过降低床层流速、提高旋风分离器回收效率、使用电除尘器、提高补充新鲜催化剂的流动速度等手段,来增加平衡剂的细粉含量,将该值控制在较合理的范围,以获得较好的平衡剂流化效果。
4结论
a. 粗度系数较小、细粉含量较高的工业平衡剂,其重油转化能力强,裂化产品分布较好,目的产品收率较高。
b. 在工业生产中,可以通过降低床层流速、提高旋风分离器回收效率、使用电除尘器、提高补充新鲜催化剂流动速度等手段,来增加平衡剂的细粉含量,将该值控制在较合理的范围,以获得较好的平衡剂流化效果。
摘要:研究了催化裂化平衡剂的粒度分布对裂化产品分布的影响。结果表明,粗度系数较小的工业平衡剂,其重油转化能力强,裂化产品分布较好,目的产品收率较高。在工业生产中,可以通过降低床层流速、提高旋风分离器回收效率、使用电除尘器、提高补充新鲜催化剂的流动速率等手段,增加平衡剂的细粉含量,将该值控制在较合理的范围内,从而获得较好的平衡剂流化效果。
关键词:催化裂化,平衡剂,粗度系数,粒度分布,产品分布,流化
参考文献
[1]石功军.催化裂化装置催化剂跑损量大的原因及解决措施[J].炼油技术与工程,2007,37(3):25-27.
[2]刘仁桓,魏耀东.催化裂化装置跑损催化剂的颗粒粒度分析[J].石油化工设备,2006,35(2):9-11.
[3]徐振领,崔国居.重油催化裂化装置催化剂跑损原因分析[J].天然气与石油,2005,23(3):45-47.
基于粒度原理的知识组织模型构建 第2篇
关键词:粒度原理 知识组织 知识服务 模型
中图分类号: G254.29 文献标识码: A 文章编号: 1003-6938(2013)06-0008-05
1 引言
随着信息技术飞速发展,产生的各类信息爆炸式增长,形成海量信息或者大数据,然而,人们要从海量数据中获取所需要的信息显得更加困难,特别是用户在解决实际问题时,收集来的信息虽与待解决问题相关,但无法直接形成问题解答,由于这些信息分散、混沌和无序的状态,导致可利用的知识增加不多,用户解决问题感到费时,无法得到满意解答,信息爆炸与问题的解答相对匮乏的矛盾日益突出,如何有效解决这一矛盾是提供知识服务质量和效率的关键。要解决这一矛盾,需要从海量数据中获取有价值的信息后,对获取的信息进行知识点提取和知识关联,并对各类知识进行分类和聚类,按照不同粒度大小的知识对象进行探讨,且在不同粒度上进行问题的求解。
粒度的思想无处不在,粒度原理是一种看待客观世界的世界观和方法论,利用粒度原理的思想思考问题,提供问题解决的质量和效率,从不同侧面、不同角度分析问题现状、关联、推理,从而有利于问题的求解。首先需要获取所需数据和信息,并经过科学处理、整理、关联形成静态知识网,以不同粒度大小的知识体现,实现数据知识化;其次根据用户提出的问题进行静态知识用户问题的动态关联和分析,结合知识粒度大小动态形成支撑问题解决的知识网,实现知识有序化,最终为用户提供高效的知识服务,并促进知识利用、共享、传播和增值。
总之,在用户问题的驱动下,在知识组织的框架下,在粒度原理的支撑下,为解决用户问题、实现高效知识服务为目标,知识组织是基础,粒度原理是手段,如何对知识组织实现数据知识化、知识有序化以及知识服务化。
2 相关文献评述
美国数学家Zadeh在模糊集合论的基础上,首次提出模糊信息粒化和词计算理论,明确人类认知的三个基本概念[1]:粒化、组织和因果,粒化指将整体分解为部分,组织指从部分合并为整体,因果则指原因和结果的关联,推动了模糊逻辑理论及其应用的发展,但在当时未引起普遍的重视。1985年,Hobbs提出一种粒度理论,在人工智能中将一个表示待求解问题的逻辑公式用粒度理论方法分解成若干个小问题或子公式,并分别对这些小问题或子公式求解,最后得到问题的整体求解,并构建相应模型,不仅实现把较大的整体粒度拆成较小的局部粒度,也可以从较小的粒度合并成整体粒度解。
J.R. Hobbs[2]从概念与知识的关系角度揭示了知识的粒度特性,说明抽象程度不同的知识之间存在联系,但没有具体给出表示这种联系的方法,所以无法应用于问题解决。卜东波、白硕、李国杰[3]从信息粒度的角度来剖析聚类和分类技术,利用信息粒度原理的框架来统一聚类和分类,在一个统一的粒度下进行聚类计算, 而在不同的粒度下进行分类计算。王国胤、张清华[4]对不同粒度知识不确定性的探讨,发现在分层递阶的知识粒度下部分已有研究成果中的规律不一定符合人们的认识规律。从信息熵的角度提出了一种粗糙集不确定性的模糊度度量方法,证明了这种模糊度随知识粒度的减小而单调递减,弥补了现有粗糙熵和模糊度度量粗糙集不确定性的不足,分析了在不同知识粒度下粗糙度和模糊度的变化关系,其侧重点探讨的是知识粒度下的特征变化,与知识组织融合没有涉及,所以无法直接为用户解决问题。冯琴荣、苗夺谦、程昳等[5]对知识粒度定量划分和表示进行研究,提出一种知识表示法划分粒度表示法, 利用划分粒度可定量表示知识的分类能力,首先分析粗糙集理论中知识的代数表示, 其次定义知识的划分粒度并研究它的性质, 最后证明知识的代数表示和粒度划分是等价的,为知识的粒度表示提供借鉴和参考,但局限于知识粒度化本身的研究,缺乏与知识组织其他过程关联。
蒋黎黎、梁坤、叶爽[6]为了解决分布和多源知识的融合与创新问题,提出受控分众分类法,分类结果提高了知识资源的标注精度,降低了知识组织成本。此外,为了消除本体模块间的异构,构建语义一致的领域本体,将粒度计算理论引入知识融合领域,提出微商空间法,对本体模块进行分解与重构,结果使得构建的领域本体更加简洁和语义一致,这些过程中运用的粒度思想模仿人类思考问题的方式[7]。赵昌葆[8]以工程知识为背景,以问题求解为目的,建立基于粒度知识的综合求解方法,提出概念模型、应用模型与解释模型三层次集成的工程知识管理模型,并在工艺设计方面进行实践应用,但知识管理模型主要侧重显性工程知识组织和推理,对于特定工程领域有待融入情景和专家经验知识,跨领域知识集成和运用,解决工程问题的求解有待进一步优化。杨人子、严洪森[9]针对知识化制造系统自重构中知识网检索方法过于主观以及重复检索和运算等问题,提出基于信息粒度的知识网的模糊分类和检索方法,解决了自重构运算导致的知识网存在多样性的问题,考虑知识网在“质”、“量” 和复杂性等方面的差异,按照用户需求,将知识网库中的知识网进行聚类, 使得最终新知识网的复杂性降低,而且可以得到目标知识网满意度的排序,有效提高分类的正确率,消除聚类结果和先验知识之间的主客观不谐调性,但聚类模型中相似性测度函数的不同影响聚类结果的唯一性,对知识网间的完善度和匹配度的获得科学性有待进一步改善。
国内外学者对知识组织理论和体系也进行大量研究,DAHLBERG[10]在ISKO20年纪念大会上提出了知识组织迫切需要解决的10个问题。特别强调注意概念(知识单元),概念层(词,术语,编码)以及词句层的识别和表示。张文亮、徐跃权[11]从微观、中观和宏观三个层次全面系统地理解和解释知识组织的概念和理论体系,通过知识发现、知识描述最终实现知识的表达、共享与创新。贺德方[12]从知识组织体系的构建和应用角度,对知识组织体系之间的转化、映射以及标准化等方面研究成果进行梳理和总结,认为用户参与和用户使用优先是知识组织的趋势。毕强[13]分析知识组织系统的相关研究成果并揭示知识组织系统构建从机器可读到机器可理解的发展趋势。王曰芬等[14]研究了面向个性化服务的知识组织机制,将用户需求和用户隐性知识纳入其中,形成了个性化服务的知识组织的过程和方法。夏立新等[15]从行为学角度研究政务门户知识组织,对不同类型的信息用户提供相应类型的个性化服务,形成面向用户特征信息服务和知识门户相结合的政务门户系统。
nlc202309040347
通过以上分析可以看出,国外内学者对粒度原理的研究主要集中在粒度概念、理论、粒度计算、信息粒度化、粒度聚类/分类等方面,对知识组织的研究则集中在知识组织的概念和理论研究,虽有利用粒度原理来组织知识,但大多集中在词计算、具体工程领域知识的粒度化等方面,缺乏借助粒度原理在知识组织全过程中分析知识的粒度变化规律,虽有基于粒度的知识融合等成果中提出宏观的组织体系,但缺乏对知识组织的实践指导。因此,本文在知识组织理论和方法基础上,借助粒度原理对知识组织宏观构架,以解决用户问题为出发点,将粒度原理思想贯穿于知识组织全过程,规范知识粒度化,探讨知识组织各个环节上知识的粒度变化规律,构建知识粒度模型,形成静态知识组织和动态知识组织两级知识组织模式,为用户问题解决提供有效解决路径,从而实现知识服务的目的。
3 粒度化分类和聚类准备
粒度本来是物理学中的概念,国内学者运用粒度原理模仿人思考的不确定性优势,已经应用到知识管理中,把问题粒化后,经过粗细粒度的反复迭代,用低成本的、足够满意的近似解替代精确解,从而更好地认识和刻画世界。在数据知识化、知识有序化以及知识服务化等过程中都面临不同颗粒度知识之间分类和聚类的不确定性问题,因此对知识进行颗粒化适用于面向知识服务的知识组织,选择一种合适的知识粒度划分算法影响着知识重用、检索、推理、共享等应用效果,所以有必要在进行知识组织之前,对知识的粒度化进行充分准备。
对于采集各类信息或者知识,为了有效地管理和运用,需要对知识进行预处理和分析,由于知识本身具有不确定性和不规范性等特点,而在实际应用过程中需要具备智能化检索和分析,采用粒度的方法对知识进行分类等预处理,将知识逐步颗粒化,划分为不同大小的颗粒,并通过知识粒度度来度量,知识粒度即是是对信息和知识细化的不同层次的度量,通过知识粒度有助于非结构化知识形式化,由于不同粒度的知识是具有推理的、类似性和相似性的数据集合, 携带有充分的概念性句子, 可以帮助人们了解数据中存在的有意义的联系[16],其中粒度较大的知识转化成粒度较小的知识的过程即为“加细”,可以帮助用户得到更加具体和详细的检索结果;粒度较小的知识转化成粒度较大的知识的过程称为“加粗”,可以提高检索效率。
3.1 知识粒度概念界定
任一粒度大小的知识都由内部属性、外部属性以及情景属性三部分构成,其中内部属性主要是该粒度知识内部关联的描述,外部属性是该粒度知识与其他知识关联的描述,情景属性是在特定环境下与外部情景关联的描述[8]。以下结合粒度原理给出知识粒度相关定义。
定义1(粒度的定义和大小):在给定的论域U和U上的关系R:U→P(U)?U=∪i∈
dx,其中,当论域为离散情形时,积分表示信息粒子G所含个体的总个数;当论域为连续状态时,积分表示信息粒子G长度的度量值,也可能是无穷大或者不可数;当G为模糊信息粒子时,G表示集合应为{x|UG(x)>0, ?x∈U}。
定义2(粒度知识的构成):任一粒度的知识主要包括粒度知识的概念与属性、功能和关联三个方面。其中概念与属性主要是描述粒度知识的定义和具有属性特征,功能是粒度知识所能解决问题的描述,关联包括粒度知识内部、不同粒度知识之间以及特定情景粒度知识的关联的描述。
定义3(粒度知识的粗细):设R表示由论域U上一切等价关系组成的集合,设R1,R2∈R,如果对于任意的x,y∈U,都有xR1y?xR2y,那么就称R1比 R2细,记作R1≤R2。
3.2 知识粒度规范
知识粒度化是与所解决问题或子问题相关联或相伴随的,其目的在于保证知识粒度能够适应问题解答。因此,知识粒度的划分是与待解决问题或子问题的粒度相关的,知识粒度的划分须以能够向用户提供所需知识为准则,并以正确支撑问题解答为目标,根据粒度原理进行知识的粒度表示。在解答用户问题过程中,根据知识粒度将问题分解,从不同粒度层次和不同角度来分析和解决问题,不需要再将所组织的知识进行分解或重构,知识的大小(粒度)能恰当地解答当前问题。欲实现这些目标,需要为知识粒度的划分和知识粒度化制定规范,这些规范主要包括文献著录规范、文献标引规范、知识表示规范以及知识融合规范四部分。文献著录规范是对文献著录的原则、内容、格式等方面进行统一科学的规范,实现文献著录标准化;文献标引规范是为了方便文献检索和引用,对文献的引用制定统一的分类标引和主题标引等标引规范;知识表示规范是对知识的属性、关系以及使用过程等按照统一规范进行编码或表示,主要包括叙述性和过程性表示;知识融合规范是对异构知识按照一定规范进行知识转换、重新、共享和集成,并按照统一规范表示产生的新知识。
4 基于粒度原理的知识组织过程
为了满足新形势下用户对知识组织的需求,提高知识服务质量,有必要分析传统知识组织方式存在问题和不足,首先在传统知识组织中采用统一知识粒度大小进行分类和聚类,由于解答问题中需要不同粗细粒度的知识进行支撑,所以用户无法快速获取个性化问题的满意解答,其次各类知识的语义关联不足,导致对用户需求针对性不强,检索结果满意度低,显然传统知识组织无法满足用户日益复杂和全面的需求,同时急需以用户为导向的知识组织来提供高效的知识服务。
基于粒度原理的知识组织过程以服务用户为目的,有效解决问题解答过程中相互矛盾的要求,一种是要支持以积累的实验证据为基础而构成的细粒度知识,一种是要满足粗粒度知识的较高的特异性,因此为了有效解决知识组织各阶段对知识认知规律不确定的问题,系统角度组织各阶段的知识,借助粒度原理构建知识粒度模型,知识组织过程中知识粒度聚类模型(见图1),将各类知识分为知识元、知识单元以及源文献三种主要粒度知识。最低一层是知识粒度最细的知识元层,主要包括通过采集和获取形成粒度较多知识,根据各个知识之间关联程度分成粒度群D-1、D-2、......、D-p,涵盖用户知识需求、情景最基本概念、公式以及事件等,该层次只能解决比较单一的问题。为了解决稍微复杂的问题需要对各个粒度群进行聚类形成知识粒度较楚的知识单元层,根据用户知识需求不同,通过阈值α来进行聚类算法,粒度群D-1、D-2、......、D-p分别经过FM-1、FM-2、......、FM-p聚类后形成各类知识对应的知识单元B-1、B-2、......、B-p,包括显性和隐性知识,通过归纳、选择、整理和排序形成各个知识单元B-i之间的横向关联,从而形成如索引、文摘、题录等形式的知识,该过程是一个优化组合的过程,知识元之间的关联并未改变,没有产生新的知识,将知识元该层次上的知识粒度称为I型知识粒度。随着用户知识需求日益复杂化,通过知识单元无法提供有效地解决用户问题,需要对大量知识单元进行分类、推理、挖掘、语义关联等过程形成粒度更大的知识,该过程改变了知识单元原有联系,产生新的知识,形成综述、百科全书、主题库、年鉴等形式的知识,即源文献,同时源文献也可以向知识单元反馈各个知识单元使用情况,以便为调节知识的颗粒度阈值提供依据,优化知识粒度模型,该层称为II型知识粒度。在知识组织过程中,通过知识粒度模型,针对用户的要求,选择适应的层次和大小的粒度知识进行挖掘和推理,最终形成用户问题的最优解,有助于知识组织实现数据知识化、知识有序化以及知识服务化的目标。
nlc202309040347
4.1 静态知识组织
在细粒度知识元中通过基本的词分析和计算[17]后经过若干个知识节点[18],结合用户需求和已有各类知识,将获取的信息和数据按照不同类别分成策略知识、描述知识和控制知识,这些知识全部映射为知识元、知识单元以及源文献,结合用户需求形成静态知识网(见图2),静态知识网络对已有知识、文档材料、经验知识、网络资料以及用户需求等信息通过粒度化形成知识元、知识单元以及源文献等不同粒度知识,这些粒度知识根据用户需求按照不同类知识提取后形成策略知识、描述知识和控制知识等三类知识。
4.2 问题分解
用户问题求解是一个由问题空间向解空间映射的过程,由于问题的复杂性及知识的有限性,无法通过一次映射直接得到问题的解,最常用的方法是“分解法”,即将一个困难的问题分解为若干个相对容易的小问题。具体分解方法如下:
根据问题的性质和本身的层次,将整个问题逐级分解的方式分类,分类过程可以按照非均匀粒度标准进行,问题域为Q,则可以分为{Q1,Q2,....,Qn}n各等价类,这n各等价类可以根据需要进一步分类,上一级是下一级的抽象,下一级是上一级的细化,自底向上逐级综合得到整个问题的解。在工程问题求解中,一般按照功能、过程或结构用经验方法分解,本质上与人工智能中的“问题规约法”一样,都遵循“分而治之”的策略,是复杂问题求解的常用方法,但与“问题规约法”不同,工程问题一般属于病态结构问题,不但问题空间与解空间难以确切描述,而且层次之间及同一层次内存在大量的、程度不同的耦合关系,因此需要根据问题自身的特点确定有效的求解策略。
4.3 动态知识优化组合
对于单个最小粒度的知识元和不同粒度知识点无法有效解决用户的问题,为了达到这个目的有必要分析各知识点之间关联程度和关联性,以便于对粒度知识优化组合与推理后形成较大粒度的知识,逐步实现解决用户的问题的目标[19]。粒度知识优化组合主要包括知识聚类、知识聚合度量化以及连通性分析等部分。
知识聚类对于粒度较小的知识元按照统一和均匀粒度方式进行聚类,使得聚类知识与先验知识协调起来,通过知识聚合度来量化知识之间的关联程度,为了动态优化这些知识提供可供参考的依据。
粒度知识聚合度主要描述知识之间关联程度,即知识点聚合度:假定对知识点M1使用的活动(Activity)数目为A(M1),同时使用知识元M1和知识点M2粒活动数目记为A(M1 ,M2),则M1 和M2的聚合度为I(M1 ,M2);如果是多个知识点M1 ,M2,……,Mi,则聚合度为I(M1 ,M2,……Mi)。其中
I(M1,M2)=
多个知识点的的聚合度表示如下,
I(M1,M2,…Mi)=
一般情况下,从认知理论分析同一时间被使用或激活的知识点或粒度知识数据不得大于9,粒度知识之间可以通过活动相互作用,是一个并发的、自组织的系统,按照粒度大小不同分别获取知识的聚合度,可以对用户不精确的概念给出较清晰的表示,从而更准确、有效地解决实际问题。知识元聚合度主要功能是在大数据环境下实现知识共享和运用提供关联基础,保持知识元长期性、稳定性和适合应用的多变性,在知识组织过程中可以动态修改和设置知识元的聚合度,并根据用户问题进行自适应聚类和连通,形成粒度大小不同的动态知识网络Wj{m_1,m_2,...m_j}。
5 结语
综上所述,本文以解决用户问题的目的进行知识组织,借助粒度原理对知识粒度概念界定、知识粒度规范化等知识组织准备,设计知识粒度编码和映射,并构建知识组织中的知识粒度模型,将客体知识通过分类和聚类形成知识元、知识单元、文献源等不同粒度大小的知识,在知识组织过程中,首先对静态知识进行初步整理、关联,其次,结合对用户问题以及分解的若干个子问题基础上,对这些知识进行动态关联、分析和推理等优化组合,下一步重点研究将问题解答通过知识地图等形式展现给用户,最终解决用户的问题,实现数据知识化、知识有序化和知识服务化目标。
参考文献:
[1]Zadeh, L.A. Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic [J].Fuzzy Sets and Systems, 1997,(19):111-127.
[2]Hobbs,J.R.Granularity.In:Proc off IJCAI[Z].Los Angeles,1985:432-435.
[3]卜东波,白硕,李国杰. 聚类/分类中的粒度原理[J]. 计算机学报, 2002, 25 (8): 810-816.
[4]王国胤,张清华. 不同知识粒度下粗糙集的不确定性研究[J]. 计算机学报, 2008, 31 (9): 1588-1598.
[5]冯琴荣,苗夺谦,程昳等. 知识的划分粒度表示法[J]. 模式识别与人工智能, 2009, 22 (1): 64-69.
[6]蒋黎黎,梁坤,叶爽. 基于粒度计算理论的知识融合模型研究[J].计算机应用研究,2012,29(10): 3697-3700.
[7]徐丽,丁世飞.粒度聚类算法研究[J].计算机科学, 2011, 38 (8): 25-28.
[8]赵昌葆.工程知识粒度化技术及其应用研究[D]. 西安: 西北工业大学, 2006.
[9]杨人子,严洪森. 基于信息粒度的知识网的模糊分类与检索方法[J]. 自动化学报, 2011, 37 (5): 585-595.
[10]DAHLBERG,Brief Communication: How to Improve ISKO's Standing: Ten Desiderata for Knowledge Organization[J].Knowledge organization 2011,38(1):68-74.
[11]张文亮,徐跃权.论知识组织的三个层次[J]. 图书情报工作, 2011, (1): 41-45.
[12]贺德方.国内外知识组织体系的研究进展及应对策略[J]. 情报学报, 2010, 29 (6): 963-972.
[13]毕强.数字图书馆知识组织系统建构的发展趋势——从机器可读到机器可理解[J].国家图书馆学刊, 2010, 19 (1): 12-19.
[14]王曰芬,熊铭辉,吴鹏. 面向个性化服务的知识组织机制研究[J]. 情报理论与实践, 2008, (1): 7-11.
[15]夏立新,叶飞. 行为学角度的政务门户知识组织与整合研究[J]. 情报学报, 2011, 28 (3): 331-336.
[16]刘晨,殷国富,龙红能. 制造工艺知识粒度描述方法与获取算法研究[J]. 计算机集成制造系统, 2008, 14 (10): 1966-1973.
[17]Witold Pedrycz BR, Giancarlo Succi. Knowledge transfer in system modeling and its realization through an optimal allocation of information granularity[J].Applied Soft Computing, 2012,(12): 1985-1995.
[18]徐毅.粗细粒度双知识网映射的零部件设计重用方法[D]. 大连: 大连理工大学, 2012.
[19]王秀珍,钟宁,刘椿年,等.基于信息粒度和连通强度的优化学习[J].计算机工程与科学,2010, 32 (5): 45-47.
作者简介:徐绪堪(1976-),男,南京大学信息管理学院博士后,河海大学信息管理系副教授,研究方向:知识组织、情报分析;郑昌兴(1979-),男,南京大学信息管理学院在读博士,南京政治学院讲师,研究方向:智能信息处理、知识组织;蒋勋(1980-),男,南京大学信息管理学院博士后,研究方向:知识库、知识组织。
产品粒度 第3篇
质量功能展开(quality function deployment,QFD)是在新产品设计中,在产品研发、设计和制造等阶段将顾客的需求转换为工程特性,并在最终产品特征中体现的系统工程方法[1,2]。QFD作为一种顾客驱动的新型产品设计方法,在较多产业中得到了广泛应用[3,4]。质量屋是QFD的核心工具[5,6],QFD的成功实施在很大程度上依赖于质量屋的构建是否准确。顾客需要优先度的构建是质量屋构建过程中非常关键的步骤,对质量屋中工程特性目标值的设定和资源有效配置的影响是比较大的。
目前关于顾客需求的研究主要从三个方面展开。第一,如何获取顾客的需求。文献[7]认为可以采用问卷调查法、观察法、焦点访谈等市场调查方法获取。第二,将第一手收集的需求信息整理分类。文献[8]将树状图引入需求的分析,得到了清晰的需求结构图。第三,需求优先度的分析。文献[9]用1-3-5或1-5-9的标度表示顾客需求的重要程度,由于评估者面对的是不完全信息的环境,很难做出精确判断,导致结论误差较大;文献[10,11]使用AHP或ANP确定顾客需求的优先度,该方法要求评估者对需求进行两两比较得出精确的数字,这对于评估者是比较困难的;考虑到评估环境的不确定性,文献[12,13]采用模糊集理论分析了顾客需求的优先度,但模糊理论隶属函数的确定本身就是一个值得研究的问题,目前学者通常的做法是根据个人经验确定函数,必然存在很大的主观性。
通常,顾客需求优先度的确定是由顾客代表的主观判定和依据市场调研信息得到的客观评估共同决定的,一些文献没有考虑市场因素对顾客需求优先度确定的影响[9,10,11,12,13],部分文献引入“卖点”的概念[14,15],以往文献都用1-3-5或其他数值表示卖点的强弱,判定方法过于简单,得到的结果不能客观反映需求的现实情况。
现有的研究成果都试图将决策中的所有需求项目定量化。现实中,评估者面对的信息本身具有复杂性和不确定性,同时决策会受到评估人员知识结构、经验和背景等多方面因素的影响,从而导致许多指标量化非常困难,人们在评价中往往会直接给出一些定性的语义评估信息。评估人员知识水平和工作经历的不同,对评估对象的熟知程度也有所不同,在顾客需求优先度的确定过程中,评估成员会选择不同的语义标度进行判定,因此,本文提出了基于群体多粒度语义信息(group multi-granularity linguistic information,GMGLI)顾客需求优先度确定方法。首先,请顾客代表选择合适的语义标度,给出各项顾客需求重要性和竞争性的语义属性值,然后,通过转换函数构建相同粒度的一致化矩阵,依据重要性和竞争性向量与正负理想点的偏差获取基本优先度和竞争优先度,进而确定各项顾客需求的综合优先度。
1 问题描述
科学合理地确定顾客需求的优先度是构建质量屋的必要条件。具体方法是:从研发部门、市场部门和终端客户筛选出一些人员组成QFD团队,通过多次问卷调查、实地观察和小组访谈等方法,获取顾客需求,顾客需求的集合CR={CR1,CR2,…,CRM},其中,M为顾客需求的数目。
项目负责人从企业目标市场中选取顾客代表构成评估组,评估代表集ES={ES1,ES2,…,ESN},其中,N为代表数目。本文引入文献[16]提出的折中表决法得到评估成员的权重信息。传统折中表决法中,评估成员使用精确的数值评估其他成员的重要性。这种情况下获取的权重信息过于简单,不能得出较为客观的结论,本文则要求各位评估成员使用语义信息进行判断,评估成员的权重信息ρ={ρ1,ρ2,…,ρN}。实际上,在顾客需求的优先度确定过程中,顾客代表来自不同行业,其文化背景和经验有很大差异,对产品的熟悉程度也有所不同,在给出需要优先度的评估信息时,需要选用不同粒度的语义标度。文献[17]对均匀的语义标度和非均匀的语义标度进行比较后得出结论:非均匀的语义标度一致性程度高于均匀的语义标度,在研究中更为实用。由上所述,本文采用文献[18]给出的非均匀语义标度:
式中,Sα为评估成员给出的语义评估值;s为语义标度的粒度。
评估成员会根据自己的偏好选择采用不同粒度的标度给出评估信息,据此构建各项顾客需求重要性的多粒度评估矩阵:
评估成员在评估各项需求优先度的过程中使用的是不同粒度的语义标度,对其核算时必须进行一致化处理,本文使用了文献[19]提出的转换式,据此构建由相同粒度语义信息组成的一致化矩阵B(s)=[b(s)i j]N×M,进而引入近似理想方案的顺序优选技术(technique for order preference by similarity to ideal solution,TOPSIS),确定各项顾客需求的基本优先度。
顾客需求的重要性主要是对顾客需求的主观评估,而没有考虑到各项需求在目前市场上的发展现状,还须在市场条件下对基本优先度给予适当的修正。现有研究使用数值来表征某项需求的竞争力,评估者在选择数字进行评估时显得过于简单和随意,主观性太强,也不能完全反映信息环境的模糊性和不确定性,因此,评估组在基本优先度的修正过程中,使用本文提出的多粒度语义标度判断各项顾客需求的市场竞争性,以便得出更为合理的结论。
展开市场调研,掌握来自市场第一线的详实资料,了解各项需求的发展信息,在此基础上由评估组对各项需求的市场竞争性做出评判,据此构建各项顾客需求竞争性的多粒度评估矩阵:
进而对评估信息作一致化处理,构建相同粒度语义信息组成的顾客需求竞争优先度一致化矩阵C(s)=[c(s)i j]N×M,仍然使用TOPSIS确定顾客需求的竞争优先度。
依据上述问题描述,本文所要解决的问题基于QFD团队根据市场信息确定的顾客需求集合,顾客代表在需求优先度判定过程中,采用修正的折中表决法确定成员权重信息,依据实际情况选择使用不同粒度的语义标度给出评估信息,据此构建顾客需求的重要性评估矩阵B和竞争性评估矩阵C,最终确定各项顾客需求综合优先度的次序。
2 基于GMGLI顾客需求优先度的确定
质量屋中顾客需求的优先度确定是一个群体评价过程,需要选择多位异质人员才能保证结果的合理性。产品设计过程中的各种信息通常呈现较大的不确定性,评估成员对各项顾客需求的优先度不易做出准确判断,往往直接以语义变量的形式给出,而不同成员对各项顾客需求的熟悉程度不同,在评估过程中还会依据自身情况选择不同的语义粒度。质量屋中顾客需求的综合优先度不但要考虑对需求优先度的主观评估,还须在市场条件下根据实际情况对基本优先度进行适当的修正,评估者对顾客需求的竞争性进行评判时,使用多粒度的语义标度更为合适。故本文采用集成方法确定各项顾客需求的基本优先度和竞争优先度。该方法将不同粒度的语义变量转化为相同粒度的语义变量,并将TOPSIS思想引入基本优先度和竞争优先度的确定。本文提出的基于GMGLI的顾客需求综合优先度确定方法的详细步骤如下(图1):
(1)QFD团队通过全面的调查,收集企业历史数据和市场信息,在分析整理后确定的顾客需求。邀请顾客代表组成评估组,项目负责人向各位评估成员阐述项目要求。评估成员使用语义变量,通过文献[16]提出的折中表决法确定各位成员自身的权重。
(2)获取各项顾客需求的基本优先度。
(a)评估成员依据自身情况选择合适的语义粒度,采取相应的语义变量进行评估,据此构建顾客需求重要性的多粒度评估矩阵B。
为了便于下文评价的方便,同时也避免语义信息的丢失,给出评估顾客需求重要性时使用的语义标度:
BS(3)={BS
{很不重要,不重要,一般,重要,很重要}
BS(4)={BS
BS
较不重要,一般,较重要,重要,很重要}
BS(5)={BS
BS
很不重要,不重要,较不重要,一般,较重要,
重要,很重要,非常重要}
定义1 语义变量的运算法则:设sα1,sα2∈S,h∈[0,1],则
(1)sα1♁sα2=sα1+α2;
(2)h(sα1♁sα2)=hsα1♁hsα2。
(b)根据式(1)、式(2)将不同粒度的语言标度转化为相同粒度的语言标度,进行转化时可以将评估矩阵中出现最多的标度设置为基本标度,据此组建顾客需求重要性的一致化矩阵B(s)。
f:BS(ψ)α→BS(φ)β (1)
式中,φ、ψ分别为转换前后的语义标度的粒度;BSα、BSβ分别为转换前后的语义评估值。
(c)依据粒度相同的矩阵B(s)列出各项顾客需求CRj重要性的评估向量λj,并根据式(3)、式(4)确定各项需求重要性向量的正理想点U+和负理想点V-:
根据式(5)、式(6)计算各项顾客需求的重要性向量λj与正负理想点U+和V-之间的偏差:
定义2 设sα1,sα2∈S,则称BD(sα1,sα2)=|α1-α2|/(2ψ)为sα1和sα2的偏差。
(d)计算各项顾客需求重要性的相对接近度。顾客需求j的重要性与正负理想点之间的相对接近度为
顾客需求重要性的相对接近度x*j越大,顾客需求j的基本优先度就越高。进而得出顾客需求CRj的基本优先度:
(3)各项顾客需求竞争优先度的确定。
集结评估团队意见得出各项顾客需求的基本优先度,还须在市场条件下根据竞争现状对基本优先度进行适当的修正。
(a)展开全面的市场调查,以确保了解到各项顾客需求的市场现状和发展趋势。鉴于评估顾客需求竞争力使用的数值法过于随意和简单,而在现实评估过程中,评估者须面对不完全信息的环境,采用简单的数字不能完全反映真实情况,为了更加有效评估信息的不确定性,在竞争优先度的确定过程中,项目负责人邀请评估成员使用多粒度语义标度,判断各项顾客需求的竞争性,构建顾客需求竞争性的多粒度评估矩阵C。根据式(1)、式(2)将不同粒度的语言信息转化为相同粒度的语言信息,构建顾客需求竞争性的一致化矩阵C(s)。
为了便于下文评价的方便,给出评估顾客需求竞争行过程中使用的语义标度:
CS(3)={CS
{弱,较弱,一般,较强,强}
CS(4)={CS
CS
CS(5)={CS
CS
弱,较弱,一般,较强,强,很强,非常强}
(b)列出各项顾客需求CRj竞争性的评估向量γj,并根据式(3)、式(4)确定各项需求竞争性向量的正理想点E+和负理想点F-。根据式(5)、式(6)计算各项顾客需求竞争性的向量γj与正负理想点E+和F-之间的偏差。
(c)计算各项顾客需求竞争性的相对接近度。根据式(7)计算各项顾客需求竞争性与正负理想点之间的相对接近度,顾客需求j竞争性的相对接近度记为y*j,相对接近度y*j越大,顾客需求j的竞争优先度就越高。进而得出顾客需求CRj的竞争优先度
(4)顾客需求的综合优先度向量的获取。
顾客需求的综合优先度向量为
根据上文所述,本文提出了基于GMGLI的顾客需求综合优先度确定方法。该方法的基本特点是要求多位异质评估成员在需求优先度确定过程中使用不同粒度的语义标度进行判断。首先,将不同粒度语义标度的变量转化为相同粒度的语义变量,通过计算各项需求的重要性向量与正负理想点的偏差,进而得出相对接近度,据此确定顾客需求的基本优先度。基本优先度的确定,一方面充分考虑到了QFD团队中各位评估成员的差异,评估成员根据自己的实际情况选择偏好的语义标度,这种情况下可以充分利用评估信息;在粒度转化的过程中,以粒度出现较多的语义标度为基本标度,进一步避免了信息的丢失。另一方面,某些成员在评估过程中可能因为知识水平、工作经历和价值观的影响,对某些需求的重要性形成偏好性的判断,所提方法很好地解决了这一问题,有效防止片面的结果发生。然后,在基本优先度确定的基础上,考虑到了各项顾客需求的市场竞争优先度,根据各项顾客需求的市场现状和发展趋势对基本优先度进行了修正。
3 应用实例
四川成都U公司是知名的机械工程设备企业,LMC长袋低压脉冲除尘器是其主营产品。该产品推向市场的早期,注重实现生产的规模效应,却忽视了客户对产品的个性化需求,在一定程度上影响了市场占有率的扩大。企业为了在激烈的竞争中保持优势并有新的突破,采用本文提出的方法确定顾客需求的重要度,进而重新设计该产品。
(1)新产品设计前期,QFD团队通过多次问卷调查、实地观察询问和焦点小组会谈等方法确定了质量屋中的顾客需求:除尘效率高(CR1)、排放浓度低(CR2)、操作和维护方便(CR3)、稳定性和可靠性高(CR4)、占地面积小(CR5)、清灰能力强(CR6)和滤袋、脉冲阀的使用寿命长(CR7)。项目负责人从目标市场邀请6位顾客代表组成评估组参与需求优先度的确定,负责人向评估组阐述了企业对项目的要求,同时明确了评估组需要完成的各项工作。由各位评估成员使用语义信息表决,利用文献[16]提出的方法集结得到评估成员自身的权重ρ={0.153,0.211,0.178,0.148,0.124,0.186}。
(2)获取LMC长袋低压脉冲除尘器各项顾客需求的基本优先度。
ES1、ES4和ES5使用的语义标度为BS(4);ES2和ES6使用的语义标度为BS(3);ES3使用的语义标度为BS(5)。依据6位评估成员给出需求重要性的信息构建的矩阵
鉴于评估成员ES1、ES4和ES5都采用了非均匀加性语言评估标度BS(4),可以将BS(4)设为基本标度,使用式(1)、式(2)将ES2、ES3和ES6的语言信息进行一致化处理,据此构建顾客需求重要性的一致性评估矩阵
依据重要性一致化矩阵列出各项顾客需求重要性的评估向量λj。CR1~CR7的重要性评估向量分别为λ1=(BS
根据式(3)、式(4)进而可以列出各项顾客需求重要性评估向量的正理想点U+和负理想点V-:
U+=(BS
V-=(BS
根据式(5)核算顾客需求重要性的评估向量λ1与正理想点U+的偏差:
同理可得,BD+2=0.2563,BD+3=0.3100,BD+4=0.2100,BD+5=0.2050,BD+6=0.1400,BD+7=0.2875。
根据式(6)核算顾客需求重要性的评估向量λ1与负理想点V-的偏差:
同理可得,BD-2=0.1375,BD-3=0.0706,BD-4=0.1838,BD-5=0.1756,BD-6=0.2663,BD-7=0.1063。
根据式(7)确定顾客需求重要性的评估向量λ1与正负理想点之间的相对接近度
同理可得,x*2=0.349,x*3=0.185,x*4=0.467,x*5=0.461,x*6=0.655,z*7=0.270。
进而根据式(8)可以得出各项顾客需求的基本优先度:bp1=0.185,bp2=0.119,bp3=0.063,bp4=0.160,bp5=0.157,bp6=0.224,bp7=0.092。
(3)LMC长袋低压脉冲除尘器各项顾客需求竞争优先度的确定。
根据各项顾客需求的市场竞争性对顾客需求基本优先度给予修正,项目负责人要求评估成员使用本文提出的多粒度语义标度判断,评估成员选用与重要性评估过程中粒度相同但含义不同的语义标度,即ES1、ES4和ES5使用的语义标度为CS(4);ES2和ES6使用的语义标度为CS(3);ES3使用的语义标度为CS(5)。6位评估成员给出各项顾客需求竞争性的判定信息,据此构建顾客需求竞争性的评估矩阵
这里CS(4)仍设为基本标度,将ES2、ES3和ES6的语义信息进行一致化处理,据此构建各项顾客需求竞争优先度的一致化矩阵
依据竞争性一致化矩阵列出各项顾客需求竞争优先度的评估向量γj。CR1~CR7的竞争性评估向量分别为γ1=(CS
根据式(3)、式(4)可以列出各项顾客需求竞争优先度评估向量的正理想点E+和负理想点F-:
E+=(CS
F-=(CS
根据式(5)核算顾客需求竞争优先度评估向量γ1与正理想点E+的偏差:
同理可得,CD+2=0.3100,CD+3=0.2988,CD+4=0.2913,CD+5=0.1606,CD+6=0.0525,CD+7=0.2275。
根据式(6)计算顾客需求竞争性评估向量γ1与负理想点F-的偏差:
同理可得,CD-2=0.0900,CD-3=0.1013,CD-4=0.1088,CD-5=0.2394,CD-6=0.3475,CD-7=0.1725。
根据式(7)确定顾客需求竞争性评估向量γ1与正负理想点之间的相对接近度
同理可得,y*2=0.225,y*3=0.253,y*4=0.272,y*5=0.599,y*6=0.869,y*7=0.431。
依据式(9)可以得出各项顾客需求竞争优先度cp1=0.225,cp2=0.066,cp3=0.074,cp4=0.080,cp5=0.175,cp6=0.254,cp7=0.126。
(4)将顾客需求的基本优先度和竞争优先度合成,依据式(10)核算顾客需求的综合优先度向量GR=(0.042,0.008,0.002,0.013,0.027,0.057,0.012)。
因此可以得出各项顾客需求综合优先度的排序为CR6≻CR1≻CR5≻CR4≻CR7≻CR2≻CR3。将最终的排序与各项顾客需求的基本优先度CR6≻CR1≻CR4≻CR5≻CR2≻CR7≻CR3相比,引入市场竞争的优先度对基本优先度进行修正后,CR6和CR1仍然是优先度最高的两项需求,顾客对LMC长袋低压脉冲除尘器的需求主要还是对清灰能力和除尘效率的要求,目前市场上的竞争厂商在这两项需求上竞争力仍然不强,没有达到顾客期望的目标;CR4和CR5对调了次序,CR2和CR7对调了次序,由此可以知,占地面积小要比增强LMC长袋低压脉冲除尘器的稳定性和可靠性的市场潜力更大,而对滤袋、脉冲阀使用寿命长的注重也比排放浓度低的要求更大。
本文提出的基于GMGLI的顾客需求优先度确定方法充分考虑到了顾客的需求,同时还考虑了竞争厂商的市场现状,更加客观地体现了各项顾客需求的特征。将得到的排序结果反馈至该企业,由生产和销售等相关部门付诸实施后,结果得到企业的认可。
4 结论
(1)评估成员依据实际情况选择合适的语义标度评估各项顾客需求,通过一致性处理构建顾客需求重要性的一致性评估矩阵,引入TOPSIS思想获取顾客需求的基本优先度。
(2)全面调研获取市场竞争信息,在此基础上评估各项需求的竞争性,进而计算顾客需求的竞争优先度,将基本优先度和竞争优先度合成确定顾客需求的综合优先度。
(3)LMC长袋低压脉冲除尘器的应用实例表明,此方法应用于实际的需求优先度的确定是有效可行的。
粗粒度的时空计算 第4篇
按照牛顿物理学, 人们可感知的3维空间中的事物是随1维时间而演变的[1];而按照爱因斯坦的狭义相对论, 时间和空间并不是有所分别的两件东西, 两者是合成4维的时空 (space-time) 的, 时间是第4个维度。狭义相对论是4维时空的数学框架, 和牛顿物理学本质上是相同的。因此, 可以认为人们可感知的客观世界的一切事物是在4维时空中演变的。计算机是用来对事物演变的数据完成时空计算的, 其计算模式的实现应该是自然反应时空计算的概念的。数学家是以描述客观世界的数学语言为基础发明计算机的。数学是无穷 (infinite) 的科学, 是研究数和形的。计算机就是以无穷的存储空间 (图灵抽象机的无穷长的带, 和冯.诺依曼计算机的输入/输出体系结构) 和无止境的提高计算能力 (也就是提高处理器的计算频率, 以及增加处理器的复杂度) 来支持数学上的infinite的, 而数和形的研究不仅有细粒度标量计算的特点, 还有粗粒度阵列计算的特点。
标量计算机
芯片技术问世之后, 计算机的设计工作越来越多地转移到了芯片上。1971年Intel公司的Ted Hoff (特德.霍夫) 工程师发明了世界上第一颗微处理器芯片Intel 4004[2]。处理器将ISA (Instruction Set Architecture) 的设计工作转移到了芯片上。按照冯.诺依曼体系结构的Flynn分类[3], 单处理器计算机, 是以单指令流单数据流的SISD体系结构为基础的标量计算机 (Scalar Computer) 。细粒度的标量计算是“从点开始, 从点到线, 从线到面”再“分层处理”完成事物演变的时空计算的, 是一种 (时间) 1维的计算机, 粗粒度的阵列计算在标量计算机上是顺序完成的。标量计算机是以ISA作为更高抽象层次的接口, 使程序设计不必了解ISA的实现细节, 能从算法解决问题的方式中直觉地产生出来, 成为一种确定而可预测的过程, 促进了细粒度时空计算的软件繁荣[4]。
并行计算模式
1974年Robert Dennard等提出了按比例缩小定律。芯片的集成度是在功耗密度与成本几乎不变的情况下, 按摩尔预言的速度提高的。1987年人们提出了系统芯片 (SoC, System On Chip) 的概念, 要将计算机的系统设计工作也转移到芯片上来, 发展出了TLP (Tread Level Parallel, 进程级并行) 、DLP (Data Level Parallel, 数据级并行) 和OLP (Operation Level Parallel, 操作级并行) 三种并行计算模式。但其实现, 遭遇到了计算可扩展性限制和能源使用问题。只有OLP计算模式实现了操作粗粒度的时空计算, 但是采用ASIC/FPGA阵列芯片, 而不是阵列处理器实现的。
由多核/众核CPU系统芯片实现的TLP计算模式, 是将计算任务分成多个线程安排在每个标量处理器核 (CPU) 上执行的。线程之间是通过共享存储器通信的, 没有直接的互连关系, 实际上是一种单指令流多线程流的SIMT (Single Instruction Multiple Thread) 执行。虽然线程可以同时开始执行计算, 但不一定能同时完成计算, 存在如何同步 (同时完成) 的问题;线程之间也可能存在数据相关, 不能完全独立的执行, 有互斥 (数据依赖) 的问题。使多核程序设计是一种内在不确定性的过程 (nondeterministic process) , 需要彻底了解多核计算机的实现细节[4]。
按照冯.诺依曼体系结构的Flynn分类, DLP计算模式应该是以单指令流多数据流的SIMD体系结构为基础, 实现数据粗粒度的时空计算的。而现在实现DLP计算模式的GPU/GPGPU系统芯片, 计算效率虽然比多核芯片的高得多, 已应用在超级计算机中, 但都不能有效实现数据粗粒度的时空计算。例如, 索尼、东芝和IBM公司联合开发的总线互连的Cell芯片, 只是DLP计算模式的一种SIMT执行[5]。Nvidia公司的GPGPU系统芯片, 是一种GPU+CPU的系统芯片, 由于GPU和CPU的数目是固定的, 在不同应用中会出现比例分配不平衡和数据传输的问题[6]。
1985年, Xilinx公司推出了全球第一款FPGA产品XC2064[7], 现在28nm工艺的FPGA阵列芯片已经作为应用平台[8], 实现了操作粗粒度的时空计算。但算法是通过硬件描述语言的逻辑设计映射到阵列芯片上的, 没有与TLP/DLP计算模式的软件设计语言统一起来, 抽象层次低, 灵活性差, 限制了OLP计算模式的应用。
阵列语言
支持粗粒度时空计算的阵列语言, 是能在标量语言 (例如, C语言和MATLAB语言) 的基础上统一设计的。
首先, 阵列数据及其特例 (标量数据和向量数据) 在MATLAB语言中已有明确的表示[9]。阵列数据就是C语言中的Data Array (数据阵列/数组) , 是用来表示同一类型的标量数据的集合的。因此, 阵列语言的数据表示和类型, 可以与C语言的相同而统一的。在阵列语言中, 阵列数据采用了与MATLAB或C语言类似的顺序描述方法。
二是阵列数据的计算, 与数学语言的矩阵加减法计算一样, 是对其标量数据元素进行的。计算的操作类型及其表示符号均可以与C语言中的相同而统一的, 只需要补充支持实现几何变换的播送 (broadcast) 等3个操作及其操作符。
三是由于控制语句是时间一维的, 阵列语言的控制语句是可以与标量语言 (例如C语言) 的控制语句相同而统一的。而计算语句则应由标量语句上升到由不同标量语句元素 (statement elements) 组成的阵列语句。标量语句元素的设计是可以与C语言的标量语句的设计相同而统一的。阵列语句的描述可以像C语言的Data Array那样, 采用先行后列, 并从第一行开始顺序描述的程序设计方法。使阵列语言统一了标量语言, 继承顺序程序设计的特点, 建立了阵列语言的程序设计的确定性。
阵列计算机
最近, 人们分析发现, 自1985年以来, 计算机体系结构革新与芯片技术进步对计算机性能的贡献是相当的[10]。现在的芯片制造技术, 已经可以研制粗粒度计算的二维的阵列处理器 (Array Processor) 和三维 (时间1维+空间2维) 的阵列存储器 (Array Memory) 。例如, Intel公司80个处理元的TeraScale Processor计划的系统芯片[11]。支持粗粒度时空计算的阵列计算机, 可以是由指令存储器、阵列处理器和阵列存储器组成的。其实, 冯.诺依曼体系结构的F l y n n分类, 以单指令流多数据流的SIMD (Single Instruction Multiple Data) 体系结构, 可以在阵列处理器上实现DLP计算模式的数据粗粒度的计算。以多指令流单数据流的MISD (Multiple Instruction Single Data) 和多指令流多数据流MIMD (Multiple Instruction Multiple Data) 体系结构, 可以设计相应的阵列指令 (array instruction) , 在阵列处理器上实现OLP计算模式的操作粗粒度的计算。
阵列语言中顺序描述的阵列数据和阵列语句的阵列表示, 是通过存储到阵列存储器中而自动完成的。存放在阵列存储器中的阵列数据和阵列指令, 是分别由指令存储器中的操作指令和调用指令控制读出, 在阵列处理器上执行的。从时间上来看, 操作指令/调用指令是一条接一条地顺序执行的;从空间上来看, 阵列存储器中的阵列数据/阵列指令都是在单指令的控制下, 有效地完成数据/操作粗粒度的时空计算。与标量计算机类似, 阵列计算机的ISA也是作为更高抽象层次的接口, 使阵列语言的程序设计不必了解ISA的实现细节, 能从算法解决问题的方式中直觉地产生出来。成为一种确定而可预测的过程, 可促进粗粒度时空计算的软件繁荣。
结束语
不断提高计算机的能力是支持数学上的infinite的技术途径之一。现在已有由十几万芯片组成的千万亿次超级计算机, 但其功耗就已达到2MW左右, 使机房面积比庞然大物的电子管计算机的机房面积还大10倍, 约700平米。有专家认为, 2017年可能实现的Eflops超级计算机的核心处理器的数量大概在1000万到1亿个之间, 这就遭遇到了能源使用问题。
计算机的功耗是由芯片的功耗和芯片之间互连线的功耗组成的。为了实现航空航天图像处理计算机的小型化, 早在1987年, 休斯公司就开发了圆片级的硅直通技术 (TSV, rough Silicon Via) 。现在, IBM公司针对超级计算机的能源使用问题, 也研发了TSV技术, 使芯片之间的距离只有几微米, 缩短了1000倍。甚至有人预测2023年到2062年之间, 新型芯片和纳米技术将使超级计算机的体积缩小到一块方糖那么大, 再没有各种电缆, 也不需要散热[12]。而粗粒度的阵列计算机的规则性是适合于TSV技术的。
参考文献
[1]Zukav G.The Dancing Wu Li Masters.New York:William Morrow and Company, 1979 (中译本:像物理学家一样思考.廖世德, 译.海口:海南出版社, 2011)
[2]Reilly E.Milestones in Computer Science and Information Technology.America:Greenwood Publishing Group, 2003
[3]Flynn M J.Very high speed computing systems.Proceeding of IEEE, 1966, 54 (12) :1901-1909
[4]Marowkia A.Back to Thin-Core Massively Parallel Processors.Computer, 2011, 44 (12) :49-54
[5]Kahle J.The Cell Processor Architecture//Proceedings of the38th Annual IEEE/ACM International Symposium on Microarchitecture.Barcelona, Spain, 2005:3
[6]Keckler S W, et al.GPUs and the Future of Parallel Computing.IEEE MICRO, 2011, 31 (5) :7-17
[7]Sklyarov V, Skliarova I, Sudnitson A.FPGA-based systems in information and communication//Proceedings of the International Conference on Application of Information and Communication Technologies.Baku, Azerbaijan, 2011:1-5
[8]Altera.Achieving One TeraFLOPS with28-nm FPGAs[R/OL].http://www.altera.com.cn/literature/wp/wp-01142-teraflops_CN.pdf
[9]Chapman S J.MATLAB Programming.4th Edition.Singapore:Cengage Learning, 2011 (英文影印本.北京:科学出版社, 2011)
[10]Danowitz, et al.CPU DB:Recording Microprocessor History.CACM2012-04
[11]Mattson T G, Wijngaart R V, Frumkin M.Programming the Intel80-core network-on-a-chip Terascale Processor//Proceedings of the International Conference on High Performance Computing, Networking, Storage and Analysis.Austin, USA, 2008:1-11
云计算的核心技术——粒度计算 第5篇
当今是互联网时代,互联网数据的统计和分析大多是海量数据,通常数据的规模可以达到TB甚至PB级别。而且对海量数据处理操作非常频繁的。因此需要新的算法适应,以互联网为计算平台的云计算,将会更好地完成海量数据处理任务。云计算(Cloud Computing)是一种新近提出的计算模式,是分布式计算(Distributed Computing)、并行计算(Parallel Computing)和网格计算(Grid Computing)的发展。也有通俗的定义为云计算是一种网络化信息资源的开发和应用新模式,它的目标把“计算力”作为一种公用基础设施,组织大规模的信息和计算资源,面向用户提供便捷、全面的公众服务,满足个人和社会信息。云计算的处理技术就是粒度计算。谷歌Map Reduc在粒度计算方面已经做出了很多应用。
2. 粒度计算的主要应用
粒度计算是一种新兴的信息处理方式,它涉及到复杂信息实体(称为信息粒,Infermation Granule)的处理,包括数据的抽象过程及信息推导知识。一般来说,信息粒通常是数值层面上说的实体结合,他们以相似性、功能的近似性、不可分辨性及一致性等指标来进行整合。从理论观点看,粒度计算提倡通过不同的分辨率或尺度,对数据中出现的知识进行认知以及探索。在这个意义上来讲,粒度计算包括了所有能够在提取及表示知识或信息的尺度中,提供灵活性和适应性的所有方法。对于这些方法,我们也可称其为多粒度/可变粒度计算。
云计算是跨越不同软硬件架构的一种广义上的分布式计算,它把来自任何计算设备所有不同的运算能力集合在一起,再统一分配到各个需要运算的用户端。所以多粒度/可变粒度计算是云计算以服务及其组合的方式实现基础计算架构的必然特征。这表现在:
(1)云计算所集合的资源是多粒度和可变粒度的。
云计算可以根据用户需求通过网络对松散耦合的粗细粒度应用组件进行分布式部署、组合和使用,形成多粒度/可变粒度的服务。
针对云计算的技术底层架构而言,分布式操作系统支撑软件的多粒度和可变粒度。由于云计算本身的通用性特点,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。比如Google的搜索引擎,其处理对象,也是多粒度和可变粒度的,它每天都在爬行着整个地球的网页,并将其索引,目前据统计已经爬了约400亿个页面,这些页面中既有像公司主页这样粗粒度的信息,也有像BBS或者论坛这样细粒度的页面,而将其索引,更是需要有多尺度和多粒度的组合,才能方便用户的每次查询。此外,云计算还具备高可扩展性,“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。应对难以准确预测的访问流量,云计算平台能够提供足够的弹性,随着流量的变化而增减计算能力和存储空间。它是一种能处理日益变化的多粒度/可变粒度计算问题,且易于扩展和自动部署的计算系统。而这里提到的动态计算,就是对多粒度和可变粒度计算资源的一种整合和管理,其基本方法在于虚拟化和供应自动化。而动态计算基础设施是有效支持服务按需供应和撤销的动态天性,同时是保持高水平可靠性和安全性的关键。
(2)云计算的服务是非常个性化的,是多粒度和可变粒度的。
云计算的数据处理对象是多粒度的。由于云计算的客户端层次比较广泛,因此需求也具有多元化的特点,从客户端发送到“云端”的访问请求和数据输入也是多元化的。对于个人用户而言,由于个人用户知识依赖背景较强,个体差异较大,因此云计算基本上提供的是细粒度服务。比如Google Gmail的服务,个体用户对于其要求千差万别,有的只利用邮件发送一些文本,而有的则会发送一些图片和视频,其信息颗粒度明显不同,而对于完成效率,有的要求很低,而有的却要立即响应。因此该服务就必须拥有能够处理最细粒度的信息需求的能力。对于中小企业用户而言,云计算可以为其提供粗细粒度组合的应用服务。比如最典型的Salesforce的CRM服务,其模版就有很多种,既满足一些企业的粗粒度的客户信息管理的需求,而对于那些需要对客户信息精耕细作的分析的中小企业,也能满足其细粒度信息服务的需求。而对于专业用户,如气象、航天等部门,为了保证企业网络系统能够安全、顺畅的运行,云计算将会提供细粒度的基于策略的管理,使得数据的计算效率和计算安全性都能得到保障。因此,在云计算环境下,针对不同的客户端及不同的服务需求,调整合适的Web服务粒度,形成多粒度/可变粒度计算,使得Web服务可以通过远程进行访问是一个重要的研究课题。
(3)云计算对服务资源不同层次的管理和动态扩展是多粒度和可变粒度的。
从不同的粒度上对“云”所提供的服务资源进行处理,形成面向不同社区用户、不同使用目的、表现形态各异的云滴和云。而这种多粒度和可变粒度/尺度的计算的管理和实施是云计算技术中的重中之重。为了适应互联网应用的需求,人们必须尝试分布式的并行计算。为了从云计算平台管理和计算的处理机制上满足这种分布式的多粒度和可变粒度的并行计算的需求,必须要在编程中使得计算能够实现分布和并行。其中最具代表性的就是基于Hadoop的Map-Reduce,它是把分布式的业务逻辑从这些复杂的细节中抽象出来,使得没有或者有很少并行开发经验的程序员也能进行并行应用程序的开发。MAP-Reduce在于如何进行多粒度分割和映射,进行可变粒度的规约,它其实就是Divide/Conquer的过程,通过把问题按照一定的粒度进行Divide,使这些Divide后的Map运算高度并行而实现多粒度计算,再将Map后的结果Reduce(根据某一个Key)从而实现可变粒度计算,得到最终的结果。整个MAP-Reduce的编程过程,就是一次多粒度和可变粒度计算编程的过程。
(4)多粒度和变粒度的特性,使得以云计算为代表的信息处理技术更符合人类社会化信息处理及智能信息处理发展趋势的要求。
信息包含从需求到制造和组织,到处理和传输以及最终呈现四个环节,在这四个环节中,信息时而是细粒度的,时而是粗粒度的。所以未来的信息处理和计算,一定需要满足多粒度和可变粒度计算的问题。云计算正是基于这一方向尝试并成功地进行实现。从信息处理和计算的未来发展来看,因为互联网的人人参与的特性,计算系统将面临一些重要课题,比如海量信息计算,比如人工智能的实现,再比如对人类参与信息的计算。而这些都在不同程度上,依赖于计算系统在多粒度计算和可变粒度计算上的能力。如今,Google的搜索引擎能够根据用户的搜索历史和搜索偏好对每一次新发起的搜索进行整合计算,并利用MAP多粒度化计算和Reduce的可变粒度计算来在20毫秒内从海量信息中呈现出用户最希望得到的信息,这是一种人类社会化信息处理人工智能化的雏形,是对人类智能和决策进行仿真的初级阶段。而未来,这样的计算实现应该更加强大。
3. 粒度计算的实例:Map Reduce
(1)Map Reduce是基于多粒度和变粒度的分布式处理技术,Map Reduce模式的思想是将要执行的问题拆解Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理到达分布运算的效果,再通过Reduce程序将结果汇整,输出开发者需要的结果。
Map Reduce的软件实现是指定一个Map(映射)函数,把键值对(key/value)映射成新的键值对(Key/Value),形成一系列中间形式的Key/Value对,然后把它们传Reduce(化简)函数,把具有相同中间形式key的value合并在一起。Map和Reduce函数具有一定的关联。
Map(k1,v1)->list(k2,v2)
Reduce(k2,list(v2))->list(v2)
其中v1,v2可以是简单数据,也可以是一组数据,对应不同的映射函数规则。在Map过程中将数据并行,即把数据用映射规则分开,而Reduce则把分开的数据用化简函数规则合在一起,也就是说Map是一个分的过程,Reduce则对应着合,从而达到多粒度和变粒度的计算。Map Reduce应用广泛,包括简单计算任务,海量输入数据,集群计算环境等。
(2)Google云计算执行过程
Map Reducede运行环境有两种不同类型的节点组成:Master和Worker。Worker负责数据处理,Master负责任务调度及不同节点之间的数据共享。具体执行流程如图。
a.利用Map Reduce提供的库将输入数据切分为M份,每份的大为16~64MB,然后在计算机集群上启动程序。
b.Master节点的程序负责为所有Worker节点分配子任务,其中包括M个Map子任务和R个Reduce子任务。Master负责找出空闲的节点并分配子任务。
c.获得Map子任务的Worker节点读入对应的输入数据,从输入数据中解析Key/Value对并调用用户编写的Map函数。Map函数的中间结果缓存在内存中并周期性地写入本地磁盘,写入本地磁盘的数据根据用户指定的划分函数被分为为R个数据区。这些中间结果的位置被发送给Master节点,Master节点继续将这些数据信息发给负责Reduce任务的Worker节点进行Reduce处理。
d.执行Reduce子任务的Worker节点获取子任务后,使用远程调用的方式从执行Map任务的Worker节点的的本地磁盘读取数据到缓存。执行Reduce子任务的Worker节点首先遍历所有的中间结果,然后按照关键字进行排序。
e.执行Reduce子任务的Worker节点遍历获得Map子任务产生的中间数据,将每个不同的Key和value进行结合并传递给用户的Reduce函数。Reduce函数的结果被写入到一个最终的输出文件。当所有的Map子任务和Reduce子任务完成的时候,Master节点将R份Reduce结果返回给用户程序。用户程序可以将这些执行Reduce子任务的Worker节点生成的结果数据合并得到最终结果。
在云计算中为了保证计算和存储等操作的完整性,在设计Map Reduce的时候,就要考虑很多大规模分布式计算机集群进行海量数据处理时容错处理问题,以防止在Master和Worker都失效的情况下计算任务仍然能够正确执行;操作本地化保证了在网络等资源有限的情况下,最大程度地将计算任务在本地执行;任务划分的粒度使得任务能够更加优化地被分解和并行执行;对于每个未完成的子任务,Master节点都会启动一个备份子任务同时执行,无论初始任务还是备份子任务处理完成,该子任务都会立即被标记为完成状态,通过备份任务机制可以有效避免因个别节点处理速度过慢而延误整个任务的处理速速。
4. 结束语
云计算是一种新型的超级计算方式,以数据为中心,是一种数据密集型的超级计算。在数据存储、数据管理、编程模式等多方面具有自身独特的技术。同时涉及了众多其他技术,目前在中国,云计算技术发展才刚开始起步,但我们可以看到中国的发展潜力是巨大的,因为中国有用户数量众多且业务发展迅速的中小型企业。因此,越来越多的IT供应商将中国作为云计算业务发展的热点区域。但是如何根据需要划分粒度世界的?这一机制又如何来模拟或建立?随着云计算的发展,期待多粒度和变粒度计算理论的进一步发展,期待它的应用的进一步推广和改进。
摘要:当前信息处理技术面临着Internet网络信息更新加快,用户要求信息处理的结果更加简洁有效,因而如何帮助用户有效地处理海量信息成为了一个关键的问题。本文分析了云计算的粒度计算方法,它是实现海量数据并行处理的关键技术,并以谷歌MapReduce为例,分析了粒度计算技术具体实现的方法。
关键词:云计算,粒度计算,MapReduce
参考文献
[1]Wikipedia维基百科,自由的百科全书.
[2]张为民、唐剑峰、罗治国、钱岭。云计算深刻改变未来[M].北京:科学出版,2009:99—103.
[3]王鹏.走进云计算[M].北京:人民邮电出版社,2009:46.
粒度计算与图像匹配技术改进 第6篇
1 图像特征
图像匹配的关键因素在于选取用于描述陌生图像中潜在匹配子图和已知图像的特征。理想状态的图像特征能够有效表示图像本质, 并且不受图像中物体位移、旋转和变形影响。但是现实情况是:成像环境的影响、采样条件的差异、预处理计算的误差等都会造成陌生图和已知图像的不一致, 从而干扰图像特征的选取, 最终影响图像匹配的精确度。
1.1 基本特征
研究中应用最广泛的图像特征有:形状、纹理、颜色、空间关系等特征。
形状特征:是一种局部特征, 通常包括区域和轮廓特征两部分。区域特征描述的是图像中对象的整个形状区域, 而轮廓特征则主要针对图像中对象的外边界。从图像中分割出对象之后, 形状因子与尺寸因子结合起来可以用于区分不同物体, 机器视觉系统常常使用各种基于形状特征的检索方法来检索图像中感兴趣的目标。
纹理特征:是一种全局特征, 表现为图像区域中对象的表面特质。由于纹理仅仅是物体表面特性的一个方面, 所以不能完全体现物体的本质属性, 仅仅利用纹理特征已无法获得抽象的图像内容的。纹理特征往往需要对图像区域中多个像素点进行统计才能得出。图像匹配中纹理特征的区域性具有较大的优越性, 不会由于局部偏差导致匹配失败。同时图像特征是一种统计特征, 具有旋转不变性, 有较强的噪声抵抗能力。纹理特征得缺点是:随着图像的分辨率发生变化, 统计出来的纹理特征值有较大偏差, 另外光照、反射等因素也会干扰纹理特征的准确度
颜色特征:与纹理特征一样表现为图像区域中对象的表面特质, 也是一种最常用的全局特征。与纹理特征不同, 颜色特征一般体现在像素点的颜色特征上, 所有图像区域的像素点都为该图像的颜色特征作出贡献。但是颜色特征对图像的方向、尺寸等性质不敏感, 因此颜色特征不能有效的体现图像中对象的局部特征。
1.2 特征提取
提取颜色特征可以采用颜色直方图, 其优点在于:它能简单描述一幅图像中颜色的全局分布, 即不同色彩在整幅图像中所占的比例, 特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于:它无法描述图像中颜色的局部分布及每种色彩所处的空间位置, 即无法描述图像中的某一具体的对象或物体。改进的颜色直方图包括:直方图相交法、参考颜色表法、累加颜色直方图法等。
提取纹理特征可以采用Gotlieb和Kreyszig等人提出的灰度共生矩阵的纹理特征分析法, 通过对图像的能量谱 (灰度共生矩阵的四个关键特征:能量、惯量、熵和相关性) 函数的计算, 提取纹理的粗细度及方向性等特征参数;也可以采用以Voronio棋盘格特征法为代表的几何法建立在纹理基元 (基本的纹理元素) 理论基础上的一种纹理特征分析方法。纹理基元理论认为, 复杂的纹理可以由若干简单的纹理基元以一定的有规律的形式重复排列构成;也可以采用以马尔可夫 (Markov) 随机场 (MRF) 模型法和Gibbs随机场模型法为代表的模型法以图像的构造模型为基础, 采用模型的参数作为纹理特征;其他方法包括:Tamura纹理特征法 (基于人类对纹理的视觉感知心理学研究, 提出6种属性, 即:粗糙度、对比度、方向度、线像度、规整度和粗略度) 、自回归纹理模型法 (simultaneous auto-regressive, SAR) 、小波变换等。
2 相似度计算
为了量化陌生图像中潜在的匹配子图和已知图像间的相似程度, 通常需要使用距离测度来完成。
2.1 理想距离测度
理想距离测度指的是陌生图像的特征元素与已知图像的特征元素是一致的, 即有一一对应的关系。
假设在复合特征空间中, 陌生图像的特征序列为:矢量X= (x1, ⋯, xi, ⋯, xn) T, 已知图像的特征序列为:矢量Y= (y1, ⋯, yi, ⋯, yn) T, xi和yi为对应的特征元素的量化值 (也可为矢量) 。
复合特征空间的匹配程度刻画为矢量X和矢量Y之间的距离测度, 用d (X, Y) 表示。
1) 马氏距离 (Mahalanobis distance) [4]
马氏距离要求已知图像的复合特征矢量Y符合协方差矩阵S-1的正态分布。由于该算子考虑了已知图像复合特征的离散程度, 其分类能力优于下述两种距离。
2) 城市块距离 (City block distance)
3) 欧氏距离 (Euclidean distance)
2.2 通用距离测度
其实匹配时, 要保证每一幅陌生图像的特征元素都和已知图像的特征元素一致是几乎不可能的。在实际应用中, 甚至连已知图像库中的每一副样本图像的特征元素是的一致性也不能百分之百的保证。通常, 解决这个问题的方法是采用豪斯多夫距离 (Hausdorff distance) [5], 即利用计算集合的相似程度来刻画图像间的相似度。
假设在复合特征空间中, 陌生图像的特征集合为X={x1, ⋯, xi, ⋯, xn} (n>0) , 已知图像的特征集合为Y={y1, ⋯, yi, ⋯, ym} (m>0) 。则这两个特征集合之间的豪斯多夫距离定义为:
其中, xi、yi分别是集合X与集合Y中的点, sup、inf分别表示集合的上确界和下确界, d (xi, yi) 表示xi与yi之间的欧式距离。
由上式可知, 豪斯多夫距离dH (X, Y) 度量了两个特征集合间的最大不匹配程度, 结果距离越小, 则表示匹配程度越高。
3 匹配算法
3.1 传统匹配算法
图像分割:把图像分成若干个特定的、具有独特性质的区域, 它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。灰度阈值分割法[6]作为一种最常用的并行区域技术在实际应用中使用的最频繁。其分割算法如下:
其中, f为输入图像, g为输出图像, T为阈值。阈值分割的优点是计算简单、运算效率较高、速度快。
图像对齐:根据一幅陌生图像在众多的已知图像中检测出匹配的子图, 即得到已知图像在陌生图像中到位置是一件复杂的工作。因为已知图像与陌生图像中潜在的匹配子图间可能存在旋转、位移、缩放、倾斜等非线性变换, 所以在传统匹配算法中, 陌生图像中潜在的匹配子图K和已知图像S存在下述对齐关系:
其中图像点 (x, y) ∈K, 图像点 (x, , y') ∈S, αij和φi是常量。考虑到成像噪音的影响, 用“≈”符号表明陌生图像中潜在的匹配子图可以由已知图像的高阶多项式近似表示。
图像匹配:经过了图像分割和图像对齐就可以在已知图像中搜索与陌生图像潜在子图匹配的图像了。假设陌生图像的尺寸为 (M×N) , 已知图像尺寸为 (m×n) , 其中M≥m, N≥n。采用逐点比较的算法进行比较, 等概率的情况下, 需要的平均比较的次数为: (M-m+1) × (N-n+1) × (m×n) /2。一对一图像的比较尚且如此, 一对多的匹配运算的数量级, 是单台计算机绝对无法承受的。
3.2 改进的匹配算法
传统的匹配算法效率低下的关键点在于:每一次匹配结论都必须等到陌生图像和已知图像中某一潜在子图的完全匹配结束才能得出。如果能在比较的过程中发现两者差异较大而立刻放弃当前匹配, 并提前进入下一轮匹配, 那么匹配效率将大大提高。目前由Barnea提出的序贯相似性检测算法 (SSDA) 能够比较方便地做到这一点, 但是起效率仍然有待提高。该文采用的匹配策略基于SSDA算法的思想, 并融入了粒度计算的理念。
传统SSDA算法
1) 定义绝对误差值
2) 取一个不变的阀值Tk
3) 在子图Si, j (mk, nk) 中随机选择像素点, 计算它同T中相应点的误差值ε, 并进行累加, 当经过r次累加, 误差和超过Tk, 则马上停止累加, 并记下当前r值。定义该算法的检测曲面为:
4) 重复第3) 步, 计算所有点的r值, 选取I (i, j) 值最大的点 (i, j) 作为匹配点。
粒度计算
粒度计算是一种全新的信息处理模式, 它的对处理对象是信息粒 (Information Granule) 一种复杂的信息实体。从理论上来说, 对待同一事物, 粒度计算主张通过设置不同的分辨率或尺寸, 对计算中出现的知识进行辨识、认知以及阐述。
针对传统的SSDA算法, 匹配的过程等效于遍历, 除同位点外, 其它点的搜索显得非常无用, 浪费了大量的时间, 最终影响匹配效率。该文借助于粒度计算的思想, 采取金字塔式的搜索策略[7], 通过控制粒度由粗到细的变化过程逐步找到原始陌生图像中潜在匹配子图的的精确匹配点, 减少SSDA算法匹配搜索时间。若选取图像分辨率 (即子带尺寸) 作为粒度的标准, 选取灰度作为图像的匹配特征, 则粒度分层算法如下:
1) 分别求取待匹配的两副原始图像中所有像素点灰度平均值记为G0, 该层定义为L0层。
2) 将待匹配的两副原始图像分别分割成为粒度更小的2×2的4个子带, 再求取每个子带域中像素点灰度平均值, 分别记为Gi, j (0≤i≤1, 0≤j≤1) , 该层定义为L1层。
3) 以此类推, 通过对Lm-1层的子带进行再划分, 可以定义粒度更小的Lm层, 其每个子带域中像素点灰度平均值, 分别记为Gi, j (0≤i≤2m, 0≤j≤2m) 。
4) 定义Ln层为原始图像层。
按照粒度由大到小的顺序, 通过划分可以得到一个图像分层序列:L0, ⋯, Li, ⋯Ln, 他们的分辨率也是由大变小。改进的匹配过程如下:
首先从两副图的低分辨率L1层开始匹配, 确定匹配的大致位置, 由于L1层粒度大、维数小, 匹配过程会非常高效, 但是由于分辨率太低, 可能会出现多个匹配位置P1, i (1≤i≤2) 。然后在L2层上进行匹配搜索, 与传统的SSDA算法不同的是, 此时只在上一次得到的匹配点P1, i附近进行搜索, 所以计算量不会大, 得到的新的匹配点记为P2, i (1≤i≤4) 。以此类推, 基于第Lm-1层的匹配点Pm-1, i (1≤i≤2m-1) , 可以更加精确的获取第Lm层的匹配点Pm, i (1≤i≤2m) 。最终达到原始图像Ln层, 匹配过程结束。
3实验及结果分析
为了验证将粒度计算法引入图像匹配技术的有效性, 特地在.NET环境下开发一套测试软件, 在已知图像T中对陌生图像S进行匹配, 寻求人物潜在的“眼睛”, 实验得出各种匹配算法的耗时数据表:
从表1中数据可以看出:NCC (归一化相关匹配算法) 效率最低;传统SSDA由于没有进行算法优化, 承担了巨大的计算量, 比起NCC算法效率提升不够明显;而本文提出的综合改进算法在进行特征匹配时优势明显, 具有很高的实时性和技术可行性。
4 结论
本文将全面剖析当今各种图像匹配技术, 研讨了将粒度计算引入到图像匹配技术中的具体实现细节, 提出基于粒度计算的自适应阀值SSDA匹配算法, 并且通过试验证明该算法的实用性和高效性, 取得了令人满意的结果。
摘要:传统的基于内容的图像检索技术CBIR系统需要依据图像的可视特征或复合可视特征信息, 通过复杂的数学运算进行匹配, 面对海量的图像信息上述系统的运算时间将呈线性增长, 从而导致效率低下。随着粒度计算理论的完善和成熟, 该文建立起基于粒度计算的SSDA图像检索模型, 通过控制粒度的大小, 提出分层的搜索策略, 减少SSDA算法匹配搜索时间, 提高图像匹配的效率。
关键词:粒度计算,图像匹配,SSDA
参考文献
[1]钱晶, 高月松.图像检索系统中的CBIR技术研究[J].电脑知识与技术, 2011 (2) .
[2]刘晓光, 陈曦, 陈政伟, 等.基于图像灰度的SSDA匹配算法[J].航空计算技术, 2010 (1) .
[3]张铃, 张钹.模糊商空间理论 (模糊粒度计算方法) [J].软件学报, 2003 (4) .
[4]Gnanadesikan, Ramanathan, Kettenring, John R.Robust estimates, residuals, and outlier detection with multiresponse data, Biometrics, 1972 (28) :81-124.
[5]R.Tyrrell Rockafellar, Roger J-B Wets, Variational Analysis, Springer-Verlag, 2005:117.
[6]Milan Sonka, VadavHhvac, RogerBoyle£.Image Processing, Amdy-sis, and Machine Vision[M].人民邮电出版社, 2003.
面向NVM的混合粒度文件系统 第7篇
随着4G、物联网、云计算等技术的飞快发展,人类正在从IT时代走向DT时代。DT时代意味着数以亿计的智能终端和传感器设备每时每刻都在向后台系统传输海量数据。数据规模呈现爆炸式增长的同时,数据的存储性能和管理需求也面临新的挑战和机遇。为了解决此问题,研究开发新型存储技术,成为未来构建高性能存储系统的关键。随着半导体技术的发展,一些具有优良特性的NVM(non-volatile memory)为构建高性能存储系统提供了契机,主要包括:相变存储器(PCM)、自旋转移力矩磁存储器(STT-RAM)、铁电存储器(FeRAM)等。这类NVM具有内存级存取和持久性存储两大特点,其主要特征表现为:访问延迟低、字节可寻址、集成度高、内部无机械运动等。
目前主要有两类NVM存储设备:替换内存的DIMM接口NVM存储设备和替换外存的PCIe接口NVM存储设备。理想情况下,利用DIMM接口NVM存储设备取代DRAM和硬盘,形成单层存储结构。一方面,CPU能直接通过load/store指令访问数据,避免已有内核IO栈的软件开销[1,2]。另一方面,基于DIMM接口的NVM存储设备可以通过CPU的cache提高设备的读写性能。由于DIMM插口数量和NVM集成工艺等限制,难以独立构建大容量SCM系统,因此在未来很长一段时间内,混合使用DIMM和PCIe两类接口的NVM存储设备是必然选择。但是现有内外存管理算法针对单一类型的存储设备而设计,无法有效管理由两类NVM存储设备构建的混合存储系统。同时两类NVM存储设备在接口、性能、容量等存在差异;存储系统中元数据和数据、文件之间的数据、单个文件的不同部分数据,都具有不同的访问特性。这给统一管理两类NVM存储设备增加了难度,同时也提供了思路。
本文基于混合存储结构,针对DIMM和PCIe接口NVM存储设备并存的情况,设计面向NVM的混合粒度文件系统UFS,实现两类NVM存储设备的统一管理NVM存储设备。
1 相关研究
在针对NVM构建新型文件系统方面,文献[3]使用已有的OS基础设施优化了文件系统,同时简化了其实现,通过虚拟地址空间存储文件数据,使用内存管理单元管理NVM空间,具有良好的性能;文献[4]、[5]针对NVM设计了新型文件系统,围绕DIMM接口NVM存储设备的字节寻址和持久化特性,优化了文件组织结构和一致性策略,显著提高了性能;文献[6]构建了针对NVM的运行时库,提供给用户程序使用,减少内核交互的软件开销,极大地发挥了NVM性能。
在利用NVM构建混合存储系统方面,文献[7]使用带后备电池的RAM构建文件的缓存,避免频繁将数据写入磁盘,提高文件系统的性能;文献[8]使用NVM存放文件系统中的元数据和小文件,设计了数据迁移算法避免NVM的空间限制;文献[9]分离数据和元数据,仅将元数据存放在NVM中,加速元数据的访问性能,同时使用轻量级事务机制避免了元数据更新的写放大问题;文献[10]使用NVM作为数据的缓存和持久性存储空间,通过缓存SSD的数据并适时调整热点数据到NVM上存储,提高了基于Flash的SSD随机写性能,延长使用寿命。
综上所述,目前针对NVM构建的新型文件系统,主要考虑的是如何避免各种软件开销,最大限度发挥DIMM接口NVM存储设备的性能,但没有考虑到现有单个NVM存储设备容量有限的问题。针对NVM构建混合存储系统方面,大多利用NVM作为缓存,同时研究数据的动态迁移算法,但没有考虑到文件数据之间以及文件与文件之间访问特性的区别。
2 混合粒度文件系统结构
两类NVM存储设备在访问接口、访问性能等方面存在差异,主要表现为:①DIMM接口NVM存储设备具有非易失性、低访问延迟和I/O性能高等优点,同时支持字节寻址的方式能够实现更加灵活的管理粒度;②PCIe接口NVM存储设备基于I/O总线,具备良好的向后兼容性,同时其单个设备存储密度更大、价格低,适用于构建基于NVM的大容量存储系统。因此针对DIMM和PCIe两类NVM存储设备特性混合构建的存储系统,本文设计了混合粒度文件系统UFS,其结构如图1所示。
混合粒度文件系统主要包含3个功能模块:①空间管理模块负责存储空间的分配与管理,以及维护文件系统的视图;②元数据管理模块负责两类NVM存储设备的元数据组织和索引;③聚合式文件管理模块负责在两类NVM存储设备上合理分布数据。
3 混合粒度文件系统空间管理策略
混合粒度文件系统视图如图2所示。将DIMM和PCIe接口NVM存储设备空间分别划分为字节区和块区,不同于Ext2[15]基于整个存储空间的块管理。字节区能利用DIMM接口NVM存储设备特性,能够满足对访问延迟、读写性能有较高要求的数据请求,避免数据因为粗粒度管理方式导致存储效率不高。因此将超级块、索引节点和目录树等元数据存放在字节区,同时将剩余的字节区空间用于存放频繁访问的文件数据以及小文件。块区利用PCIe接口NVM存储设备容量上的优势,同时在以块整数倍访问时也具有较高的I/O性能。因此,将大文件以及最近未访问的文件数据存放在块区。
由于字节区的管理粒度太小容易导致空间分配和回收的复杂性,因此混合粒度设计了一个简单高效的freelist链表结构来组织空闲区。其中链表中每个节点通过如图3所示的node描述符结构来表示已经申请的空闲区。
Flag占用Addr的最高位,用于指示申请的空闲区位于字节区还是块区。Addr长度由63bit的整数表示,用于指示申请的空闲区起始地址,63bit的寻址空间足够支持8EB的存储空间。Len表示连续空闲区的长度。Resvrd为保留字段。混合粒度文件系统利用Len字段能够支持连续块分配,大大减少了空闲块的分配次数和访问数据块时的查找次数,提高I/O效率。
4 基于多级索引表的元数据管理策略
混合粒度文件系统中字节区主要存放元数据,包括inode、目录、文件间接块,由于没有传统磁盘寻道操作的访问开销,无需设计类似B+树具有复杂分裂和合并的管理机制。
在混合粒度文件系统中采用类似Ext2中的多级索引表来组织和管理文件和inode表(视为特殊文件),保证数据灵活存储的同时,仍具有较高搜索速度。多级索引表包含有直接寻址字段和间接寻址字段。直接寻址字段直接指向数据块,有助于提高小文件的索引能力;间接寻址字段中每个中间节点存放指向多个子节点的指针数组,通过索引ID与数据块地址的映射实现对文件内容的检索。
5 混合式文件数据管理策略
由于受到DIMM接口数量以及单个NVM集成度的限制,混合粒度文件系统的字节区不可能存放所有文件数据。此外,对单个文件而言、各部分数据在访问频率上也存在很大差异,现有通过内存统一缓存数据来减少响应时间的方法,存在管理效率不高,无法适应存储级内存的问题。据此,混合粒度文件系统设计了聚合式文件组织结构,构建文件内缓存提高文件访问性能。聚合式文件inode结构如图4所示。
将文件存储空间划分为缓冲区和数据区两个部分,通过预留部分的直接寻址字段构建Sizep大小的缓冲区。文件可以通过type字段来识别缓冲区存储的数据类型,例如是小文件,还是频繁访问的热数据?数据区则基于多级索引表满足大文件的存储和访问需求。聚合式文件组织结构提高了文件数据的访问性能,同时也避免了字节区空间不足的问题。
6 系统原型测试与分析
在fuse用户态文件系统的基础上,实现了面向两类NVM存储设备的混合粒度文件系统UFS。由于当前没有成熟的NVM存储设备,基于内存模拟两类NVM存储设备,具体步骤如下:
(1)使用PMBD[11]模拟器模拟PCIe接口的NVM存储设备,设置80ns的读延迟和1000ns的写延迟模拟PCM类型NVM存储设备特性[2]。PMBD通过挂载点提供块区存储空间。
(2)DIMM接口NVM存储设备的访问特性和访问性能与DRAM类似,因此直接通过预留内核地址空间提供字节区存储空间。
(3)使用fuse建立用户态文件系统,实现相应的组织结构和管理功能,构建面向NVM的混合粒度文件系统。
UFS软硬件环境配置如表1所示,使用postmark和Time测试工具评估原型系统的性能。
6.1 使用Postmar测试的写性能
Postmark是一个单线程的文件系统测试工具,主要用于测试频繁、大量地存取小文件的情形。因此使用postmark评估UFS的读写性能,并与Ext3(Ext3 on PMBD)、ramfs文件系统进行分析对比。
首先配置UFS中Sizep的值为4100KB;然后设置postmark数据集包含30 000个大小为1 000~5 000KB的文件和1 000个目录;同时设置读写块大小为4 096KB;最后得到UFS的写性能,如图5所示。
从图5可以看出,由于Ext3是基于块的文件系统,UFS相对于Ext3在写性能上提高了28%。因此基于两类NVM存储设备特性,将DIMM和PCIe接口NVM存储设备空间分别划分为字节区和块区,比单纯使用PCIe接口NVM存储设备具有更高的写性能优势。相对于ramfs,UFS在写性能方面降低了38%,这是由于Sizep大小的限制使得大部分数据必须存放在块区,增加了访问延迟。但相比仅使用DIMM接口NVM存储设备的ramfs,UFS解决了存储空间不足的问题。
为了测试文件缓冲区大小对UFS写性能的影响,将Sizep的值分别设置为3700、4100、4500、4700和4900字节,然后使用上一节postmark相同配置继续测试UFS、Ext3(Ext3on PMBD)和ramfs。实验结果如图6所示。可以看出,UFS的写性能随着文件缓冲区Sizep的增大而上升,相对于Ext3,UFS的写性能从1.28x增加到了1.66x,这表明不同接口的NVM存储设备对文件系统性能有较大影响,利用字节区存储更多的文件数据,能够显著提高系统的写性能;但写性能的提高与缓冲区大小之间并不是线性关系,UFS的缓冲区增加了32%的存储空间,但写性能仅提高了22%,这说明通过合理利用字节区构建文件内缓存,能够避免过度依赖DIMM接口NVM存储设备的问题。
6.2 使用Postmar测试的读性能
使用6.1中相同的方法,首先测试UFS中Sizep为4100Kb时的读性能,如图7所示。可以看出NVMCFS在读性能方面相比Ext3提高了41%,相比ramfs仅降低30%,这表明UFS使用DIMM接口NVM存储设备构建的文件缓冲区降低了读延迟。相比写性能UFS的读性能更接近与ramfs,这是由于模拟PCIe接口的NVM存储设备的读延迟低于写延迟,从而进一步体现了UFS使用DIMM接口NVM存储设备构建文件缓冲区的优势。
类似地,分别设置Sizep的值为3 700、4 100、4 500、4700和4 900字节,测试缓冲区大小的变化对UFS读性能的影响。从图8可以看出,随着文件缓冲区的增加,UFS的读性能也越来越接近与ramfs,最小差距为22%,这表明通过设计的聚合式文件组织结构,在文件内缓冲文件数据,有效减少了访问PCIe接口NVM存储设备的次数,从而提高了文件系统的性能。同时,由于管理开销以及fuse额外的I/O访问路径,给UFS带来了额外读写开销,因此进一步发挥NVM系统的性能必须考虑软件和接口方面的优化。
6.3 使用Fio的测试与分析
为进一步评估UFS的I/O性能,在Linux下使用fio工具,测试随机读写的性能。配置Sizep的值为4 100KB;然后设置fio为随机读写模式,包含1 000个目录和30 000个平均文件大小为6 000KB数据集,设置读写比为3:7,读写块大小为4 096KB,测试结果如图9所示。UFS在随机读和随机写方面的性能均低于ramfs。一方面是因为数据集中大部分文件大于Sizep,使得聚合式文件结构使用I/O性能较差的块区存储数据;另一方面,也表明通过fuse构建的用户态文件系统具有冗余的I/O访问路径,导致额外的内核切换开销,从而降低了文件系统性能。但相比Ext3,UFS在随机读写方面都表现出优势,有效管理了不同特性的两类NVM存储设备。
7 结语
由于DIMM插槽数量和单个NVM集成度的限制,当前构建大容量SCM通常同时使用DIMM和PCIe接口的NVM存储设备。然而两类NVM存储设备在物理接口和访问性能上存在巨大差异,同时存储系统中文件数据之间以及文件与文件之间也存在不同的访问特性,使得当前针对单一设备设计的内外存管理算法均难以直接应用在面向NVM的混合存储系统中。本文针对两类NVM存储设备的特性,将存储空间划分为字节区和块区;设计了基于多级索引表的元数据和数据管理策略,提高元数据和数据的查找性能;设计了混合式文件数据管理策略,在两类NVM存储设备之间合理分布数据,提高数据的访问效率,解决单一NVM存储设备存储空间不足的问题;最后实现了混合粒度文件系统的原型,使用postmark和相关数据集进行了测试与分析,测试结果表明UFS的数据读写性能相比基于块的Ext3文件系统提高了28%-166%。
本文主要利用DIMM接口的NVM存储设备提高整个存储系统的IO性能,同时利用PCIe接口NVM存储设备提高存储系统容量,下一步将探索如何改变PCIe接口NVM存储设备的内部管理方式,进一步提高文件系统的性能。
参考文献
[1]Intel 64software developer’s manual[Z].2013.
[2]SWANSON S,CAULFIELD A M.Refactor,reduce,recycle:restructuring the I/O stack for the future of storage[J].Computer,2013(8):52-59.
[3]WU X,REDDY A L.SCMFS:a file system for storage class memory[C].Proceedings of 2011International Conference for High Performance Computing,Networking,Storage and Analysis.ACM,2011.
[4]J CONDIT,E B NIGHTINGALE,C FROST,et al.Better I/Othrough byte addressable,persistent memory[C].In Proceedings of the ACM SIGOPS 22nd Symposium on Operating Systems Principles,SOSP’09,2009:133-146.
[5]DULLOOR S R,KUMAR S,KESHAVAMURTHY A,et al.System software for persistent memory[C].Proceedings of the Ninth European Conference on Computer Systems.ACM,2014:15.
[6]VOLOS H,NALLI S,PANNEERSELVAM S,et al.Aerie:flexible file-system interfaces to storage-class memory[C].Proceedings of the Ninth European Conference on Computer Systems.ACM,2014:14.
[7]P M CHEN,W T NG,S CHANDRA,et al.The rio file cache:surviving operating system crashes[J].In Proc.of the Architectural Support for Programming Languages and Operating Systems,1996.
[8]AN-I A WANG,GEOFFREY H KUENNING,PETER REIHER,et al.The conquest file system:better performance through a disk/persistent-RAM hybrid design[J].ACM Transactions on Storage,2006(3):309-348.
[9]CHEN J,WEI Q,CHEN C,et al.FSMAC:A file system metadata accelerator with non-volatile memory[C].Mass Storage Systems and Technologies(MSST),2013 IEEE 29th Symposium on.IEEE,2013:1-11.
[10]QIU S,REDDY A L.Nvmfs:a hybrid file system for improving random write in nand-flash ssd[C].Mass Storage Systems and Technologies(MSST),2013IEEE 29th Symposium,2013:1-5.
产品粒度范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。