电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

基于网页范文

来源:文库作者:开心麻花2026-01-071

基于网页范文(精选12篇)

基于网页 第1篇

网页分割在搜索引擎优化,文档聚类,信息抽取,主题信息采集以及网页的适配处理等方面具有重要的作用。通常是将网页分割作为系统的预处理部分,通过将网页分成信息块,然后再针对信息块进行处理。

目前网页多数采用超文本标记语言(HTML)编写。HTML是一种半结构化的语言,是使用离散的文本和标记混杂在一起所组成的字符串序列。由于HTML本身在语义描述方面的不足,而且实际的网页编写并不规范,给网页分割带来了困难和挑战。

常见的网页分割算法分为三大类:基于HTML文档的特点进行分割,基于视觉模型进行分割,以及基于信号处理的方式进行分割方式。这些分割方式一般针对某种特定格式的网页,而且多数基于IE浏览器进行,致使其不具有普适性。比如在嵌入式系统中由于系统资源有限和浏览器的限制,多数无法使用这些算法进行网页分割。

本文在对已有网页分割算法进行分析的基础上提出了一种独立于浏览器,基于CSS特征的网页分割算法。CSS是层叠样式表的简称,它控制页面内容的外观,实现了内容与表现形式的相互分开。基于CSS特征的网页分割方法符合人们的浏览习惯。

2 已有页面分割算法

2.1 基于位置关系的分割方法

Y. Chen [1]提出了一种利用网页页面的布局进行分块方法:将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类,将网页的内容提取后纳入到特征模版中,这样就把网页分成了几个特征块。这种方法适合于结构比较标准的网页,对于结构不是按照这种方式构造的网页则无法正确分割。

2.2 基于文档对象模型(DOM)的分割方法

基于DOM的分割方法利用了HTML页面本身的信息。首先找到网页HTML文档里的特定标签(如〈table〉、〈p〉、〈br〉等),利用标签项将HTML文档表示成一个DOM树的结构。然后根据各个模块在DOM树中的位置不同将其进行分块。在文献[2]中提出了一种基于映射表的分块方法,文献[3]和文献[4]中也提出了基于DOM的网页分割算法。

但是由于目前大部分的网页都没有完全遵循W3C规范,这样可能会导致DOM树结构的错误。更重要的是,DOM树最早引入是为了在浏览器中进行布局显示而不是进行Web页面的语义结构描述。比如即使DOM树中两个结点具有同一个父结点,那么这两个结点在语义上也不一定就是有联系。反之,两个在语义上有关系的结点却可能分布在DOM树的不同之处。因此仅仅通过分析DOM树并不能完全获取Web页面的语义信息。

2.2 基于视觉特征的分割方法

微软亚洲研究院提出了一种基于视觉特征的网页分割方法(VIPS)[5]。首先将整个网页表示成一棵DOM树,根据颜色、大小等网页版面特征,利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块。每个节点通过一致度(DOC)来衡量它与其他节点的语义相关性,从而将相关的分块聚集在一起;利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止。

VIPS是目前性能比较好的一种分割算法,其综合考虑了文档对象模型和视觉特征。但是VIPS算法存在着以下的缺陷:

(1) 为了能够区分不同的分块,VIPS算法根据实际的经验,提出了很多的启发式规则 (heuristic rules),对于网页元素,缺乏一个统一的一个处理方式,较为混乱。

(2) VIPS算法是基于IE浏览器实现的,对于如何生成原始的页面分块并没有进行描述,而这恰恰是基于视觉特征的网页分块算法的最关键的方面。因此VIPS提出的算法无法适用于非IE浏览器的嵌入式系统。

2.2 基于FFT的分割方法

李蕾[6]提出了一种基于FFT的网页分割算法,主要适合“正文式”的网页。该种网页通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等)。其分析了此种网页的页面结构特征,将问题转化为给定一个底层网页的HTML源文件,求解最佳的正文区间的问题;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间。

基于FFT的网页分割算法在对于“正文式”的网页能够进行较好的分割。但是实际的网页形式多样,如“首页式”、“列表式”、“评论式”[6]等,因此该算法应用的范围受到限制。

3 基于CSS的页面分割算法

3.1 CSS模型

CSS是层叠样式表(Cascading Style Sheets)的简称,是W3C推荐的页面标准之一。其使用了一种嵌套的盒模型来定位网页中元素的位置和显示方式。网页中的每个元素通过盒模型进行定位和布局。图1是CSS盒模型的示意图,它是由一系列嵌套的矩形构成,每一个矩形的范围表示布局中的一个属性,详细说明如下:

内容边缘(content edge) 包围着要显示内容,是最内层的矩形区域。

填充边缘(padding edge) 在内容边界外面进行填充,如果填充宽度设置为零,则和内容边缘重合。

边界边缘(border edge) 包围着盒子的边界,如果边界宽度设置为零,则边界边缘和填充边缘重合。

栏外空白区(margin edge) 位于盒子的外部,表明在盒子之外应该保留多少的空白,如果宽度设置为零,则和边界边缘重合。

3.2 算法流程图

由于CSS模型对应于网页元素实际显示的位置和样式,因此通过将网页转化成CSS盒模型树,然后对其进行处理,可以准确地对网页进行分割。算法的流程如下:

(1)首先读取HTML文档,通过词法分析,生成文档对象树(DOM树)。文档对象树包含了页面要显示的内容。

(2)读取网页的层叠样式表,并通过CSS解析器解析成样式规则。这些规则规定了页面内容的显示方式。

(3)通过DOM树和样式规则对页面进行初次组织和布局。

(4)由于在页面中可能嵌入其他媒体元素,如图片、Flash等,需要再次发起HTTP请求读取这部分内容。

(5)将获取的媒体元素内容和页面布局信息一起生成CSS盒模型树。其中每一个CSS盒模型包含了网页元素的位置信息和基本显示属性。

(6)在生成的CSS盒模型树的基础上,通过页面分割算法对其进行分割。在这里首先对网页进行重复模式的检测,将网页中重复出现的内容归为一组首先提取出来;随后对剩下的信息块进行聚类,将相似的部分合并在一起,最终完成页面的分割。具体处理方法在后文详细进行说明。

3.2 重复模式检测

图3是我们对“百度知道”网页(http://zhidao.baidu.com)所提取的CSS盒模型的示意图。每一个方框代表一个信息块,网页中的基本元素都被定位到了盒模型中。

在每一个CSS子块内,每个区域可以用以下四个变量来表达其特征:

Attr:该区域内所包含的内容。如图片,文字,链接,控件(按钮,复选框等)。用位来表示:0x1表示文字和链接,0x2表示图片,0x4表示控件。如果区域内含有多种内容,则用位与表示。

BGColor:背景颜色,用RGB各8位一共24位色来表示。

BlockRect:区域的长和宽。

Hierarchy:该区域在CSS树中的层次位置,用字符串表示。如图4所示,为CSS树结构的示意图,我们对于每一层的路径都进行编号。对于节点A,从根节点到该节点经过的路径编号分别为1、3、2、1,则使用字符串“1-3-2-1”来表示其位置。

这样每个子块就可以用一个四元向量F表示,其中 。

在图3可以看到,在网页中间正文部分,标题和内容依次重复出现。图3正文部分的网页按照其Attr属性排列,我们可以得到以下的字符串序列:

A=“1515131111311113111131111511”,实际在网页中可以发现,标号为3,1,1,1,1的五个块构成了一个重复的模式,在网页中对应于一个栏目,这些部分就应该合并在一起,即分割为:

15151/31111/31111/31111//511

在这里,“31111”为网页分割的模板,使用此模板可以将网页上重复的模式聚合在一起。

根据模板对字符串A的分割过程如下:

(1) temp←A

(2)从左到右扫描字符串tempA,如果发现tempA的第一个字串B'满足模板,即tempA=xB'y, 到(3),否则结束;

(3) temp←A

(4)如果tempA不等于null, 到(2)。

因此,重复模式检测实际上转化为在一个字符串中找到一个最优模板分割字符串的问题。一个字符串可以有多个模板,为了找到最优的模板,我们定义了一个评估函数Score,假设字符串为X,模板为Y,X针对模板Y的k个分割点依次为P1,P2,P3,,Pk,str(pi)(0ik)为X中从Pi开始的符合模板Y的字串。length(str(Pi))为str(Pi)的长度。定义Score如下:

undefined

Score的数值越大,所有的str(Pi)(0ik)对X的覆盖越好,模板性能也越好。

3.3 n-PAT算法

为了找到备选的模板X,我们使用了n-PAT算法。PAT树[7]是Patricia树(Practical Algorithm to Retrieve Information Code in Alphanumeric)的简称,是由输入字符串的所有后缀字符串构成。PAT树的基本数据结构为压缩的二叉查找树。其将索引字串作为二进制位串记录在二叉树的结构中,从根节点到叶子节点的每一条路径代表一个索引位串。在PAT树中,索引的具体信息都保存在叶子节点上,内部结点用来记录索引的路径。每一个内部节点有两个分支,0指向左,1指向右。

由PAT树的构造可以发现,所有具有相同后缀的后缀字符串都在同一子树下,所以从根节点到任何内部结点M所代表的字符串为候选最佳子串。PAT算法流程如下:

(1) 将输入字符串进行二进制编码。由于PAT树使用的是二叉查找的方式,所以需要元素均为二进制表示。

(2) 根据编码后的字符串构造PAT树。

(3) 遍历PAT树,得到其任何一个字串 ,通过上节Score的定义计算对于原字符串的覆盖度,取覆盖度最大的字串作为最优划分字串,当覆盖度相同时,使用较短的字符串。

使用PAT算法可以得到字符串的最优重复字串,然后将这些字串对应的网页块合并成一个更大的块。但是这种划分方式倾向于得到局部的最优划分,可能会丧失全局的信息,比如以下字符串S =“A,X,Y,X,Y,B,A,X,Y,X,Y,B,A,X,Y,X,Y,B”,在网页中表示成为一个大的块中又细分成若干个小的块,有可能是表格的嵌套组合。可以看出“A,X,Y,X,Y”为一个更好的重复模式。如果按照PAT算法对其进行分割,则Score(A,X,Y,X,Y) = 33/18,而Score(X,Y) = 54/18,会采用“X,Y”作为模式进行分割,从而造成很小的区域。因此,我们对使用PAT算法得到的字符串再次进行处理,以其得到更为合适的区域。如上面的字符串,我们令 M=“X,Y”,然后将原来的字符串中的 连续的“X,Y”替换成M,得到 =“A,M,B,A,M,B”,对 进行PAT算法,得到最优的字符串为“A,M,B”,因此可以把A,(X,Y),B作为模板对原字符串进行分割,然后合并相应的区域,如果区域大小仍然过小,则继续进行划分和合并,直到无法找到重复的模式或者合并的区域大小满足划分要求为止。

3.4 页面信息块聚类

分割的目的是将其分成若干组,使其每组内部比较相似。由于在生成CSS树的时候所有的页面元素都会形成一个子块,因此需要将相邻的子块聚合在一起形成较大的分块,聚合在一起的子块具有相似的性质。两个子块之间的相似度表示如下:

undefined

其中λi为加权系数,distance(φik,φjk)为子块元素之间的距离,分别定义如下:

(1) distance (Attr)表示两个块内容的差异性,在这里可以用相应两个属性值之间异或之后相异位的个数来表示。比如一个块的Attr为7,表明含有文本和图片和输入框,另外一个块的Attr为2,表明仅仅含有图片,则其距离为:

COUNT((111)2⨂(010)2)=COUNT((101)2)=2

(2) distance (BGColor)定义为颜色RGB值之间的距离,如RGB(r1, g1, b1)和RGB(r2,g2,b2)之间的距离为:

undefined

(3) distance (BlockRect)表示两个块的相似性,RECT(width1, height1)和RECT(width2, height2)之间的相似性用其长宽比值的差值来表示:

undefined

(4)distance (Hierarchy)表示两个块在CSS树上的距离,用其值的异或来表示,值越大表明距离越远。比如第一个块的Hierarchy值为“1-2-3-2-1”,第二个块的Hierarchy值为“1-3-2-1-1”,则其距离为:

(13211)2⨂(12321)2=(01110)2=14

根据以上的定义,对于每个块计算其与周围分块最近的距离并且与其合并,如果合并后的块达到了分割大小的要求,则停止合并,否则继续进行合并。

图5是图3经过重复模式检测和信息块聚类之后的网页。由此可以看到在页面上相关的部分基本被聚合在了一起。

4 实验和结果

为了验证此方法的有效性, 我们基于一款嵌入式浏览器对此分割算法进行了测试,此嵌入式浏览器支持基本的HTML4.01,支持CSS和Javascript的解析。

试验网页从google网址导航(http://daohang.google.cn/)中人工选取了100 张网页作为测试数据进行测试,采用人工判断网页区域分割与识别结果, 将结果分为好、一般、差三个等级。

在实验中,有76%的网页分割效果均符合要求,而有8%的网页效果一般,其中有16%的页面无法进行有效分割。

实验结果表明该方法对大多数网页分割与识别结果较好, 结果一般与差的网页主要有以下几个原因:

(1)页面过于庞大和复杂。由于本试验使用的是嵌入式浏览器,其内存和处理能力受限。对过于复杂的页面无法正常显示,而且有一些页面使用了Applet和一些浏览器不支持的功能,导致布局错误。

(2)页面信息分割方式比较特殊。由于在进行页面分割的时候,使用的是元素的一些CSS属性,如大小,颜色,内容进行分割。而有的页面是根据其他方式实现区域之间的分割,如使用一个空白的图片条等方式,因此未能检测出这些方式。

5 结束语

网页区域分割是网络信息资源的预处理方式,有效地对网页进行分割对后续应用起着重要作用。

在本文中提出了一种基于CSS信息的页面分割算法。实验结果表明其具有较高的准确性, 并且该方法并不依赖于IE浏览器的实现, 适合嵌入式系统使用。可作为搜索引擎、Web 文档分类与聚类、信息抽取、信息重构与主题信息采集等的预处理模块。

本文的方法能够对大多数网页实现正确分割。如何提高分割的准确性,使之适应于越来越多样化的网页格式,是今后需要进一步研究的问题。

摘要:在页面变换,信息抽取,信息过滤等应用中,首先需要将原始页面分割成为若干合适的信息块以便于后续的处理。本文提出了一种基于CSS的网页分割算法,通过对网页进行解析和布局处理,提取出其中的CSS信息,并且使用重复模式检测和聚类的方法对生成的CSS树进行分割。试验证明该方法能够有效地分割网页,并且不依赖于特定的浏览器,适合嵌入式系统使用。

关键词:网页分割,HTML,CSS,聚类,信息块

参考文献

[1]Adapting Web pages for small-screen devices.Y Chen,X Xie,WY Ma,HJ Zhang-Internet Computing,IEEE,2005,9(1):50~56

[2]吴鹏飞,孟祥增,刘俊晓,马凤娟.现代计算机,2006,(6):48~50

[3]王琦,唐世渭,杨冬青等.基于DOM的网页主题信息自动提取.计算机研究与发展,2004,41(10):1786~1791

[4]G.Hattori,K.Hoashi,K.Matsumoto,F.Sugaya(KDDI R&D Laboratories),Robust Web Page Segmentation for Mobile Termi-nal Using Content-Distances and Page Layout Information.Proceedings of the Sixteenth International World Wide Web Conference[C].(WWW2007).

[5]VIPS a Vision-based Page Segmentation Algorithm Cai,S Yu,JR Wen,WY Ma.Microsoft Technical Report,MSR-TR-2003-79,2003

[6]李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现.计算机工程与应用,2007,43(30):148~151

[7]罗永莲,秦振吉.新闻网页主体内容提取方法研究.微计算机应用,2007,28(5):556~560

基于视觉搜索因素的网页设计论文 第2篇

视觉搜索的特性及其影响因素

视觉搜索中,眼跳是其重要的组成部分,是反应视觉信息加工过程的外显行为。观察者获取外界信息的视觉行为一部分会通过眼跳和注视表现出来。视觉搜索过程中的眼跳,分为内源性眼跳和外源性眼跳。内源性眼跳是由个体机体主动发生的眼跳,比如按指导语要求进行的眼跳;外源性眼跳是由外部刺激引起的眼跳,比如由一个新的、奇特的刺激的出现所引起的眼跳。在视觉搜索中引起外源性注意的外部刺激是指刺激物的基本特征,包括颜色、亮度、动态、形状、大小、方向等。网页界面中的元素主要影响的是个体的外源性眼跳。视觉搜索的非对称性现象。若视觉搜索的非对称性是指在若干个甲类项目(干扰刺激)中找到一个乙类项目(目标刺激),与从同样的若干个乙类项目(干扰刺激)中找到一个甲类项目(目标刺激),两者的搜索速度不一样,且具有显著差异,出现非对称现象。而且,当甲乙两个项目交换干扰刺激和目标刺激的角色时,它们的反应速度还是存在显著性差异。基于刺激相似性和熟悉性的视觉搜索非对称性。Duncan和Humphyeys(1989)提出的刺激相似性理论认为,目标物和干扰物以及干扰物和干扰物之间的相似性决定目标搜索。

目标物与干扰物越相似,干扰物与干扰物越不相似,就越容易形成局部对比,进而使目标从干扰物中突显出来,引起人们的视觉注意和搜索。但是如果目标物和干扰物之间的差异足够大,例如用两种很醒目的颜色或者两种闪动的文字做刺激,那么两种刺激都会突显,非对称将消失。熟悉性很好理解,即阅读者对刺激材料的熟悉与否。熟悉性可以通过学习改变,与阅读者的经验和视觉模式有关,它和相似性一样是影响视觉搜索的一个因素。有学者认为目标刺激与干扰刺激之间的熟悉与否引起的搜索类型不同,材料之前越熟悉越会引起平行搜索,熟悉的项目激活度小,新颖的不熟悉的项目激活度大。当目标刺激和干扰刺激熟悉度相同,即同为熟悉或新颖,则激活度就没有差别。由此可知,熟悉性可作为影响视觉搜索的基本特征之一。视觉搜索的位置特征。视觉搜索的位置特征表现为,人在对静态物体的特征进行加工时,表现出了颜色加工和形状加工的分离,即视觉系统在对颜色和形状进行加工时,是独立的,不存在相互干扰,并表现出了位置的分离。有学者对眼动追踪技术进行研究发现,当刺激物呈现在边缘视野时,人们对颜色的搜索目标会有较多的眼跳,表示边缘视野的颜色加工的目标指向性比较好,而对于形状搜索时这种目的性则较差。由此说明,人们运用边缘视野能够对颜色特征属性的目标进行较好的加工,而对形状特征的加工则更多地依赖中央窝来完成。视觉刺激响应,是指人对刺激物的基本物理特征,如图片、动画以及颜色搭配等产生的带有一些较为稳定的具有倾向性的反应,它是影响用户视觉搜索效率的一个重要因素。就有效信息的搜索而言,有学者研究发现,动态图像对用户的信息搜索能力帮助不大;动态信息中的动画对用户的信息搜索能力还会有严重影响;有时用户会本能地忽略网站上的图片;动态图像会干扰用户对围绕在图像周围的文字的注意,不利于用户对含有大量信息的网页中其它信息的加工,也会导致用户对网页的信息加工和信息搜索的时间增加。

基于视觉搜索影响因素的网页设计

考虑到视觉搜索的特征及其影响因素,并在参阅了之前学者多视觉搜索与网页设计研究的基础上,得出以下的设计建议,旨在为网页的优化设计提供一些指导性意见。

(1)内源性眼跳由浏览者自身因素引起,是个体主动发起的,比如个体本身对某些信息感兴趣或者个体在指导语的提示下,主动进行的眼跳,它主要与返回抑制与眼运动记忆相关联。外源性眼跳则是主要与刺激物的基本特征有关,在研究者对引起眼跳的外源性刺激的研究中,从颜色特征到后来的方向、运动、大小、亮度、形状等目标特征,都会引起较大的眼跳,影响视觉搜索的效果。所有这些目标特征中,颜色特征的影响最大。国内有关研究还发现,在注视时间方面,注视时间由短到长依次是图画、中文词、英文词;在反应时方面,人的反应时从短到长依次为图画、英文词、中文词;在眼跳距离方面,眼跳距离从小到大依次是中文、英文、图画。有学者对分栏设计的视觉搜索效率的眼动研究发现,1大开本(1/16开本)设计材料在眼跳距离、行内与行间回视次数在阅读理解指标上均显著优于小开本(1/32开本)材料一栏、二栏、三栏设计材料,表现为一栏最优。在进行具体的网页设计时,如果设计的目的倾向于引起读者的注意,那么首选图片和动画,颜色可以选择鲜艳的能与周围信息区分开的;如果倾向于信息的获取或理解,应该首选文字,其次是图片或视频,最好不要选择过多的颜色,会增大眼跳,不利于信息的获取和理解。此外,和网页屏幕上呈现的网页材料相比,人们接触最多的文本材料更容易引起人的眼疲劳。因此,在有大量文本信息的网页设计中,为了减少被测试者的疲劳,可以采用大开本的一栏设计以方便浏览者的视觉搜索和理解。

(2)在网页设计中,重要信息和目标信息是需要引起用户较多关注的。基于相似性的规律,可以尽量减少重点信息和非重点信息;基于目标信息和干扰信息之间的相似性,可以增加重要信息或目标信息的新颖性、诱目性、独特性,且背景信息尽量简洁,减少干扰,以使重要信息和目标信息从背景信息群中“脱颖而出”,以此吸引浏览者的注意,提高他们的搜索效率;在文字与背景颜色选择上,最好设置为深色文字,浅色背景;在超链接颜色选择上,最好选用不同的颜色来区分已访问和未被访问的链接,这样有利于用户将两者区分开来进而搜索还没有浏览的超链接,而忽略已经访问的超链接。

(3)有学者研究发现,形状加工和颜色加工存在中央凹和边缘视野的分离。视觉的注意选择中存在这种空间位置效应,注意资源的分配也存在位置效应,当刺激呈现在中央凹视角时,被测试者对任务的反应时较刺激呈现边缘视角时的反应时变大。据此可以将文字信息置于网页中心位置,颜色图形等信息置于网页的边缘位置。

(4)视觉刺激效应告诉我们,旨在让用户从网站中搜索或获取信息(例如一些新闻类站),设计者应避免那些会引起强烈刺激的视觉呈现方式,或者过多的信息呈现也会影响用户的信息搜索能力。如果旨在让用户获得信息,最好不要添加一些动态图片、动态文字等动态效果强烈而很容易干扰用户注意力的信息元素,这会干扰用户对文字信息的搜索。

(5)文章通过眼动实验对于Web页面视觉信息搜索行为的研究发现,人们在网页上进行视觉信息搜索时,更多地注视周边区域,而对于中心区域的注视较少,呈现视觉搜索的周边特性。而且,在带有浮动广告的网页上进行视觉信息搜索时,同样呈现视觉搜索周边特性。实验结果表明,从视觉搜索角度来看,在网页布局时,对于具有超级链接性质的标题信息,放置在网页的周边区域比放置在网页中心区域更利于人们的视觉搜索行为。而且,在视觉信息搜索时,人们很少去看浮动广告,说明浮动广告的广告效应并不明显,应该改变其广告形式。

结语

基于微过滤驱动的网页篡改防御技术 第3篇

关键词:网络应用;信息安全;微过滤;网页防篡改

中图分类号:TP393.092

随着互联网技术的突飞猛进,大量便捷、多样的网络应用服务凭借其及时高效的特征将很多企业的业务模式由C/S模式逐步转为B/S模式。然而,大量新的信息安全问题也随之而来。因此,如何确保网络应用服务的信息安全也逐渐成为了国内外学者研究的热点课题。

面向网络应用层的攻击主要是利用网络应用程序自身存在漏洞机制。这些漏洞指的是那些发布在网络上的应用服务中存在的一些安全隐患,包括网页篡改、代码注入漏洞、跨站点脚本漏洞、以及跨站点请求伪造漏洞等。网页篡改攻击是指恶意攻击者利用某些攻击手段对网站的页面件进行非法删除、修改等操作。本文深入研究了现有几种常见的网页防篡改技术,分析比较了它们的优缺点,在此基础上设计并提出了一种基于文件驱动过滤技术的防篡改方法,从而实现了对网站系统的有效防护。

1 文件系统过滤驱动技术

微过滤管理器(即“Filter Manager”)是一个Windows下的文件系统过滤驱动程序,每个微过滤器必须具备唯一的标识符,通过该标识符,系统才能确定如何在输入/输出栈加载该微过滤器。通过将微过滤管理器加载于其它驱动程序之上,可以对原驱动程序进行加强或者修改。文件系统的微过滤管理器(即“MiniFilter”)就能够很大程序加强对文件系统的处理功能。微过滤器模型的具体框架图则如图1所示。

通常情况下,Windows的微过滤管理器主要包含以下几项特征。

(1)继承文件系统过滤器驱动程序的相关特征

(2)利用新接口技术以及相关库来降低输入输出处理过程的复杂性

(3)为内核态以及用户态提供有效的通信接口

2 基于微过滤驱动的网页篡改防御技术研究与实现

通过对以上相关技术,文件系统微过滤器的开发实现了对网页文件的有效保护。能够及时地防止文件的篡改,从而极大地提高了网络站点安全性能。

2.1 微过滤管理器的实现过程

通过微过滤管理器所提供的接口,能够开发设计出强大、有效的过滤驱动程序。本文所研究的主要内容就是利用微过滤管理器设计一种安全、有效的网页防篡改系统,所以我们首先需要对微过滤管理的框架进行实现。

首先,通过调用函数向过滤系统注册所编写的微过滤管理器。在此过程中,需要给系统传入一个注册结构,其中包含需要操作的回调函数集。系统需要对待过滤请求进行逐一的声明,在注册成功后系统即可以将其指派到相应的函数中完成处理工作。

在本文中,将拦截处理的操作置于预操作回调函数中,从第一个参数回调数据包中得到文件请求处理的相关信息,随后得到系统当前的文件名信息内容以及包含路径以及文件名的信息内容。通过对字符串进行转换后,与受保护文件进行校对,以决定其是否为需要保护的网页。

2.2 用户态与内核态通信技术

对微过滤管理器进行实现的过程中,可以利用通信端口来完成内核态与用户态之间的通信。通过利用通信端口来完成数据交流工作,在微过滤器驱动程序的入口函数中创建一个通信端口,通过它可以对通信端口进行有效的申请。通过通信端口而不是缓存技术来实现通信功能,从而提高了通信的效率和速度。

在应用层和内核进行通信的过程中,通过调用相关函数可以完成请求分发的控制。当内核态需要向用户态传递信息时,可以调用FltSendMessage函数。在对微过滤器进行卸载时,则需要调用FltCloseCommunicationPort函数来关闭微过滤器通信服务端口。在用户态中,首先要对微过滤器的名字与通信端口进行定义,随后对其进行初始化,获取相应的句柄,若初始化过程成功则返回0,若失败则返回其它值。然后调用FilterSendMessage和FilterGetMessage两个函数分别完成向内核发送信息以及接收内核发过来的信息的操作。

2.3 网页防篡改系统架构

本文采用内核驱拦截以及应用层中的事件触发机制来对网站目录和其中重要页面实施有效保护。内核驱动栏截可以完成对保护目标文件的操作的处理工作,对那些非保护目标文件,允许其全部通过,而对于那些保护目标文件,在进一步处理工作前,系统还需完成进一步的文件拦截操作。与此同时,在应用层中,系统则通过事件触发机制加强内核防护机制的工作性能,对保护目录和重要网页进行实时监测。当被监测的对象内容发生改变时,系统会实时记录监测操作日志,该过程可以当作本系统中网页防篡改过程中的重要步骤,为系统管理员对合法性修改操作的决策提供有力依据。

通过以上的分析,本文中的网页防篡改系统的整体架构图可以描述成图2所示。

通过图2可以看出,本文中的网页防篡改系统主要包括内核处理、事件触发监控、日志记录、外部命令解锁以及防护配置等模块。下面对其中几个主要的模块进行简单的介绍。

内核处理模块主要是通过对系统所保护的文件操作请求的IRP数据包进行拦截从而完成相应的处理工作。

事件触发模块主要用于应用层,该模块可以对网页文件或者网页文件夹的目录结构进行实时监测,及时获取系统中企图对其进行改变的事件,并将结果传达给管理员。

防护配置模块主要用于对需要防护的目录文件以及防护的等级进行设置,其中根据防护的程序,可以将防护等级分为高、中、低三个等级。

日志记录模块主要用于完成记录系统拦截到的非法文件操作以及应用层监测的记录情况等操作。

外部命令解锁模块则主要用于实现管理员对页面或者文件目录进行日常的修改与维护工作。当管理员对其进行常规修改时,可以对其进行解锁。然而在网站正常运行时,系统则对网站页面或者文件目录进行锁定以防止一切试图对其进行修改的行为。

3 结束语

本文在认真分析了现有的一些网页篡改防御技术后,对微软公司Windows操作系统中的文件系统过滤驱动技术进行了深入的研究,并利用其中的微过滤管理器功能设计并实现具有特殊过滤功能的网页防篡改系统。这种基于微过滤驱动的网页防篡改技术可以完成为网页文件提供有效的安全的保障以及对网站文件或者文件目录的改变进行实时监测等防护措施,从而极大程度地提高了网页的防篡改功能。

参考文献:

[1]http://msdn.microsoft.com/en-us/windows/hardware/gg463316.

[2]谭文,杨潇,邵坚磊.寒江独钓—Windows内核安全编程[M].北京:电子工业出版社,2009,6:274-294.

[3]齐晓彤.一种主动的网页防篡改机制的研究与实现[D].北京:北京交通大学,2010.

[4]王勇,何倩,何胜韬.基于文件过滤驱动的网页防篡改方法研究[J].桂林电子科技大学学报,2010,30:432-435.

[5]周红军.Web监控与网页防篡改系统的设计与实现[D].长春工业大学,2010.

[6]吴标.具备综合安全防范能力的网页防篡改软件的研究[D].北京工业大学,2009.

作者简介:王敏芬(1977.11-),女,江苏宜兴人,本科,计算机中级,主要研究方向:政府网站制作和维护。

基于网页浏览的兴趣行为研究 第4篇

人类社会是一个非常复杂的系统,有着很多重要的总体特征,如幂律分布的统计特征。数十年来,社会科学都在研究人类行为是如何从个体行为演化到大规模的群体模式的。近年来,随着数据的增加,我们得以研究需要大量数据支撑的行为结构。然而人类行为中的幂律分布是如何产生的呢?

Barabasi提出了一个基于决策的优先权排队模型,随后Vazquez得到了该模型的精确解析[1,2],在此模型中幂律分布是从个体与环境的交互作用中而不是个体的幂律分布特征出现的。Barabasi模型给出了间隔时间的两个普适类,幂律指数分别为1和1.5并将幂律分布的行为起源解释为个体在选择任务时所采用的最高优先级优先协议。此后关于人类动力学的研究掀起了一个高潮[3]。Alexei Vazqueza认为人类的记忆会对自身的行为产生巨大的影响,因此从人类记忆的角度解释了通信模式中人类动力学的非泊松分布。除此之外,人类行为不仅仅是为了完成某些任务,兴趣爱好往往也是驱动人类行为的一个重要因素,如网页浏览[4,5,6]、电影点播[7]、玩游戏[8]等等的人类行为,所以韩筱璞等人[9]提出了一个基于可变兴趣的人类动力学模型,并通过数值模拟和解析进行了研究,得到了指数为1的幂律分布形式的时间间隔分布。

互联网为观察、理解、监管人类社会行为的很多方面提供了途径,特别是那种有着大量频繁访问的“老客户”的网站。如果这些网站属于公司或者大学的话,其使用模式能够为人类群体工作习惯提供研究的信息。Dezso等人[5]通过研究个体用户的浏览模式和门户网站上某个网页访问量之间的相互作用,发现新闻网页的访问量不依赖于其内容,而是主要取决于用户的访问和浏览模式,其访问量表现出幂律衰退特点。Goncalves等人[10]对用户浏览网页的日志做了一个基础全面的实证分析,他认为线性优先连接,基于优先权的排队以及用户兴趣的衰减是理解网页浏览行为的关键。张宁[11]用复杂网络的方法研究特定群体进行万维网访问的行为特征,得到了虽然群体用户访问万维网的时间是随机的,所访问的网页各有不同,但大部分人的兴趣是一致的,群体兴趣网络的入度分布具有幂律特征,群体兴趣图谱基本稳定,校园群体上网行为具有特定的时间规律性。赵庚升等人[6]对用户上网的时间间隔分布以及用户群体访问单个网站的时间间隔分布进行了研究,结果显示人们访问互联网的时间间隔分布具有幂律标度,但与报道的标度指数为1的普适类所不同的是,不同个体对应的标度指数明显不同。

本文通过研究某高校的网页浏览日志,分析用户在特定时间内的兴趣,从群体和个体两个层面研究用户访问不同类型网站的时间间隔分布的特征,探索用户上网的兴趣行为,并了解所涉及到的网站的受关注程度。

2 数据来源与统计方法

本文研究的数据来自国内某高校局域网内师生访问互联网的记录,时间跨度为半个月,从2009年11月26日凌晨0点开始到2009年12月09日凌晨23时59分59秒结束。统计中我们定义时间间隔为连续两次访问网页的时间差,单位为秒。统计表明该高校在观测期内一共访问的主站数量为82,153个,平均每天的访问用户有2,631个,平均每天会发出1,510,381个访问请求,较大的数据量足以反映真实的统计规律。

图1显示的是在一个星期的时间范围内每天各个时刻的所有网页的访问量,群体用户的网页访问有着明显的规律性。首先,群体用户访问网络具有明显的周期性,每天的访问量曲线大致相同,波峰和波谷出现的在大致相同的时刻。其中第三天和第四天是周六和周日,这两天的访问量要明显少于工作日。另外,网页访问还表现出了明显的波动性。统计发现访问量的几个峰值出现在上午10:30至11:00、中午13:30至14:00、晚上20:30至21:00几个时间段。

显然,前两个时间段是高校办公的高峰期,而后一个时间段则是学生晚上上网娱乐的高峰期。白天的两个网络访问低谷出现在11:00至12:00的午饭时间和17:00至18:00的晚饭时间,这样的统计规律与高校工作、学习、娱乐等生活作息规律很好的吻合。

图2为网页与其访问量的关系,横坐标k表示网站的编号,即该网站在总访问量中的排名,纵坐标N即访问该网站的次数。

图2群体用户对所有网站的访问量(黑色圆圈对应对每个网站的访问量,根据文献[11]拟合的幂指数为-1.55)

从群体用户的角度看,人们对网站访问的选择具有幂律特性,即对少数网站有大量的访问量,同时对大多数网站则偶尔才会光顾。表1列出了总体访问量前20名的网站,群体用户对这20个网站的访问量占到了总访问量的62%。由该表可以对群体用户的访问倾向有一个直观的认识。

3 网页浏览的兴趣行为分析

排队系统中的等待时间分布是标志动力学的中心标量,很大程度上取决于任务到达和服务的随机过程,特别是任务到达和服务的时间间隔分布。同理,人类活动中的时间间隔分布也是人类动力学的研究的重中之重。

人们的日常上网行为的出发点是不同的,有些完全是由个人的兴趣爱好决定的,访问的关注点在于感兴趣的一类题材而不仅仅限于某一特定信息。比如一个体育爱好者每天会浏览各大网站的体育频道,他喜欢的体育项目或赛事信息可能都是他阅读浏览的内容;一个影视迷则会频繁搜寻自己关注的电影、电视剧或者演员信息。另外一类上网行为则有着明确的目的,比如在校园网上查询通知、下载文件,在百度或谷歌上搜索信息,在金山词霸网站上翻译文章,等等。由此,根据是否有明确的信息获取目的将用户的访问行为分为两类,一类为兴趣驱动行为,另一类为任务驱动行为,两种行为下访问的网站分别称之为兴趣类网站和任务类网站。

(其中,排名第二的doubleclick.net是弹出式广告)

3.1 群体用户访问特定网站的时间间隔

分别挑选四个具有代表性的网站作为这两大类网站的研究对象。兴趣类网站包括国内最大的购物平台淘宝网、最大的社交网站/校友录之一人人网、最大的在线视频点播网站之一优酷网和最具人气的在线小游戏网站开心网,这四个网站的选取基本涵盖了人们上网娱乐的几个主要方面,具有典型性和代表性。而任务类网站则包括文献查询网站万方、在校生求职网站应届生网、网易旗下的搜索查询引擎有道和生活资讯类网站丁丁网。各个网站基本都是同类型网站中访问量领先的网站。

从表1中可以看到,排名前20的网站中有多个门户网站,在这里没有选择其作为研究对象的原因在于门户网站内容的多样性使得人们难以区分用户的访问是出于任务驱动(如收发邮件)还是兴趣驱动(如查询某影视明星的个人资料)。

图3和图4为群体用户访问这八个网站的时间间隔。从图中可以看出各个时间间隔均服从幂律分布的这个结果与前人实证结论[4,5,6,7]是一致的,这里我们关注的是其幂指数的大小。

比较这8个幂指数可以发现,尽管存在个别比兴趣类网站幂指数大的任务类网站,但从总体上看,人们访问兴趣类网站的时间间隔的幂指数要比访问任务类网站相对来说比较大。表2表示的是各个网站的时间间隔的幂指数与加权平均值。

显然,平均幂指数与平均时间间隔有相关性。从理论上解释,幂指数越大,双对数坐标下的图形就越陡,数据点更倾向于在图形左边即时间间隔数值较小的区域集中,时间间隔的均值必然越小。而从实证角度看,文献[7]发现在线电影点播中个体的活跃性和时间间隔的幂指数存在正比关系,即活跃性越高,幂指数越大。而活跃性的体现是单位时间内的访问量大,因此时间间隔也必然短。日常的上网行为也恰如此,那些受欢迎的网站拥有较大的访问量,访问次数多,而对于任务类的网站人们往往是获得自己的信息后即不再访问,因此时间间隔相比兴趣类网站要长。

3.2 个体用户访问特定网站的时间间隔

这里所说的个体用户是指共用一个IP地址的小群体用户。为了区分群体行为和个体行为的不同,我们选择五个典型用户,分析其上网行为。

统计每个用户访问量排前20的名的网站,将每个排名位置上的各个访问量相加可得与图2类似的访问量及其排名之间的关系,对于排第一位的网站的访问量超出最后一位达到20多倍。再从每个用户访问最多的20个网站中分别选择排名第一、第十和最后一位的网站统计访问的时间间隔,如图5所示,个体用户访问单个网站的时间间隔也服从幂律分布,求出的幂指数归纳如表3。

与表2相比,个体用户的幂指数小于群体用户。同样以平均时间间隔解释个体用户幂指数的变化规律。以用户4为例,在其访问量中排名第一的网站的平均访问时间间隔为16.61秒,而访问第十名和第二十名的平均时间间隔分别为118.89秒和182.36秒。可见在个体层面上也存在这样的规律即访问的兴趣越大,幂指数也越大。

4 结束语

本文对某高校访问互联网的历史记录进行了实证分析,从群体和个体两个层面分析了用户访问群体网站和单个网站的时间间隔。根据用户访问网站是否有明确、特定的目的信息需求将网站分为兴趣类和任务类网站,发现人们的网页浏览行为具有明显的规律性。这些群体用户的网络访问情况足以反映社会的某一个层面的人类活动特性。

种种研究迹象暗示,将人类行为分为任务驱动类型和兴趣驱动类型是可行的,但是暂时还难以得到一个定义分类的定量标准。由于现在网站所涉及到的功能越来越多,兴趣类网站和任务类网站并没有绝对的区分界线,因此本文研究中对网站的选择也难免有一些人为因素。另外,由于统计方法和数据量的限制,统计中的个体样本还比较少,也只能挖掘用户访问网站的某些短期兴趣。人们上网行为中的短期兴趣和长期兴趣的关系还有待继续挖掘。

参考文献

[1]Barabasi A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005:435.

[2]Vazqueza A..Exact results for the Barabasi model of human dynamics[J].Physical Review Letters,2005,95(24).

[3]吴威,戴存礼.人类动力学模型研究之探微[J].通化师范学院学报.2009,30(12).

[4]Racz B,Lukacs A.High density compression of log files[DB/OL].[2009-11-10].http://csd12.computer.org/comp/pro2ceedings/dcc/2004/2082/00/20820557.pdf.

[5]Dezso,Almaas,Lukacs,et,al.Dynamics of information access on the web.Physical Review E 73,066132(2006).

[6]赵庚生,张宁.群体用户的网页浏览模式[G].人类行为的动力学模型,香港:上海系统科学出版社,2008.

[7]周涛.在线电影点播中的人类动力学模式[J].复杂系统与复杂性科学,2008,5(1):1-5.

[8]Henderson T,Nhatti S.Modelling user behavior in networked games[C].Proc 9th ACM Int Conf on Multimetia.New York:ACM Press,2001.

[9]韩筱璞,周涛,汪秉宏.基于自适应调节的人类动力学模型[J].复杂系统与复杂性科学.2007(4).

[10]Goncalves and Ramasco.Human dynamics revealed through Web analytics[J].Physical Review E78,026123(2008).

基于网页 第5篇

一、高职网页设计课程教学现状分析

高职院校网页设计是一门综合性相对较强的课程,当前一些高职院校仍然以传统理论与实践教学结合的模式为主,对实践教学的重视程度也越来越高。通过先理论再实践教学的模式,给学生带来了动手实践的机会,实践操作学时也有所增加。但随着专业的不断发展,教学内容日益丰富,传统实践教学模式已难以满足学生需求,许多学生在较短的实践操作课程中对专业技能掌握仍然缺乏,职业能力培养也无法取得令人满意的效果。总体来看,当前高职院校网页设计课程由于教学内容较为繁杂,课时相对不足,导致教学深度相对缺乏,学生专业技能掌握程度不足,实践能力有待进一步提升;从教学方法上来看,虽然一定程度上注重学生动手实践能力的培养,但由于缺乏系统整体的训练,对学生问题分析与解决能力的培养也有待完善。[1]

二、基于工作过程的高职网页设计课程构建

(一)分析职业能力需求,明确教学目标

为使网页设计课程构建更符合学生与企业需求,高职院校应加强调研,结合企业用人单位调查、企业专家访谈等方式,对网页设计专业人才需求展开系统调查,理清网站编辑、网站制作人员等具体社会需求;同时对计算机专业从事网页设计相关岗位的毕业生进行调研,进行对岗位能力等各项内容的调研。同时,高职院校应突破原有课程教学体系,去除以知识体系为主的模式,以网站工程师、网页设计师等专业职业技能为目标进行课程开发与设计,网頁设计课程以培养优秀网页制作人员为教学目标,确立以学生职业能力与职业素质培养为重点的课程构建理念,注重基本实践能力的培训,让学生掌握各类网页设计制作技能,使其具备一定网页设计开发、网站维护等能力。[2]使其课程构建既能够培养学生职业岗位所必须的技能素质,也可让学生更快更好地养成职业习惯,提升职业能力,为学生职业生涯发展打下坚实基础。

(二)制定课程标准

结合计算机专业技术要求以及企业用人需求构建网页设计课程教学大纲,制定系统化的课程标准。首先应明确能力目标,也即让学生能够熟练应用技术设计与制作网页,具备自主动手、信息整合以及自学、合作等能力;其次为知识目标的确定,要求学生掌握网页设计制作方法,会使用HTML语言,能够设计与制作网页动画等。此外为素质目标,使学生具备自主创新思维,有网站策划能力等。

(三)完善教学内容

高职院校课程组教师应深入企业与社会,了解专业最新要求;院校也有必要加强与企业合作,共建校外实训基地,开发设计基于工作过程的网页设计课程,以工作项目作为载体,将教学融入项目当中,围绕工作过程明确课程内容,结合工作任务完成流程,提炼出以学生职业能力培养为核心的模块,合理选取工作当中使用率高、典型性工作任务作为学习项目,对网页设计教学内容实施科学整合与序化,同工作实践中的应用组合成功能模块,促进工作过程与教学过程的融合度,实现理论与实践结合。

(四)重构教学模式

基于工作过程的高职网页设计教学模式也应满足教学目标需求,采用工作过程化的模式。具体可通过工作任务、企业任务等针对性强的工作情境引入,让学生掌握理论基础知识以及技能方法等;同时引导学生自主解决相关问题,为完成网页设计制作问题加强合作与交流,充分发挥主观能动性;最后则通过“情景拓展”,引导学生自主实践,进一步提升自主学习能力与职业能力,例如鼓励学生参与网页设计大赛等,全面培养学生实践操作与开发应用能力。[3]

(五)更新教学方法

高职院校网页设计课程教学方法也应实现进一步更新,具体应结合用人单位网站设计制作岗位要求,对岗位能力进行全面分解并归结出对应的课程知识点,构建起课程系统,结合案例教学法、项目教学法、任务驱动教学法等方式,明确网页设计、网站运营、网页测试等课程内容,引导学生以工作过程为基础,掌握网页设计制作构件、明确网站架设,提升专业技能。例如任务驱动教学法的应用,具体可将学生网页设计实训内容分为独立任务模块,包括模仿操作内容、独立操作内容以及工学结合三种类型,其中模仿操作开展为通过一个系统的网站,引导学生分次完成,使其掌握基础理论以及基础操作技能;独立操作即向学生布置任务,让学生以小组为基础自主完成项目任务;工学结合则可通过与企业合作,或利用工作室项目,组织学生完成实际网页设计项目。总而言之,通过此类实践教学充分调动学生积极性,培养学生职业态度,提升其实践创新能力。

三、结语

基于工作过程的高职网页设计课程构建,能够将繁杂、分散的网页设计课程知识点有效整合与分解,以工作任务项目为载体,实现教学与学习的工作化,进而充分挖掘学生的积极主动性与实践创新能力。因此,高职院校网页设计教学应不断研究与完善基于工作过程的课程体系构建,使专业人才培养定位更为精确,使学生职业竞争力得到进一步提升。

参考文献:

基于网页 第6篇

关键词:CSS;Web标准;网页布局

中图分类号:TP393.092文献标识码:A文章编号:1007-9599 (2011) 06-0000-01

CSS Page Layout Application on Web Technology

Wu Fangfei

(Jiangxi Ganjiang Vocational and Technical College,Nanchang330108,China)

Abstract:Web standard-based page production methods,and an example is explained in detail page layout planning,HTML generation,CSS style sheets to control,the most intuitive introduction to the div+css page layout.This layout for performance and content of the page to achieve the separation of leaving the site more convenient to maintain and update,

which has become very popular in today's site layout methods.

Keywords:CSS;Web standard;Page layout

一、关于Web标准

实际上Web标准不是某一个标准,是由W3C(World Wide Web Consortium)和其他标准化组织制定的一套规范集合,包含一系列标准。其目的在于创建一个统一的用于Web表现层的技术标准,以便通过不同浏览器或终端设备向最终用户展示信息内容。

简单的说,Web标准分成三大部分:结构(Structure)、表现(Presentation)和行为(Behavior)。结构化标准语言主要有:HTML(超文本标记语言)、XML(可扩展标记语言)和XHTML(可扩展超文本标记语言);表现标准语言主要包括CSS(层叠样式表);行为标准主要包括对象模型(如W3C DOM)、ECMAScript等。网页设计要符合Web标准实际上就是对网页的结构、表现与行为进行分离——即表现与内容分离。

二、什么是CSS

CSS(Cascading Style Sheets,层叠样式表)是控制网页布局样式的基础,是能够使网页表现与内容分离的一种样式设计语言。在网页设计中,通过CSS样式表就可以轻松控制页面的布局、字体、字号、颜色、背景以及进行一些初步的页面交互设计。

CSS作为一款目前最优秀的表现设计语言,它的优势主要有:可以支持众多浏览器,实现了在众多平台及浏览器下对样式的表现最为接近;真正实现了表现与内容分离;拥有样式设计的强大控制力;具有优越的继承性,最大限度的达到了代码重用,从而降低了维护成本。

三、CSS与HTML的结合

CSS与HTML的结合使用完美的实现了网页表现与内容的分离。网页设计通常使用CSS来控制网页的样式,其中包括页面的布局、字体、背景等等信息。而HTML则用来罗列网页中的内容,其中包括文本、图片等。

CSS样式表可以以多种方式应用到HTML页面当中,但最常用最好的方式是外部连接。这种方式是将CSS样式代码放入一个外部文件中,再由HTML中的LINK元素进行调用。这样做的好处是可以使多个网页调用同一个样式表文件,最大限度的实现了代码重用及网站文件的最优化配置。

具体的使用方法为:在HTML页面中的head标签下使用LINK元素调用。

四、div+CSS的布局方式

div是XHTML中的一个标签,以这种形式出现。简单的说,div就像是一个容器,是XHTML中专门用于布局设计的容器对象。传统的布局方式是用表格来布局,页面的排版设计也完全依赖于表格对象table。但这种布局方式无法做到表现与内容分离,一旦要更新页面则需要更改整个表格甚至要重新制作背景或图片素材。这样的布局方式既不符合Web标准的要求,也给后期的网站维护带来很大的麻烦。目前普遍流行的布局方式是CSS布局,而这种方式的核心对象正是div。对于一个简单的CSS布局来说,只应用div和CSS这两样东西便可,因此说CSS布局也被称为div+CSS布局。

CSS布局实际上就是利用div对象把页面划分为几个区域,区域中标记了将要显示的信息,而这些信息的样式表现则由CSS来完成。在div+CSS的布局方式中修改网页内容并不会改变样式的表现。同样地,更改CSS样式表也不会影响到网页的布局。

五、CSS在网站中的应用实例

在设计网站的页面中,增加以下定义,会使页面有特殊的显示效果。

网站中CSS样式表使用:

huali {font-family:"宋体";font-size:12px;cursor:crosshair;font-style:normal;text-decoration:none;background-color:#FFFFFF;background-image:none;list-style-image:none}

.text{cursor:crosshair;filter:Mask(Color=#ff9900);font-size:12px;font-style:normal;text-decoration:none}

在这个样式表中使用了:

font-family:"宋体";font-size:12px定义了网页文字的字体和大小,以避免因网页浏览器的设置改变而引起的网页字体和大小的变化,影响页面浏览者的信息浏览。

cursor:crosshair定义了页面鼠标样式,在这里将它定义为十字型,以反映网页的总体设计思想。

font-style:normal定义了网页字体风格,可以定义为普通、加粗、倾斜三种样式background-color:#FFFFFF;background-image:none它们是对网页背景颜色和背景图片的设置。

六、结束语

div+css的布局模式给网页设计注入了新的生命力,同样的HTML代码却可以呈现出数以百计风格迥异的网站。但想熟练的掌握这种布局方式还需要更多的实践经验和学习积累,能够灵活掌握CSS语言并能设计制作出符合Web标准的网页才是学习CSS的最终目标。

参考文献:

[1]李超.CSS网站布局实录(第2版)[M].北京:科学出版社,2007

基于内容的中文网页自动分类系统 第7篇

一、系统的用户需求

粗略地讲, 该系统的需求可描述为:建立网页自动分类系统平台。要求该平台存储大量的领域相关网页, 并动态调整网页;该平台能够动态生成网页特征向量, 对特征向量做维数压缩;该平台能够提供若干分类或聚类算法, 对网页对应的特征进行一定正确率的分类或聚类;该平台提供友好的测试界面, 能够对随机选取的领域网页进行自动分类;该平台提供在线帮助系统, 能够使得用户在尽可能短的时间内熟悉和实用该系统。

二、系统的总体结构

系统分析的目的是在需求分析的基础上, 为实现系统的功能要求而设计系统的结构, 划分系统的功能模块, 确定各个模块之间的逻辑顺序关系。从整体上把握系统的组织结构, 直观地了解系统的构成和各个部分之间的相互关系。

整个系统主要有三部分组成, 数据库管理系统、任务管理系统、用户界面部分。

三、系统的结构分析

(1) 数据库管理系统:

该系统主要由4种数据库, 分别为原始网页数据库、词典库、文本特征库、系统开发文档库。

(2) 任务管理系统:

该系统是整个平台的主要前台组成部分, 用于完成网页分类的各个环节, 在实现上具有一定的前后逻辑关系。

(3) 网页自动下载系统:

完成指定领域的网页按类自动下载与存储

(4) 网页版面分析系统:

该系统实现网页版面结构分析与结构特征提取。

(5) 切词系统:

切词系统用于统计领域网页库中各词条出现的频率。

(6) 特征压缩系统:

该系统的目的是特征向量空间压缩。

(7) 学习系统:

该系统给用户提供学习方法集。

(8) 测试系统:

系统测试是为了发现错误而执行程序的过程。

(9) 帮助系统:

在线帮助功能。该系统应提供给用户较为友好的交互界面, 帮助用户了解各个部分的功能, 提供操作错误分析和系统运行错误分析和提示等。

四、系统模块实现

模块实现部分提供系统的各个模块具体实现的方法、步骤、流程和实现的工具等。在前述功能和结构描述的基础上, 规范各个模块的程序接口、统一风格、注意事项等。整个系统开发平台选择VC++6.0系统, 其中的核心算法部分若不涉及交互界面可以使用标准C。网页文件管理的操作借助于操作系统的文件管理系统, 网页文件索引文件和文本特征向量数据库系统采用Access的数据表*.ndb格式。

(1) 数据库管理系统:

数据库管理系统具备一般数据库的操作, 根据数据库管理内容的区别, 在上述操作内容上有所不同。管理系统应充分利用windows提供的功能和设计风格实现数据的可视化、实现快速化等特点。

(2) 任务管理系统:

整个任务管理系统是系统的方法集中部分, 为了缩短开发周期和提高整个系统整体性能, 特统一系统的开发规范如下:

五、系统模块测试

模块测试又称单元测试, 是针对软件设计的最小单位-程序模块, 进行正确性检验的测试工作。其目的在于发现各模块内部可能存在的各种差错。单元测试需要从程序的内部结构出发设计测试用例。多个模块可以平行地独立进行单元测试。需要从以下五个方面测试:模块接口测试、局部数据结构测试、路径测试、错误处理测试、边界测试。

六、系统测试

在系统测试之前需要做的是联合测试:在单元测试的基础上, 需要将所有模块按照设计要求组装成为系统。需要考虑的问题:

(1) 在把各个模块连接起来的时候, 穿越模块接口的数据是否会丢失;

(2) 一个模块的功能是否会对另一个模块的功能产生不利的影响;

(3) 各个子功能组合起来, 是否达到预期要求的父功能;

(4) 全局数据结构是否有问题;

(5) 单个模块的误差积累起来, 是否会放大, 从而达到不能接受的程度。

系统测试的目的是通过与系统的需求定义作比较, 发现软件与系统定义不符合或与之矛盾的地方。系统测试的测试用例应根据需求分析说明书来设计, 并在实际使用环境下来运行。

七、总结

中文文本的自动分类是中文信息处理领域中的一项重要研究课题。本文对中文信息分类技术及其应用作了初步的探讨, 并从实际应用出发给出一个基于内容的中文网页自动分类系统分析。描述了系统的总体结构设计思想和总体结构框架, 以及组成系统的各个模块的功能和结构。按照该系统的设计思想和进一步的详细设计可以搭建一个系统化的、功能较为全面的、具有较高效率的中文网页自动分类系统平台。

由于整个系统涵盖的范围大, 设计到的技术细节多, 在很多实现细节上采用了比较简单的方法, 以便于整个系统的顺利实现。在很多方面需要进行继续深入的研究, 以提高整个自动分类过程的识别准确率。

参考文献

[1]王继成, 萧嵘, 孙正兴, 张福炎.Web信息检索研究进展.计算机研究与发展, 2006, 38 (2) :187-193.

[2]王继成, 潘金贵, 张福炎.Web文本挖掘技术研究.计算机研究与发展, 2005, 37 (5) :513-520.

[3]吕津, 赵明生.对因特网上自动信息提取的研究.数据通信, 2007.

[4]朱明, 王军, 王俊普.Web网页识别中的特征选择问题研究.计算机工程, 2006, 26 (8) :35-37.

基于JSP的动态网页技术研究 第8篇

1 JSP技术

1.1 技术原理

作为新一代站点开发语言, JSP是由Sun公司所推出的。而由于JSP技术脱离了硬件平台为其带来的束缚, 所以在某种程度上使静态网页和动态网页得到了分离, 进而使得系统运行效率得到了提高。从原理上来看, JSP技术在某种程度上比较类似于ASP技术, 就是需要进行HTML标记集合的扩展, 并利用JSP引擎对这些扩展的标记进行识别和解释执行。而值得注意的是, 这些扩展标记只能被支持它的服务器上的JSP引擎所识别。所以, 当Web服务器收到用户请求时, JSP就会将文件转换成Servlet代码, 并将结果传送至JVM。而在此时, JVM就会进行代码的编译, 并将生成的文件存放在服务器中执行, 然后在JSP收到结果通报后将结果传回服务器。最后, 则由服务器将结果以页面的形式返还到客户端, 而用户就能够利用浏览器进行结果的查看。但是, 由于只有在用户提出请求的条件下代码才能执行, 所以第一次进行代码调用时需要相应的加载时间。而在JSP得到过编译执行后, 其代码就能在后台独立运行。因此, 在这种情况下, 用户再次提出请求就能使JSP维持高效的运行状态。

1.2 技术特点

由于JSP技术建立在Java Servlet技术的基础之上, 并对Java Servlet技术进行了多方面的改进, 所以其可以为JAVA环境下的动态Web应用程序的开发提供更为高效的方法。在技术特点上, JSP技术具有分离内容的生成和显示、组件可重用和与不同的平台相适应等多种特点。首先, 分离内容的生成和显示是JSP技术的最大特点。具体来说, 就是利用JSP技术进行Web页面的开发, 需进行最终开发页面的格式化, 并利用JSP生成页面上的动态内容。而在生成的内容被封装后, 就可以对其脚本进行捆绑, 并利用引擎对所有的JSP标识和脚本进行解释, 进而使用户请求的内容生成出来。而这样一来, 不仅基于HTML的多种可能性能够得到保证, 作者还可以进行自己的代码的保护。其次, JSP技术具有进行组件的重用的特点。在进行较为复杂的应用程序的处理时, 很多JSP页面都能利用可重用的组件来进行程序的处理。而利用可重用的组件进行网页的开发, 不仅能使开发的速度得到加快, 还能进行开发技能的完善, 并使结果得到优化, 进而使二者处于平衡的状态下。再者, JSP技术拥有与不同平台相适应的技术特点, 所以可以在多种平台中被运用, 进而具有极快的运行速度。而之所以JSP技术有这种特点, 是因为其与JAVA平台进行了有机的结合, 拥有了JAVA的所有优点。所以, 利用JSP技术可以使应用程序的开发更为可靠, 并具有一定可伸缩性。另外, JSP技术还具有简化页面开发的特点。具体来说, 就是JSP可以进行Java组件的访问和实例化, 进而通过设置组件的属性来进行更为复杂的功能的执行。所以, 利用JSP技术进行Web页面的开发和设计, 可以使页面的开发更为简单和高效。

2 基于JSP的动态网页技术

2.1 基于JSP的动态网页技术优势

基于JSP的动态网页技术所使用的是JAVA的编译代码, 所以在所有的平台上都可以进行字节代码的迁移, 并且不需要进行代码的改动。另外, 只有在用户提出请求时, Servlet代码才会被执行, 所以需要花费几秒钟的时间进行代码的首次调用。而在代码循环使用过程中, 代码就会被服务器缓存, 因此不需要每次都进行代码的解释执行。所以, 相较于其他动态网页技术, 基于JSP的动态网页技术具有更快的执行速度。这是因为ASP和PHP代码在执行之前必须进行解释, 所以在循环操作的过程中执行速度较慢。而JSP技术则没有这种技术缺陷, 所以具有较快的运行速度。

相较于PHP技术, JSP技术在电子商务网站中的应用更为广泛。而这是因为PHP技术具有数量较多的缺陷, 不仅不能进行多层结构和规模的支持, 还必须运用在大负荷站点中。另外, 该技术提供的数据库具有接口不统一的问题, 所以很难在电子商务中被运用。而JSP技术并不具有这些缺陷, 所以在很多方面具有更多的优势。

2.2 基于JSP的动态网页技术的实现

通常的情况下, 利用JSP技术进行动态网页的开发的方式有两种。一方面, 可以在JSP页面中进行JAVA的调用, 并以高效的存储管理、扩充性、多种API支持和强大的数据库为依托, 进行JAVA的强大的功能的发挥。另一方面, 可以在HTML网页中进行JAVA程序的嵌入, 既直接在HTML页面上进行Servlet代码的写入。而相比较而言, 这两种进行动态网页开发的开发方式有着各自的优势, 所以设计人员应该根据自身能力和项目难度来进行具体的开发方式的选择。具体来说, 就是在进行结构相对复杂的页面的开发时, 如果JAVA代码的使用使得页面的阅读相对麻烦, 就可以利用第一种方式将代码从页面中分离出来, 使页面结构更为清晰。而这种开发方式的使用, 可以帮助不同的设计人员进行HTML页面和JAVA程序的分别负责, 进而提高设计的效率。但是, 如果网页的设计开发者能够熟练的掌握HTML页面的设计和JAVA语言编程时, 就可以采用第二种方式进行页面设计, 使执行过程得到简化。

3 结语

总而言之, Java Servlet是进行Web应用开发的理想构架, 而JSP技术建立在Java Servlet技术的基础之上, 不仅拥有了Java Servlet技术的诸多优势, 还进行了多方面的改进。所以, JSP技术的应用不仅可以适应Web应用程序的各种变化, 还能够简单且高效的进行网页的开发。因此, 随着互联网络的迅速发展, 基于JSP的动态网页技术必将成为一种主流技术, 并得到更为广泛的应用。所以, 本文对基于JSP的动态网页技术进行的研究, 对于促进动态网页技术的发展有着一定的意义。

摘要:随着互联网络技术的迅速发展, 动态网页技术得到了充分的开发。就目前来看, 常用来进行动态网页制作的技术有多种, 而相较于其他技术, 基于JSP的动态网络技术在动态网页的开发上有着显著的优势, 因此也得到了广泛的应用。基于这种认识, 首先对JSP技术的原理及特点进行了介绍, 然后在此基础之上对基于JSP动态网络技术的优势和实现方式进行分析, 为动态网页的开发和设计工作提供一定的指导。

关键词:动态网页技术,JSP技术,开发

参考文献

[1]李一唯.动态网页技术ASP, ASP.NET与JSP的比较分析[J].数字技术与应用, 2011, 9 (1) :153-154.

[2]杨萌.主流动态网页技术PHP、JSP与ASP.NET的比较研究[J].淮北职业技术学院学报, 2011, 1 (10) :9-10.

[3]张惠琼, 邓伟民, 旷瑶.动态网页技术:ASP、JSP与PHP的比较[J].计算机光盘软件与应用, 2012, 13 (1) :214-215.

基于JSP的网页阻断技术的实现 第9篇

目前网络信息异常庞杂, 而且良莠不齐, 包含各种色情、反动、迷信等有害信息混杂在网络环境中, 特别是Internet上色情和暴力等不良内容对青少年造成了非常大的负面影响, 成为新的社会犯罪根源, 并且提供了一种新的犯罪形式, 这已经成为影响社会安定和公众利益的重大社会问题之一, 所以对不良网络文化内容进行阻断已势在必行。

网络内容阻断包括硬件阻断和软件阻断两种方式[1]。硬件阻断是指根据检测结果自动生成访问控制规则, 通过与防火墙或路由器等网络基础设备联动控制来实现硬件阻断功能。硬件阻断技术是一种被动式的网络阻断技术, 其优点是简单、快速, 可以实现临时阻断也可以实现永久阻断。缺点是需要防火墙等设备的软件支持并且阻断粒度较粗, 阻断手段不够灵活。软件阻断可以使用多种软件阻断技术, 其优点是阻断策略灵活多样, 阻断粒度细, 容易对阻断规则和策略进行维护更新。缺点是需要针对各种网络协议开发特定的阻断技术, 而且一般只能实现临时阻断。

图1为校园网网络内容阻断的系统结构图。为了监测校园网的网络内容, 在校园网的出口处连接一个放火墙, 并设置几个监控台随时监测, 一旦发现有不良内容的网址, 可通过控制对该网址进行阻断。本文将介绍如何使用JSP语言实现网页阻断。

2网页阻断的实现

网页阻断技术的设计主要包括三个模块:界面设计, 命令处理和阻断实现, 如图2所示。其中, 界面设计模块解决的问题是如何输入要阻断的网址, 命令处理模块是将输入的网址转换为防火墙的阻断命令, 阻断实现模块负责连接防火墙并执行阻断命令。下面将分别对三个模块的实现过程进行介绍。

2.1界面设计

界面设计模块主要是为用户提供一个可操作的接口, 通过一个友好的界面, 用户可以输入需要阻断的网址, 并决定是否需要对该网址进行阻断, 或者取消对某个网址的阻断。其界面如图3所示, 界面非常简单, 一个输入框用来输入网址, 一个阻塞按钮和一个取消阻塞按钮用来决定对该网址进行哪种操作。

该模块的代码设计由两部分组成:包含输入框的表单设计和按钮的实现。包含输入框的表单设计可以从很多资料上找到代码, 本文就不再列出。下面的代码是两个按钮的实现部分[2], 包含对操作的确认和提交两部分:

function addfirm ()

{

if (confirm ("你确定要阻塞网址"+form1.urlBlocked.value) )

{

form1.opr.value="add";

form1.submit () ;

}

}

function delfirm ()

{

if (confirm ("你确定要取消阻塞网址"+form1.urlBlocked.value) )

{

form1.opr.value="delete";

form1.submit () ;

}

}

2.2命令处理

命令处理模块主要是获取输入的网址, 并产生对应的阻断命令。该模块没有与用户交互的部分, 只是一个执行命令的过程。当用户从界面设计模块属于网址并点击对应操作后, 命令处理模块获取输入的网址, 产生对应的阻断命令并执行命令。该模块处理后的反馈信息如图4所示, 信息包括四行, 第一行是要阻断的网址, 第二行是要执行的操作 (阻塞或取消阻塞) , 第三行是转化成防火墙的阻断命令, 第四行是命令的执行情况。

在命令的转化和执行过程中调用了一个JSP bean, 通过bean连接防火墙并把命令传送到防火墙执行, 该模块的代码如下:

<%@ page import="test.YcdlBean" %>

<%String urladdress = request.getParameter ("urlBlocked") ;%>

<%String operate = request.getParameter ("opr") ;%>

Blocked url: <%=urladdress%>

<br>

operation: <%=operate%>

<br>

<%

YcdlBean yb=new YcdlBean (operate, urladdress) ;

%>

block command is: <%=yb.getCommand () %>

<br>

<%yb.main () ;%>

Operation completed!

<br>

<input type="button" value="back" onclick="window.location.href='userinfo.jsp';">

<br>

2.3阻断实现

阻断实现模块主要是实现与防火墙的连接并执行防火墙的阻断命令, 该模块集成于一个java bean文件中[3], 供命令处理模块进行调用。该模块的具体实现流程如图5所示, 首先用户要与防火墙建立socket连接, 包括用户名和口令的验证过程, 然后开启两个线程, 一个输入线程用来在标准输入端口和socket端口之间建立数据通道, 另一个输出线程用来在socket端口和标准输出端口之间建立数据通道。用户输入的命令通过输入线程传送到防火墙, 命令执行后运行结果通过输出线程反馈到用户。

3结束语

本文介绍了基于JSP的网页阻断技术的实现。输入不良网页的网址, 就可自动对防火墙进行配置, 从而对不良网页的内容进行完全的阻断。由于该实现的界面是一个包含输入框的网页, 因此操作非常简单, 并且只需嵌入该网页的链接就可以与其他模块集成。

摘要:介绍一种使用JSP语言实现网页阻断的技术。该技术利用防火墙来实现硬件阻断, 主要包括三个模块:界面设计, 命令处理和阻断实现。该技术对指定网址的内容能进行完全的阻断, 并且具有操作简单, 易于与其他模块集成等优点。

关键词:网页阻断,防火墙,JSP

参考文献

[1]焦绪录, 胡铭曾, 云晓春.面向TCP连接的网络实时监控系统及其连接阻断技术[J].计算机工程, 2004, 30 (6) :48-50.

[2]Hans Bergsten.JSP设计[M].中国电力出版社, 2002.

基于支持向量机的网页分类研究 第10篇

关键词:支持向量机,网页分类,多层文本分类

1 多层文本分类

人们通常所讨论的文本分类问题中, 类别间是独立的, 认为它们之间没有相互联系, 称之为单层 (flat) 文本分类。而在类别较多且关系比较复杂的情况下, 如Internet上丰富的Web信息资源管理等应用, 就需要更好的多层信息组织方式。

多层 (hierarchical) 文本分类是指多层类别关系下的分类问题, 面对的类别间存在类似于树或有向非循环图的多层分级类别结构, 可以更好地支持浏览和查询, 也使得部分规模较大的分类问题通过分治的方法得到更好的解决。

多层文本分类一般采用big-bang或自顶向下基于级别两种策略。前者在整个分类过程中使用同一个分类器, 即将处于类别树结构上的所有叶节点类别看成平等的类, 这本质上还是一种单层分类, 不能很好地应用类别间的关系;后者可为不同的级别训练不同的分类器, 枝节点的分类器只关心当前的不同分枝。Sun等人讨论了基于类别相似度和类别距离的多层分类效果评价方法, 给出了用于说明在不同级别上调度分类器的规范语言。Ruiz的博士论文中介绍了早期提出的几种多层分类方法, 并给出自己的HME (hierarchical mixture of expert) 模型。Huang等人介绍了用于从Web语料中建立多层分类器的LiveClassifer。

2 支持向量机 (SVM)

支持向量机 (Support Vector Machine) 由Vladimir Vapik和他的同事于1992年发表, 20世纪90年代中后期得到全面深入的发展, 现在已经成为机器学习和数据挖掘的工具之一。SVM对复杂的非线性决策边界的建模能力是高度准确的。

支持向量机 (SVM) 是一种算法, 使用一种非线性映射, 将原训练数据映射到较高的维, 在新的维上, 它搜索线性最佳分离超平面 (即将一类的元组与其他类分离的“决策边界”) 。使用一个适当的对足够高维的非线性映射, 两类的数据可以被超平面分开。SVM使用支持向量 (“基本”训练元组) 和边缘 (由支持向量定义) 发现该超平面。

2.1 数据线性可分

SVM通过最大边缘超平面 (Maxinum Marginal Hyperplane) 来找最佳超平面。

分离超平面可以记作WX+b=0, 其中, W是权重向量, 即W={w1, w2, , wn}, n是属性数, b是偏倚 (bias) 。

最优超平面要求超平面不仅可以将两类无错误分开, 而且要使两类的分类间隔最大。位于分离超平面上方的点满足:

WX+b>0

位于分离超平面下方的点满足:

WX+b<0

调整权重, 使得定义边缘“侧面”的超平面记为:

落在H1或其上方的元组属于类+1, 落在H2或其下方的元组属于类-1。结合上面两式, 得:

落在超平面H1或H2上的训练元组使得上式成立的成为支持向量。从分离超平面到H1上任意点的距离是 其中‖w‖是欧几里得范数。根据定义, 它等于H2上任一点到分离超平面的距离。因此最大边缘是

根据拉格朗日公式, 最大边缘超平面可以改写成决策边界:

其中, yi是支持向量Xi的类标号, XT是检验元组, αi是拉格朗日乘子, b0是SVM算法自动确定的数值参数, l是支持向量的个数。

2.2 数据非线性可分

解决非线性问题, 可以通过非线性变化转化为另一个高维特征空间的线性问题, 在这个变换空间中求最优的线性分类超平面。仔细观察线性情况下的分类函数可知, 其函数只包括待分类样本与训练样本中的支持向量的内积, 它的求解过程只涉及训练样本之间的内积运算, 因此可以通过核函数K (Xi, Xj) 来代替最优分类超平面的点积, 避免在高维特征空间进行复杂运算。

从低维空间映射到高维空间, 虽然使得向量集更容易划分, 但增加了计算的复杂度, 而核函数正好巧妙地解决了这个问题。因此, 在使用支持向量机时, 核函数K (Xi, Xj) 起着直接的作用。实际上, 甚至不需要知道具体的映射是什么, 只要选定核函数K (Xi, Xj) 。核函数K的选取需要满足Mercer条件。选择不同的核函数可以产生不同的支持向量机。目前没有固定的核函数, 一般对于不同的问题选择特点的核函数。目前, 主要研究的有以下3种核函数形式, 它们都与已有的应用有对应关系。

(1) h次多项式核:K (Xi, Xj) = (XiXj+1) h

(2) 高斯径向基函数核:K (Xi, Xj) =e-‖Xi-Xj‖2/2σ2

(3) Sigmoid函数核:K (Xi, Xj) =tanh (κXiXj-δ)

3 网页分类

3.1 多层文本分类

针对网页形式的多层文本分类, 是在SVM二值分类基础上利用类别层次树结构实现多分类的策略。

利用类别层次结构实现分类的算法描述如图1所示。在这个算法中, 待分类别为一棵层次树R, 它共有r个结点, 包括k个叶子结点从左到右分别为sub1、sub2、sub3、、subk。每个结点有权值w, 构建k (k一1) /2个二值分类器。对于给定文档d, 分别用k (k-1) /2个分类器进行分类。将每个分类器得到的结果累加到对应类别上, 即对应叶子结点上。取出投票数最高的前3个叶子结点类别L1、L2、L3讨论。

3.2 基于SVM的网页分类方法流程

基于SVM的网页分类方法流程如图2所示, 首先建立基于类格的网页分类的概念模型, 然后把领域专家对网页提供的分类知识用“类格”来表示, 作为训练数据集;分类学习器通过学习训练数据集, 在类格中产生类的分类知识, 即类索引;网络Robot自动从Internet上采集网页, 经过预处理, 从采集的网页中提取项, 并进行降维处理, 形成网页索引数据库, 多层网页分类器利用分类知识库将采集的网页归属于某一类或多个类;最后对建立的基于类格的多层网页分类结果进行实验评价。

4 结束语

本文分析了网页的分类, 即归纳为多层文本分类, 对于SVM的数学模型进行了阐述, 对于多层文本基于SVM的分类算法进行了说明, 设计出基于SVM的网页分类的流程。今后, 针对该流程进行网页分类, 还需要通过实验来评价多层网页分类方法的分类结果的准确性, 以及类别关系的相互干扰、不同类别层次间分类错误的传播对分类器的准确性造成的影响。对于同一个类别集合, 还要比较单层分类设置下的多标签分类与多层类别设置下的分类效果。

参考文献

[1]SEBASTIANI F.Machine learning in automated text categorization[J].ACM Computing Surveys, 2002 (1) .

[2]RUIZ M.Combining Machine Learning and Hierarchical Structuresfor Text Categorization[D].Graduate College of University of Io-wa, 2001.

[3]RUIZ M, SRINIVASAN P.Hierarchical text classification usingneural networks[J].Information Retrieval, 2005 (1) .

[4]SUN A, LIM EP, NG WK.Hierarchical Text classification meth-ods and their specification[M].In:Chan AT, Chan SC, Leong HV, Ng VTY, eds.Cooperative Internet Computing.Dordrecht:KluwerAcademic Publishers, 2006.

[5]JIAWEI HAN, MICHELINE KAMBER.数据挖掘概念与技术[M].北京:机械工业出版社, 2007.

[6]秦玉平, 艾青, 王秀坤, 等.基于支持向量机的兼类文本分类算法研究[J].计算机工程与设计, 2008 (2) .

[7]刘叶青, 刘三阳, 谷明涛.一种改进的支持向量机增量学习算法[J].计算机工程与应用, 2008 (10) .

基于网页 第11篇

摘 要:随着无线网络技术的快速发展和移动终端设备的普及,移动学习日益受到人们关注。移动学习资源是移动学习的第一要素。本文将一般网络学习资源与移动学习资源进行对比研究,分析二者的共同点与区别之处,基于HTML和CSS技术提出学习资源的样式改造方法,最后以“初中信息技术”网络课程为例,实现网络学习资源向移动学习资源改造的开发实践。

关键词:移动学习资源;网络学习资源;样式改造;CSS

中图分类号:G434 文献标识码:A 文章编号:1673-8454(2014)21-0039-03

一、引言

移动学习是使用移动便携式设备所开展的学习,即利用无线网络通信技术和移动终端设备获取教育信息、教育资源和教育服务的一种新型学习模式。[1]现阶段的移动学习发展主要得益于三个方面的条件:无线网络、移动终端设备和移动学习资源。而移动学习资源是移动学习中的核心,是对现有学习资源的一种拓展,是开展一切移动学习活动的基础。因此,移动学习资源质量的高低直接影响了移动学习的成效。[2]但是由于移动学习兴起时间尚短,移动学习资源建设有所不足,难以满足学习者需求,影响了移动学习的开展,是一个急需解决的重要问题。

二、网络学习资源与移动学习资源

网络学习资源是指学习者基于计算机网络开展的各种网络化的 信息资源的总称,它可以在网络环境下运行并且能够用浏览器来阅读。[3]并且经过长时间的积累,网络学习资源的内容已经非常的丰富。尽管网络学习资源在内容大小、文件格式等方面与移动学习资源有着不同,但是同样做为远程学习的一部分[4],移动学习资源与网络学习资源也存在许多相似之处:

(1)内容丰富:网络学习资源和移动学习资源利用网络的开放性,拥有大量的可供选择的学习资源,为学习者提供了丰富的选择空间。

(2)资源共享:网络学习资源和移动学习资源一样,打破了传统学习资源的限制,使得学习者可以方便地从网络上获取学习资源。

(3)交互性强:网络学习资源和移动学习资源都可以进行同步或异步的交互,实现学习者与教师、学习者与同伴、学习者与资源之间的双向交流。

目前移动学习资源的开发主要有两个方面[1]。一是新建移动学习资源,二是对原有网络资源进行改造,二者是相互搭配的。对已有的网络学习资源进行改造不仅可以缓解一部分资源需求压力,而且可以有效地利用现有学习资源,节约开发成本。而且重要的一点是:移动终端设备可以适应多种学习资源[5],这种适应性不仅能充分利用现有的学习资源,而且可以节约资源制作成本。所以,对原有的网络学习资源样式进行改造和开发新资源是移动学习资源建设的两个方法,科学的建设和合理的改造必然能够解决当前移动学习资源面临的困境。本文选取了对网络学习资源样式的改造这一方法进行深入研究。

三、移动学习资源的样式改造

1.总体流程

对网络学习资源基于样式的改造流程大体如图1所示。首先用户访问网络学习资源,当服务器判断其终端设备为移动设备后后,从样式库中调取与之配套的样式,然后对学习资源进行重新布局与渲染,使同样的内容在不同的移动设备上呈现出相应的显示效果。[1]

2.详细设计

布局与渲染是样式改造流程中的关键部分,本文将就这一部分进行深入研究。

(1)实现技术

实现移动学习资源样式的重新布局和渲染的两个元素为HTML和CSS。HTML的英文全称为Hyper Text Markup Language,它是网页超文本标记语言的缩写,是Internet上用于编写网页的主要语言。而CSS是Casading Style sheet 的缩写,又称为层叠样式表,简称样式表。它是一种用于定义如何显示HTML元素的标记语言,是实现移动学习资源样式改造的关键元素[6]。CSS具有以下优点:①表现和内容相分离,将设计部分分离出来放在一个独立样式文件中;②一个CSS样式可以控制多个页面的样式,可以将许多网页的风格格式同时更新;③样式表允许多种方式规定样式信息。添加CSS有4种方法:外联样式表、内部样式表、导入外部式样式表和内嵌样式。

CSS对于样式的描述主要由两个部分组成,选择器和一条或多条声明

Selector{declaration1;declaration2;….declarationN}

选择器selector指需要改变样式的HTML元素,而声明declaration是由属性property和值style Arrtibute组成,属性指的是希望设置的样式属性,值指的是这个属性的取值[6]。

例如:h3{color:black;font-size:16px;}

该段代码的意思是将h3元素的文字设置为黑色16像素。

HTML和CSS都是对页面进行布局和美化的工具,利用CSS可以对同一个网络资源呈现出多种形式。这便是基于已有网络学习资源改造的基础,根据不同设备的分辨率等参数情况调整布局和样式方案。

(2)具体实验

以初中信息技术课程资源为例(如图2)。

该课程资源原本是作为网络教育的学习资源进行开发的,目标用户是使用个人电脑进行网络学习的学习者。可以看出,该页面采用的是传统的header、content和footer的结构布局。最上方为课程名称、logo和导航菜单,下方为当前栏目的学习内容。该页面默认显示的是第一章的第一节。整体来看,菜单栏和内容合理有效地整合在同一页面,适合学习者进行网络学习。针对该网络课程资源,本文为手机等移动设备开发了一套样式mobile.css,该样式的运行流程如下:

首先设置整个页面的样式、外边距和内边距,并设置文字的默认大小和背景图。以及主体页面宽度及背景颜色。该步骤的关键代码如下:endprint

body{

margin:0px;

padding:0px;

font-size:12px;

background-image:url(images/body.gif);

}

#box{

width:320px;

margin:0 auto;

background-color:#FFFFFF;

}

其次是导航菜单的样式。设置整个菜单的高度和上边框,然后设置菜单中超链接元素的字体样式和间距:

#menu{

height:36px;

border-top:0px solid#000000;

}

#menu a {

font-family:"宋体";

font-size:12px;

color:#000000;

line-height:16px;

padding:0px 2px;

text-decoration:none;

display:inline-block;

}

设置各标题和正文段落的文字格式:

h3{

font-size:12px;

text-align:center;

border-bottom:1px dashed #999999;

line-height:35px;

}

h4{

text-align:right;

font-family:Arial, Helvetica, sans-serif;

font-size:12px;

color:#666666;

}

#content p {

font-size:12px;

text-indent: 2em;

line-height:25px;

margin-top:10px;

设置图片的显示效果。图片独占一行且居中显示在正文中间。需要知道的是,图片和普通文字一样是个内联元素。相当于一个比较大的文字,因此需要利用display属性来将图片转换为块元素:

#content img {

display:block;

margin:auto;

max-width:600px;

max-height:400px;

}

当学习者通过网络访问学习资源时,移动终端的自适应系统接受信息并判断学习者设备类型,确定是否为移动设备[7]。然后确定该设备型号,并从数据库中调出该设备的样式信息。将该样式运用到当前的内容上。

(3)实验结果

显示效果如图3。

手机上呈现的页面(如图3)和PC端呈现的页面存在着显著的不同,手机页面上的字体,字体大小,布局更加适合学习者在移动学习中操作。

四、结束语

网络学习资源的改造是移动学习资源建设的有效途径之一。本文通过HTML和CSS改变了原有网络学习资源的样式,使之适应移动学习终端的屏幕和分辨率,成为有效的移动学习资源,这个过程也是移动学习自适应系统的一部分。根据目前的移动学习资源建设情况,移动学习资源的开发不仅仅需要样式的改造,更要符合移动学习资源的开发原则[8],将HTML和CSS技术与移动学习资源开发理论相结合,会使建设出高质量移动学习资源的前景将更为广阔。

参考文献:

[1]盛东方.移动学习资源开发与管理方法研究[D].南京大学,2013.

[2]刘应芬.移动学习环境下的学习资源描述研究[D].云南大学,2012.

[3]杨叶,陈琳,董启标.响应式Web移动学习资源技术实现与设计研究[J].现代教育技术,2013(6):107-110.

[4]董坤坤,戴心来,陈恳.基于LMA软件的移动学习资源设计[J].现代教育技术,2009(6):76-78.

[5]顾凤佳.微型移动学习资源的可用性研究[D].华东师范大学,2010.

[6]徐琴.CSS+DIV网页样式与布局[M].北京:航空工业出版社,2012.

[7]高辉.移动学习环境下信息内容自适应呈现的设计与实现[D].江苏师范大学,2012.

[8]刘明春.基于智能手机的移动学习[J].中小学电教,2012(4):56-58.

基于层次分析法的网页排序技术 第12篇

经过多年的探索发展, 向量空间模型、语言模型、布尔模型、链接分析算法、相关性排序模型等都曾或正被应用到搜索引擎中。目前用得比较多的排序算法是在链接分析算法的基础上加入更多的排序因素:关键词在网页中出现的位置、点击次数和网页被引用次数等。这些方法最大的不足是不同用户搜索得到的网页结果排序是一样。

2 层次分析法

2.1 层次分析法原理

层次分析法 (AHP) , 其主要思想是通过对复杂系统的有关要素及其相互关系进行分析, 将其简化为有序的递阶层次结构, 使这些要素归类到不同的层次, 形成一个多层次的分析结构模型, 最终把系统分析转化为确定最低层 (决策方案) 相对于最高层 (总目标) 的相对重要性权值的问题。

AHP使用时先将问题中的因素划分到不同层次中, 利用一致矩阵法确定各层次因素间的权重, 经过归一化得出由同层次因素对于上一层次某因素的相对重要性的权值所组成的矩阵。然后计算某层次所有因素对最高层相对重要性的权值。两次相对重要性权值计算都需进行一致性检验。

AHP实现网页排序的原理是以网页和搜索关键词之间的相关度为最高层, 点击次数、词频、词位置、引用次数、浏览时间和用户个人信息作为中间层, 搜索的结果网页为最底层。通过结合搜索和层次分析法排序完成搜索任务。

2.2 基于层次分析的网页排序

首先对用户提交的关键词进行同义词查询, 基于关键词及其同义词进行扩展查询, 查询返回关键词在页面中的位置、浏览平均时间、点击率、被引用次数等信息, 然后对返回的结果页面结合AHP分析得出相关性排序网页, 最终向用户反馈排序结果。

假设用户提交关键词后得到5个页面, 为得到的页面创建Searched Page实例。该实例有以下字段:id (页面在DB中的编号) , relevance (关键词与页面的相关程度) , hit Weight (页面被点击次数权重, /100) , ref Weight (页面被引用次数权重) , pos Weight (关键词位置权重, 根据关键词第一次出现的位置判断, 标题部分取20, 正文按每10%减1, 正文前10%取10) , fre Weight (关键词频率权重, *100) , read TWeight (页面平均浏览时间权重, *100) , cus Weight (用户个性化相关权重, 页面类别与用户爱好匹配取3, 否则取1) , syn Weight (词义距离权值, 取值0-5, 直接匹配取0) 。假设这5个页面: (hit Weight, ref Weight, pos Weight, fre Weight, read TWeight, cus Weight, syn Weight)

5个页面取值分别为:P1 (9.6, 24, 20, 0.93, 2.7, 1, 1) , P2 (3.1, 7, 9, 0.2, 1.76, 1, 1) , P3 (8.2, 13, 10, 0.98, 0.84, 3, 1) , P4 (9.7, 8, 10, 1.15, 0.79, 1, 0) , P5 (5.4, 36, 20, 0.81, 0.8, 3, 2) 。利用AHP求解relevance。

根据中间层因素对relevance取值的影响程度, 建立比较矩阵T, 其中t12=1/3表示作者认为关键词在页面中的位置比其出现频率更重要。

通过计算, 得比较矩阵T的最大特征根λ=7.3, 相应特征变量为W= (0.11, 0.34, 0.05, 0.24, 0.10, 0.08, 0.09) T, 一致性检验指标CI= (λ-n) / (n-1) =0.05, n=7。查表知随机一致性指标为RI=1.32, 一致性比率CR=CI/RI=0.038<0.1, 通过一致性检验。

根据Searched Page属性值, 构建P1到P5实例对fre Weight等指标的判断矩阵, 如下。

因为篇幅有限, 本文不列出K2—K10, 只给出K2—K10比较矩阵的最大特征值λi (i=1, 2, 3, ……, 7) 与对应的特征向量Wi (i=1, 2, 3, ……, 7) 。

λ1=10.04 W1= (0.14, 0.05, 0.16, 0.14, 0.12)

λ2=10.86 W2= (0.13, 0.02, 0.08, 0.10, 0.17)

λ3=10.09 W3= (0.17, 0.03, 0.14, 0.17, 0.11)

λ4=10.11 W4= (0.19, 0.07, 0.07, 0.05, 0.04)

λ5=10.12 W5= (0.12, 0.03, 0.08, 0.04, 0.25)

λ6=10.01 W6= (0.03, 0.04, 0.19, 0.03, 0.18)

λ7=10.29 W7= (0.11, 0.03, 0.12, 0.13, 0.07)

算出K1—K10最大特征值、特征向量对应的CI、CR知通过一致性检验, 层次总排序一致性比率:CR= (t1CI1+t2CI2+L+a7CI7) / (a1RI1+a2RI2+L+a7RI7) , 其中: (t1, t2, t3, t4, t5, t6, t7) T= (0.11, 0.34, 0.05, 0.24, 0.0, 0.08, 0.09) T, 算得CR=0.032, CR<0.1通过检验。

因此, 通过同义词和个性化搜索后得到Searched Page的5个实例P1、P2、P3、P4、P5排序为P1、P5、P3、P4、P2。

3 结语

基于层次分析的搜索排序技术可以较好的解决传统的同义词扩展方式又会带来更多的查询结果难以合理排序的问题, 并有利于提高搜索的精确率和覆盖率。

参考文献

[1]常璐, 夏祖奇.搜索引擎的几种常用排序算法[D].图书情报工作, 2003 (06) .

基于网页范文

基于网页范文(精选12篇)基于网页 第1篇网页分割在搜索引擎优化,文档聚类,信息抽取,主题信息采集以及网页的适配处理等方面具有重要的作用...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部