黑客专业术语范文-盘古文库

黑客专业术语范文（精选5篇）

黑客专业术语第1篇

黑客术语大全

1，肉鸡：所谓“肉鸡”是一种很形象的比喻，比喻那些可以随意被我们控制的电脑，对方可以是WINDOWS系统，也可以是UNIX/LINUX系统，可以是普通的个人电脑，也可以是大型的服务器，我们可以象操作自己的电脑那样来操作它们，而不被对方所发觉。

2，木马：就是那些表面上伪装成了正常的程序，但是当这些被程序运行时，就会获取系统的整个控制权限。有很多黑客就是热中与使用木马程序来控制别人的电脑，比如灰鸽子，黑洞，PcShare等等。

3，网页木马：表面上伪装成普通的网页文件或是将而已的代码直接插入到正常的网页文件中，当有人访问时，网页木马就会利用对方系统或者浏览器的漏洞自动将配置好的木马的服务端下载到访问者的电脑上来自动执行。

4，挂马：就是在别人的网站文件里面放入网页木马或者是将代码潜入到对方正常的网页文件里，以使浏览者中马。

5，后门：这是一种形象的比喻，**者在利用某些方法成功的控制了目标主机后，可以在对方的系统中植入特定的程序，或者是修改某些设置。这些改动表面上是很难被察觉的，但是**者却可以使用相应的程序或者方法来轻易的与这台电脑建立连接，重新控制这台电脑，就好象是**者偷偷的配了一把主人房间的要是，可以随时进出而不被主人发现一样。

通常大多数的特洛伊木马（Trojan Horse）程序都可以被**者用语制作后门（BackDoor）6，rootkit：rootkit是攻击者用来隐藏自己的行踪和保留root（根权限，可以理解成WINDOWS下的system或者管理员权限）访问权限的工具。通常，攻击者通过远程攻击的方式获得root访问权限，或者是先使用密码猜解（破解）的方式获得对系统的普通访问权限，进入系统后，再通过，对方系统内存在的安全漏洞获得系统的root权限。然后，攻击者就会在对方的系统中安装rootkit，以达到自己长久控制对方的目的，rootkit与我们前边提到的木马和后门很类似，但远比它们要隐蔽，黑客守卫者就是很典型的rootkit，还有国内的ntroorkit等都是不错的rootkit工具。

9，IPC$：是共享“命名管道”的资源，它是为了让进程间通信而开放的饿命名管道，可以通过验证用户名和密码获得相应的权限，在远程管理计算机和查看计算机的共享资源时使用。

10.弱口令：指那些强度不够，容易被猜解的，类似123，abc这样的口令（密码）11.默认共享：默认共享是WINDOWS2000/XP/2003系统开启共享服务时自动开启所有硬盘的共享，因为加了“$”符号，所以看不到共享的托手图表，也成为隐藏共享。

12.shell：指的是一种命令指行环境，比如我们按下键盘上的“开始键+R”时出现“运行”对话框，在里面输入“cmd”会出现一个用于执行命令的黑窗口，这个就是WINDOWS的Shell执行环境。通常我们使用远程溢出程序成功溢出远程电脑后得到的那个用于执行系统命令的环境就是对方的shell 13.WebShell：WebShell就是以asp、php、jsp或者cgi等网页文件形式存在的一种命令执行环境，也可以将其称做是一种网页后门。黑客在**了一个网站后，通常会将这些asp或php后门文件与网站服务器WEB目录下正常的网页文件混在一起，好后就可以使用浏览器来访问这些asp 或者php后门，得到一个命令执行环境，以达到控制网站服务器的目的。可以上传下载文件，查看数据库，执行任意程序命令等。国内常用的WebShell有海阳ASP木马，Phpspy，c99shell等

14.溢出：确切的讲，应该是“缓冲区溢出”。简单的解释就是程序对接受的输入数据没有执行有效的检测而导致错误，后果可能是造成程序崩溃或者是执行攻击者的命令。大致可以分为两类：（1）堆溢出（2）栈溢出。15.注入：随着B/S模式应用开发的发展，使用这种模式编写程序的程序员越来越来越多，但是由于程序员的水平参差不齐相当大一部分应用程序存在安全隐患。用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想要知的数据，这个就是所谓的SQLinjection，即：SQL注意入。

16.注入点：是是可以实行注入的地方，通常是一个访问数据库的连接。根据注入点数据库的运行帐号的权限的不同，你所得到的权限也不同。

17.内网：通俗的讲就是局域网，比如网吧，校园网，公司内部网等都属于此类。查看IP地址如果是在以下三个范围之内的话，就说明我们是处于内网之中的：10.0.0.0—10.255.255.255，172.16.0.0—172.31.255.255，192.168.0.0—192.168.255.255 18.外网：直接连入INTERNET（互连网），可以与互连网上的任意一台电脑互相访问，IP地址不是保留IP（内网）IP地址。19.端口：（Port）相当于一种数据的传输通道。用于接受某些数据，然后传输给相应的服务，而电脑将这些数据处理后，再将相应的恢复通过开启的端口传给对方。一般每一个端口的开放的偶对应了相应的服务，要关闭这些端口只需要将对应的服务关闭就可以了。

20.3389、4899肉鸡：3389是WINDWS终端服务（Terminal Services）所默认使用的端口号，该服务是微软为了方便网络管理员远程管理及维护服务器而推出的，网络管理员可以使用远程桌面连接到网络上任意一台开启了终端服务的计算机上，成功登陆后就会象操作自己的电脑一样来操作主机了。这和远程控制软件甚至是木马程序实现的功能很相似，终端服务的连接非常稳定，而且任何杀毒软件都不会查杀，所以也深受黑客喜爱。黑客在**了一台主机后，通常都会想办法先添加一个属于自己的后门帐号，然后再开启对方的终端服务，这样，自己就随时可以使用终端服务来控制对方了，这样的主机，通常就会被叫做3389肉鸡。Radmin是一款非常优秀的远程控制软件，4899就是Radmin默认使以也经常被黑客当作木马来使用（正是这个原因，目前的杀毒软件也对Radmin查杀了）。有的人在使用的服务端口号。因为Radmin的控制功能非常强大，传输速度也比大多数木马快，而且又不被杀毒软件所查杀，所用Radmin管理远程电脑时使用的是空口令或者是弱口令，黑客就可以使用一些软件扫描网络上存在Radmin空口令或者弱口令的主机，然后就可以登陆上去远程控制对恶劣，这样被控制的主机通常就被成做4899肉鸡。

21.免杀：就是通过加壳、加密、修改特征码、加花指令等等技术来修改程序，使其逃过杀毒软件的查杀。22.加壳：就是利用特殊的酸法，将EXE可执行程序或者DLL动态连接库文件的编码进行改变（比如实现压缩、加密），以达到缩小文件体积或者加密程序编码，甚至是躲过杀毒软件查杀的目的。目前较常用的壳有UPX，ASPack、PePack、PECompact、UPack、免疫007、木马彩衣等等。

23.花指令：就是几句汇编指令，让汇编语句进行一些跳转，使得杀毒软件不能正常的判断病毒文件的构造。说通俗点就是”杀毒软件是从头到脚按顺序来查找病毒。如果我们把病毒的头和脚颠倒位置，杀毒软件就找不到病毒了“。

“反弹端口”原理：

服务端（被控制端）主动连接客户端（控制端），为了隐蔽起见，监听端口一般开在80（提供HTTP服务的端口），这样，即使用户使用端口扫描软件检查自己的端口，也难以发现。而控制端发给服务端的数据是一个第三方的空间来实现的，一般用一个主页空间，控制端通过FTP写主页空间上的一个文件，而服务端定期?*** TTP协议读取这个文件的内容，当发现客户端让自己开始连接时，就主动连接。这样，控制端就可以穿过防火墙，甚至还能访问局域网内部的电脑。

软件加壳：

“壳”是一段专门负责保护软件不被非法修改或反编译的程序。它们一般都是先于程序运行，拿到控制权，然后完成它们保护软件的任务。经过加壳的软件在跟踪时已看到其真实的十六进制代码，因此可以起到保护软件的目的。

软件脱壳：

顾名思义，就是利用相应的工具，把在软件“外面”起保护作用的“壳”程序去除，还文件本来面目，这样再修改文件内容就容易多了。

蠕虫病毒：

它利用了WINDOWS系统的开放性特点，特别是COM到COM+的组件编程思路，一个脚本程序能调用功能更大的组件来完成自己的功能。以VB脚本病毒为例，它们都是把VBS脚本文件加在附件中，使用*.HTM，VBS等欺骗性的文件名。蠕虫病毒的主要特性有：自我复制能力、很强的传播性、潜伏性、特定的触发性、很大的破坏性。

缓冲区溢出：

功击者向一个地址区输入这个区间存储不下的大量字符。在某些性况下，这些多余的字符可以作为“执行代码”来运行，因此足以使功击者不受安全措施限制地获得计算机的控制权。

CMD：

是一个所谓命令行控制台。有两条进入该程序的通道：第一、鼠标点击“开始—运行”，在出现的编辑框中键入“CMD”，然后点击“确定”；第二、在启动Windows2000的时候，按F8进入启动选择菜单，移动光条或键入数字至安全模式的命令行状态。出现的窗口是一个在win9x系统常见的那种MSDOS方式的界面。尽管微软把这个工具当做命令解释器一个新的实例，但使用方法去和原来的DOS没有区别。

嗅控器：

（Snifffer）就是能够捕获网络报文的设备。嗅控器的正当用处在于分析网络的流量，以便找出所关心的网络中潜在的问题。

密罐：（Honeypot）

是一个包含漏洞的系统，它摸拟一个或多个易受功击的主机，给黑客提供一个容易功击的目标。由于密罐没有其它任务需要完成，因此所有连接的尝试都应被视为是可疑的。密罐的另一个用途是拖延功击者对其真正目标的功击，让功击者在密罐上浪费时间。与此同时，最初的功击目标受到了保护，真正有价值的内容光焕发不将受侵犯。

路由器（Routers）：

是用来连接不同子网的中枢，它们工作于osi 7层模型的传输层和网络层。路由器的基本功能就是将网络信息包传输到它们的目的地。一些路由器还有访问控制列表（ACLs），允许将不想要的信息包过滤出去。许多路由器都可以将它们的日志信息注入到IDS系统中，提供有关被阻挡的访问网络企图的宝贵信息。2，Unicode漏洞：

Unicode是一个16位的字符集，他可以移植到所有主要的计算机平台并且覆盖几乎整个世界。微软IIS4和5都存在利用扩展Unicode字符取代“/”“”而能利用“../”目录便利的漏洞。未经授权的用户可能利用IUSR_machinename帐号的上下文空间访问任何已知的文件。该帐号在默认情况下属于Everyone和Users组的成员，因此任何与Web根目录在同一个逻辑驱动器上的能被这些用户组访问的文件都能被删除、修改或执行，如同一个用户成功的登陆所能完成的功能一样！

CGI漏洞：

CGI是Common Gateway Inerface（公用网关接口）的简称，并不特指一种语言。Web服务器的安全问题主要包括：1）Web服务器软件编制中的BUG；2）服务器配置的错误。可能导致CGI源代码泄漏，物理路径信息泄漏，系统敏感信息泄漏或远程执行任意命令。CGI语言漏洞分为以下几类：配置错误、边界条件错误、访问验证错误、来源验证错误、输入验证错误、策略错误、使用错误等等。CGI漏洞大多分为一下几种类型：暴露不该暴露的信息、执行不该执行的命令、溢出。

SSL漏洞：

SSL是Secure Socket Layer的缩写。是网上传输信用卡和帐户密码等信息时广泛采用的行业加密标准。SSL常见的安全漏洞有三种：

1、攻击证书，由于IIS服务器提供“客户端证书映射”功能，用于将客户端提交证书中的名字映射到NT系统的用户帐号，再这种情况下我们能够获得该主机的系统管理员权限！如果黑客不能利用非法的证书突破服务器，还可尝试暴力攻击。

2、窃取证书，黑客还可能窃取有效的证书及相关的思友密匙。

3、安全盲点。没有网络检测系统再加上没有安全漏洞审查，使得最重要的服务器反而成为受到最少防护的服务器。

IPC$漏洞：

IPC$是共享“命名管道”的资源，它对于程序间的通讯十分重要。再远程管理计算机和查看计算机的共享资源时使用。利用IPC我们可以与目标主机建立一个空的连接，而利用这个空连接，我们还可以得到目标主机上的用户列表。但是，一些别有用心的人会利用IPC$，查找我们的用户列表，并使用一些字典工具，对我们的主机进行**攻击。

IIS漏洞：

IIS是Internet Information Service的缩写。是微软公司的Web服务器。IIS支持多种需要服务器端处理的文件类型，当一个WEB用户从客户端请求此类文件时，相应的DLL文件将自动对其进行处理。然而再ISM.DLL这个负责处理HTR文件的文件中被发现存在严重的安全漏洞。该漏洞包含了一个再ISM.DLL重未经验证的缓冲，他可能对WEB服务器的安全运作造成两方面的威胁。首先，是来自服务拒绝攻击的威胁，另一个威胁通过使用一个精心构建过的文件请求将可以利用标准缓存溢出手段导致2进制代码再服务器端运行，再这种情况下，什么都可能发生！

NTLM验证：

NTLM(NT LAN Mangager)是微软公司开发的一种身份验证机制，从NT4开始就以之使用，主要用于本地的帐号管理。

IPC管道：

为了更好的控制和处理不同进程之间的通信和数据交换，系统会通过一个特殊的连接管道来调度整个进程。

3389漏洞：

由于微软的原因，使得安装了微软服务终端和全拼的Win2K服务器存在着远程登陆并能获得超级用户全县的严重漏洞。

139漏洞：

通过139端口**是网络攻击中常见的一种攻击手段，一般情况下139端口开启是由于NetBIOS网络协议的使用。NetBIOS就是网络基本输入输出系统，系统可以利用WINS服务、广播及Lmhost文件等多种模式将NetBIOS名解析为相应的IP地址，从而实现信息通讯。再局域网内部使用NetBIOS协议可以非常方便的实现消息通信，但是如果再Internet上，NetBIOS就相当于一个后门程序，很多攻击这都是通过NetBIOS漏洞发起攻击的！

shell：

shell是系统与用户的交换方式界面。简单来说，就是系统与用户“沟通”的环境。我们平时常用到的DOS，就是一个shell。（Windows2000是cmd.exe）

root：

Unix里面最高权限的用户～即超级管理员

admin：

Windows NT里面最高权限的用户～

rootshell：

通过溢出程序，再主机溢出一个具有root权限的shell。（顺便说一句，国内一知名黑客也叫这个名字）

IDS：

**检测系统，用于在黑客发起进攻或是发起进攻之前检测到攻击，并加以拦截。IDS是不同于防火墙的，防火墙只能屏蔽**，而IDS却可以在**发生以前，通过一些信息来检测到即将发生的攻击或是**以作出反应。

UDP：

一种传输层协议，在网络上不可靠的传输数据包，被DNS用于查询和应答，许多流音频和视频应用也使用它。

API：

一套定义的一致性方法，软件开发人员能用他来编写与其他程序捷克欧的程序。API用于扩展程序的功能和使用预编写的组创建新的程序。

FTP：

文件传输协议。一类应用以及该应用使用的协议的名字，用于将文件从一台计算机移动到另一台。

HTTP：

超文本传输协议。用于在万维网上传输数据，包括超文本标识语言文档、图像、可执行内容等等。TCP承载HTTP，一般服务器监听端口80。

HTTPS：

安全超文本传输协议。通过在安全套接字层（SSL）协议上运行超文本传输协议来将安全添加到万维网中。HTTPS能用于将WEB服务器认证到客户，将客户认证到WEB服务器和加密在两个系统之间传输的所有数据，HTTPS服务器一般监听TCP端口443。

IRC：

Internet中继交谈，一系列程序和一种协议，用于实现在Internet上的交谈会话。IRC特别受计算机地下组织的欢迎，北移些攻击者用来讨论他们的工具、技术和战利品。

MAC Address：

网络接口的数据链路层（第二层）地址。对于以太网卡，MAC地址维48bit长。

LAN：

局域网！一种网络，连接近距离的计算机，一般位于单个房间、建筑物或小的地理区域里。LAN上的所有系统位于一个网络跳之间。

ping：

一类基于Internet控制消息协议的数据包，用于判断网络上的某台计算机是否可以到达。

Proxy：

代理。一类程序或系统，接收来自客户机算计的流量，并代表客户与服务器交互。代理能用于过滤应用级别的制定类型的流量或缓存信息以提高性能。许多防火墙依赖代理进行过滤。

telnet：

用于系统的远程命令行访问的程序和协议。telnet在TCP上传输，服务器一般在TCP端口23监听。

TCP：

传输控制协议。一种传输层协议，被许多要求数据的可靠传输的应用所使用。HTTP、SMTP、FTP和telnet都使用TCP进行传输。

TCP/IP:

整个网际协议族的集合名，包括TCP、UDP、IP和ICMP。

在許多黑客技術愛好者的平時學習中，很有可能會遇到許多陌生的詞彙，這些詞彙給愛學習的你們帶來了很多不便，也會阻礙你們前進的步伐，這本詞典就能在這個時候爲你們給予最大的幫助。同時，借助這本書也能擴大自己的視野，讓你對整個黑客技術乃至整個計算機技術都有更廣泛與深入的理解。

此詞典曆時兩年，蟄伏地下，嘔心瀝血，乃前無古人之作，是國內第一本黑客專業術語速查工具書，收錄了當今信息時代最新最流行的技術術語，內容幾乎覆蓋了計算機技術，網絡技術與安全技術的所有領域，細分爲15大類，分類如下：001 黑客技術基礎

此分類基本上包括了計算機與網絡技術的方方面面，所以黑客技術基礎是所有分類中最多的一個，基本上包括了所有常見與熱門的詞語，常見的協議、端口與常見的**方法都在這裏，如“Goolge Hack”、“ping”、“XSS”、“TCP”等。

攻擊方法與行爲

黑客技術中的攻擊方法繁多，而不同的攻擊方法通過不同的方式組合起來就變成了更多的攻擊行爲，這個分類主要包含了**或攻擊過程中的常見方法與行爲。這個分類主要包含了**或攻擊過程中的常見方法與行爲，如“CC攻擊”、“SQL注入”、“DDoS攻擊”等

操作系統及其相關

操作系統是計算機上所有活動的基礎，不管是程序開發還是**，乃至提權，都需要對操作系統有詳盡的了解。這個分類主要包含了與操作系統的一些機制、常見的文件、命令以及其他一些相關的詞語，當然也包括操作系統本身，如“X-Window”、“Swap”、“Shell”、“PID”等。

腳本

腳本是網絡上重要的一個技術，現在網絡上形形色色的動態網站也都是在腳本的基礎上建立起來的。如果腳本程序出現問題也會導致整個網站乃至整個服務器的淪陷，所以現在一直是國內黑客界熱門的話題。這個分類包含了與腳本有關的技術及一些著名的腳本程序，如“FSO”、“PHPMyAdmin”、“OBlog”等。

數據庫

數據庫技術與腳本一起構成了一直火熱的SQL注入技術，這個分類包含了主流數據庫的介紹與數據庫技術的核心部分，如“SQL Server”、“SQL語句”、“Oracle”等，其中的許多詞條都有詳細的介紹與在黑客技術中的具體應用。

病毒與惡意軟件

病毒應該是網絡上最受關注的安全詞語了，同時，惡意軟件造成的惡劣影響也絲毫不在病毒之下，所以將這兩個合並在一個分類。其中包括了“CIH”、“BOTNET”、“Slammer”蠕蟲王等詞條。

應用程序

在進行許多**滲透等黑客活動時，需要用到許多優秀的程序，這裏彙集了很多中性的程序，即可用于防禦與維護計算機或網絡，也可用于攻擊，如“Achilles”、“Sniffer Pro”，“WSockExpert”等。008 黑客工具

黑客技術不能全依賴于工具，但同時也離不開好的工具，這個分類中包含了許多著名與優秀的黑客工具，包括“ARPSniffer”、“LCX.exe”、“NBSI”等，其中的一些包含了基本的使用方法與原理解析。

安全技術

有攻擊就有防禦，此分類中包含了許多安全防禦方面的相關詞條，包括常見的安全漏洞、安全防禦工具與安全防禦機制等，如“ACL”、“Acunetix WVS”、“SSH”等。

滲透技術滲透技術作爲黑客技術中最迷人的技術，其中到處閃爍著智慧的光芒。滲透不是簡單的**，它應該是從外網進入內網，直到得到內網各個主機控制權的一個過程。它需要根據不同的情況來采取不同的對策，它是最能反應一個黑客技術水平的一項指標。這個分類裏包含了一些基本的滲透方法，如“IP欺騙”、“DNS欺騙”、“Man In The Midlle”等。

調試技術

調試技術是黑客技術中的一個重要分支，通過它可以了解程序運行流程，是發現程序漏洞的基礎，如果真的熟練掌握了調試技術，也許就可以做到“給我一個程序，我就可以給你一份源代碼”的境界。這裏包含了一些簡單的與調試技術有關的名詞，如“DEBUG”、“EIP”、“ESP定律”等。

特定名稱

這個分類中包含了許多與黑客技術有關的組織與約定俗成的名稱，如“ANSI”、“Black hat”、“IBM”等。

程序語言與開發

“一個真正的黑客首先必須是一個好的程序員。”從這一句話中可以看出程序的編寫能力對于黑客技術的重要性。這個分類包含了黑客技術常見的編程詞彙，如“C32ASM”、“DLL線程插入”、“SOCKET”等。

加密解密

加密解密是黑客技術中永恒的話題，這個分類不單單只是密碼學上的加密解密，更多的是包含人們俗稱的“破解技術”（即關于程序的保護與破解技術）其中的一些相關詞彙與常用工具，如“IAT”、“MIRACL大數庫”、“SOFTICE”等。

硬件

硬件是計算機的基礎，自然也是黑客技術的基礎，這個分類包含了與黑客技術息息相關的一些硬件，如“RJ-45”、“HUB”、“ROM”等。

整合商场营销专业术语第2篇

二、折扣:折扣是一种最常见、也最容易操作的促销方式。即全场商品或部分商品进行不同程度的折扣销售, 如一件商品原件90元, 8折 (off20%) 后实际售价72元, 计算公式为9080%=72元或90 (1-20%) =72元。

三、特价:即限定某个时间段内某些商品执行特价销售, 超出时间自动恢复, 一般建议在客流比较少的时段做, 这样可以拉平卖场人气。

四、限定条件优惠:如, 限会员购买优惠或会员达到一定消费积分时优惠, 还有买购多少额度优惠或返利。

五、限总量优惠:即在优惠的商品出售够一定数量时, 特价终止, 恢复原价销售。

黑客专业术语第3篇

一家安全公司表示，已有现象表明黑客利用恶意程序在Google的虚拟主机服务上大做文章，窃取钱财。

6月16日，安全软件公司Websense公司发出警告，特洛伊木马会寄居在同一IP地址的网站上，比如Google站点。该特洛伊木马表现为一种合法程序，但是却在其中隐藏了恶意代码，主要用来偷窃计算机中的信息。

它们经常通过自动发出email和IM链接来传播，然后会诱使电脑用户打开其中的附件，或者点击Web链接。一旦用户进行了类似的操作，木马就会乘机植入到电脑中，紧接着就会在用户的电脑上释放恶意代码。

其实，在该木马的撰写者发动攻击前，该木马就已被发现。Websense公司虽说到目前为止还没有监测到带有此木马的email和IM链接，但可以确定的是该木马是为了窃取与特定财务机构相关的银行信息。

调查显示IT专业人士工作压力最大

引:据美国一家在线学习提供商SkillSoft公司对3千名IT专业人士的调查发现，IT专业人士的工作压力超过了医务人员，成为工作压力最大的人员。

据美国一家在线学习提供商SkillSoft公司对3千名IT专业人士的调查发现，IT专业人士的工作压力超过了医务人员，成为工作压力最大的人员。

受调查的人员称，他们感到被其经理利用、甚至受到压迫，三分之一的IT人士因其经理的干扰而不能正常工作。

基于专业术语提取的中文分词方法第4篇

1 术语提取及分词相关原理

1.1 互信息

定义1:对有序汉字串AB中汉字A、B之间的互信息定义为:

其中, P (AB) 为汉字串AB同时出现的概率, P (A) 为汉字A单独出现的概率, P (B) 为汉字B单独出现的概率。如果规定在语料库中AB出现的次数为n (AB) , A、B单独出现的次数为n (A) 、n (B) , n是统计语料库中的词频总数。此时则有:P (AB) =n (AB) /n, P (A) =n (A) /n, P (B) =n (B) /n。

互信息I (AB) [8]具有以下的性质:

(1) 如果I (AB) >0, 即P (AB) >P (A) P (B) , 则AB间是正相关的, 随着I (AB) 值的增加则AB两个字之间的相关度逐步增加, 如果I (AB) 大于给定的某个阈值, 可以判定AB为一个词语;

(2) 如果I (AB) ≈0, 即P (AB) ≈P (A) P (B) , 则AB间是不相关的;

(3) 如果I (AB) <0, 即P (AB)

汉字之间的互信息在一定程度上体现了汉字之间结合关系的紧密程度, 能够反映字与字之间的静态组合。当某一字串结合的紧密程度高于所给定的阈值时, 我们就可以认为此字串可能构成了一个词。因此我们要对相关的训练文本进行词频统计[9], 计算出相邻出现的各个字之间组合的概率和相邻的每一个字出现的概率, 根据公式 (1) 计算出汉字之间的互信息, 经过人工识别, 从而判断该字串是否组成词语, 进而将所识别的词语和出现的次数[10]加入到词典中为下一步分词做准备。

1.2 术语提取理论

基于互信息的术语提取首先是针对相邻出现的两两之间字的频率进行统计, 其次计算相邻字之间的互信息和候选词语出现的频率, 再次去除候选词语中的基本常用词语和易错词语, 最后得到专业术语。术语提取过程主要分为六个模块:文本预处理模块、词频统计模块、互信息计算模块、词语预处理模块、词典匹配模块和人工干预模块。

术语提取流程图如图1所示:

(1) 文本预处理模块:在进行术语提取首先对文档进行预处理, 利用空格、分段符等显式切分标记和标点符号、数字、ASCII字符以及出现频率高、构词能力差的单字词 (例如的、啊、呀) 、数词+单字等常用量词模式等相关的隐式切分标记, 将训练文本切分成短的汉字串, 这大大地减少了需要统计的无效字串的数量和高频单字或量词边界串;

预处理流程图如图2所示。

(2) 词频统计模块:统计预处理模块得到的文章中相邻两个字出现的次数以及每个字单独出现的次数, 并且统计文章中字的总数;

(3) 互信息计算模块:对于词频统计模块得到的词语, 利用公式 (1) 计算I (AB) , 若此词语互信息值I (AB) >阈值且词频总数大于等于阈值2的词语, 则保留, 否则以符号“/”替换该词语;

(4) 词语预处理模块:对符号“/”之间字的数量大于两个字的词语进行处理, 使之成为一个候选词语, 对上述句子处理后为:/中文分词/可以/利用/互信息/进行/专业术语/提取/, 并统计各个词语出现的次数, 删除出现次数小于三次的词语, 建立一个专业术语词典, 进行存储;

(5) 词语匹配模块:对经由词语处理模块得到的候选术语进行处理, 将所得到的专业术语词典中的候选词语与通用词典和错误词典分别进行匹配, 与通用词典中的词语匹配成功, 说明该词为通用词典中的词语, 不是专业术语, 则删除专业术语词典中的词语, 反之, 则保留;与错误词典中的词语匹配成功, 说明该词是错误词语, 不是专业术语, 则删除专业术语词典中的词语, 反之, 则保留。

(6) 人工干预模块:对由词语匹配模块得到的词语进行人工干预, 将专业术语词典中不符合条件的词语加入错误词典中, 用以下一次术语提取, 以提高术语提取的准确度, 将符合条件的词语保留, 最后形成专业术语词典。

1.3 正向最大匹配算法

正向最大匹配算法[11]的基本思想是:假设分词词典[12]中最长词条所含的汉字个数是MaxLen, 每次从待切分字串S1的开始处截取一个长度为MaxLen的字串W, 令W同词典中的词条依次相匹配, 如果某个词条与其完全匹配则把W作为一个词从S1中切分出去, 然后再从S1的开始处截取另一个长度为MaxLen的字串, 重复与词典中词条相匹配的过程, 直到待切分字符串为空。如果在词典中找不到与W匹配的词条, 就从W的尾部减去一个字, 用MaxLen-1长度的字符串继续与词典中词条匹配, 如果匹配成功则切分出一个词, 否则再从W尾部减去一个字, 重复匹配过程, 直到匹配成功。正向最大匹配流程如图3所示。

结合以上分析, 本系统可以分为两个部分, 第一部分为专业术语提取阶段, 第二阶段为中文分词阶段, 具体系统流程图如图4所示。

2 术语提取及相关实验数据分析

2.1 术语提取范例

术语提取实验例子选自自然语言处理领域的文章作为处理文本, 大小为23k, 共分为以下6个部分:为了更好地说明术语提取过程, 摘自文本中的一段话“中文分词中可以利用互信息进行术语的提取”, 进行具体阐述。

(1) 预处理模块, 由于段落中有出现频率高、构词能力差的单字词“的”, 所以此句话可以分为两个部分:“中文分词中可以利用互信息进行术语”和“提取”两部分;

(2) 词频统计模块:经过预处理模块处理之后, 我们要统计“中文”, “文分”, “分词”, “词中”, “中可”, “可以”, “以利”, “利用”, “用互”, “互信”, “信息”, “息进”, “进行”, “行术”, “术语”, 提取等相邻两个字的候选词语在文章出现次数, 以及每个字和文章中总的字数。每个候选词语出现的次数如表1所示:

(3) 互信息计算模块:

句子“中文分词中可以利用互信息进行术语的提取”, 经过词频统计模块处理后, 计算互信息值, 词语及所对应的互信息值如表格2所示:

本文互信息阈值取值为4.5, 且出现次数大于等于3, 删除不符合规定的词语, 由于候选词语如词中, “中可”, “以利”, “用互”达不到要求, 所以删除, 剩余词语为:“中文”, “文分”, “分词”, “可以”, “利用”, “互信”, “信息”, “进行”, “术语”, “提取”, 被删除词语以“/”代替, 结果为:“中文文分分词//可以/利用/互信信息/进行/术语/”;

(4) 词语预处理模块:对由互信息处理模块得到的结果进行最后处理, 如“中文文分分词”处理为词语“中文分词”, “互信信息”处理为“互信息”, 由“中文分词中可以利用互信息进行术语的提取”这句话得到词语“中文分词”, “可以”, “利用”, “互信息”, “进行”, “术语”, “提取”;

(5) 通用词语匹配模块:将词语处理模块得到的词语与通用词典和错误词典分别进行匹配, 发现词语“可以”, “利用”, “进行”, “术语”, “提取”这几个词为通用词典所有, 所以清除专业术语词典中的这几个词语, 保留“中文分词”, “互信息”这两个候选词语;

(6) 人工干预模块:由于“中文分词”, “互信息”这两个候选词语都为正确的词语, 所以为专业术语, 如果存在错误的词语, 则将错误的词语加入错误词典, 用以下次术语提取, 提高术语提取的准确率。

2.2 系统实验数据分析

本文从知网中分别下载了自然语言处理、图像处理、控制科学与工程这三个领域的文章各50篇, 取自文章中摘要和引言作为三个专业领域的文本, 并且在错误词典数目为零的前提下, 分别进行专业术语的抽取。

首先, 对语料库进行预处理, 利用显示切分标记和隐式切分标记将文章进行切分;

其次, 统计语料库中字的总数, 以及每个字出现的次数, 统计文章切分后的句子中相邻两个字出现的次数;

再次, 清除出现次数小于3次的词语, 对剩余的词语进行互信息计算, 本实验互信息取值为4.5, 清除互信息小于4.5的词语;

最后, 对所得到的待处理词语进行处理, 使之成为一个词语, 统计出现次数, 清除出现次数少于三次的词语, 且与通用词典进行匹配, 删除通用词语, 进行人工干预, 将错误词语加入错误词典。

本实验具体数据如以下表格所示:

对于出现这类错误术语的原因, 主要为这些词语在组成部分、词性搭配上都符合一般正确术语的特征, 我们在选取阈值的时候也存在一定的局限性, 导致每相邻两个字的互信息值也都达到所选定的阈值, 以及出现次数也达到一定的要求, 系统会错误的认为符合要求, 这种情况的发生比较难以排除。所以说针对这类错误, 有必要建立错误词典, 在每一次的专业术语提取过程中不断地积累错误词语, 将所得到的候选术语与错误词典中的错误词语进行匹配、删除, 进而能够提高专业术语提取的准确率。

3 系统分析

3.1 系统准确性分析

评价中文分词系统性能准确性的参数主要有召回率和准确率, 其定义如下:

由于本文的重点是基于专业术语的中文分词, 所以我们首选选择了自然语言处理图像处理、控制科学与工程三个领域的文章进行分词, 结果如表格8所示:

3.2 具体事例

(1) 待分句子:中文分词系统中, 未登录词的识别是一个难点。

本文的方法:/中文分词/系统/中/, /未登录词/的/识别/是/一个/难点/。/

(2) 待分句子:提出一种基于分层式自适应采样的视频拼接方法。

本文的方法:/提出/一种/基于/分层式/自适应采样/的/视频拼接/方法/。/

(3) 待分句子:汽轮机调速器一直是电力系统自动控制的重要研究内容之一。

本文的方法:/汽轮机/调速器/一直/是/电力/系统/自动控制/的/重要/研究/内容/之一/。/

对实验结果分析得出, 文中提出的基于抽取专业术语的中文分词方法在一定程度上提高了分词系统对专业术语准确性。本系统的不足在于产生术语的语料库不均匀, 这个问题是可以通过提高语料库的质量来改进。

4 结束语

本文设计和实现了的一种基于专业术语提取的中文分词方法, 可以实现对领域性较强的术语进行识别, 但是系统也存在一定的不足, 有一定的局限性, 例如会抽出一些共现频度高、但并不是词的常用词组, 需要人工进行选择, 这些是需要进一步提高的。但是在术语的识别方面, 本文提出方法的精度和准确度相对于其他方法是有一定的提高, 具有一定的实用价值。

参考文献

[1]梁卓明, 陈炬桦, 等.基于专有名词优先的快速中文分词[J].计算机技术与发展, 2008, 18 (3) :24-27.

[2]张勇.中文术语自动抽取相关方法研究[D].武汉:华中师范大学, 2006.

[3]Hiroshi Nakagaw, Tatsunori Mori, A Simple but Powerful Automatic Term Extraction Method.In Proceedings of the second International Workshop on Computational Terminology (COMPUTERM 02) , PP.29—35, 2002.

[4]张五辈, 白宇, 等.一种中医名词术语自动抽取方法[J].沈阳航空航天大学学报, 2011, 28 (1) :72-75.

[5]都著, 熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计.2010, 31 (3) :630-633.

[6]Luo Zhiyong 2004, An Integrated Method for Chinese Unknown Word Extraction, ACL 2004.

[7]张劲松, 袁健.回溯正向匹配中文分词算法[J].计算机工程与应用2009, 5 (22) :32-134.

[8]张峰, 许云等.基于互信息的中文术语提取系统[J].计算机应用研究, 2005, 6 (5) :72-77.

[9]周雷, 朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程, 2007, 33 (8) :196-198.

[10]文娟, 王小捷.中文高频词串的抽取及其在语言模型中的应用[J].北京邮电大学学报, 2009, 32 (5) :10-14.

[11]张彩琴, 袁健.改进的正向最大匹配分词算法[J].计算机工程与设计, 2010, 31 (11) :2595-2597.

读懂孕期“专业术语” 第5篇

胎膜早破

临产前胎膜破裂叫胎膜早破，是常见的分娩并发症之一。因为胎膜破裂后子宫内部就与外界直接相通了，外部的细菌可以经阴道上行感染，从而易引发宫内炎症。

一般我们将胎膜早破分为两种情况，一种是还没有到孕37周时胎膜突然破裂，这往往是因为感染增加了胎膜的脆性。这时孩子还没有足月，需要保胎。还有一种情况就是孕37周后胎膜早破，这往往是因为胎位不正，羊水囊受力不均。这时就需要及时引产，尽早结束妊娠。

有的准妈妈可能会担心胎膜早破后羊水流出，如果遇到外界压力，没有了羊水的缓冲作用，胎儿会有危险。其实羊水是胎儿排尿以及羊膜不断分泌产生的，所以准妈妈们不必过分担心。

解决办法：胎膜早破者，必须立即住院，卧床休息。如果胎头高浮或臀位、横位，应抬高床尾，以防脐带脱垂。要严密观察羊水性状及胎心情况，防止胎儿窘迫的发生。胎膜破裂，重要的是预防感染。破膜超过12小时后，应该酌情给予抗生素预防感染。同时，孕妇还应该注意外阴的清洁卫生。

一、胎膜早破接近预产期，胎儿已成熟，如果无胎位异常、骨盆狭窄、脐带脱垂，且胎儿先露部较低者，多不影响产程进展，可经阴道自然分娩。

二、破膜12小时尚未临产者，如果无胎位不正及头盆不称，可在抗感染的情况下进行引产。如果有感染情况，不能完全排除胎位不正、胎儿窘迫等情况存在，应该立即剖宫产，手术后应给予广谱抗生素预防感染。

三、胎膜破裂距预产期尚远、胎儿不成熟、孕妇迫切要求保胎者，医生应在排除感染情况下行保胎治疗并积极促胎肺成熟。此时还应严密观察孕妇的体温、脉搏，子宫有无压痛，流出的羊水有无臭味，胎心、胎动的变化，并给予对胎儿无害的抗生素治疗，如青霉素类药物。保持孕妇外阴清洁，避免不必要的肛查或阴道检查。一旦发现胎心不规律，或有感染可能，不管孕周，应立即终止妊娠。

宫内感染

胎膜像一层保护膜，保护着胎儿并使之与外界隔离，保持子宫内部处于无菌状态。如果胎膜破裂或者患阴道炎症，破水会使子宫内部与外界相通，外界的细菌就会从阴道顺势而上进入子宫内，从而发生上行感染。子宫内感染不仅可以造成孕妇患上羊膜炎、子宫内膜炎、败血症等，还可以造成胎儿宫内感染，也容易使新生儿感染肺炎等其他疾病。

解决办法：胎膜破裂后，为了预防感染，医生通常会让准妈妈服用抗生素或静脉滴注抗生素。如果预防无效，子宫内真的发生感染，孕妇就会出现体温上升、羊水混浊等症状。这时最主要的就是促进宫缩，让胎儿尽快娩出，紧急状况下可能就要选择剖宫产了。所以，对于胎膜破裂者而言，预防感染是重中之重。同时，阴道炎也要积极治疗，如果准妈妈发现自己白带增多，或者有外阴瘙痒、灼热等症状，应该尽快就医治疗，以免发生宫内感染。

羊水混浊

羊水是胎儿的生命之水，在妊娠初期，它透明、无色；进入妊娠晚期，它变成乳白色。胎儿在宫内缺氧时，会造成肠部蠕动亢进并将胎便排入羊水，使羊水污染。因此，羊水的性状直接反应胎儿在宫腔内是否缺氧。胎儿缺氧越严重，羊水颜色越深。胎儿轻度缺氧时，羊水是淡黄色的；重度缺氧时，羊水就是深绿色的。

解决办法：缺氧会导致胎儿窘迫，在产程中，医生会根据羊水的性状来了解胎儿在宫内的安危。通过胎心监护仪，人们可以监测胎儿的心率变化，并根据羊水的性状、污染程度，决定分娩时机。如果宫口开大，短时间可以分娩，医生就会促进宫缩，必要时采取胎头吸引或产钳助产。如果羊水重度污染，胎儿严重缺氧，医生会果断决定剖宫产，让胎儿以最短的时间迅速脱离恶劣的环境。

宫缩乏力

随着产程进展，子宫收缩逐渐增强，收缩时间变长，间隔时间变短，强有力的宫缩促使分娩继续进行。但是有的准妈妈宫缩并不是随着产程而增强，这就必然使产程时间拖长，这种状况被称作宫缩乏力。宫缩乏力分为原发性和继发性两种。

原发性宫缩乏力的原因：子宫肌肉的收缩力一开始就很弱，或是子宫肌肉水肿妨碍收缩。多胎、羊水过多等原因也会造成宫缩乏力。

继发性宫缩乏力的原因：如果骨盆狭窄、胎头位置不正，分娩就将无法正常进行，产妇就会感到疲惫，宫缩也会变得不协调。除此之外，产妇心里紧张、呼疼不止，也会使产程拖长导致宫缩乏力。

解决办法：凡准备自然分娩的产妇，一定要树立克服困难的信心，听从医生和助产士的指导，解除心理压力。心理因素是决定自然分娩成功的关键。不论何种原因，如果宫缩一直很微弱，都可以用宫缩剂加强宫缩。如果是准妈妈身体疲惫导致宫缩乏力，可给药休息，或散散步调节心情、吃点东西恢复体力，这样强有力的宫缩就会再次来临。

如果子宫口全开，宫缩逐渐减弱，这时可以适当使用催产素使宫缩加强。同时，产妇应尽量进食易吸收的饮料或巧克力从而提起精神尽快分娩。

产程延长

初产妇平均分娩时间为12～16小时，不过每个人的分娩进度不同，稍有拖延也不一定就是异常。但是，如果超过平均时间过多而胎儿仍未娩出，就是产程延长。

产程延长，最常见的原因就是宫缩乏力；其次是胎儿头和骨盆不相称，胎头进入骨盆腔的方向异常造成胎位异常，使胎头无法下降；第三是软产道问题，宫颈水肿或坚韧使宫口不再开大，或脐带缠绕妨碍了分娩进行。

解决方法：可以采取措施加强宫缩，或是让产妇休息，同时还可以及时人工破膜。如果采取相应措施后分娩仍无进展，可能是胎头与骨盆不相称，就只能选择剖宫产手术了。

胎盘早剥

胎盘是胎儿与母亲之间营养、氧气和废物转换的器官，这就要求胎儿出世前胎盘功能必须保持正常。但是，胎盘有时会“擅离职守”，会提前从子宫壁剥离，这是非常危险的。准妈妈虽无法知道胎盘剥离，但腹部会产生强烈的疼痛，这是因为子宫壁的血管因破裂而出血。这时，如果血液流出体外就能及时发现，但子宫口若被堵塞，血液会积存在子宫与胎盘之间，从而导致大量出血，使胎盘发生剥离，直接威胁胎儿和母亲的生命安全。发生胎盘早剥的产妇大多数患有妊娠高血压综合征，它有时会使胎盘血管痉挛而缺氧，继而发生血管破裂造成胎盘早剥。所以患有妊娠高血压综合征的准妈妈要注意及时治疗，控制病情发展。同时，孕妇要慢些走路，不要磕碰腹部，以防外力碰撞造成胎盘早剥。平时，如果有无痛性出血或腹部不缓解的疼痛，应及时到医院就诊。

解决办法：为了挽救胎儿的生命，医生会实行急诊手术。如果是在临产前发病，通常会立即进行剖宫产。孕妇在孕期要加强产前检查，积极预防与治疗妊高征。合并高血压病、慢性肾炎等病症的高危妊娠者，应加强管理，妊娠晚期避免仰卧位及腹部外伤。

脐带异常

脐带隐形脱垂是指脐带到达胎儿先露部前方而受到压迫。

脐带脱垂是指胎膜已破，脐带进一步脱出于胎先露的下方，经宫颈进入阴道内，甚至经阴道显露于外阴部。

脐带缠绕于胎儿颈部和身体，胎儿娩出时脐带可能会受到拉扯或压迫，称为脐带缠绕

脐带结节是指脐带打了结的状态。脐带结节分真结节和假结节。真结节如果太紧，就会妨碍血液循环，容易发生胎死宫内。假结节是脐带血管盘曲，不影响血液循环，对胎儿没有危险。

解决办法：脐带隐形脱垂和脐带脱垂这两种情况，由于脐带受压阻碍血液循环，胎儿处于缺氧状态，多数情况下医生会马上进行剖宫产手术。脐带缠绕一般可自行分娩，但要一边观察胎儿心率，一边缓缓娩出。

黑客专业术语范文

黑客专业术语第1篇

整合商场营销专业术语第2篇

黑客专业术语第3篇

基于专业术语提取的中文分词方法第4篇

读懂孕期“专业术语” 第5篇

黑客专业术语范文

猜你喜欢

栏目

最近更新

热门标签

黑客专业术语范文

黑客专业术语 第1篇

整合商场营销专业术语 第2篇

黑客专业术语 第3篇

基于专业术语提取的中文分词方法 第4篇

读懂孕期“专业术语” 第5篇

黑客专业术语范文

猜你喜欢

栏目

最近更新

热门标签

黑客专业术语第1篇

整合商场营销专业术语第2篇

黑客专业术语第3篇

基于专业术语提取的中文分词方法第4篇