翻译机器范文
翻译机器范文(精选11篇)
翻译机器 第1篇
项目技术描述:基于新一代混合机器翻译技术, 面向领域提供机器翻译定制化解决方案。
项目技术优势: (1) 采用当代国际先进的混合机器翻译结构; (2) 采用当代面向产业应用的以规则系统为骨架的混合机器翻译结构设计; (3) 采用数据驱动方法从语料库提取规则与模板的技术; (4) 采用数据驱动方法从语料库提取多词表达的技术。
项目当前发展状况和进度: (1) 通过定制化开发可以满足特定领域用户使用需求; (2) 正在改进和发展以规则系统为主体融合统计方法的混合机器翻译系统; (3) 根据领域不同用户需求不同, 定制化研发周期为3个月到1年不等。
随着全球化和互联网迅速发展, 跨语言的网络资源呈几何级数增长, 迅速改变着信息传播的方式, 极大地刺激了机器翻译产业的发展。由于目前在线统计机器翻译普遍存在固有的技术缺陷和数据安全隐患问题, 从而为本项目定制化开发的产品应用与推广带来了极大的空间。同时, 随着本项目翻译引擎技术的不断改进和发展, 也将促进机器翻译与信息检索、信息抽取以及企业生态系统等融合的无缝集成应用的发展。鉴于以上所述, 本项目具有广阔的应用前景以及极其可观的市场价值。
知识产权形式:专有技术
机器人算法外文翻译 第2篇
Abstract: Although genetic algorithm has become very famous with its global searching, parallel computing, better robustness, and not needing differential information during evolution.However, it also has some demerits, such as slow convergence speed.In this paper, based on several general theorems, an improved genetic algorithm using variant chromosome length and probability of crossover and mutation is proposed, and its main idea is as follows : at the beginning of evolution, our solution with shorter length chromosome and higher probability of crossover and mutation;and at the vicinity of global optimum, with longer length chromosome and lower probability of crossover and mutation.Finally, testing with some critical functions shows that our solution can improve the convergence speed of genetic algorithm significantly , its comprehensive performance is better than that of the genetic algorithm which only reserves the best individual.Genetic algorithm is an adaptive searching technique based on a selection and reproduction mechanism found in the natural evolution process, and it was pioneered by Holland in the 1970s.It has become very famous with its global searching, parallel computing, better robustness, and not needing differential information during evolution.However, it also has some demerits, such as poor local searching, premature converging, as well as slow convergence speed.In recent years, these problems have been studied.In this paper, an improved genetic algorithm with variant chromosome length and variant probability is proposed.Testing with some critical functions shows that it can improve the convergence speed significantly, and its comprehensive performance is better than that of the genetic algorithm which only reserves the best individual.In section 1, our new approach is proposed.Through optimization examples, in section 2, the efficiency of our algorithm is compared with the genetic algorithm which only reserves the best individual.And section 3 gives out the conclusions.Finally, some proofs of relative theorems are collected and presented in appendix.Description of the algorithm 1.1 Some theorems Before proposing our approach, we give out some general theorems(see
appendix)as follows: Let us assume there is just one variable(multivariable can be divided into many sections, one section for one variable)x ∈ [ a, b ] , x ∈ R, and chromosome length with binary encoding is 1.Theorem 1
Minimal resolution of chromosome is s = ba 2l1Theorem 2
Weight value of the ith bit of chromosome is
wi = bai1(i = 1,2,…l)2l1Theorem 3
Mathematical expectation Ec(x)of chromosome searching step with one-point crossover is Ec(x)= baPc 2lwhere Pc is the probability of crossover.Theorem 4
Mathematical expectation Em(x)of chromosome searching step with bit mutation is Em(x)=(b-a)Pm
1.2 Mechanism of algorithm
During evolutionary process, we presume that value domains of variable are fixed, and the probability of crossover is a constant, so from Theorem 1 and 3, we know that the longer chromosome length is, the smaller searching step of chromosome, and the higher resolution;and vice versa.Meanwhile, crossover probability is in direct proportion to searching step.From Theorem 4, changing the length of chromosome does not affect searching step of mutation, while mutation probability is also in direct proportion to searching step.At the beginning of evolution, shorter length chromosome(can be too shorter, otherwise it is harmful to population diversity)and higher probability of crossover and mutation increases searching step, which can carry out greater domain searching, and avoid falling into local optimum.While at the vicinity of global optimum, longer length chromosome and lower probability of crossover and mutation will decrease searching step, and longer length chromosome also improves resolution of mutation, which avoid wandering near the global optimum, and speeds up algorithm
converging.Finally, it should be pointed out that chromosome length changing keeps individual fitness unchanged, hence it does not affect select ion(with roulette wheel selection).1.3 Description of the algorithm
Owing to basic genetic algorithm not converging on the global optimum, while the genetic algorithm which reserves the best individual at current generation can, our approach adopts this policy.During evolutionary process, we track cumulative average of individual average fitness up to current generation.It is written as 1X(t)= GGft1avg(t)where G is the current evolutionary generation, fitness.favg is individual average When the cumulative average fitness increases to k times(k> 1, k ∈ R)of initial individual average fitness, we change chromosome length to m times(m is a positive integer)of itself , and reduce probability of crossover and mutation, which can improve individual resolution and reduce searching step, and speed up algorithm converging.The procedure is as follows:
Step 1 Initialize population, and calculate individual average fitness and set change parameter flag.Flag equal to 1.favg0, Step 2 Based on reserving the best individual of current generation, carry out selection, regeneration, crossover and mutation, and calculate cumulative average of individual average fitness up to current generation
favg;
favgStep 3 If
favg0≥k and Flag equals 1, increase chromosome length to m times of itself, and reduce probability of crossover and mutation, and set Flag equal to 0;otherwise continue evolving.Step 4 If end condition is satisfied, stop;otherwise go to Step 2.2 Test and analysis
We adopt the following two critical functions to test our approach, and compare it with the genetic algorithm which only reserves the best individual: f1(x,y)0.5sin2x2y20.5[10.01xy222]
x,y∈ [5,5]
[1,1] f2(x,y)4(x22y20.3cos(3πx)0.4cos(4πy))
x,y∈2.1 Analysis of convergence During function testing, we carry out the following policies: roulette wheel select ion, one point crossover, bit mutation, and the size of population is 60, l is chromosome length, Pc and Pm are the probability of crossover and mutation respectively.And we randomly select four genetic algorithms reserving best individual with various fixed chromosome length and probability of crossover and mutation to compare with our approach.Tab.1 gives the average converging generation in 100 tests.In our approach, we adopt initial parameter l0= 10, Pc0= 0.3, Pm0= 0.1 and k= 1.2, when changing parameter condition is satisfied, we adjust parameters to l= 30, Pc= 0.1, Pm= 0.01.From Tab.1, we know that our approach improves convergence speed of genetic algorithm significantly and it accords with above analysis.2.2 Analysis of online and offline performance
Quantitative evaluation methods of genetic algorithm are proposed by Dejong, including online and offline performance.The former tests dynamic performance;and the latter evaluates convergence performance.To better analyze online and offline performance of testing function, w e multiply fitness of each individual by 10, and we give a curve of 4 000 and 1 000 generations for f1 and f2, respectively.(a)online
(b)online
Fig.1 Online and offline performance of f1
(a)online
(b)online
Fig.2 Online and offline performance of f2
From Fig.1 and Fig.2, we know that online performance of our approach is just little worse than that of the fourth case, but it is much better than that of the second, third and fifth case, whose online performances are nearly the same.At the same time, offline performance of our approach is better than that of other four cases.Conclusion In this paper, based on some general theorems, an improved genetic algorithm using variant chromosome length and probability of crossover and mutation is proposed.Testing with some critical functions shows that it can improve convergence speed of genetic algorithm significantly, and its comprehensive performance is better than that of the genetic algorithm which only reserves the best individual.Appendix With the supposed conditions of section 1, we know that the validation of Theorem 1 and Theorem 2 are obvious.Theorem 3 Mathematical expectation Ec(x)of chromosome searching step with one point crossover is baPc2lEc(x)=
where Pc is the probability of crossover.Proof
As shown in Fig.A1, we assume that crossover happens on the kth locus, i.e.parent’s locus from k to l do not change, and genes on the locus from 1 to k are exchanged.1During crossover, change probability of genes on the locus from 1 to k is 2
(“1” to “0” or “0” to “1”).So, after crossover, mathematical expectation of chromosome searching step on locus from 1 to k is
k11ba1baEck(x)wjl2j1l(2k1)
22121j12j12Furthermore, probability of taking place crossover on each locus of k1chromosome is equal, namely l Pc.Therefore, after crossover, mathematical expectation of chromosome searching step is 1Ec(x)PcEck(x)
k1lSubstituting Eq.(A1)into Eq.(A2), we obtain l1PbaP(ba)11ba1Pcl(2k1)cl[(2i1)l]c(1l)2212l212l21k1llba0, so Ec(x)Pc where l is large, l2l21Ec(x)l1
Fig.A1 One point crossover
Theorem 4 Mathematical expectation Em(x)of chromosome searching step with bit mutation Em(x)(ba)Pm, where Pm is the probability of mutation.Proof Mutation probability of genes on each locus of chromosome is equal, say Pm, therefore, mathematical expectation of mutation searching step is Em(x)=åPm·wi=åPm·i=1i=1llb-ai-1b-a·2=P··(2i-1)=(b-a)·Pm mli2-12-1
一种新的改进遗传算法及其性能分析
摘要:虽然遗传算法以其全局搜索、并行计算、更好的健壮性以及在进化过程中不需要求导而著称,但是它仍然有一定的缺陷,比如收敛速度慢。本文根据几个基本定理,提出了一种使用变异染色体长度和交叉变异概率的改进遗传算法,它的主要思想是:在进化的开始阶段,我们使用短一些的变异染色体长度和高一些的交叉变异概率来解决,在全局最优解附近,使用长一些的变异染色体长度和低一些的交叉变异概率。最后,一些关键功能的测试表明,我们的解决方案可以显著提高遗传算法的收敛速度,其综合性能优于只保留最佳个体的遗传算法。
遗传算法是一种以自然界进化中的选择和繁殖机制为基础的自适应的搜索技术,它是由Holland 1975年首先提出的。它以其全局搜索、并行计算、更好的健壮性以及在进化过程中不需要求导而著称。然而它也有一些缺点,如本地搜索不佳,过早收敛,以及收敛速度慢。近些年,这个问题被广泛地进行了研究。
本文提出了一种使用变异染色体长度和交叉变异概率的改进遗传算法。一些关键功能的测试表明,我们的解决方案可以显著提高遗传算法的收敛速度,其综合性能优于只保留最佳个体的遗传算法。
在第一部分,提出了我们的新算法。第二部分,通过几个优化例子,将该算法和只保留最佳个体的遗传算法进行了效率的比较。第三部分,就是所得出的结论。最后,相关定理的证明过程可见附录。
1算法的描述
1.1 一些定理
在提出我们的算法之前,先给出一个一般性的定理(见附件),如下:我们假设有一个变量(多变量可以拆分成多个部分,每一部分是一个变量)x ∈ [ a, b ] , x ∈ R,二进制的染色体编码是1.定理1 染色体的最小分辨率是
s =
ba l21定理2 染色体的第i位的权重值是
bai1(i = 1,2,…l)2l1定理3 单点交叉的染色体搜索步骤的数学期望Ec(x)是
wi =
Ec(x)= baPc 2l其中Pc是交叉概率
定理4 位变异的染色体搜索步骤的数学期望Em(x)是
Em(x)=(b-a)Pm
其中Pm是变异概率 算法机制
在进化过程中,我们假设变量的值域是固定的,交叉的概率是一个常数,所以从定理1 和定理3我们知道,较长的染色体长度有着较少的染色体搜索步骤和较高的分辨率;反之亦然。同时,交叉概率与搜索步骤成正比。由定理4,改变染色体的长度不影响变异的搜索步骤,而变异概率与搜索步骤也是成正比的。
进化的开始阶段,较短染色体(可以是过短,否则它不利于种群多样性)和较高的交叉和变异概率会增加搜索步骤,这样可进行更大的域名搜索,避免陷入局部最优。而全局最优的附近,较长染色体和较低的交叉和变异概率会减少搜索的步骤,较长的染色体也提高了变异分辨率,避免在全局最优解附近徘徊,提高了算法收敛速度。
最后,应当指出,染色体长度的改变不会使个体适应性改变,因此它不影响选择(轮盘赌选择)。
算法描述
由于基本遗传算法没有在全局优化时收敛,而遗传算法保留了当前一代的最佳个体,我
们的方法采用这项策略。在进化过程中,我们跟踪到当代个体平均适应度的累计值。它被写成:
1GX(t)= favg(t)Gt1其中G是当前进化的一代,favg是个体的平均适应度。
当累计平均适用性增加到最初个体平均适应度的k(k> 1, k ∈ R)倍,我们将染色体长度变为其自身的m(m 是一个正整数)倍,然后减小交叉和变异的概率,可以提高个体分辨率、减少搜索步骤以及提高算法收敛速度。算法的执行步骤如下:
第一步:初始化群体,并计算个体平均适应度favg0,然后设置改变参数的标志flag。flag设为1.第二步:在所保留的当代的最佳个体,进行选择、再生、交叉和变异,并计算当代个体的累积平均适应度favg
favg0第三步:如果
favgk 且flag = 1,把染色体的长度增加至自身的m倍,减少交叉和变异概率,并设置flag等于0;否则继续进化。
第四步:如果满足结束条件,停止;否则转自第二步。
测试和分析
我们采用以下两种方法来测试我们的方法,和只保留最佳个体的遗传算法进行比较:
f1(x,y)0.5sin2x2y20.5[10.01xy222] [5,5]
x,y∈ [1,1] f2(x,y)4(x22y20.3cos(3πx)0.4cos(4πy))
x,y∈收敛的分析
在功能测试中,我们进行了以下政策:轮盘赌选择,单点交叉,位变异。种群的规
模是60。L是染色体长度,Pc和Pm分别是交叉概率和变异概率。我们随机选择4个遗传算法所保留的最佳个体来与我们的方法进行比较,它们具有不同的固定染色体长度和交叉和变异的概率。表1给出了在100次测试的平均收敛代。
在我们的方法中,我们采取的初始参数是l0 = 10,Pc0 = 0.3,Pm0 = 0.1和k = 1.2,当满足改变参数的条件时,我们调整参数l = 30,Pc = 0.1,Pm = 0.01。
1.1 在线和离线性能的分析
Dejong提出了遗传算法的定量评价方法,包括在线和离线性能评价。前者测试动态性能,而后者评估收敛性能。为了更好地分析测试功能的在线和离线性能,我们把个体的适应性乘以10,并f1和f2分别给出了4 000和1 000代的曲线:
(a)在线
(b)离线
图1 f1的在线与离线性能
(a)在线
(b)离线
从图1和图2可以看出,我们方法的在线性能只比第四种情况差一点点,但比第二种、第三种、第五种好很多,这几种情况下的在线性能几乎完全相同。同时,我们方法的离线性能也比其他四种好很多
结论
本文提出了一种使用变异染色体长度和交叉变异概率的改进遗传算法。一些关键功能的测试表明,我们的解决方案可以显著提高遗传算法的收敛速度,其综合性能优于只保留最佳个体的遗传算法。
附件
有了第一部分中假定的条件,定理1和定理2的验证是显而易见的。下面给出定理3和定理4的证明过程:
定理3 单点交叉的染色体搜索步骤的数学期望Ec(x)是
Ec(x)= 其中Pc是交叉概率
baPc 2l证明:
如图A1所示,我们假设交叉发生在第k个基因位点,从k到l的父基因位点没有变化,基因位点1到k上的基因改变了。
在交叉过程中,1到k基因位点上的基因改变的概率为0.5(“1”变化”0”或者”0”变为”1”),因此,交叉之后,基因位点上的染色体搜索步骤从1到k的数学期望是
k11ba1baEck(x)wjl2j1l(2k1)
22121j12j121此外,每个位点的染色体发生交叉的概率是相等的,即lPc。交叉后,染色
k体搜索步骤的数学期望是
1Ec(x)PcEck(x)k1l
把Eq.(A1)替换为Eq.(A2),我们得到 l1PbaP(ba)11ba1Pcl(2k1)cl[(2i1)l]c(1l)l22l2l212121k1lba0,所以Ec(x)Pc 其中l是非常大的,l2l21Ec(x)l1图1 单点交叉
定理4 位变异的染色体搜索步骤的数学期望是
Em(x)(ba)Pm
其中Pm是变异概率。证明:
每个基因位点上的基因的变异概率是相等的,比如Pm,因此变异搜索步骤的数学期望是:
Em(x)=åPm·wi=åPm·i=1i=1ll
机器翻译与文本编辑:进展与展望 第3篇
关键词:机器翻译 人工 创造力 翻亿库
一、电脑和人工翻译的关系
在翻译的历史中,电脑和人工翻译之间的关系可追溯到17世纪,可谓源远流长。然而直到20世纪50年代第一个机翻系统才诞生,可以说机翻的发展成熟非常缓慢。最初,机翻的文稿质量偏低以至于无法采纳。当时,机翻系统只收录有限几种语言的字典。后来,随着在线资源的日益丰富,机翻的质量逐渐提高并开始广为所用。尽管机翻曾经给人们的印象是只要按一下按钮就可以了(Hutchins,2003),这种翻译方法确实为翻译事业提供了很多帮助和便捷。如下图所示(Wu,2012):
显然,在翻译过程中,鉴于机翻与人工翻译的关系以及他们各自独立翻译时的表现,不可否认的是,电脑在做简单翻译时比人工更胜一筹。然而,当源语言文件的复杂程度逐渐提高时,机翻的质量也随之下降,因此可以看出,文件的复杂性仅仅对人工翻译产生不明显的影响。也就是说,对不同文本(从简单到适中再到复杂)的翻译,人工的表现更平衡一些。当翻译复杂文本,如诗歌、理论和谚语时,在文体学、语义学和语用学方面人工表现更灵活自然。更重要的是,从上图可得知,在电脑的辅助下,人工翻译的质量得到了显著改善。正如Wu所提“不同的翻译文本要使用不同的翻译工具,对症下药(Right tools for right tasks)——在某种程度上,电脑对人工翻译起到了补充作用。(Wu,2012)
既然电脑与人工翻译的关系得到了印证,那么他们之间如何有效合作并做出高质量的翻译被纳入议题。如下图(Matthiessen,2001:114):
从上图可以看出电脑和人工在翻译过程中的工作分配,在图表的最上端可以看到电脑扮演的角色是“行动者”而人的角色是“受益者”,也就是说在这一阶段,电脑做了主要的翻译工作。然而整个图表显示出电脑与人工的关系在不同阶段产生了变化——当电脑承担了主要的翻译工作而没有人工介入时,人便是“受益者”;当电脑做部分的翻译时,人是决策者,也要做一些前期编辑和后期编辑,这些会在本文后部分讨论;当人工做所有的翻译时,电脑变为“工具”,而人则是“行动者”,例如关键词和字典的翻译。
二、前期编辑和后期编辑
前文提到,在做机器翻译时,前期编辑和后期的翻译需要人工完成,因为电脑的智能程度与人类相差甚远,它们无法保证对每个字、词进行恰当合适的翻译,也就是说,一个单词在一种语言内是多义的,因此,在翻译时语域和具体概念要进行相应的考量,这是电脑无法实现的。因此,在为机翻做前期编辑和准备工作时,人们需要对句子进行“分割以处理复杂的意群、可能产生歧义的语义模糊的词汇和其他类似的情况”(MacDonald,1979:91-143)。Hutchins也指出前期编辑可应用于不同情况,例如:“某个单词是否具有特定含义、某个名称是否需要翻译以及复合名词的界限”,以插入“标点符号”或者把“长句分割为短句”(Hutchins,2003)。除了对源语言的翻译加以注意外,尽管有拼写和语法检查器,人工翻译时也应该避免误拼的现象,因为“个别的单词可能无法为电脑识别,一旦发生错识将会对后期的翻译产生很大的影响”。如果前期编辑打下良好的基础,后期编辑的工作量将会有显著的减少。Hutchins还指出,理论上,在做前期编辑时,人们无需对目标语言有广泛的了解,然而事实上,一定的了解还是必要的,这对后期的翻译有一定的帮助。但是,前期编辑也有一些弊端仍然被认为是权宜之计。(MacDonald,1979:91-143)
完成前期编辑之后,电脑就可以自主进行翻译,尽管仍然会有一些小的误翻。前期编辑主要专注于一些省略、代词和一致性等问题。Hutchins认为后期编辑的工作量是可以减少的——“文稿越标准化”,术语和陈词滥调越多,文稿就越老套且缺乏创造性,机翻的准确性就越高,这样一来,后期编辑的校正工作也就相应减少了(Hutchins,2003)。电脑最擅长的工作就是标准化的翻译,所以它更擅长处理一些规矩的句子,因为创造性的翻译没有程序可遵循,且不可预见。换言之,翻忆库(翻译记忆库)——一种“存储所谓的句子‘片断的数据库,例如句子或类似于句子的语言单位——标题、题目或者列表的各项,这些片断都是现成的可参考的翻译”,(翻译记忆库,2012)它的研发者不可能输入所有单词的所有意思,因此,当面临创造性或不常见的词组或句子结构时,翻忆库的存储数据就显得不足。
与前期编辑不同,后期编辑一般由译者来完成,因为双语技能的获得是靠时间积累而来,这一点专业译者比非专业译者更具优势(Hutchins,2003)。因此,人工在翻译中被引入,也就导致“翻译成本提高”(McDonald,1979:91-143)。当然,这其中也包含前期编辑的费用。另外,译者们在做后期编辑时需要保持一致性,因为不同的译者对于某些词汇或句子结构有其更倾向的翻译,这样最终在翻译过程中可能会导致文体或词汇选择的不一致。
不可否认的是,机翻可以做到对概念、重复和常见的句子结构的翻译保持一致。但是,Hutchins提出后期编辑的另外一个弊端——如果翻忆库中存储的是不恰当的字或句子翻译,做后期编辑的译者就要不停的修正这些问题,这样人们的工作就是辅助电脑而不是机翻的受益者。他也因此提出一项解决方案,有一定翻译技能的后期译者可以代替专业译者来做后期编辑,他们也可以接受一定的培训以提高翻译水平。当然后期译者的佣金可能会相对低一些。(Hutchins,2003)
三、后期编辑提升翻忆库质量
为了提高机翻质量,人工和电脑的合作至关重要,因此基于语言本身一直在变化(新词,创造性用法的不断出现),人们在翻译的过程中要做出一定的调整。Bar-Hillel列举了一些例子:“字典自动存储和检索的问题 ”和“微语言学意义和微语法”。尽管这些例子在几十年前就己经提出,但到现在仍然适用,因为语言一直在变化,这导致翻译的质量也一直提升没有终点(Bar-Hillel,1960:91-163)。Josselson也提出了类似观点:扩大字典涵盖的方面和丰富语法对于提高机翻的质量十分必要,这包括:“设计出符合双语的形态学的、句法的和语义的编码、句法分析的规则、自动的句子语法分析规则和多选规则”。他还认为在机翻过程中,对比分析最适合产出高质量的翻译。通过比较目标语言的不同译本,翻忆库的研发者就可以有不断丰富的数据资源以翻译在源语言中出现的创新的表达、词汇组合(Josselson,1971:1-53)。同时,随着科技发展,自动的后期编辑可以由电脑来完成,但同样,这是对未来发展的展望。
具体说来,近年来,评估电脑自动后期编辑的项目层出不穷。由此,研究人员通过结构分析可以寻找更多有益于提高翻译质量的方法。Doyon等人在2008年做过一个名为《通过后期编辑提高自动机翻质量的技术:分析师和译者经验》的研究项目。这个项目的研究人员比较了由电脑和人工分别做出的后期编辑的译本,发现前者的翻译的质量“低于译者和分析师认可的可被采纳的标准,而所有的人工做出的后期编辑都处于甚至高于此标准”(Doyon et al,2008)。从这一研究结果得知机翻始终不尽人意,即其在辅助人工翻译方面还有很长的路要走。他们还做了一个调查,结果显示一旦经过人工的后期编辑,人们还是更倾向于使用机器翻译,而且当时在阿拉伯语和英语机器翻译中并无不可采纳的自动后期编辑译本。该项目的实验有一定的局限性,但是,Ariadna得出了相似的结论——大多数的机翻系统与后期编辑的配合并不如翻忆库数据和SDL系统的Multerm默契。她提出了两个改善建议:第一,“在线翻译校正工具”对“简单的错误诊断和不明显的错误分类”是有帮助的;第二,“自动的翻译规则完善工具通过追溯译文的错误到原始的翻译规则和词条录入,进行修正多数属于词汇和形态句法的错误”,例如“用词顺序错误或未遵循语言间转换规则”(Ariadna,2009)。然而无论如何,大多数时候,人们在机翻的过程中仍然发挥着不可替代的作用,因为很多不同领域的调整,从功能语法到对翻忆库的扩充,都需要人为完成,并且人工智能程度是电脑无法企及的,况且不同语言的表达方法也不可预知。
四、机器翻译的未来
尽管机翻有一段相对较长的历史,机翻软件还是处于初级阶段且人们可以想像人工翻译的未来也许是“电脑输出较对”和机器可以做一些人工的翻译工作且具有一定的准确性(Champollion,2010)。尽管实践证明人们在搜索信息时使用的机翻软件有很强的包容性,但机翻是否可以满足广大的市场需求仍依赖于语言本身和市场规模(Bracken,2011)。考虑到如上因素,在某种程度上,电脑在未来可以很好地辅助人工翻译,尽管在前期或后期编辑过程中仍需要有少量或无人工介入。
五、结语
本文介绍了电脑在辅助人工翻译方面的功能,并做了一些文献回顾和讨论,以明确双方如何相互作用。事实上,尽管电脑在某些特定领域己经可以替代人工做很大一部分的翻译工作,例如一些技术性的或简单的无创造性的文章,但其范畴仍然是受限的,特别是在一些语言方面——电脑对“某种语言的翻译质量要明显高于其他语言”(Bracken,2011),这种现像表明机翻发展的不平衡性。此外,机翻的现状是在前期编辑,甚至是后期编辑过程中仍然需要人工的介入。从另外一个角度讲,电脑翻译的文本可以看作是“草稿”而人工进行的后期编辑则可以看作是“校对”,这个前文提及的“电脑输出较对”意味着在追求高质量翻译的同时,人们的工作量将大大减少。尽管有人认为由于在完成并完善“草稿”的过程中,人工的大量投入,看起来人们是辅助电脑而不是接受帮助的一方,然而恰恰相反。人们在完善机翻系统的同时,提高了其翻译的质量,这恰恰有助于提高人们以后的翻译质量。这样一来,实现无需大量人力和大笔物力投入的高质量翻译蓝图的可能性将提高。因此,电脑与人类是互惠合作关系。把Bracken的话作为本文的结尾再适合不过:“除却所有的进步之外,在主流翻译中,机器在替代人工的路还有很长一段要走,但是事实也证明了机翻的自身价值,即所有的语言服务提供商对机器翻译的态度都是承认其可行性而非排斥。”(Bracken,2011)
参考文献:
[1]Ariadna,FL.Automatic Improvement of Machine Translation
Systems[D/OL].[2012-06-16].http://gradworks.umi.com/32/85/3285855.html.
[2]Bar-Hillel,Y.The PresentStatus of Automatic Translation
of Languages[A].Alt FL.Advances in Computers[C].New York:Academic Press,1960.
[3]Bracken,C.Machine Translation:where is it now,and
where is it headed?[Z/OL].2011[2012-06-16].http://www.andovar.com/blog/machine-translation/.
[4]Champollion,Y.MachineTranslation(MT),and the Future
of the Translation Industry[J/OL].2010[2012-06-16].http://www.bokorlang.com/journal/15mt.htm.
[5]Doran,C,Doyon.J,Means,CD & Parr,D.Automated Machine
Translation Improvement Through Post-Editing Techniques:Analyst and Translator Experiments[DB/OL]. 2008[2012-06-16].http://www.mt-archive.info/AMTA-2008-Doyon.pdf.
[6]Durgesh,DR 1998,Machine Translation:A General
Introduction[DB/OL].1998[2012-06-15].http://www.ias.ac.in/resonance/July1998/pdf/July1998p61-70.pdf.
[7]Hutchins,J.Eds.MachineTranslation and Computer-based
Translation Tools:whats available and how its used.from transcript of presentation[M].Valladolid:University of Valladolid,2003.
[8]Josselson,M.Eds.Automatic Translation of Languages
since 1960:a linguists view[A].Advances in Computers[C].1971.
[9]MacDonald,RR.The Problem of Machine Translation[A].
Henise-Dostert,B,Macdonald,RR & Zarechnak.Machine Translation[C].The Hague:Mouton Publishers,1979.
[10]Matthiessen,C.The Environments of Translation[A].
Steiner,E & Yallop,C.Exploring Translation and Multilingual Text Production:beyond Content[C].Berlin,New York:Mouton de Gruyter,2001.
[11]TranslationMemory[DB/OL].2012[2012-06-15].http://
en.wikipedia.org/wiki/Translation_memory.
[12]Wu,CZ.Lecture 1,PowerPoint slides[DB].Sydney:
Macquarie University,2012.
语料库与机器翻译 第4篇
语料库和语料库语言学是二十世纪五十年代后期发展起来的新兴研究方法, 被称为结构主义语言学派与功能主义语言学派“两阵对垒的天平上, 的一个“举足轻重的砝码”。语料库不仅为语言研究提供了空前广泛的言语素材, 而且使传统语言研究方法转变为调查取样, 材料真实可靠。基于语料库的科研项目迅速增多.但语言学家似乎并没有对翻译实践和翻译研究产生多大兴趣, 更没有对与语言研究密切相关的翻译给予足够的重视, 因此翻译文本一直被排除在语料库之外, 对机器翻译疑问文本更是如此。
语料库研究与机器翻译研究:语料库是研究语言意义的有力工具。从一个语料库中检索词汇结 (node) , 检索上下文或临近若干个词而组成的并置结构 (collocates) , 并将出现这些结或并置结构的句子 (concordance) 进行比较分析, 可以揭示用常规方法很难发现, 或很难确定的语义特征。如果语料库还包括同一作者的若干作品, 我们就可以利用语料库来研究作者的语言风格。每个作家有自己的语言习惯, 总有反复使用某些词语的偏好, 这些词语往往具有某些特殊意义, 即作家的个人语义特征。而且, 语料库还可向我们提供各种各样的语言信息如语言冗余度的大小、词汇共现和规范程度、句法模式、用词特点等, 使我们了解译语文本的文体特征和译者的风格。
除此之外, 语料库还有助于探索翻译普遍规律, 分析翻译文本的普遍文体特征, 预测翻译发展趋势与走向, 并对翻译理论家提出的假说与预测进行验证。
因此, 自九十年代中期以来, 就有一批翻译理论家开始将语料库运用于翻译研究, 对翻译的性质和特征进行描述。英国曼彻斯特大学Mo。a Bake。教授还从翻译研究角度对语料库建设和语料库语言学研究提出了特殊的要求和设想。她认为与翻译研究有关的语料库有三类:平行语料库 (parallel corpus) 、多语语料库 (multilingual corpus) 和可比语料库 (comparable corpus) 。平行语料库收集某种语言的原创文本和相应的翻译成另一种文字的文本;多语语料库是根据类似设计标准建立起来的两个或多个不同语言单语种语料文本组成的复合语料库。其中的文本完全是原文文本, 不收集翻译文本;可比语料库收集某种语言, 比如说英语的原文文本, 同时也收集从其他语言翻译成英语的文本。
机译译文质量评估标准:翻译的标准之争由来已久。“信达雅”者有之, “信顺”者有之, “等值论”者有之不一而足。而对于自然语言的机器翻译而言, 情况就很不一样。
只要以数据库文件的形式在计算机系统中建立一部英汉对照的词典, 就可以在词汇级上实现英语和汉语的互译, 市售的电子词典往往也包含了一些常用的固定短语的对译。不过, 任何一种自然语言的句子都是无限集, 只有有限资源的计算机无论如何不可能将两种语言的语句都以一一对应的形式存入系统。
曾经有人提出机器翻译译文质量忠实度七项和可懂度五项的评估意见。所谓“忠实度”是指译文传达原文意义所表达的程度以及两者问差异的总的度量。这是由专门从事翻译相应自然语言的源语专家们来测评的。“可懂度”是指一般使用译文语言的人在不参看原文的条件下, 对译文所能理解的程度的一种测评。但这仍然是一种很抽象的概念, 依然很难用来作为具体评估疑问质量的标准。
其实, 机器翻译的中心任务是解决词序问题, 即逻辑语义问题。逻辑语义是一种语义关系。在特定的交际环境下, 某一语言片段的各个基本单元之间必然存在着某种逻辑关系, 这些逻辑关系称为逻辑语义。逻辑语义的集合称为逻辑语义结构。译文质量的评估标准说穿了就是“逻辑语义及其层次的正确与否。”当然, 机译文和其它译文一样也应该有自己的风格和文体。各种语言在表达同一种逻辑语义结构时的表层结构有所不同, 甚至在同一语言中也可以用不同的表层结构表示同一种逻辑语义结构。但只要我们能够求出它们是“施事一动作一受事”逻辑语义结构及所处的层次, 这就可以转换为汉语表层结构:N1对N2的V。由此可见。逻辑语义是语言转换的基础。求解逻辑语义的一个十分重要的前提是对英语词汇进行科学语义分类, 即为英语词汇提供足够的语义信息。为此, 我们必须对英语词汇进行语义分解, 研究语义因子的搭配关系。
翻译软件今日已经到了“群雄争霸”的时代, 各公司纷纷推出自己的翻译软件, 以期占领市场。然而, 翻译软件的翻译质量却委实堪忧, 目前仍处于宣传阶段, 距离真正的实用与普及还有很大的距离。各个软件都在无限升级, 但其质量仍“换汤不换药”。
鉴于翻译软件问题多多, 质量参差不齐, 而用户对此却重视不够:不懂外语的认为翻译软件很神奇很实用, 外语工作者对其不嗤一鼻。这两种极端的态度使用户对翻译软件缺乏一个正确的、理性的评价, 这对外语的运用和软件的开发都无益处。所以, 需要一个由用户来进行自我评估的语料库来评估翻译软件, 从而找到最适合自己的产品。有可能的话, 在此评估语料库的基础上开发翻译评估软件和专业评估系统也不失为“服务翻译需要的技术”的一种有效途径。
摘要:语料库语言学的发展对翻译研究产生了很大影响。机器翻译是翻译研究的一项重要内容, 且应用越来越广泛。本文从机译译文质量评估的目的入手, 探索了译文评估标准, 提出了建立机译译文质量评估语料库的设想。
关键词:语料库,机器翻译
参考文献
[1].Butler.C.Computers in Linguistics.Basil Black well World Publishing Corp.1985
[2].翁富良、王野翊.《计算语言学导论》, 中国社会科学出版社, 1998
机器翻译技术的现状及发展 第5篇
摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。
关键词:机器翻译;自然语言;发展趋势
1.引言
《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。
2.机器翻译的定义
计算机翻译通常叫机器翻译(Machine Translation或MT),即全自动高质量机器翻译(Fully Automatic High Quality Machine Translation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。
3.机器翻译的历史与现状
在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(Machine Translation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MT Summit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados 翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离[3]。4.机器翻译面临的问题
4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子:
原文:Thank-you notes are heart-warming.机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。
在结构层面上,常见的结构歧义有 and(和)结构,如 nice girls and boys, 它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。
4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。
原文:“But this beauty of Nature which is seen and felt as beauty, is the least part.”—Beauty Ralph Waldo Emerson
机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。原文:“I hauled down my colors and surrendered.”
—Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。张有松译文:我偃旗息鼓,甘拜下风。
以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工
修改、加工。
5.机器翻译的发展趋势
机器翻译的质量虽然不能和人工翻译相提并论,但有许多优势是人工翻译所不具备的。我国著名计算语言学与机器翻译专家董振东说:“美国要开发一种口语翻译机,专门用来审讯与美国人语言不通的塔利班俘虏。如果用人来做翻译,由于语言不通,即使翻译被塔利班收买,对美国人信口胡说,美国人也不会知道,而机器就不可能出现这种情况。这机器现在有没有发明出来,能到什么翻译水平还不得而知,但这至少是一个相当好的发展领域。” 因此,发挥机器翻译的自身优势是决定机器翻译发展趋势的重要因素之一。机器翻译的发展趋势是解决人工智能的技术问题。“假设要从人工智能上有所突破,那只能在神经网络和模糊计算上寻找出路。”为了探索人工智能,使电脑模仿人脑,进行更多的智力劳动,模糊计算便应运而生。神经网络和模糊计算都是通过对人脑的结构和推理方式的模拟来实现计算机的智能化。“只有人脑才能和人脑相比”——这看似废话,对于机器翻译来说,却是技术上真正意义上的突破口。
6.结语
目前,机器翻译的水平较50年前有了很大的提升,但要彻底克服语言障碍,使MT投入实际应用,还需数学家、计算机专家、人工智能专家、语言学家、心理学家、认知学家、逻辑学家等通力合作,共同努力,从理论研究和应用开发上有所突破,相信机器翻译会到达光明的彼岸。
参考文献
[1] 李娟,《圣经旧约名篇精选(英汉对照)》[M].天津人民出版社,2002
[2] Hutehins, W.J.et al.An Introduction to Machine Translation[M].Academic Press, 1992
翻译机器 第6篇
关键词:词性 概念类别 机器翻译
一、引言
词性作为划分词类的依据一直是信息处理中一项重要的知识属性。在词语处理乃至句类结构分析中占有重要的地位。不过,词类更多地偏重于词语在句子中的语法功能,而忽略了词语意义对句子分析的作用,并且词类划分的标准过于粗略,未能从细节上对词语进行描述和区分。在语言信息处理中,对语言现象的分析和研究需要更有效更细致的区分,为此,HNC引入了词语的概念类别的信息。在概念类别中,不仅包含了词类的信息,同时还融入了语义的分类信息,并且构建了汉语词语知识库,对概念类别信息进行了标注。
在汉英及其翻译中,我们对概念类别与词类进行了对照,在源语言(汉语)分析阶段采用词类信息,并将词类信息中的关键类型LV概念作为句子分析的激活点,辅以相应的分析规则,完成目标语的分析。在目标语(英语)生成阶段,由于英语的形态特征比较明显,我们使用词性作为生成的依据,辅以相应的转换生成规则,完成目标语的转换与生成。
本文的工作已经应用于汉英专利文献机器语义翻译引擎中,作为语义翻译引擎的重要基础,发挥着支撑作用。经过测试,语义翻译引擎在小句转换、Eg识别、格式转换、辅块识别、并列结构识别中都有很好的应用效果,使得这些部分分析处理的正确率能够达到80%以上。
二、相关工作
概念层次网络理论[1]是一种服务于语言信息处理的关于语言的语义处理理论,自该理论产生之初,就已经提出了概念类别的划分方法,用以丰富单纯以词性作为划分词语的标准。
《HNC理论(导论)》[2]中,列出了概念类别划分的具体类型,并配以实例说明。但是概念类别的表述过于繁琐,且未对概念类别进行广义和狭义的区分。
长期以来,基于HNC理论的研究一直将概念类别作为重要的知识属性加以利用,在句类分析系统中,LV概念已经作为句类分析的激活点服务于句子结构的判断和语义块边界的辨识[3]。例:但这些信息未能直接在应用系统中进行检验。
概念关联知识是指概念节点、概念集群、概念类别之间关联性的各级类别表现。这是一张非常烦琐而脉络分明的关系网,其内容构成了概念关联知识库。
这些研究和应用都是在一种语言范围之内,尚未涉及到两种语言之间的对应问题。
张克亮[4]基于HNC理论开展了面向机器翻译的汉英句类及句式转换研究,探讨汉英句类及句式转换的一般性规律。李颖[5]研究了HNC机器翻译中语义块构成变换问题。
这些研究也仅停留在理论研究和构想阶段,对概念类别的描述仅是理论层面的,而且是片面的。对概念类别和词性之间的关系并未做具体的考察和对应,也未能对概念类别和词性两种信息在实际应用中的表现做出清晰的比较和判断。
本文集中于语义知识库中概念类别知识属性的研究,目前语义知识库已经包含了5万常用词语的知识,覆盖了500篇专利文献。另有30万专利领域词库,共计35万条词语。知识库服务的对象主要是汉英专利机器翻译系统。文本为说明概念类别而举的例子也都来自专利文献。
三、广义概念类别与狭义概念类别
本文的研究是建立在汉英机器翻译应用的基础上,所得的研究成果直接应用于汉英专利机器翻译的实际中。概念类别作为知识库中一项重要的知识属性,对其的标注直接得到翻译系统的检验,根据调试过程中反馈的结果对知识库进行修改和调整,做到知识库和翻译系统同步更新,极大地提高了翻译系统的性能。
概念类别是表述概念的语义类别特征的符号。概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识,是进一步调用其他知识的激活信息。
我们根据词语在汉英机器翻译具体应用中的表现,对概念类别进行了重新的调整和分类。首先,我们把概念类别划分为广义和狭义两大类,以服务于不同层面的语义分类需要。
(一)广义概念类别
广义概念类别是对词语语义信息的广义概括,可以看作是对词语语义的一级分类。分为人(P)、物(W)、静态概念(G)、动态概念、属性概念和逻辑概念六大类型。
概念是思维的基本形式之一,是人类在认识过程中把所感觉到的事物的共同特点抽取出来,加以概括而形成的。HNC首先把概念分为抽象概念和具体概念。抽象概念和具体概念是概念的两大分野,这一划分对知识表示具有非常重要的意义。具体概念可以分为人和物两大类(对应于名词),抽象概念可以分为动态概念(对应于动词)、静态概念(对应于名词)、属性概念(对应于形容词和副词)和逻辑概念(对应于虚词)四类。这些概念类型共同构成了广义概念类别的整体。见表1。
表1:
概念分类 词性 例词
具体概念 人 名词 人员
物 名词 水、装置
抽象概念 动态概念 动词 提供
静态概念 名词 技术
属性概念 形容词和副词 日常;快速
逻辑概念 虚词 对、而且
在知识库中,语义知识属性表示为Feature[Value]的形式,Feature表示知识属性名称,Value表示属性的取值。广义概念类别用GCC表示,如人员的广义概念类别是人,则表示为GCC[P];提供的广义概念类别是动态概念,则表示为GCC[V]。
(二)狭义概念类别
狭义概念类别是对词语语义信息的具体分类,概念类别的基元经过组合,可以构成复合型概念类别。这样,广义概念类别就可以细化为很多具体的概念小类,用以解释概念之间的细微差别。在汉英机器翻译应用中,我们共定义了41种狭义概念类别,相比汉代汉语13种词性的分类[6],更加细化。
1.具体概念
在广义概念类别中,具体概念包括人和物两大类。在狭义概念类别(以下简称概念类别)中,我们把物又分为两小类:自然物ww和人造物pw。用以区分该物的形成是否有人类活动参与,这一信息对于句子中谓语动词的语义角色选定具有重要的限制作用。
2.抽象概念
抽象概念在广义概念类别中划分为动态概念、静态概念、属性概念和逻辑概念四类,每一类又可分为若干小类,这就是狭义概念类别(CC)。下面分别描述。
(1)动态概念
动态概念是抽象概念五元组特性之一。抽象概念需要从动态、静态、属性、值和效应五个侧面加以表述,这就是抽象概念的五元组特性。在狭义概念类别中,动态概念分为“v”和“vv”两小类。
“v”是一般意义上的动词,如“提供”“公开”等。
“vv”是动词中的特殊小类,用以描述后面须接动词的“v”,如“试图”“进行”“予以”等。这些词语本身具有动态含义,但在句子中不能单独作为谓语,必须在其后补充一个动词共同构成谓语部分,后面的动词才是谓语的中心。vv类词语作为谓语的一部分出现在句子中。
(2)静态概念
静态概念是相对于动态概念而言,我们可以把它看作抽象概念中的名词类。包括:静态概念g、值概念z、效应概念r、时间概念j1、空间概念j2、数j3、名量概念zz、动量概念zzv、综合概念s。
可以这样认为,g是一般的名词,而z和r是从名词中分离出来的。z表达的是概念的“值”,对值的表达是与数量密切关联的,因此把这个特性独立出来表达显然有利于联想脉络的建立。例如:
(1)厚度为0.3毫米的白色人造纤维布料(0.3 millimeter white artificial silk cloth)
在这个短语中,汉语中“厚度为0.3毫米”是一个小句形式,作后面中心语的修饰成分,翻译为英语则是一个定中短语的形式。这种汉英结构上的转换只靠词性来区分是不够的,必须做进一步限定,汉语小句的结构是“z+为/是+j3+zz”,也就是说,在这个是字句中,主语由值的概念充当,宾语由数量概念充当。如果这样的小句结构做定语,那么转换为英语时,直接变为“j3+zz+z”的结构,也就是数量短语直接修饰值概念,放在值的前面。
g和r都是静态表达的名词,但分别代表因果两极。把两者区别开来,有利于概念的局部联想。
时间概念j1、空间概念j2和数j3都源自于基本概念语义网络,这些概念类别主要服务于时间短语、空间短语和数量短语的辨识。
综合概念s高度抽象的一类概念,主要服务于辅语义块后边界的辨识和包装句蜕的包装品(小句的外围部分)。如:
(2)含水涂料组合物可以通过浸涂或辊涂的方式来施加。(The aqueous coating composition can be applied by dip coating or roll coating.)(辅块)方法
(3)因玻璃渗漏或结构缺陷而失效的时间将推后。(The time to failure due to glass leaks or structural weakness will occur later.)
例句(2)中,“通过浸涂或辊涂的方式”在句子中做辅语义块,“方式”一词位于辅语义块的末尾,作为辅块和其后面的特征语义块(谓语部分)划分的边界。静态概念的分类及与词性的大体对应关系可如下表:
表2:
静态概念分类 词性 例词
概念 静态概念g 名词 信道(channel) 配置(configuration)
值概念z 名词 厚度(thickness) 参数(parameter)
效应概念r 名词 效果(effect) 毒性(toxicity)
抽象概念 时间概念j1 名词 时间(time) 周(week)
空间概念j2 名词 区域(region) 下侧(downside)
数概念j3 数词 二(two) 万(million)
名量概念zz 量词 吨(ton) 个(-)
动量概念zzv 量词 顿(-)
综合概念s 名词 方式(-) 时间(time)
(3)属性概念
属性概念是修饰限定成分。大体上对应于词性中的形容词和副词。属性概念与被修饰限定成分之间的对应关系更为具体明晰。依据被修饰限定成分的不同,可以进一步分为若干小类,将形容词类属性二分为修饰具体概念的属性x、修饰抽象概念的属性ug和可独立做谓语的u属性;将副词类属性二分为修饰动态概念的属性uv和修饰属性概念的uu属性。具体如下:
x:是具体物的物性,修饰限定名词性具体概念人(P)和物(W),对应于形容词。如:“白色”的概念类别是x,所修饰限定的成分一定是具体物。可组合成白色光(white light),白色颗粒(white particles)等。
ug:静态概念的修饰性成分,修饰限定静态概念g、值z、效应r、综合概念s及时空概念等,对应于形容词。
u:独立的属性,用于描述可以独立作谓语的属性,也就是说,具有该属性的形容词类概念可以构成形容词谓语句。在英语语言中,也就是该类属性可以充当系表结构中的表语。这对汉英句式转换具有重要的指示作用。
uv:动态概念的修饰性成分,修饰限定动态概念v,对应于副词。
uu:描述属性的属性,修饰限定属性成分ug、u、uu、x等,也可以修饰限定动态概念。
属性概念的分类及与词性的大体对应关系可如下表:
表3:
属性概念分类 说明 词性 例词
x 具体物的属性 形容词 杯型(cup-shaped) 白色(white)
ug 抽象物的属性 形容词 便携式(portable) 残余(remaining)
u 可做谓语的属性 形容词 至关重要(critical) 长(long)
uv 动态概念的属性 副词 过度(excessively) 快速(fast)
uu 属性的属性 副词 略微(slightly) 完全(totally)
(4)逻辑概念
逻辑概念是HNC语义网络中的一类重要概念。用于语言单位的组织与连接,大体相当于虚词。按语义及功用可分为语言逻辑、语法逻辑和基本逻辑。
1)语言逻辑
语言逻辑服务于语义块的整体辨识、语义块内部构成的分析及句间信息的提示和表达。具体如下表:
表4:
类型 说明 例词
l0 主语义块标志符 把(-) 被(by)
l1 辅语义块标志符 通过(through) 按照(according to)
l2 两主块搭配标志符 为……所(by)
l3 两语义块搭配标志符 为……起见(For the sake of)
l4 语义块内部两对象组合逻辑 和 或
l5 语义块内部集合关系逻辑 之外(besides) 以内(within)
l6 EK说明符 正在(-) 曾经(ever)
l7 语义块交织表现标志符 受到(-)
l8 辅块综合说明符 手段(means)
l9 指代逻辑 各(each) 任意(any)
la 句内连接说明符 还(still) 也(also)
lb 句间连接说明符 而且(and) 即使(even if)
语言逻辑概念根据其在句子中所充当的作用及所处的位置,分为12小类。其中l0-l3服务于语义块的整体辨识,用来识别句子中主辅语块的前后边界。例如:
(4)使用者将某操作系统308安装到计算机310中。(A user loads an operating system 308 into a computer 310.)
这里“将”的概念类别是l0,由它把两个主要语块“使用者”和“某操作系统308”分开。
L4-l5作为语义块内部逻辑组合符号,服务于语义块内部构成的分析,用来连接词或短语片段,组成一个语块。例如:
(5)依照本发明的文档处理系统主要包括应用软件、接口层、文档库系统和存储设备。(The document processing system in accordance with the present invention includes an application,an interface layer,a docbase management system and a storage device.)
这个句子中,“包括”的各对象之间通过顿号和组合符号14“和”连接,共同构成宾语。
同样道理,L6-l7服务于特征语义块的内部构成,l8服务于辅语义块的内部构成,l9指代逻辑服务于广义对象语义块的构成,la和lb分别服务于句内和句间信息的提示和表达。
这一组概念类别的设立就是为语义块感知和后续的语义块组分处理提供激活信息。
2)语法逻辑
“语法”概念用于描述语言使用的习惯。服务于语言表达方式的辨认(包括修辞)和特指语词的辨认。语言中(以汉语为例)一些句式的表达涉及到语言习惯问题,构成这些句式的特征词就用语法逻辑概念描述。例如:正反问句的表达需要特征词“是否”“是不是”,这些都归为语法逻辑类型。
尽管这些特征词在很大程度上相当于副词的语法功能,但这些词更可能是作为连句成篇的构成单位,而且不同语种使用的手段也会不同,所以,把它从副词中单列出来。
3)基本逻辑
基本逻辑概念涉及基本判断,用于判断命题的基本内容:是否和有无。此处的基本逻辑概念类别主要描述的是充当属性概念的基本逻辑,这类概念一般位于特征语义块的前面作为特征语义块的逻辑修饰语。服务于特征语义块的情态辨认。如“能够”“应该”“必须”等,大体对应于词类中的情态动词。
概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识。对语言现象的描述有粗细之分,相应的概念类别也分为广义概念类别和狭义概念类别,用以匹配不同层级的知识特征。狭义概念类别是对广义概念类别的细化描述。在汉英机器翻译应用中,狭义概念类别的应用对语块的内部构成,语块边界的确定乃至整个句子的分析都具有重要的支撑作用。是知识库中一项重要的词语属性特征。
四、概念类别在汉英机器翻译中的应用
基于HNC理论搭建了面向专利文献的汉英机器翻译系统大体上包括预处理模块、源语言分析模块、过渡转换模块和目标语生成模块几个主要部分[7]。概念类别的知识在各个模块中都发挥着自己的作用。下面我们主要介绍概念类别在分析模块和转换模块中的应用。
(一)在分析模块中的应用
源语言分析模块主要依据知识库提供的各项知识与分析规则库对文本进行分析,得到句类分析树。
例如,在辅块识别中,对于辅块边界的辨识我们可以依据语言逻辑概念类别。对于辅块标志符我们可以用l1表示,在分析规则(0)LC_CC[l15]+(f){(1)LC_CC[l1h]}=>LC_TREE(L1,0,0)+LC_TREE[BK,0,1]+LC_TREE(L1H,1,1)$时,就主要利用了概念类别信息。“(0)”表示规则调用的起始位置,“LC_CC”表示在语块中词语所具有的概念类别信息,“LC_TREE”表示生成树节点。这条规则的含义是,如果在句子中找到一个词语的狭义概念类别为l15(辅块前边界标志符),且其后面还能找到一个狭义概念类别l1h(辅块后边界标志符),则将两个词语各自在句子中生成节点,且将其与中间的部分生成一个语块BK。这样,一个完整的辅块就可识别出来。
(二)在转换模块中的应用
过渡转换模块主要依据句类分析树以及转换规则库,通过各种调度操作,将汉语句类分析树转换为符合英文表达习惯的目标语句类树。
例如,在并列结构中,有标记名词性并列结构各并列成分的中心语在语义类上显现出一定的相似性,在我们的研究中更细化为词语的概念类别。我们可根据紧邻并列连接词前面的词的概念类别向后寻找相同概念类别的词作为后边界,根据紧邻并列连接词后面的词的概念类别向前寻找相同概念类别的词作为前边界[8],可描述为如下规则:
(-1)LCR+(0)CHN[、]+(f?){(1)CR}=>LC_TREE(AND_TH,1,1) +LC_TREE(ANDMK,0,0)$
(b?){(-1)CR}+(0)CHN[、]+(1)RCR=>LC_TREE(AND_TQ,-1,-1)+LC_TREE(ANDMK,0,0)$
其中“C”表示词语的概念类别(Category),“LCR、RCR”分别表示紧邻并列连接词前、后的词的概念类别,“CR”表示分别向前或向后找到的与LCR或RCR相同的概念类别。
五、结语
本文全面阐述了概念类别的具体内容并给出了概念类别与词性的对应关系,指出概念类别可划分为抽象概念和具体概念两大类型,抽象概念中又包括动态概念、静态概念、属性概念和逻辑概念,并对概念的所指及应用做出了描述。随后,本文对概念类别与词性的关系和差别做出了解释,并给出了概念类别与词性的对应关系。最后,本文描述了概念类别信息在汉英机器翻译中的具体应用,指出,概念类别在汉英机器翻译的分析模块和转换模块(如小句转换、Eg识别、格式转换和辅块识别等)中均发挥着重要的作用。
下一步的工作是,继续扩大词语知识库的规模,在对目标语(英语)的语言特征进行全面细致把握的基础上,标注英语词语的概念类别信息,并结合英语词语丰富的形态变化特征,配合汉英机器翻译引擎的研发,完成英语生成模块的知识库资源构建,以提高翻译系统的生成效果。
(本文受到国家高技术研究发展计划[863课题,项目号:2012AA011104]、中国博士后科学基金资助项目以及中央高校基本科研业务费专项资金的资助。)
参考文献:
[1]黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版社,
1998.
[2]苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出
版社,2005.
[3]晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:
科学出版社,2006.
[4]张克亮.面向机器翻译的汉英句类及句式转换.开封:河南大学
出版社,2007.
[5]李颖,王侃,池毓焕.面向汉英机器翻译的语义块构成变换[M].
北京:科学出版社,2009.
[6]胡裕树.现代汉语[M].上海:上海教育出版社,1995.
[7]朱筠.基本句群处理及其在汉英专利机器翻译中的应用[D].北京:北京师范大学博士学位论文,2013.
汉英机器翻译的现状和发展 第7篇
一、机器翻译
机器翻译属即时翻译, 是利用机器 (电脑) 翻译系统, 把人类语言的翻译法则转变成电脑的运算法则, 使得电脑根据运算法则, 将一种自然源语言 (source language) 转变为另一种自然目标语言 (target language) 的系统。现存的翻译程序模式有好几种, 大都是将外语资源输入转化为目标语输出的系列程序, 包括系列译码和相连的句法语境信息。
机器翻译可设计成双语翻译或者多语翻译系统。双语翻译系统可设计为单向翻译, 如日语译为英语, 或双向翻译。机器翻译系统划分为基于规则式、基于统计式、基于实例式, 以及采用混合策略 (hybrid) 引擎的系统。
基于规则式 (rule-based) 的机器翻译系统又分为语法型、语义型知识型和智能型三种类型, 世界上绝大多数的机译系统都采用以规则为基础的策略。基于统计式 (Static-based) 的机器翻译方法把机器翻译看成是一个信息传输的过程, 用一种信道模型对机器翻译进行解释。基于统计式的机器翻译方法认为, 源语言句子到目标语言句的翻译是一个概率问题, 任何一个目标语言句都可能是任一源语言句的译文, 只是概率不同, 机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做是对原文通过模型转换为译文的解码过程。基于实例式 (example-based) 的机器翻译方法由日本著名的机器翻译专家长尾真提出, 即不经过深层分析, 仅通过已有经验知识, 通过类比原理进行翻译。其翻译过程是首先将源语言分解为句, 再分解为短语, 接着通过类比的方法将短语译成目标语短语, 最后把这些短语合并成长句。对于实例方法的系统而言, 其主要知识源就是双语实例库, 核心问题就是通过最大限度的统计, 得出双语实例库。基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果, 随着例句库规模的增加, 其作用也越来越显著对于实例库中的已有文本, 可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本, 可以通过类比推理, 并对翻译结果进行少量的修改, 构造出近似的翻译结果。
二、常见的翻译软件
在当今这个日益全球化的世界, 各国间的交流越发紧密, 机器翻译作为突破语言障碍的重要技术手段, 对加速和扩展世界范围内的信息传播具有深远意义, 在经济发展和社会生活中日趋重要。Systran多语言翻译系统是迄今为止应用最广泛、所开发语种最丰富的机器翻译系统。它的创始人Dr.Peter Toma于1968年开发设计了这个系统, 曾为美国国防部和欧盟等机构完成大量翻译任务。Wilks (2009) 认为, Systran一类的翻译软件大致能准确处理60%的句子, 可完成初略译文, 剩下的40%需经由人工处理成顺畅达意的文体。同期比较著名的系统还有Weinder系统、Eurpotra多国语翻译系统、Traum-meteo系统等。
20世纪90年代至今, 随着互联网的普遍应用和世界经济一体化进程的加速, 传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求, 人们对于机器翻译的需求空前增长, 机器翻译迎来了一个新的发展机遇, 翻译软件需求旺盛。即便对专业翻译人员来说, 尚待修改润色的初略译文也是极有价值的, 所以, 他们也愿意出资购买和使用此类软件, 并期待更加人性化的系统早日问世。目前, 国内市场上具有代表性的全文翻译软件有中软公司推出的“译星”、天津“通译”以及雅信城的“雅信CAT”等;汉化类翻译软件主要以实达铭泰公司的“东方快车”以及郑州洪涛公司的“永久汉化2000”为主要代表。这些商用机器翻译系统迈入了实用化阶段, 走进了市场, 来到了用户面前。
除了这类昂贵的需要购买的软件以外, 在互联网上还可以找到一些普通的在线翻译软件, 例如“谷歌翻译器”、网易公司的“灵格斯词霸”、天津通译的“在线翻译软件”、中软的“译星联机98”、金山公司的“金山快译”、实达铭泰的“东方网译”、华建的“翻译网上通2000”等, 可以轻松翻译学术类文章。不管是应用到商业市场或学术论文翻译, 它们的作用都不可低估。
三、机器翻译的优势和局限性
面对中外商务交往中海量的商务信函文件, 依靠传统的人工翻译已不能满足时代的需要。机器翻译可以胜任贸易
公司的商业信函、学术研究文本的翻译。其优势显而易见。机器翻译已被广泛接受, 实现全球通信访问。其优点表现在:专业翻译更准确、效率更高、时间更少、成本更低。在一些只需要粗略翻译的场合, 如从网络中获得信息, 机器翻译可以让我们在较短的时间里了解目标语的大体内容。机器翻译还特别适合那些翻译工作量大又需要快速更新的领域, 如天气预报、财经新闻、航空旅行查询以及旅店推荐等方面的翻译, 还可以节省人力、财力和时间。
机器翻译的最大弊端在于译文质量不高, 基于某些词性变换、一词多义、文化差异等造成译文产生歧义、词序不当、可读性差。特别是在文学方面的机器翻译是我们永远无法企及的。机器翻译输出的文本仍需要进行人工译后编辑, 从而使译文通畅并且确切地再现原语的内容蕴涵。沃尔克 (1998) 指出, 语言有其生活习惯和文化背景上的关联, 不能随意割裂开来。因而, 由于形态和句法方面的差异, 习语翻译在机器翻译中不可行。英国语言学家萨皮尔认为:“语言不能离开文化而存在, 它是来自决定我们的生活结构的信仰和习俗的这个社会遗传集合物。”习语是语言的精华, 是在使用过程中形成的独特的固定表达方式。文化、语言和翻译三者之间的关系十分密切。习语具有结构严谨、形像简练、寓意深刻、鲜明生动等特点, 其意义不能以其各个组成成分的意义加在一起推测出来。这些特点给翻译实践带来了难度, 在翻译的过程中不仅要传达原文的语言意义, 更要将两种语言中所承载的文化形象再现出来。这可能将是机器翻译的一项长期缺陷, 尚无有效的解决办法。
四、机器翻译的发展前景
随着国际交流的加强, 机器翻译正在成为人工翻译的有效补充。它可以快速及时地处理大量人工无法完成的信息。我们不能因为目前机器翻译的质量不完美就否认机器翻译的作用, 应积极地与计算机语言学家一起协同努力, 为机器翻译的发展作出贡献。在信息时代, 随着人工智能技术和语言学理论研究的深入, 机器翻译必将有一个光明的前途。
摘要:汉英机器翻译的能力一直是应用语言学界探讨的焦点。汉英机器翻译的发展代表着人工智能技术的进步。通过论述机器翻译研究的现状和分析机器翻译的优势和局限性, 展望机器翻译的发展前景。
关键词:机器翻译,人工智能,计算机语言学
参考文献
[1]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司, 2004.
[2]Wilks, Y.Machine translation:Its scope and limits.New York:Springer, 2008.
两种英汉机器翻译技术研究 第8篇
如今处于信息化社会, 在全球信息一体化的背景下可以接触到很多有用信息, 但语言障碍的存在使很多信息无法利用。很多专家学者都致力于自动翻译即机器翻译, 尤其是英汉机器翻译, 均取得了一些成效, 但并不理想[1]。机器翻译 (Machine Translation) 是利用计算机程序, 将一种自然语言 (源语言, Source Language, 简称SL) 翻译为另外一种自然语言 (目标语言, Target Language, 简称TL) 。自然语言的复杂性使得机器翻译的实现极为困难, 至今机器翻译仍是一项非常具有挑战性的课题, 实现过程如图1所示。
英汉机器翻译, 属于机器翻译当中的双语翻译, 是完成将英语翻译为汉语的单向翻译。英汉机器翻译技术主要有2种, 包括基于规则的机器翻译技术和基于语料库的机器翻译技术。
1 基于规则的机器翻译技术
基于规则的机器翻译技术是指在英汉机器翻译系统中利用规则知识表示对SL英语进行分析, 然后生成等价的TL汉语[2]。基于规则的机器翻译技术的基本特点是层次性和模块性。利用规则作为知识表示形式的规则包括很多, 如重叠词规则、切分规则、标注规则、句法分析规则、语义分析规则、结构转换规则、词语转换规则、结构生成规则、词语生成规则等等, 进而把图1中的分析, 生成两部分再次划分为图2所示。
基于规则的机器翻译技术包括直接翻译、基于中间语言翻译和基于转换的翻译技术。直接翻译属于早期的机器翻译技术, 实现方法较简单, 局限性大, 基于中间语言翻译技术是指将SL输入分析为中间语言, 再将中间语言生成TL输出, 中间语言的选取较难, 用于多语言机器翻译。基于转换的翻译技术是对SL英语进行句法分析和语义分析, 通过转换生成TL汉语的过程, 转换的层次可在词法、句法或语义等进行, 这里就要用到句法分析规则、语义分析规则、结构转换规则、词语转换规则、结构生成规则、词语生成规则。
基于规则的机器翻译技术其规则的颗粒度具有很大的可伸缩性, 不仅能描述粗粒度还能描述细粒度, 粗粒度可以用于大范围语言学的概括, 细粒度能够精细描述知识表示。规则的确定性较强, 一旦确定无法平衡规则之间的冲突, 只适用于具体的系统, 如雅信英汉系统、Matrix英汉系统、Realworld英汉系统等。
2 基于语料库的机器翻译技术 (Corpus-BasedMachine Translation)
基于语料库的机器翻译技术是以语料库为核心, 采用大规模语料库作为翻译知识源实现机器翻译, 利用隐含在具体语言实例中的语言学知识进行翻译[3]。语料库分为单语语料库和多语语料库, 单语语料库中实现对一种语言文本进行词法、句法等多层次的标注, 多语语料库最常用的即双语语料库, 提供两种语言文本对齐和翻译, 适用于英汉机器翻译的语料库即双语语料库, 提供英语文本和汉语文本的对齐和翻译, 其中对齐粒度包括结构对齐、句子对齐、短语对齐和词对齐。目前词对齐和词法句法相结合进行是语料库机器翻译研究的一个热点。基于语料库的机器翻译技术分为两种:基于实例的机器翻译技术和基于统计的机器翻译技术, 这两种翻译技术都采用语料库作为知识源, 依靠系统已有的翻译样例, 将源句子和目标句子进行对齐分析计算每个层次的匹配度, 生成最匹配的目标句子。
2.1 基于实例的机器翻译技术 (Example-basedMachine Translation, EBMT)
基于实例的机器翻译技术是使用翻译实例语料库, 将源文本与实例进行匹配, 实例库中一个字段用于保存源文本, 另一个字段保存译文, 通过将源文本与实例库中的源语言句子进行类比, 找出最相似的句子, 进行加工模拟最后输出译文。例如, 源文本为I made a cake for him.在实例语料库中查找到最相似的英文句子及汉语译文分别是:I bought a cake for her.我为她买了一个蛋糕。比较待翻译的英文句子和语料库中的英文句子, 得到变换式:replace (bought, made) and replace (her, him) , 再将变换式中的单词换成汉语就是:replace (买, 做) and replace (她, 他) , 将变换式作用于实例库中的译文就变为:我为他做了一个蛋糕。EBMT的步骤如图3所示。
由于EBMT使用语料库作为翻译知识来源, 所以翻译速度较快, 同时不需要对源语言文本进行深层分析就可获得流畅的译文。然而, EBMT对语料库的依赖导致数据稀疏问题严重, 生成译文时没有统一的评判标准, 翻译较为粗糙。
2.2 基于统计的机器翻译技术 (Statistical MachineTranslation, SMT)
基于统计的机器翻译技术首先需要建模, 假设源语言英文句子是f, 目标语言中文句子是e, 统计机器翻译的任务就是在所有可能的翻译技术中找出最可能的译文, 定义将f翻译为e的概率为, 其归一化条件为, 翻译过程就变为一个优化搜索过程, 求解。SMT可分解为三个问题[4]:翻译过程建模, 为翻译过程建立一定的数学模型;模型参数训练, 对模型中涉及到的参数进行估值;搜索最优译文, 给定一个输入句子, 在整个译文空间中搜索出最优的译文候选, 也称解码。基于统计的机器翻译过程如图4所示:
基于统计的机器翻译技术发展到今经历了三个阶段:基于词的统计机器翻译、基于短语的统计机器翻译、基于句法的统计机器翻译, 基于句法的统计机器翻译是目前统计机器翻译研究的热点。当前典型的基于句法的统计翻译模型包括:香港科技大学吴德凯提出的反向转录语法 (Inversion Transduction Grammar, ITG) 模型[5], 是利用同步语法对源语言和目标语言句子做双语句法分析;熊得意提出的基于最大熵模型的BTG模型[6], 是利用最大熵模型预测译文中相邻语块顺序的模型;David Chiang的层次化短语模型[7], 其文法规则是从平行的双语语料中自动抽取出来的, 排序约束较小, 不需要对源语言或目标语言做句法分析就可与抽取规则;中国科学院计算技术研究所提出的树到串统计翻译模型等等。
3 小结
尽管英汉机器翻译的研究已经取得了一些成果, 但是远远还未达到令人满意的地步, 基于规则的机器翻译技术和基于语料库的机器翻译技术各有其优缺点, 单纯的使用其中一种技术很难取得好的翻译效果, 将两种融合在一起, 就可以解决现有系统所存在的不足。
参考文献
[1]赵铁军.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社.2000.
[2]邵艳秋.机器翻译相关术语简介[J].术语标准化与信息技术.2010, 01, 25-27, 35
[3]Le Sun, Song Xue, Weimin Qu, Xiaofeng Wang, Yufang Sun.Constructing a large-scale Chinese-English parallel corpus[J].Colling-2002:Third Workshop on Asian Language resources and International Standarization, 31 August 2002
[4]刘群.基于模板的统计翻译模型研究及汉英机器翻译系统实现[D].北京大学博士学位论文, 2004
[5]R.Zens, H.Ney.A comparative study on reordering constraints in statistical machine translation[J].Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.2003
[6]D.Xiong, M.Zhang, A.Aw, et al.Linguistically annotated btg for statistical machine translation.Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1.Association for Computational Linguistics, 2008:1009-1016
主题模型在统计机器翻译中的应用 第9篇
机器翻译是利用计算机把一种自然语言转换成另一种自然语言的过程。20世纪80年代以来, 随着语料库语言学的兴起, 基于统计方法的机器翻译取得了长足的进步, 统计机器翻译 (Statistical Machine translation, SMT) 已经成为自然语言处理领域备受关注的研究热点。自20世纪90年代以来, SMT涌现出了诸多引人关注的方法和技术, 经历了基于词的机器翻译、基于短语的翻译和基于句法的翻译等多个阶段, 目前基于短语的统计机器翻译 (Phrasebased SMT, 简称PBSMT) [2,4,5,6]仍然是主流的统计机器翻译方法。
PBSMT在进行翻译时, 源语言句子以“短语” (不是语法意义上的短语, 只是相邻的词组) 为单位进行切分, 每一个短语被翻译成相对应的目标语言短语, 目标语言短语经过重排序后生成较符合语法的目标语言句子。源语言短语和目标语言短语组成了翻译对, 在解码之前大量的翻译对已经从词语对齐的双语语料库中自动抽取出来, 所有抽取的双语短语组成了短语表, 短语表中包含了PBSMT所依赖的核心概率:短语翻译概率和词汇互译概率。给定一个源语言句子, 对这个句子进行短语划分 (源语言短语) 有很多种可能, 每个不同的源语言短语所对应的目标短语通常也会对应几个甚至几十个目标短语, 我们把与源语言短语相对应的所有目标语言短语称之翻译候选项。
为了得到高质量的双语对齐, 往往需要大规模的平行语料库, 因此语料中往往会包括多个领域的数据, 解码器在面临“at the bank|||在银行”和“at the bank|||在堤岸”的选择时, 哪个翻译对会被采用显然跟当前翻译句子的上下文信息有关, 若是翻译财经类文章, 显然使用第一个翻译对的可能性要大于第二个翻译对。传统的PBSMT在翻译过程中一般采用使整个目标端句子得分最高的候选项, 而不考虑特殊的语义信息。为了有效地提高短语选择的准确性, 本文将主题模型融入到翻译模型中, 在传统的短语表的基础上, 利用主题模型 (Topic Model) [1]为短语表添加主题信息, 改善基于短语的统计机器翻译的质量。与聚类等方法不同, 基于主题模型的方法具有的识别大规模文本集中潜藏的主题信息的能力, 它认为文本是由多个主题随机混合而成的, 并且每个主题又可被看作是语义相关的词的多项式分布, 也即它能够利用词分布将文本信息转化为易于建模的数字信息, 所以主题可以用于信息检索、聚类、摘要提取以及信息间相关性判断等一系列应用。
本文首先介绍基于主题模型的SMT的系统框架, 然后分别介绍主题模型的建立、带主题信息的短语表的建立以及如何通过预处理把主题模型嵌入到SMT系统的详细过程, 最后给出系统的实验结果。
1 基于主题的PBSMT系统框架
对于给定的源语言句子S来说, P (S) 是个非随机量, 可以忽略不计, 那么最终的翻译结果可以用这样一个式子[2]来表示:
在公式 (1) 中, P (T) 是目标语言T的概率, 即语言模型。语言模型反映了一个句子在目标语言出现的可能性, 即该句子在目标语言规则上的合理性。语言模型只与目标语言有关, 与源语言无关。P (S|T) 是目标语言T翻译成源语言S的概率, 即翻译模型。翻译模型与源语言和目标语言都有关, 反映的是它们互相翻译的概率。在基于短语的统计机器翻译中, 翻译模型不仅考虑词对齐, 更加注重源语言与目标语言的短语之间的翻译概率。
一般的SMT系统都包括训练和解码两个阶段[4,5], 翻译模型和语言模型一般在训练阶段完成, 开发者分别通过对并行语料库和目标单语语料库的处理可以获得它们。解码[6]是真正进行翻译的过程, 因为一个句子可能会存在多个翻译, 解码就是求最优的翻译结果的搜索过程。
本文描述的基于主题模型的统计机器翻译系统的总体框架如图1所示, 也包括训练和解码两个阶段。但与传统的PBSMT的训练过程不同, 基于主题的PBSMT在此基础上需要额外进行主题模型的训练, 并且要改造传统的短语表使其包含主题信息。此外, 另一个不同的地方在于─本文为传统的解码器设计了一个预处理模块, 以实现不改变解码器就能在翻译过程中进行主题的区分。
2 带主题信息的短语表
在众多的主题建模中, D.M.Blei在2003年提出潜在狄利克雷分配模型 (Latent Dirichlet Allocation, LDA) [1], 引起了自然语言处理等领域的广泛关注, 并成功运用于主题检测。LDA模型是一个三层贝叶斯具有文本主题表示能力的产生式概率模型 (一元模型) , 三层是指:文本, 主题和词, 如图2所示。
假设一个文本语料库中包括D个文本, N个唯一词汇wi, i∈ (1, N) 和K个主题, 那么某个单词wi的概率可用公式 (2) 表示:
其中, zj表示第j个主题, p (zj) 表示第j个主题的概率, j∈ (1, K) 。wi表示取自主题zi的单词, p (wi|zj) 表示单词wi属于主题zj的概率。
上述主题模型需要通过训练才能获得, 本文作者把翻译系统依赖的双语并行语料FBIS的中文部分独立出来进行如下训练:把语料等分成5份, 然后取其中一份作为测试, 多次计算主题模型的困惑度[1], 最后选择使困惑度达到最低的K值 (即主题数目) 为120。
(1) 短语主题的确定
假设句子s由单词序列w1w2……wn组成, 可以通过公式 (3) 来计算句子的主题分布,
一般大家公认为文档会包括多个主题, 但一个句子却只属于一个主题Ts[], 因此本文建议选择使P (S|Zj) 值最大的Zj作为该句子的主题, 因为短语从属于句子, 所以短语的主题就可以用句子的主题来表示, 这里标记为Tph。
(2) 包含主题的短语对的构成
在通用的PBSMT中, 短语对的翻译概率按照公式 (4) 进行计算:
表示源端短语, 表示目标端短语, count表示在语料库中共现的次数, 表示源端短语总共出现的次数。通过以上计算我们可以获得通用的短语表。通用的短语表的一般格式如下:“源短语|||目标短语|||概率值”。
与此类似, 当短语确定了主题之后, 我们应该按照公式 (5) 来重新计算带主题的各个短语对的概率。
虽然训练语料库有20万对的平行句对, 但按150个主题来分, 在某些主题上存在严重的数据稀疏问题, 为了缓和这种状况, 本文采用了一个折中的方案, 假定:即让短语对的主题概率约等于不区分主题的短语对概率, 但是短语对的源端需要区分不同的主题。按照此约定, 建立的新短语表 (标记为PTt) , 其存储格式变更为“源短语, 主题标号|||目标短语|||概率值”。以短语“很香”为例, 一般的气味芳香可以翻译成“very fragrant”, 但在表示“菜很香”时, 却翻译成“v e r y appetizing”。因此在PTt中, 将区分为“很香, t0|||very appetizing|||概率值”和“很香, t1|||very fragrant|||概率值”。若待翻译文本属于主题T0 (餐饮) , 那么在解码器加载翻译候选项时, 只加载主题属于T0的翻译对, 那么即可实现翻译过程中区分主题的目的。
3 解码器的预处理模块
与传统的解码器不同, 基于主题的SMT的实现需要额外的两个处理: (1) 自动推断出待翻译句子的主题信息; (2) 对解码器进行修改, 使得解码器能根据输入的源语言句子的主题从短语表中筛选出具有相同主题的翻译候选项, 然后在此新的空间中进行搜索, 得到符合主题的特定译文。
第一步借助LDA已训练好的模型, 再联合公式 (3) 可以很方便地推断出测试句子的主题信息, 然后该句子包含的所有可能的源短语都沿袭这一主题即可。但第二步的实施会有些困难。本文的实验以一个著名的开源的PBSMT系统─Moses[1]作为基准平台。目前的Moses为了兼顾多种翻译模型, 其代码类越来越复杂, 为避免破坏Moses的整体性和可靠性, 本文建议用一种更简单的方法, 不用修改解码器, 同样可以实现基于主题的翻译。具体的实现包括短语表特殊处理和解码器预处理两个部分。
(1) 短语表特殊处理
本文的翻译任务是针对汉英翻译, 为了根据主题来区分短语表里短语对的中文端短语, 作者对短语表进行如下特殊处理:
扫描新短语表P Tt中每个短语对, 假设中文端短语包括n个词汇, 表示成Wc1Wc2...Wcn, 对每个词汇进行唯一编号, 在这过程中确保相同主题的同一词汇具有相同的词编号, 这个处理将产生新的短语表PTt_new;
在编号的同时, 新建一个文本文件wordmap.txt记录下三项内容:词、主题号和词编号。
经过以上处理, 每个短语对转变成了这样的格式─“源端词编号序列|||目标短语|||概率值”。
(2) 解码器预处理模块
解码器预处理模块的功能如Algorithm1所示:输入的是已经训练好的主题模型tm和待翻译的句子Stest, 输出的是经过特殊的处理的待翻译文本Stest_new。算法第4行首先获得使公式 (4) 取得最大值的主题Tx, 然后打开存有词、主题号和词编号的文件wordmap.txt, 用找到的词编号 (第8行和11行) 代替普通的词, 因为词编号对应了主题信息, 因此新产生的待翻译文本变成了待主题信息的词编号的序列, 配合已处理好的短语表PTt_new, Stest_new就能像一般的文本一样被解码器正常处理。值得注意的是, 因为有些词组成的短语属于通用短语, 比如“应该|||ought to”, 应该不需要区分主题的, 但这些短语在训练语料中仅在主题t0中出现过, 而包含了这些词的待翻译文本的主题却被断定为t1, 那么根据t1就找不到相应的词编号, 因此也就翻译不出对应的部分, 所以如果待翻译文本的给定某个词和主题号后, wordmap.txt里没有找到相应的编号, 需要去掉主题的限制重新找词编号 (对应算法9-10行) , 这个处理是为了尽可能多地翻译出通用短语。
4 实验
本文的实验使用的是FBIS语料作为训练数据 (training data) , 2002 NIST MT测评数据作为开发集 (development data) , 2005 NIST MT测评数据作为测试集 (test data) 。表1显示的是语料的统计数据。
本文以基于短语的统计机器翻译系统Moses作为基准系统, 使用SRILM语言模型工具, 英语新闻专线文本训练三元通用语言模型, 并用GIZA++ (Och and Ney, 2000) 对训练后的平行语料库进行双向的词对齐。本文汇报的4元BLEU值源自于自动评测工具Mteval的运行结果, 评测时不进行大小写的严格匹配。
表2汇报了基准系统和本文建议的基于主题的PBSMT的翻译结果, 从BLEU值的角度来看系统性能提升了0.44个百分点, 这个提升虽然没有超出文献[2]的汇报的结果, 但是本文通过了一种没有改变解码器的简单方法就达到了翻译过程区分主题的目的, 证明了主题模型对SMT是有作用的, 并且以后随着语料库规模的增大, 相信由此方法获得的性能还有提升的空间。
参考文献
[1]David M.Blei, Andrew Y.Ng, and Michael I.Jordan.Latent Dirichlet Allocation[J].Journal of machine Learning Research, 2003, pages 9931022
[2]Peter.F.Brown, Stephen A.Della Pietra, Vincent J.Della Pietra, Robert L.Mercer, The Mathematics if Statistical Machine Translation:Parameter Estimation.Computational Linguistics[M].1993, 19 (2) :263-311
[3]Zhengxian Gong, Guodong Zhou, Liangyou Li.2011.Improve SMT with Source-Side“TopicDocument”Distributions[pdf].Machine Translation Summit XIII:496-501
[4]Koehn P, Och JF and Marcu D.Statistical Phrase-Based Translation.Proceedings of the HLT_NAACL:Human Languag Technology Conference of the North American Chapter of the Association for Computational Linguistics.2003, 127-133
[5]Zens R, Och F.J.Phrase-Based Statistical Machine Translation.25th Annual German Conference on Artificial Intelligence, volume 2479 of Lecture Notes in Artificial Intelligence.2002, 2479:18-32
机器翻译汉译英译后编辑策略研究 第10篇
译后编辑的好处是事先不用对稿子进行处理, 而译者在很快得到机器自动翻译出的译文后仍按原来翻译的步骤进行, 不过这时已经有很多的句子、词组自动翻译好了可以直接采用, 只要对意思不准确、可读性低的句子进行编辑即可。Yamada (2011) 的研究表明, 译后编辑可以使翻译的效率提高25%到50%。
Google翻译是一项免费的翻译服务, 可提供57种语言之间的即时翻译。它可以提供所支持的任意两种语言之间的字词、句子和网页翻译。Google翻译也是目前世界上使用最广泛的翻译引擎。借助Google翻译, 我们有希望将所有信息变为用户普遍可理解的有用信息, 而无需考虑其源语言。因此在本文笔者选取了在线翻译引擎中比较具有代表性的Google翻译。
本文总结了作者经过多次试验得出的汉译英机器翻译后对输出文本的译后编辑经验, 提出几条较为快捷、实用的策略, 使得机器翻译译文的准确性和可读性得以提高。
1 检查文中地名、人名及专有名词的误译、漏译的部分
由于机器翻译还存在一定的局限性, 在一些人名和地名的翻译上会出现误译现象。还要检查文中是否有错误的中文字符出现。
如: (1) 两千多年前, 中国第一个皇帝秦始皇统一了中国的文字。
Google:More than two thousand years ago, China’s first emperor Qin Shi Huang unified China text.
译文中Qin Shi Huang翻译有明显的错误, 应改为Qin Shihuang.
2 词的检查
2.1 检查词的顺序
较长的句子在翻译时, 机器翻译系统无法一一辨别每个成分及其在译句中理应所处的位置, 从而造成译文看似完成翻译, 可读性却不强。这也是机器翻译目前存在的局限性。如果对译文词语进行适当的排序, 文章的可读性和可理解性会大大增强。
如: (1) 中国政府正试图通过倡导道德、公正和廉洁的儒家思想来解决经济高速发展带来的社会问题。
Google:The Chinese government is trying to solve social problems brought about by the rapid economic development to promote ethical, fair and honest Confucianism.
把to promote ethical, fair and honest Confucianism部分调整到trying后面。句子变成The Chinese government is trying to promote Confucian ethic, fairness and honesty to solve social problems brought about by the rapid economic development.
(2) 孔子是个了不起的教育家, 他平等对待学生, 教给他们民主、开放的观念。
Google:Confucius is a great education to teach, his equal treatment of students, to teach them democracy, an open concept.
从译文看来, 翻译系统已经把原文的内容全部翻译出来。但是因为词语顺序的错乱, 使得句子还是让人看起来不知所云。在最后to teach them democracy, an open concept这部分, 中心词应该是concept, 所以应该将定语放在一起修饰中心词。把democracy与open放在一起, 不管其他所用词语是否符合英语使用习惯或是否符合语法规则, 但对于原文意思的理解已经没有问题了。即:Confucius is a great educator who treated his students equally and taught them an open and democratic concept.
2.2 词性转换
在一个句子中, 汉语会有好几个动词, 而英语只有一个谓语动词。这便是英语和汉语的一个显著差别:汉语是以动词为中心的, 英语是以名词为中心的。因此, 在汉译英中经常需要把动词改变形态从而名词化。
如: (1) 使用计算机可以大大提高劳动生产率。
Google:Use the computer can greatly improve labor productivity.
谷歌输出的句子出现了两个谓语动词, 因此有明显的语法错误。其实, 这句话的意思是:计算机的使用可以大大提高劳动生产率。提高才是真正的谓语。因此要将Use转换成名词形式:Using, 或者The application of.
(2) 各国的社会制度不同, 不应妨碍彼此接近和相互合作。
Google:Countries of different social systems, should not hinder close to each other and cooperate with each other.
将close和cooperate用名词形式如:approach和cooperation来替代。
3 词汇的增减
通过英汉语言对比可以发现, 两种语言有一定的不对等性, 若是硬要逐字译出, 输出的译文会显得很生硬或者违背目标语的语言习惯而使文章不通顺, 影响读者对原文的理解。
3 检查句子
3.1 长句断句
中文长句在机器翻译中各个部分容易混淆起来, 翻译出来的句子会很混乱, 不知所言。如果对长句进行简单的断句, 如增加主语, 译文的可接受程度会大大增加。
如: (1) 我乐意和中国警察交朋友, 没有想到你们会如此认真地听取我的想法, 希望这种做法能够一直持续下去。
Google:I am willing to make friends with Chinese police, didn’t think you could be so seriously listen to my idea, hoped that this would last forever.
如果将这句话三个逗号隔开的部分都划分成独立的句子, 译文的可读性会大大增强。即:I am willing to make friends with Chinese police.I didn’t think you could be so seriously listen to my idea.I hoped that this would last forever.
(2) 北方男人都不管家里的事, 他们以屈从于妻子为耻, 不屑于做家务。
Google:The Northern men regardless of things at home, ashamed of them to succumb to his wife, scorn to do the housework.在上文调整词语顺序部分已经将译文修改为The Northern men regardless of things at home, they are ashamed of submitting to their wife, scorn to do the housework.将这个长句的三部分断句, 划分成三个简单句, 文章读起来就更容易理解。即:The Northern men disregar things at home.They are ashamed of submitting to their wives.They scorn to do the housework.
3.2 句子结构平衡
在英语中有时主语会很长, 为了使句子平衡我们通常会使用形式主语来避免句子显得头重脚轻。
如:一些难以查出问题的功能性疾病, 用中医的方法也许更有效。
Google:Functional diseases are difficult to identify the problems, the TCM methods may be more effective.
可以看出主语应该是“用中医的方法” (to use traditional Chinese medicine) , 为了保持句子平衡可以使用it来做形式主语。即:It maybe more effective to use traditional Chinese medicine when it is difficult to to identify the causes of functional diseases.
4 检查语法
4.1 确定主语
在汉语中句子主语前的定语可以很长, 有时甚至可以没有主语。而在英语中必须要有主语、谓语才能够成一个完整的句子。
如:医疗体制中最急需解决的医疗保险制度问题, 若得到完善, 将大大释放居民消费潜力。
Google:Most urgent medical insurance system in the health care system, if perfect, will greatly release the potential of the consumer.
从译文中我们能确定句子的主语是Most urgent medical insurance system in the health care system, if perfect, 而不是most urgent medical insurance system in the health care system.所以必须将主语提出来, 主语必须是名词或者在语法中具有名词性质的短语结构, 从句中我们可以看出perfect不具有名词性质, 所以必须用具有名词性质的词或句子来替换。即:“the improvement of medical insurance system”。“most urgent in the health care system”是“medical insurance system”的定语, 所以可以将句子修改为:The improvement of medical insurance system, which is the most urgent in the health care system, will greatly release the potential of the consumer.
4.2 时态
英语的词汇有形态的变化, 如动词有人称、时态、语态和情态等的变化。而汉语的词汇则无形态变化。汉语中会有一些表示时态的词, 比如“了”“正在”“将”等词。在机器翻译在翻译过程中又是会无法准确译出句子的时态。因此对译文时态的检查和编辑也成了一项不可或缺的工作。
如: (1) 我们针对农民工及大学毕业生制定了确实的政策。
Google输出的译文是We developed a firm policy for migrant workers and university graduates.句中将时态定为了过去时, 然而从“了”字我们能够确定是完成时。应该是We have developed a firm policy for migrant workers and university graduates.
(2) 汤姆和杰瑞又争吵起来了。
Google:Tom and Jerry quarrel.
可以看出该句描述的是一个进行中的动作, 所以应该用过去时或过去进行时。
4.3 语态
英语多使用被动语态, 而汉语多用主动, 即使表示被动的含义也会采取主动的形式。汉语的主动语态中常常会隐含被动意义, 即使是被动语态也没有明显的语言表示被动语态, 只是借助词汇手段表达被动意义的。机器翻译有时会无法准确判断出真正的语态。因此, 对译文的语态修改编辑也是不能忽略的一步。
如: (1) 巴黎拍卖会上, 鼠首兔首青铜像各以1400万欧元 (1800万美元) 卖出。
Google:Paris auction, bronze rat head rabbit each sold for14 million euros ($18 million) .
原文中“卖出”, 显然是“被卖出的意思”, 所以sold应改为were sold.
(2) 自2008年年底, 国际经济危机导致中国出口贸易遭遇重创。
Google:Since the end of 2008, the international economic crisis has led to China’s exports hit hard.
在这个例子中可以看出是借助词汇手来表示被动的含义的, 原文中“遭遇”的“遭”这一字就是。但是在译文中并没有得到处理, 所以应该进行译后修改编辑, 将hit改成were hit.即:Since the end of 2008, Chinese exports were hit hard because of the international economic crisis.
5 结束语
通过以后编辑译者无需对原文作任何译前处理, 通过机器翻译很快便能得到很多句子和词组的翻译。而译者只需继续按原来翻译的步骤进行, 只要对意思不准确、可读性低的句子进行编辑即可。因此, 译后编辑可以大大节省译者的翻译工作量和工作时间, 从而减少翻译成本。
摘要:机器翻译因其速度快、成本低而受到关注。目前机器翻译正在如火如荼地发展, 但是机器翻译的质量较低, 使得它只能用到非关键领域。如何提高机器翻译的质量、缩短翻译周期、提高译者的工作效率是很多研究者关心的问题。使用机器翻译后做人工修改是在不降低翻译质量的前提下提高翻译效率的有效途径之一。该文从最粗略的人名、地名、专有名词拼写等方面开始, 接着到文本词汇的处理, 再到句子的处理, 最后在语法方面的处理等方面列举了一些实际可行的编辑策略, 并通过相应的例子证实这一系列策略的有效性。
关键词:机器翻译,译后处理,译后编辑策略
参考文献
[1]钟尚离.机器翻译的可信度与人工干预[J].湘潭师范学院学报:社会科学版, 2004 (3) .
[2]张政.机器翻译难点所在[J].外语研究, 2005 (5) :59-62.
[3]程永生.汉译英理论与实践教程[M].北京:外语教学与研究出版社, 2005 (9) .
[4]魏长宏, 张春柏.机器翻译的译后编辑[J].中国科技翻译, 2007 (3) .
[5]毕秀英, 张泽芳, 张云霞.英汉翻译理论与实践[M].成都:西南交通大学出版社, 2008 (7) .
[6]林海梅.机器翻译与人工的结合[J].宜宾学院学报, 2009 (8) .
[7]刘彬.英汉机译中的译后编辑及其实现[J].中国电化教育, 2010 (7) .
[8]钱歌川.翻译的基本知识[M].北京:世界图书出版公司, 2011 (8) .
[9]Yamada, Masaru.An empirical investigation of revision and the effects of integrating a TM and MT system into the translation process[D].Rikkyo University, Japan, 2011.
翻译机器 第11篇
随着Internet的普遍应用, 世界经济一体化进程的加速以及国际社会交流的日渐频繁, 传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求, 人们对于机器翻译的需求空前增长, 机器翻译迎来了一个新的发展机遇。而身处科技学习最前沿的高中学生, 他们早已优先于我们的英语教学者, 深深的得益于机器翻译并在英语学习中广泛的使用这些最便捷最高效的翻译工具。当然机器翻译是一把双刃剑, 在使用这些高科技产品的同时, 高中学生一定要本着学习英语语言基础知识, 提高英语语言技能为最终目的, 而不是在学习上把这些学习软件当成是救命稻草, 从而忽略了自身语言的学习。
目前, Google的在线翻译已为人熟知, 学生们在学习和查阅时也最为常用, 但其背后的技术却并不是广为人知。它是基于统计的机器翻译方法, 基本运行原理是通过搜索大量的双语网页内容, 将其作为语料库, 然后由计算机自动选取最为常见的词与词的对应关系, 最后给出翻译结果。不可否认, Google采用的技术是先进的, 但它还是经常闹出各种“翻译笑话”。我们在阅卷时总是能看到这样的例子, 一篇文章, 一个作文题目反反复复会有无数的雷同, 而学生们在选择题目时也是就同一个题目或类型蜂拥而至。机器翻译如此得到网民的青睐, 成为当今时代的一种时尚, 面对这个新的广阔的市场, 我们的态度除了包容之外, 更多的应该是批判的接纳, 研究和发展。
由于机器翻译需要一个很大的语料库作为支撑, 语言的实际需求量就非常庞大。但受限于现有语料库的规模和所涵盖的范围, 跟植于具体实例的机器翻译, 其实用性就很难达到较高的匹配率, 往往只能限定在范围比较窄的领域或者专业的限定范围时, 翻译效果才能达到一般的使用要求。因而到目前为止, 还很少有机器翻译系统采用纯粹的基于实例的方法, 一般都是把此类源于实例的机器翻译方法作为多种翻译引擎中的一个, 以提高翻译的正确率。这种基于实例的机器翻译对于相同或相似文本信息, 其翻译效果非常显著。随着例句库规模的增加扩充, 其翻译效果和翻译作用也越来越显著。对于建立在此基础之上的实例库中的已有文本, 可以直接获得高质量的翻译结果, 以最快的速度解决翻译难题, 为广大用户赢得宝贵的时间。而对于那些与实例库中存在的实例十分相似的文本, 也可以通过类比推理, 并对翻译结果进行少量的修改, 构造出新的相类似的翻译结果。在互联网高度发达的今天, 利用网络优势来学习本身就是一种进步。因此我们有必要就机器翻译在高中英语语言教学中的利弊来加以探讨。
1 是否推广机器翻译的成果引导教学
1.1 词典类翻译软件
词典翻译类开拓了翻译软件, 以词为翻译单位, 最初的形式是电子词典。它利用计算机等新兴电子产品储量大的特点, 储存了几十万乃至几百万的词汇, 能快速高效的显示一个或多个目标词以供选择。几乎每个人的电子产品都会下载和安装大量的翻译软件, 特别是我们每天需要大量使用词典来查阅词汇。翻译软件产品与手工翻阅字典相比, 它的最大优点是迅速方便, 词汇涵盖面广。现在的学生再也不用背着几本厚厚的大字典词典来学习语言了, 我们也逐步用随身听代替了复读机和录音机, 这也是语言学习的一大跨越。那么这类翻译软件按其承载推广的介质或功能的不同分为芯片词典、单机词典、网络词典。目前, 我国市场上的芯片词典主要有快译通、好易通、商务通、名人、锦囊、佳能等;网络词典主要有爱词、词海、雅虎乐译、百度词典搜索, 有道词典等。在单机安装的词典中, 主要有汉英机器词典、美国传统有声词典、牛津高级双解英汉词典、金山词霸、谷歌金山词霸、有道桌面词典、灵格斯词霸、东方大典等。这些词典属于下载安装类, 需要安装。其中国内词典类翻译软件产品研发最早产品信誉度最好的是金山词霸。在机器翻译的产品选择和使用中, 应当给学生讲授词典类翻译产品的种类、软件特点及其功能, 并使学生能够从浩如烟海的机器翻译产品中选择适合自己的电子词典, 并和学生一起探讨和掌握软件的安装和使用方法, 在翻译实践中能够灵活地运用它们进行查词, 提高学习质量和效率。
1.2 是否使用全文和汉化翻译软件
全文翻译类软件是以句子为单位进行翻译的机器翻译软件, 它比简单的词类收藏有了很大的跨越, 拥有语言的语法规则, 翻译的译文可读性比词典翻译的简单叠加和罗列要更有逻辑和理性。一般来说, 其翻译过程是:先录入所需的原语言文件, 然后选择“即时翻译”或“全文翻译”功能, 在机器翻译软件中选取质优价美的翻译作品。在线即时翻译软件都可以做到逐句逐行翻译, 当遇到一词多义时则需要人工做出选择, 翻译完一句, 再译一句, 这样的机器翻译产品其翻译作品译文质量高, 翻译效果好;全文翻译则是一译到底, 中间没有停留, 而就翻译出的作品而言, 其效果和质量就要大打折扣了。但是这种翻译软件翻译速度飞快, 能够满足很多只需了解原文件大意的用户需求。
为满足高速变化的市场需求, 汉化翻译软件在推出主要功能包括内码转换、动态汉化和电子词典等的同时, 机器翻译软件又不断更新换代, 生产出能很好地满足用户的汉化英文软件、汉化英文网页软件, 实现对屏幕英文信息的了解和原文章的初步翻译等产品。有了这些翻译软件, 我们在对信息获取、了解文章大意都具有很好的作用, 因此大部分全文翻译软件都具有汉化功能。全文和汉化翻译类软件主要有译星、IBM翻译家、东方快车、金山快译、巴比伦、即时通汉化专家、译王、超强英汉翻译词典、译林专家翻译等。国内典型代表有北京实达铭泰公司开发的东方快车和金山公司开发的金山快译。在机器翻译教学当中, 应当介绍全文和汉化翻译软件的种类、软件的特点及其功能, 使学生在学习实践中能够灵活地运用他们进行全文翻译, 提高英文的阅读和理解的速度。
1.3 是否允许使用在线翻译
在线翻译或网上即时翻译浏览软件就是利用在线的浏览器或搜索窗口找到要查询的文本信息, 然后启动翻译软件, 再将原文翻译成目标文字而后再插入浏览器中, 一般会做到译文的输出格式和源语言版面格式保持一致。在线翻译或网上即时翻译浏览软件提供网站网页转换、单词、语句、文章等的即时翻译、浏览翻译、上传翻译、邮件翻译等功能, 它汇聚了多语言的翻译库, 支持英语、中文、日语、德语、俄语等多种语言相互翻译。因此这类机器翻译软件也就成为新的发展趋势, 其软件开发也是愈来愈健全。目前主要在线翻译网站有:Google在线翻译;Yahoo在线翻译;百度在线翻译;爱词霸在线翻译;“世界通”网站;网络中国在线翻译网;金桥翻译中心;中国联通在线翻译;“看世界”网站;“世界语”网站;自由翻译网;华建在线翻译网;以及外语时空等。在机器翻译教学当中, 主要应向学生介绍各在线翻译网站的名称及主要功能, 使学生有意识的利用自身的英语语言能力学习并使用好在线翻译。
2 机器翻译应用于高中英语教学的局限
要想将拥有五千年文化底蕴的汉语言文化翻译成多种语言本身就是一件极不容易的事, 对于语言研究的学者尚且如此, 那么我们的高中学生就更难把握了。因此想要通过机器自动翻译的方式表达灵活多变的汉语, 将其转化为语法逻辑严谨的英语, 在词法、句法和语义三个层面上都存在诸多不利的因素。
在词法层面上, 汉语中存在很多兼类词、离合词、组合词和多义词, 要把它们的含义及用法正确的翻译出来, 仅仅根据词性、词义库里的简单存储执行词的转换是远远不够的, 还需要从语义方面加以理解。要想通过上下文的理解, 找到与原文件目标语境一致的翻译内容, 这不但需要大批语言学者贡献其研究成果, 还需要本语言专业的从业者大量的细致入微的工作, 而这就大大地增加了系统开发的难度。同时, 汉语言中词与词之间没有词界, 而这种语言模式也给目标语言, 尤其是对机器翻译过程中, 进行词语切分造成了很大的麻烦, 极大地影响了翻译效果。
句法层面上, 连动句式、兼语句式、无主句、形容词谓语句及名词谓语句等的大量应用, 以及成语, 俗语, 方言的大量使用, 也妨碍了机器正确判断。这样因原语言的句子的结构、成分而无法做到准确分析, 大大的影响了翻译结果的准确性和可读性。
语义层面上, 汉语言中很多表达没有明显的时态标志、名词也没有明显的单复数标志, 这些都需要机器根据语境、语义判定, 但这几乎是机器翻译系统难以实现的。除此之外, 省略结构、意译表达方式的存在也给机器翻译带来了新的难度。
汉语言的表达非常灵活, 语法规则也比较宽松, 按照这样的语法转化出来的英文需要经过同学们仔细的学习和认真的钻研才能达到相当的改善, 才能达到使用者的期望。而高中学生在英语学习中往往应对的翻译题目相对简单, 翻译类型也相对集中, 这就使得很多学生求助于网络在线翻译和写作。因此大量的雷同作业及漏洞百出的答案使我们一线的英语教学教师感到正确引导学生使用网络学习的重要性。
3 结束语
汉语言文化发展几千年, 仅仅想通过创建一个语料库是远远不够的, 有许许多多语言的壁垒影响着机器翻译, 从而影响着高中英语语言基础教学。我们要引导学生合理地利用已有的英语语言知识来学习和甄别翻译的语言差别。
摘要:国际互联网, 机器翻译的国际化等新技术对翻译实践产生了极大的影响。国内外交流形式要求译者要不断发展新的专业技术与语言的技巧以满足翻译的需要。不管机器翻译的理论依据如何, 也不论它的准确性和优美性, 机器翻译已成为当今时代的一种时尚, 是众多网民的首选。但是我们仅仅研究它对于翻译教学的影响是不够的, 特别是对于初学翻译的高中生, 他们被这种简单易行却不必劳心费力的学习方式所吸引, 自然就很难理解真正的翻译教学的目的和意义。在互联网高度发达的今天, 利用网络优势来学习本身就是一种进步。因此高中英语教学中教师就不能简单粗暴地加以制止, 而是应该引导学生合理的, 正确的使用翻译软件, 这比打压取缔就更为重要了。
关键词:国际互联网,机器翻译,高中英语教学,翻译软件
参考文献
[1]冯志伟.机器翻译研究[M].中国对外翻译出版公司, 2004:1.
[2]黎斌, 唐跃勤.谈我国机器翻译软件[J].四川教育学院学报, 2004 (3) :52.
[3]卢文林.机器翻译发展概况[J].农业图书情报学刊, 2002 (4) :24.
[4]张政.机器翻译刍议[J].中国科技翻译, 2004 (2) :24.
[5]吕学强.机器翻译概述[J].辽宁师专学报, 2002 (3) :8.
翻译机器范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。


