电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

计算机辅助语言测试

来源:莲生三十二作者:开心麻花2026-01-071

计算机辅助语言测试(精选11篇)

计算机辅助语言测试 第1篇

A.各种题型中知识点分布符合制卷目标(即考试要求);

B.试题、试卷难度符合制卷要求;

C.无内容重复和相近的试题。

由此可见,虽然是自动组卷,但在组卷之前,我们需要根据本次考试的类型或知识要求考查学生的程度趋势线,设置好难度、区分度、知识点分布等基本的组卷要求,然后系统才能够在此基础上实现自动组卷。

1. 组卷算法

常用的自动组卷方法大致可分为三类:

1.1 随机抽取法[1]

根据组卷状态空间的控制指标,由计算机随机抽取一道符合控制指标的试题放入组卷题库,此过程不断重复,直到组卷完毕或已无法从题库中抽取满足控制指标的试题为止。随机抽取法的基本算法如下:

1)设置题目属性,包括题型及该题型的题目数量M、难度、区分度、知识点分布;

2)产生一个随机数K,1Kn(n为此类题型下题目的总数);

3)在试题库中选取第K道题目,查看题目的抽取状态,若状态为1,则表示已抽取过该题,则回到第2步,若为0,则表示该题未被抽取,则继续;

4)检查该试题的抽取时间,若时间与当前时间间隔小于1年,则放弃抽取,回到第2步,否则继续;

5)检查试题的相近题目编号,搜索在已经选取的题目中有无相同编号的试题,若有,则放弃抽取,回到第2步,若没有,则继续;

6)将该试题的编号写入已抽取试题的表中,并且将试题库中该题的抽取状态改写为1,抽取时间写作当前时间,一道题目抽取完毕,题目数L=L+1。

7)如果L≥M,该题型组卷完毕,否则,回到第2步继续组卷。

该方法结构简单,具有很大的随意性和不确定性,无法从整体上把握题库不断变化的要求,不具有智能性。但是,这种方法实现起来较为容易,所以目前仍然是大多数组卷系统所首选的组卷方法之一。

1.2 回溯试探法[2]

将随机抽取法产生的每一状态类型记录下来,当搜索失败时释放上次记录的状态类型。然后按照一定的规律变换一种新的状态类型进行试探,通过不断地回溯试探直到试卷生成完毕或退回到出发点为止。该方法适用于类型和出题量都比较小的题库系统,实际应用时程序结构相对复杂,而且选取试题随机性差,组卷时间长。对于现在越来越流行的考生随机即时调题的考试过程来说,它已不符合要求。

1.3 遗传算法求解自动组卷问题

遗传算法(Genetic Algorithm,简称GA)是一种基于进化论优胜劣汰、适者生存的物种遗传思想的搜索算法[3]。这一基本思想是20世纪70年代由美国密歇根大学的J.H.Holland提出并创立的[4]。在自然界中,各种生物处于不同的环境之下,那些具有适应所处环境特征的物种可以存活下来,而它的这种特征是由它内部的基因所决定的。生物的进化过程最终表现为基因的进化。而基因的进化发生在两个父辈个体结合产生后代个体的过程中。父代染色体在向后传递时发生选择和交换,从而导致生物群不断演化,进而产生更有适应力的个体,这便是遗传。

遗传算法的名称来源于自然界,与自然界的遗传过程相类似。这种算法的处理对象是要搜索问题的一群潜在的可能解,通过使问题的解不断地进化,最终求得最优解。与自然界相对照,生物对于环境的适应程度在遗传算法中表现为解的一个适应值或者是评价值,反映了该解相对于其他解的好坏程度。也同自然界一样,这种具有较高适应值的解就具有更大的生存性和再生性。在遗传中还有一种现象就是突变,即生物体基因发生的偶然的突然的改变。遗传算法中,这种现象也存在,即偶然、随机的改变结果中某些数位值[5]。

2. 传统遗传算法的问题求解

运用遗传算法求解问题首先需将所要求解的问题表示成二进制编码,然后根据环境进行基本的操作:选择、交换、突变这样进行不断的所谓“生存选择”,最后收敛到一个最适应环境条件的个体上,得到问题的最优解。将其用于自动组卷,可以在一定约束条件下对多目标参数进行优化,从而使组卷技术简单、通用、收敛速度快、适于并行处理。

遗传算法可以描述为如下几个基本步骤:

1)随机产生初始种群;

2)利用评价函数(适应度函数)对个体计算函数值;

3)按一定的概率对个体进行选择、交叉、变异等操作产生新种群;

4)重复2、3两步,直到收敛(找到最佳解或迭代次数足够多)。

上述框架中的参数往往与待解决的具体问题密切相关。针对自动组卷问题,相应的算法步骤如下。

步骤1:编码

正像遗传要靠染色体一样,我们在组卷之前,先要确定组卷选题的“染色体”,即选题编码。试题库是大量的题目的集合,同时,这些题目还具有各自的属性指标,如难度、区分度等。将这些题目建立在一个相应的状态空间D中,会得到如下的矩阵:

在该矩阵中,每行用于表示试题的所有属性指标,每列用于表示某一个属性指标下的所有题目的属性值。这些属性指标用二进制编码的方式进行存储,可称作choice。在组卷时,可能并不需要用到所有的属性指标,我们用used来表示使用的指标(共m个),而用rest表示剩余未用的属性(共n个)。这样,一个choice就是由used和rest组成。即有:

步骤2:初始化群体

通过随机的方法生成初始化的串群体。在串群体中,串的长度是相同的,群体的大小根据需要按经验或实验给出。在组卷的过程中,要完成的是试题模型的初始化问题。试题模型的产生形式是:

#表示0和1之间的任意一位。

步骤3:计算当前种群每个个体的适应度

随机从题库中抽出一组试题,并进行编号st[1],st[2]st[n],确定合适的交换概率Pc和变异概率Pm,并定义其适应值adaptability[k](k=1,2j)

从试题库中取出试题st[m](0mn)与状态空间库[D]中的指标D[n](0ni)进行匹配。如果st[m]与D[n]完全匹配,则有

如果不匹配,则有

步骤4:选择

按照一定的选择概率对种群进行复制,选择较好的串生成下一代(个体的适应度函数值越小,该串的性能越好,选择概率越大)。去掉适应值较差的串,保留具有高适应度的试题。即把adaptability[k]为0的st[m]去掉,这样就生成了一个新的试题模型st[h]

步骤5:交换

重复步骤3生成新的试题模型st[p]。按一定的交换概率Pc从试题库中随机选取模型st[h]和st[p],交换彼此位串中对应的值,产生新的试题模型st[h]、st[p],如

交换前st[h]=1 1 0 1 0 1 1

st[p]=0 0 1 1 1 1 0

交换后st[h]=0 0 1 1 0 1 1

st[p]=1 1 0 1 1 1 0

步骤6:突变

突变是二进制串的某一位按照一定的概率(突变概率Pm)发生反转,1变为0,0变为1。针对于我们刚刚产生的试题模型,按一定的变异概率从题库中随机选出一试题模型st[h]进行基因突变,产生一个新的试题模型。

步骤7:终止

在完成以上选择、交换、突变步骤后,将产生一个考试试题模型,按照事先确定的误差精度对其进行收敛性的判别,当其适应度高时,试题组卷成功,输出试卷,组卷结束;如果其适应度低,则转向步骤3继续执行。

一般而言,组卷终止条件如下:

(a)出现种群满足f=0;

(b)某个个体适应度值达到指定要求;

(c)达到指定的进化代数;

(d)当前种群中最大适应度值与以前各代中最大适应度值相差不大,进化效果不显著。

以上用遗传算法抽题时,交换概率Pc和变异概率Pm的确定很重要。Pc太小使选题工作进展缓慢,太大则会破坏适应值高的试题模型。通常规定其为0.4。同样,Pm太小就不能产生新的试题模型,太大又会产生过多的试题模型。它宜规定为0.1[6]。

在自动选题时,选题的方式可采用父辈挑选和生存选择两种。父辈挑选就是采用不返回随机抽样,它使每个题目都有被选中的可能;生存选择采用允许父辈和子代进行竞争,并让其中的优良者进入下一轮竞争环境的二分之一择优选择。两种选择方式共同作用于选题保证了选题的顺利完成。在选题的过程中,哪一道题目被选中是一个非均匀随机事件,其概率依赖于上一次选题的过程。

正如前文所述,遗传算法具有全局寻优和收敛速度快等优点,所以应该作为设计自动组卷的首选算法。

3. 改进的遗传算法

在传统的遗传算法中,初始种群的每个字符串中“1”的数目等于试题的数目s,可是进行遗传操作(交换、突变)后,字符串中“1”的数目可能大于或小于s,从而变为非法解。此时必须对解进行修正,即进行相应的运算使字符串中“1”的数目为n。这个过程比较复杂,会增加运算量。另外,对于生成试卷的几个属性指标,我们的要求也不一样。对于考试分数,我们希望没有误差,而对于其他属性,如题型、知识点、难度、区分度等只要满足一定的要求就可以了。因此,对传统的遗传算法做如下改进[7]。

3.1 编码的改进

在实际组卷中,假设在试卷中每种题型的数目是固定的,且相同的题型的分数和答题时间是相同的。这样,可以将整个二进制串按照题目的类型划分为不同的功能块。每个功能块采用独立的二进制编码。也就是说,每个功能块对应一种特定的题型,而该功能块中,“1”代表该题被选中,“0”代表该题未被选中,“1”的数目即该种题型的试题数目。显然,按这种规则产生的初始种群已经满足了试题对题型、分数和答题时间的要求。

3.2 交换运算的改进

由于种群中每一个功能块对应着一个题型,因此,为了保证每个题型的数目不变,交叉点的选择不能破坏功能块的完整性。假设交叉点位于第i个功能块内,则前i个功能块保持不变,从第i+1个功能块开始逐位交换。

3.3 突变运算的改进

由于在每个功能块中,“1”的数目即是该题型试题的数目,因此在变异过程中应保证整个种群所有功能块中“1”的数目不变。可执行如下过程,首先,由变异概率决定某位取反;然后检查、修正字符串中“1”的数目,保证不发生变化。

3.4 用全局最优解替换本次迭代的最差解

为保证好的字符串不至于流失,每次遗传操作前记录本次迭代的最优解,若该解优于全局最优解则替换全局最优解,否则全局最优解保持不变。此次遗传操作后,用全局最优解替换本代的最差解。

4. 结语

采用改进的遗传算法,降低了问题的求解难度,提高了问题的求解效率。当使用传统的遗传算法在解决组卷问题上不能得到一个满意的结果的时候,应该考虑用改进的遗传算法对其进行改造。

参考文献

[1]尹柯等.随机选题算法的设计与实现.河南大学学报(自然科学版),2004,VOL34,(1).

[2]胡维华.多目标选题策略研究与应用[J].杭州电子工业学院学报,1999(2):36-41.

[3]王小平,曹立明.遗传算法——理论、应用与软件实现.西安交通大学出版社,2002.

[4]Holland J.Adaptation in Natural and Artificial Systems[M].AnnArbor:The University of Michigan Press,1975.

[5]程蕾.基于Agent技术的智能题库系统的研究与设计.浙江大学硕士学位论文,2003.3:41-46.

[6]闭应州等.基于矩阵编码的遗传算法及其在自动组卷中的应用[J].计算机工程,2003(7):73-75.

计算机辅助普通话水平测试评分细则 第2篇

附件:计算机辅助普通话水平测试评分细则(试行)

一、根据《普通话水平测试大纲》(教语用〔2003〕2号)及《计算机辅助普通话水平测试评分试行办法》,结合我省计算机辅助普通话水平测试实际,制定本细则。

二、读单音节字词、读多音节词语、朗读短文三项由国家语言文字工作部门认定的计算机辅助普通话水平测试系统评定分数。

三、命题说话项由测试员评定分数。

本测试项要求应试人按照选定的题目连续说话,3分钟内所说的所有音节均为评分依据。1.语音标准程度,共25分。分六档:

一档:没有语音错误,扣0分;错误1次、2次,扣1分;错误3次、4次,扣2分。二档:语音错误在5-7次之间,有方音但不明显,扣3分;语音错误8次、9次,有方音但不明显,扣4分。

三档:语音错误在5-7次之间,但方音明显,扣5分;语音错误8次、9次,但方音明显,扣6分。语音错误在10-15次之间,有方音但不明显,扣5分、6分。四档:语音错误在10-15次之间,方音比较明显,扣7分、8分。五档:语音错误在16-30次之间,方音明显,扣9分、10分、11分。六档:语音错误超过30次,方音重,扣12分、13分、14分。语音错误(包括同一音节反复出错),按出现次数累计。2.词汇、语法规范程度,共10分。

词汇、语法不规范指:使用了典型的方言词、典型的方言语法以及明显的病句。词汇、语法不规范,每出现1次,扣0.5分。最多扣4分。3.自然流畅程度,共5分。分三档: 一档:语言自然流畅,扣0分。

二档:语言基本流畅,口语化较差,类似背稿子。有所表现,扣0.5分;明显,扣1分。三档:语言不连贯,语调生硬。程度一般的,扣2分;严重的,扣3分。4.说话时间不足3分钟,视程度扣1-6分。缺时15秒以下,不扣分; 缺时16秒-30秒,扣1分; 缺时31秒-45秒,扣2分; 缺时46秒-1分钟,扣3分;

缺时1分01秒-1分30秒,扣4分; 缺时1分31秒-2分钟,扣5分; 缺时2分01秒-2分29秒,扣6分。

说话时间不足30秒(含30秒),本测试项成绩记为0分。5.离题、内容雷同,视程度扣4分、5分、6分。

“离题”是指应试人所说内容完全不符合或基本不符合规定的话题。完全离题,扣6分;基本离题,视程度扣4分、5分。

直接或变相使用《普通话水平测试纲要》中的60篇朗读短文,扣6分;其他内容雷同情况,视程度扣4分、5分。

本测试项可以重复扣分,但最多扣6分。6.无效话语,酌情扣1-6分。

“无效话语”是指测试员无法据此作出评分的内容。包括:①重复相同或大体相同的内容;②经常重复相同语句;③口头禅频密;④简单重复。

无效话语在三分之一以内,视程度扣1、2、3分;无效话语在三分之一以上,视程度扣4、5、6分。

有效话语不足30秒(含30秒),本测试项成绩记为0分。

计算机多媒体辅助测试系统的设计 第3篇

【关键词】计算机多媒体;测试系统;多媒体辅助教学

计算机多媒体辅助测试系统是通过对媒体信息进行合理地构建和集中,以至于达到学生的全面参与;还可以通过在课堂上进行考试的模拟,能使教师对待每一个学生都能做到公开与公正;它还可以依据学生的不同学习状况进行试卷的模仿与检测,以至于让教师能节省出题的时间,来和同学们沟通,最后达到优质的教学质量。

一、对计算机多媒体辅助测试系统的工具进行分析

计算机辅助测试系统和正常的测试系统是有区别的,它是在利用多媒体的同时,还要通过各种图形图像或者是声音与视频的加入,让整个氛围都变得有生机、有活力。而如果要完成一个较大的多媒体辅助测试系统,就必须要选择好的编程工具,才能创造良好的编程环境。计算机多媒体辅助测试系统的工具有普遍型的编程工具和特别型的编程工具。第一种,普遍型的编程工具。它的编程语言主要是大众化的高级语言,如Visual Basic、Java、C#、.Net、C/C++等进行编程,然后再利用WINDOWS的对象连接与嵌入来进行多媒体的成功展示。用这种方式进行编程的优点是普遍性、大众化,并且比较灵活,程序地调用也会非常快,但它的生产周期非常长,以至于难度也会非常的高。所以,在第一种的设计基础就设计出了特别型的编程工具。第二种,特别型的编程工具。它常用的工作软件有Authoware和现在非常流行的Toolbook等工具。这种方法对比第一种来讲,是高效的,也是一种非常简单而又常用的方法。但它的缺点就是不能编制较大的测试系统,只能对大多数较小的测试系统进行编制。

二、对多媒体辅助测试系统设计进行分析

(1)对系统设计的分析。计算机多媒体辅助测试系统必须具有良好的灵活性,才能对学生学习和考试的各种情况都形成自动化管理。所以,它就应该具有以下的功能特点:一是在系统中必须存储大批的检测题,并能进行自动化的选题和组卷,可供学生考试的备用;二是能对学生的不同学习状况进行不同的考试,以至于只需要教师的少量控制就能达到自动批阅;三是在考试时,必须对每个学生都达到公平、公正;四是必须对多媒体技术充分运用,以便加强学生的学习兴趣和学习态度;五是在批卷时必须对每个学生的成绩以及整个班级的平均分进行分析,以便能对结果进行打印并处理;六是系统中考试题的增删改查功能都必须简单,并且易于教师管理。根据计算机多媒体辅助测试系统的这些特点,以及对学生所产生的影响,就不难看出它的系统结构了,下面就对多媒体辅助测试系统的系统结构进行分析。(2)对结构设计的分析。在计算机多媒体辅助测试系统的结构中,至少存在两个模块,一个是控制模块,另一个就是功能模块。控制模块是用来对系统的安全进行维护的,在进入系统之前需要通过身份的验证。它是计算机多媒体辅助测试系统不可缺少的一部分。例如,在做系统时,管理员或者教师身份设为1;学生身份设为2。你在进入测试系统时,需要用户名、密码以及身份的验证,如果你是管理员身份,就必须输入1,你就可以进入任何的模块来进行控制;但如果你是学生身份,就必须输入2,才能进入系统,而且你只能进入查看的模块,然后进行答题,而不能进入修改模块。但教师不仅可以进入控制模块,还可以进入功能模块。在功能模块中大体上可以分为三种小的基本模块,第一种是试题模块,它是用来对试题的存储,以及增删改查功能的控制,这是只有管理员或者是老师才能进入的模块。第二种是检测模块,在这里边会有简单的工具栏或者是菜单栏,可供学生多向选择,让他们可以根据自己的学习状况选择出测试题的难易程度以及对题型的选择。比如,某学生的学习成绩在班级中一直都是名列前茅,那么他就应该在试题难度这一栏中选择较难的题,然后再进行测试;如果他是成绩超差的同学,就要选择简单的题进行测试。第三种是审查模块,它是通过学生答完的试卷来进行批阅、统计分析以及对成绩的打印。在这期间不需要教师的大量控制,测试系统自主地就会对这些进行处理,这就大大减少了教师的出卷和阅卷时间,同时也能提高教学质量。

计算机多媒体辅助测试系统在课堂上能通过图文声像的完美结合,来促进学生的学习兴趣,让学生能积极地配合教师,以至于成为课堂的主体,最后让教学质量有所提高。

参考文献

[1]赵拥华.关于计算机多媒体在教学中的应用的研究[J].电脑知识与技术.2009(9)

[2]杨丽娜.浅谈计算机多媒体在教学中的应用[J].科技资讯.2010(17)

[3]赵志坚.论多媒体课件在课堂教学中的作用[J].科技信息.2009(03)

计算机辅助英语口语测试的效度研究 第4篇

关键词:英语口语测试,计算机,效度

口语测试是语言教学和语言测试的一个重要构成部分。探讨如何科学、公正地测试学生的口头交际能力,以推动英语口语教学是高校英语教师必须面临的课题。要实施大规模英语口语测试,计算机辅助口语测试(Computerized Oral Proficiency Test简称COPT)成为必然的选择和新的发展方向。

一、计算机辅助口语测试(COPT)的发展状况

20世纪60年代,美国语言学家拉多(Lado)在《语言学测试》一书中详细介绍了结构主义测试的原则和实践。20世纪70年代初期,以海姆斯(Hymes)为代表的语言学家对结构主义观点提出了质疑,并在《论交际能力》中提出了交际能力(Communicative competence)这一崭新的概念。20世纪80年代,巴奇曼(Bachman)在《语言测试要略》中提出交际性测试原理。近年来,中国教师和语言测试研究者借鉴国外已有的研究成果,出版了《英语口语测试与教学》(文秋芳,1999)和《英语语言测试理论与操作》(邹申,1998)等测试研究专著,为自主研究英语口语测试提供理论帮助。在口语测试实践方面,国内许多学者进行了大学英语和英语专业的传统间接性口试(Indirect Oral Test简称IOT)、直接型口试(Oral Proficiency Interview简称OPI)、半直接型录音口试(Semi-Direct Oral Test简称SDOT)的研究(刘润清,1991)。随着计算机在英语教学中的应用,基于现代化手段的计算机辅助口语测试(COPT)激起了国内许多学者的关注和研究兴趣(文秋芳等,1999;邹申1998;蔡基刚,2005;金艳等,2002;熊敦礼等,2002;贾绍东、杨云升,2005),内容涉及到口语测试的题型研究、评分方法研究、测试方式研究、信度和效度研究等方面。

二、计算机辅助口语测试(COPT)的实施和优势

随着计算机技术的发展,学校采用了数字化语音教学的崭新平台,为计算机辅助英语口语测试的实现提供了技术保障。语言实验室目前已从传统的发展到了数字化的,我们可以明显看出计算机辅助口语考试的优势。数字化语言实验室一般都是采用硬件多媒体系统进行教学和测试,在音频和视频的传输及处理上进行了专门的优化,可以实现多媒体网络教学、语音分组讨论、数字化双轨录音、学生自主视频点播以及无纸化网络考试等专业化功能。数字化语音教学的出现必将给学校外语教学和考试带来崭新的变革。

根据大规模的英语口语考试的需要,计算机辅助口语测试将按照“命题考务安排考试批阅公布成绩”五大步骤的计算机辅助操作(张逸岗,2005),实现整个口语考试流程的计算机辅助操作以及模拟传统“面对面”对话进行口语考试。整个考试严格按照统一程序操作:核对学生身份,学生进入考试系统,调试设备,进行完录音朗读试听后,考试正式开始。在考试环节中,考试过程一键完成,将由计算机担当传统的面对面的考官角色。计算机作为模拟考官,向考生呈现文本或图片、视频等材料,提出问题,要求学生在规定的时间内作答,进行人机互动,完成整个考试的所有内容,然后,将学生口试录音内容打包上传。

三、计算机辅助口语测试(COPT)效度

口语测试是否有效度是指测试能否有效地测出考生的真实口语运用的能力。测试研究者一般认为,没有效度,空有信度毫无意义;没有信度,效度也不可能得到保证。应该承认效度的中心地位,但也不能贬低信度的重要性。口语测试让考生在测试中直接地表现出所需测试的语言能力,是一种产出性测试(productive testing)。一般而言,产出性技能的测试效度较高(杨惠中,1999)。口语测试又是一种主观型测试,对测试结果的评分需要评分人员的主观判断并受评分人员主观因素的影响,信度较差,从而影响其效度。本文将从表面效度和内容效度两个方面讨论计算机辅助口语测试具有高效度。

1. 表面效度(face validity)

表面效度是指一个测试至少要从表面上看来是合适的。效度不够是计算机辅助口语测试历来存在的一个问题。口语是一种交际性很强的语言能力,应该是互动的。作为口语测试,湖北经济学院大学英语口试已通过数字化保障它的公平性。我们以此为例,来讨论计算机辅助口语测试的表面效度问题。

大学英语口试的考试目标是测试考生的英语口头表达能力,包括朗读能力、对话能力、陈述能力、表达思想的能力和交际能力。计算机辅助大学英语口试是否将考生的口头表达能力较为准确地测量出来了呢?我们从以下几个方面加以检验。大学英语口试主要测试考生是否达到课程要求所规定的口头表达要求,能否运用所学语言知识和技能达到相应情景中的交际目的。大学英语口试在测试考生语言知识的同时也测试运用语言的熟练和流利程度。该口试不仅测试句子水平的能力,更要测试语篇水平上进行交际的能力。在测试语音体系的同时,更注重测试语言内容的表达能力,以及能否完成交际目的和任务。在计算机辅助大学英语口试中,朗读、人机对话、问答,故事或图片复述以及命题作文等题型,能全面考察到学生英语口语水平和交际能力,具有很高的表面效度。

计算机辅助口语测试能尽量避免搀杂听力因素,突出口语能力的测试。计算机考试中,除了统一录音、统一语速外,问题在屏幕上同时出现,进行提示,就能使考生明白要回答的问题、要谈论的题目,尽可能把对听力能力的要求降到了最低。在口语测试中,考生可以有几分钟打草稿、写提纲的准备时间;题目中配上直观、活泼、醒目的图画图表,可以启发学生思维和灵感;还可以利用屏幕,再现现实生活中的各种口语交流的真实情景(如邮局、机场等),使考生如同身临其境,扮演角色,模拟各种真实的交际活动。因此,计算机辅助口语测试有传统口试无法具有表面效度优势。

2. 内容效度(content validity)

内容效度包括两方面:内容的相关性和覆盖面。只有试卷内容能测试到各种相关的交际功能,而且这些功能具有足够的代表性,才具有较高的效度(蔡基刚,2005)。以英语专业四级考试为例,传统的英语专业四级口试考察描述、陈述、论说、争论、支持或反对等语言功能。由于出题只能依靠一张卡片,所以不能考其他的内容和功能。而采用计算机辅助口语测试后,就可以利用网络资源材料和形式(如表格、图片、动画、电影剪辑等),并利用电脑屏幕的视觉界面和音响效果而使题型变得丰富多彩。如可以试验听一段较浅易的材料,考学生的复述功能;或读一段浅易的文字,然后要其对内容归纳,考其概括的能力等;还可以看一段影视剪辑,然后要其发表看法,或赞成、或反对、或比较、或解释等等;或给予几幅照片,让其进行描述。计算机考试突破了直接型考试的限制,使得考试的形式更丰富,考试的功能更多,效度也随之提高。

在传统专业四级口试中,考官只能一次向一个考生提问,一个考生回答问题时,其他几个考生只能坐在旁边听。而现在的计算机辅助口语测试整个考试中,考试系统提一个问题,无论有多少考生都可以同时回答。这样,同样时间,问每个考生的问题就增加了。问题越多,考试效度也就越高。一场考试中问题越多,考生的机会就越多,偶然性因素就越少,能力的考察就越全面,样本的质量也就越高,效度也就越高。

总之,新的《大学英语课程教学要求》将大学生英语口语能力提高到一个新的高度。与传统的间接性口试(IOT)、直接型口试(OPI)相比,计算机辅助口语测试(COPT)能够公正、有效、合理的测试学生的英语口语能力,并且节省大量的人力、物力、财力和时间。计算机辅助口语测试顺应大学英语教育发展的新形势和新趋势,是适合我国高校教育实际需要的一种口语测试方法。

参考文献

[1]Bachman,L.F.Fundamental Considerations in Language Testing[M].上海:上海外语教育出版社,1999.

[2]刘润清.语言测试和它的方法[M].北京:外语教学与研究出版社,1991.

[3]文秋芳.英语口语测试与教学[M].上海:上海外语教育出版社,1999.

[4]邹申.英语语言测试——理论与操作[M].上海:上海外语教育出版社,1998.

计算机辅助语言测试 第5篇

一、关于测前准备

测试前,已为应试人留有10分钟的准备时间,准备内容即应试人该场测试的试卷。

二、关于音量

1.应试人测试时应保持中等音量(即两、三个人之间正常交谈时的音量),不宜过大或过小。

2.测试过程中,应试人的音量应保持一致。

三、关于语速

应试人测试时应根据测试内容的要求,保持适当的语速,要做到吐字清晰完整,速度稳当,从容不迫。

四、关于漏读

1.应试人应注意避免漏读,如有“漏读”,按字扣分。

2.第一、二项各行词语的颜色已设置成蓝黑相间,以便识别,应试人应不分颜色,逐行朗读,避免漏行。朗读短文时应注意语音清晰、语义连贯,防止添字、漏字、改字。

五、关于重复读

第一、二项测试时,应试人因个别字词读错而重复读,计算机评分时会自动识别,不会因为一个字的重读而影响整体评分。朗读短文时则不能出现重复读的情况,否则,计算机评分时将根据评分标准扣分。

六、关于第四题“命题说话”

1.“命题说话”测试项共提供了30个话题,应试人都应事先准备。2.测试时,应试人应注意屏幕下方的时间提示条,必须说满三分钟。说话时间每缺30秒,加扣3分;说话时间少于或等于30秒,说话项成绩计为0分。

3.如有背稿、离题、简单重复、反复纠错等现象,将按评分标准予以扣分。

七、关于对象感

测试过程中,部分应试人面对计算机可能会产生缺乏交流对象的不适感。应试人应调整心态,可假设一位交流对象与之进行交流,帮助克服这种不适感。

八、关于时间把握

1.测试时,应试人可留意屏幕下方的时间提示条,监控每题的用时状况。2.前三项测试的时间很充裕,每项测试结束后,应试人可点击右下方的“下一题”按钮,进入下一题测试。

九、关于环境影响

1.如果测试安排在常规教室,各个机位之间有4米左右的距离,应试人应集中注意力专注于测试,不要去注意其他情况。

2.计算机辅助普通话水平测试所选用的话筒具有较强的屏蔽功能,不会影响计算机评分。

十、关于系统操作

1.应试人应了解本注意事项及《计算机辅助普通话水平测试应试指南》。2.计算机已设定程序,操作简便,应试人只需按提示操作即可顺利完成测试。

3.测试时,应试人不要进行其他操作,不要拉扯各种连接线,以免影响测试。

十一、关于意外情况处理

测试过程中如遇问题,应举手示意,由工作人员来处理。

十二、关于《准考证》

计算机辅助语言测试 第6篇

关键词:计算机辅助普通话水平测试,管理,策略

1 计算机辅助普通话水平测试系统推广情况

计算机辅助普通话水平测试系统不仅能对考生的普通话进行智能评测, 还能对考试现场和测试流程以信息化的方式管理, 实现了国家普通话水平等级考试报名、测试和管理的全程信息化, 该系统主要包括国家普通话水平智能测试系统和国家普通话水平测试信息管理系统和两个部分。前者基于国家普通话水平测试大纲, 能准确地对命题说话之外的测试题型实现自动评测, 而且系统提供的测试管理功能, 帮助测试站组织测试, 提高测试效率, 主要供测试站操作人员和考生使用。后者实现的是普通话水平测试全过程的信息化管理, 可以进行考生报名、测试员打分、成绩管理、数据管理等一系列操作, 该系统部署在远程WEB服务器上, 相关人员登录网页, 在线完成相应的操作, 主要供省中心管理人员、测试站管理人员和测试员使用, 并支持考生在线报名和查询成绩。

目前, 全国共有十九个省市启用计算机辅助普通话水平测试系统, 测试人数近200万。重庆市于2007年10月正式启用计算机辅助普通话水平测试系统, 成为全国第三个启用该系统的省市。在启用初期, 本着大胆推进, 小心求证的原则, 我们进行了大量的人机评测对比实验。通过分析, 我们认为:计算机辅助普通话水平测试结果客观公正, 可信度高, 与人测结果在总分和等级方面均取得了高度一致;极大地降低了测试员和工作人员的劳动强度, 提高了工作效率;规范和减化了管理程序, 测前报名组织、测中监督调控、测后数据整理、考生成绩查询等功能都能在系统中轻松实现。截止2009年12月31日, 重庆市共建立智能测试站7个, 测试人数14000余人。

智能化的计算机辅助普通话测试取代传统的人工测试, 是普通话测试发展的必然趋势。重庆市也提出了在2010年普及计算机辅助普通话测试的目标。在推广计算机辅助普通话测试的过程中, 我们要以先进技术为依托, 以基层测试站为主体, 以高素质测试员队伍为后盾, 抓住细节, 规范操作, 科学管理, 有计划、有步骤地实现普通话测试方式的平稳转变和管理方式的平稳过渡。

省中心 (省市级普通话测试主管部门) 在整个过渡时期和智能测试推进过程中起主导作用, 省中心的管理策略, 直接关系到智能测试的进程和规范。本文主要讨论省中心在测试管理中要注意的问题。

2 优化计算机辅助普通话水平测试管理的策略

2.1 完善省中心和测试站两级管理模式, 明确双方职责。

普通话测试的组织和管理应严格执行《计算机辅助普通话水平测试规程》 (试行) 。基层测试站负责新建测试任务、组织报名、采集照片、现场测试和数据上传;省中心负责打分和复审任务的分发、证书打印、测试站管理、测试员管理和测试数据分类统计等工作。测试站只对省中心负责, 避免测试工作的多头领导;省中心根据各测试站的实际情况, 进行权限设置, 下放部分权限到基层测试站。

2.2 规范基层测试站工作。

基层测试站是普通话测试的实施机构, 是普通话测试的主体, 基层测试站的工作质量直接关系到测试的进展。

基层测试站必须达到硬件和软件的相关条件, 在硬件上必须有专用场地、专用设备和专用网络通道, 软件上必须有专门机构、专人管理、严格的规章制度以及一定的年测试量。

统一测试站建站标准:专用测试室应为2平方米 (单机版机器之间间隔2米) 以上独立房间并具有隔音效果;测试室门应为全幅透明或留有半幅透明的窗口, 桌椅的放置应保证考生侧对透明窗口;专用测试室应留有摄像监控线路和监控通话线路;监考机和网络版考试机上应安装多媒体教学软件, 便于监视考试机界面和监听考生答题情况;考试试卷应由省中心统一打印塑封, 保证试卷的保密性、规范性和一致性。

严格控制测试环境:测试当日测试站没有大型活动, 测试室内铃声和广播处于关闭状态, 保证测试环境相对安静, 没有噪声干扰。测试过程中出现异常数据应及时安排重测, 不允许测试站上传异常数据, 以督促各站加强管理、规范操作。

建立技术互助团队:促成测试站的对口帮扶关系, 加强各测试站之间的交流学习。出现问题, 先求助于对口测试站, 无法解决再上报省中心, 培训各测试站自己解决问题的能力, 促进测试站业务水平的提高。省中心应组织专家技术人员队伍, 定期监督和指导测试站的建设。

2.3 加强基层测试站操作人员的培训和管理。

这是保证基层测试站测试工作规范化和正常化的重要基础。操作人员必须熟练进行测试软件安装、具体测试操作、测试系统维护和常见故障排除等多项工作, 并能大胆尝试, 积极创新, 优化测试工作, 进行测试工作的相关研究。

测试前, 操作人员要关闭计算机屏保模式、杀毒程序, 停用外网, 检查录音机功能是否正常, 将主音量调至适中, 麦克风音量调至最大, 保证声音数据的正常录入。测试中, 加强巡视和现场指导, 协助考生正确计算机。测试后2个工作日内及时上传数据, 以保证测试后期数据处理的正常进行, 如实填写并定期上交《测试室情况记录表》。

常规工作还包括定期检测软硬件, 尤其是检测网络环境 (包括内网和外网) 、耳机等重要因素;主动了解计算机辅助普通话水平测试研究的新成果, 及时更新测试系统;接受专家技术队伍的监督和指导。

2.4 加强对测试员的培训和管理。

普通话测试的前三项由智能测试系统自动评定, 但第四项仍由测试员人工打分。普通话水平智能测试能否客观公正地顺利进行, 在很大程度上取决于第四项评分是否客观公正。所以, 加强对测试员的培训, 建立一支高素质的测试员队伍犹为重要。

加强对测试员的培训:第四项打分应严格执行教育部、国家语委发教语用[2003]2号文件《普通话水平测试大纲》“命题说话”测试项的评分标准。在测试员集中培训课上, 要普及计算机辅助普通话水平测试相关知识, 培训打分流程, 统一打分尺度, 引导测试员尽快适应在没有前三题语音参照的情况下为第四题打分, 保证测试结果的公正性。

建立测试员分级管理机制:将培训考核合格的测试员分为核心测试员和一般测试员两级, 按季度统计测试员工作总量, 公布测试员有效测试量, 帮助测试员及时调整评分尺度。对于优秀测试员进行表彰;对有效测试量低于一定比例的测试员进行再培训, 考核合格方可再次上岗。

2.5 完善测试的相关制度。

本着坚持国家语言文字方针, 尊重测试自身规律的原则, 基于《计算机辅助普通话水平测试规程》 (试行) , 结合本地测试实际, 制定覆盖测试的各个环节的相关制度和方案。规范计算机辅助普通话水平测试实施和管理的各个环节, 使参与计算机辅助普通话水平测试工作的各方人员职责明确、方法明确、技术指导人明确。最终实现测试操作规范一致, 管理科学严密, 结果客观公正, 达到测试过程规范化, 测试评分智能化, 测试管理网络化。

2.6 开展基于计算机辅助普通话水平测试的科学研究。

计算机辅助普通话水平测试系统的启用, 是测试方式的一次根本变革, 同时也是工作理念和管理方式的革新。它拓展了普通话测试科学研究的探索领域, 为普通话测试研究提供了新方法、新材料和新内容。致力于评测结果的客观公正, 可以开展前三项测试系统打分精准度研究、第四项评分标准的制定和实施专题研究;致力于测试操作和管理的优质高效, 可以开展测试程序和管理模式的优化研究;基于新旧评测方式的交替, 可以探讨测试员队伍建设和转型、智能测试管理与人工测试管理的平稳过渡和平稳对接;针对系统推广的主要障碍, 可以开展城乡统筹背景下, 推进计算机辅助普通话水平测试普及进程的策略研究;运用计算机辅助普通话水平测试提供海量语音数据, 可以进行的语音研究、语言研究、心理研究和文化风俗研究等等。

3 结语

计算机辅助普通话水平等级考试系统的应用, 是普通话测试方式的历史性飞跃。我们应以推进计算机辅助普通话水平测试为契机, 规范测试站的建设, 统一测试站的操作, 加强对测试站的监管力度, 推动测试员队伍的优化建设, 提高普通话评测的一致性, 打造考生、测试员、测试站三位一体的立体信息管理平台, 最大限度维护普通话水平等级考试的严肃性、权威性和公正性, 为推动本地普通话测试工作健康有序地持续发展作出新的贡献。

参考文献

[1]内部资料《国家普通话水平智能测试系统操作手册》 (简易版) .

[2]国家语委普通话培训测试中心.计算机辅助普通话水平测试业务研讨和质量分析会会议材料.2008.

[3]内部资料《计算机辅助普通话水平测试规程》 (试行) .

[4]佟乐泉.不断提高普通话水平测试的科学水平[J].语言文字应用, 1997 (3) .

计算机辅助语言测试 第7篇

关键词:计算机辅助,普通话,水平测试,社会评估

一引言

普通话水平测试工作开展20 年来,取得了巨大的成就。全国已有5000 万左右人次参加了普通话水平测试,目前每年的测试规模达500 万,普通话水平测试工作已经逐步走上制度化、规范化、科学化的轨道。传统的普通话水平测试,其组织、信息采集、评测等基本上都依靠人工来进行,测试成本高、耗费大,不但导致组织工作难,而且社会对测试结果的公正性也有一定程度的质疑。

近年来,随着计算机技术的迅猛发展及其广泛应用和普及,有关计算机在语言测试中的应用倍受关注,但在得到肯定的同时,质疑和反对的声音也不少。对此,我们着手对计算机技术优势在普通话水平测试中的实践效果进行社会评估分析,一方面便于掌握新的测试方式在实践中的动态实施情况,另一方面也让我们认识这一新的测试方式在实践中所体现出的对测试的实际促进和革命作用,以提高人们对现代信息技术在促进语言测试以及教学、测量等诸多方面的根本变革的认同。

所谓计算机辅助普通话水平测试,是相对于传统的普通话水平测试而言的。传统的普通话水平测试,是测试员直接面对应试人,由测试员通过现场听音的方式进行评分,这种测试方式称为“人测”; 计算机辅助普通话水平测试,指的是计算机作为一种测试手段参与到普通话水平测试中,利用智能测试系统,计算机自动完成对有文字凭借的前三题的测评,而对于无文字凭借的“说话”测试项,则由信息管理系统分配给测试员进行评分,然后管理系统自动将计算机测评的前三题的分数和测试员评判的第四题的分数相加,计算出考生的测试总成绩,并评定出相应等级,这种测试方式简称为“机辅测试”。

2006 年12 月,教育部语用司正式发函,同意上海市和安徽省从2007 年1 月1 日起进行机辅测试试点,2007 年国家语委正式推广应用计算机智能测试系统和信息管理系统。从传统的人测方式向体现现代信息技术的机辅测试方式的转变,必然会引起应试人应试心理和测试员评分心理的变化,也会引起测试管理者行为方式的改变,这种新的测试方式所引起的变化,涉及面是广泛的。

本课题力图从社会评估的角度,通过对测试管理、测试质量、测试信度、测试成本等方面所体现的社会认可程度( 含测试管理者、测试员、各类应试人) ,包括推进机辅测试工作中存在的问题等方面的调查,全面审视我国近几年来机辅测试工作的科学性、规范化、可行性,以促进机辅测试工作的健康、有序、持续发展。

二调查内容、对象、方法

( 一) 主要调查内容

本次调查的主要内容包括: 应试人对计算机技术在语言测试中的应用的认识、机辅测试中应试人应试心理、对机辅测试管理方面的社会评价、对机辅测试质量方面的社会评价、对机辅测试信度的社会评价以及对机辅测试成本方面的社会评价。

( 二) 调查对象

调查样本按照典型性、代表性原则,涵盖了当前普通话水平测试领域的主要群体。一是受测群体: 播音员、节目主持人,各级各类教师,党政机关公务员,在校大学生、中职学生,其他( 服务行业从业人员等) 。二是管理群体: 巡考员、测试员、测试管理人员。

受测群体选自华东师范大学、上海大学、上海立信会计学院、上海师范大学、上海农林职业技术学院、上海海洋大学、上海第二工业大学、杨浦区、松江区、浦东新区、奉贤区、宝山区、闵行区等13 个高校、区县测试站以及上海市语言文字水平测试中心考点的应试人员,涵盖了全市各区域的人群。管理群体选自在上海市语言文字水平测试中心注册在编的国家级普通话水平测试员、省级普通话水平测试员、省级语言文字测试巡考员,以及参与测试管理的各单位业务干部和工作人员。

为充分反映机辅测试的社会评估状况,对受测群体,根据各部分对象的年测试总量,按比例选取样本; 对管理群体,根据各对象的实际人数,按比例选取样本。

( 三) 调查的主要方法

1.问卷调查。设计40个调查题目,采用无记名方式填写。共发放问卷7000份,收回有效问卷6546份,有效问卷的回收率为93.5%。

2.个别访谈。对不同应试人群的访谈。

调查时间为2010年12月。

三统计与分析

( 一) 机辅测试已具备良好的社会认知度

课题组对接受调查的6546 份有效问卷进行的统计显示,随着计算机技术在社会生活中的广泛运用,人们普遍认识到计算机技术对我国社会政治、经济、文化发展,以及对于个人工作、生活的积极意义。机辅测试这一新的测试方式已具有良好的社会接受度。这是机辅测试得以顺利推进的良好社会基础( 见表2、3)

从表2、3 可以看出,无论是否参加过测试,各类应试人群对机辅测试的选择远远高于人测,倾向率近80% 。特别是接受过机辅测试和人测的这部分人群,通过自身对两种测试方式的比较,有94. 6% 的人表示自己更愿意选择机辅测试,机辅测试的优越性可见一斑。从表3也可看出,年轻人对于新技术的接受度高于其他年龄段,在校大学生、中职学生愿意选择机辅测试的达到96. 3% ,而上海目前的应试群体中,在校大学生、中职学生占90% 。其他应试人员( 指自愿参加测试的人员) 是上海第二大应试群体,对机辅测试的接受度也达到83. 1% ,可见,机辅测试的实施符合社会的需求。

( 二) 机辅测试已具有良好的应试人心理适应度

心理适应度是反映应试人面对机辅测试这一新的测试方式,在心理上产生变化的原因及其表现,它与应试人的认同意识直接相关。认同意识是体现应试人对新测试方式接受度的一个基本因素,而这种认同意识就是检测心理适应度的重要指标。随着计算机技术的发展,以及机辅测试方式的宣传和普及推广,应试人对机辅测试的心理适应度良好( 见表4、5) 。

从表4、5 可以看出,尽管有些受测者对计算机指令提示、计算机话筒音量大小,以及计算机教室测试环境下多人同时应试的影响等,还存在一些不适,有着一定的紧张情绪( 4. 7% ) ,但受测者对机辅测试方式的心理适应度良好,其中有97. 5% 的受测者认为能很好地适应普通话机辅测试,有93. 7% 的受测者认为机辅测试反映了自己的真实水平。

( 三) 机辅测试管理已呈现科学性、规范性方面的优势

普通话水平测试至今,各地测试机构严格执行国家有关开展普通话水平测试的规章、制度和要求,扎扎实实地开展各项工作,始终坚持以质量为生命线,强调科学管理、优质服务、规范操作,取得了明显的工作成效,也得到了社会各界的高度认可。相对于有20 年历史的传统普通话测试方式,机辅测试的试点和推进时间相对“年轻”。可喜的是,这一新的测试方式以其测试手段的科学、规范、可操作,取得了后来居上的优势。课题组选取人测、机辅测试均参加过的695 份有效样本进行了统计,相关数据见表6。

由表6 可知,测试程序管理的科学合理、测试场地管理的合理有序方面机辅测试分别高出人测8. 4% 和5. 9% 。在测试管理制度与规定方面,92. 6% 的人认为机辅测试已经达到了人测的管理水平,6. 4% 的人给予机辅测试“更科学合理”的评价。

( 四) 机辅测试质量获得社会广泛认可

机辅测试试点以来,测试机构严格执行国家有关开展机辅测试试点的要求,在测试质量、科学性、公正性等方面都得到了社会的高度肯定( 见表7、8) 。

表7 调查数据表明,社会对机辅测试中的计算机评分和人工说话评分质量是高度认可的。机辅测试以其测试环境更优化、测试程序更简便、测试评分更客观而使其相较人测更受欢迎。其测试质量科学合理更为社会接受。调查认为机辅测试相对人测更能体现客观公正性的,达95% 。调查发现,对于普通话水平测试前三项有文字凭借的部分,利用计算机进行评测,社会接受度很高,有96% 的人认为比人测更科学,而对于没有文字凭借的第四部分说话项的测试,显然更倾向于人测,认为计算机技术目前尚未达到这个水平。

相关的研究数据也表明,机辅测试具备了较高的信度。根据《计算机辅助普通话水平测试( 试行) 信度评估》( 叶军,2010) 以及《计算机智能评测系统可行性研究报告》( 上海市语言文字水平测试中心课题) 的研究数据表明: 计算机在各对照组中表现均非常出色。与一般测试员相比,计算机打分误差最小,与均值的吻合度排名第一; 与包括一般测试员和精英测试员的所有测试员相比,计算机打分误差极小,与均值的吻合度名列前茅( 排名第二) ; 与精英测试员相比,计算机打分误差很小,与均值的吻合度排名第五,高于精英测试员的平均水平。可见,计算机打分至少可以达到一名优秀测试员的打分水平。计算机打分准确,稳定,完全可以信赖,详见图1、2、3,平均误差单位为分。

课题组对人测和机辅测试的投诉率作了统计( 见表8) 。调查显示,基层测试站收到的年投诉率从人测时期的0. 3%降到机辅测试之后的0. 02%,下降幅度达93. 3%; 省中心考点则由0. 2%降到0. 005% ,下降幅度达97. 5% ,充分显示了机辅测试的科学性和质量的可靠性、稳定性。

( 五) 机辅测试成本显著降低

传统的测试方式,类似于劳动密集型企业管理,测试场地大,工作人员多,时间跨度长,而工作效率低。就是上海这样一个地域相对集中的地区,在崇明组织一次500 人规模的测试,人工评测的流程复杂,还必须考虑气候影响,提前一天安排近75 名测试员、领考员等相关工作人员在海岛上住一宿,包车、用餐、考场检查等测试的经费成本、时间成本、管理成本较高。机辅测试方式的实施,解决了时空上的局限性。就测试时间而言,改变了过去一天只能安排2 ~ 3个考点测试的情况; 就空间而言,测试员可以在家里进行说话项的评判,评测时间掌握在测试员自己手里。课题组对省中心考点、杨浦区等13 个测试站以一场500 人的测试成本做了调查统计,综合数据见表9。

从表9 可以得知,机辅测试的成本大大降低,其中经费成本降低至55. 9% ,时间成本平均降低至85. 4% ,而管理效率提高了80% 。

四问题与建议

尽管从调查数据的统计分析中我们看到社会对机辅测试持肯定态度的占绝大多数,但有些数据反映了对机辅测试某些问题的看法和意见,这些问题虽然所占比重不大,但也应引起我们足够的重视。

从调查数据所反映的情况和问题来看,我们认为今后要在以下几个方面加强和改进。

( 一) 宣传缺失,建议加大对机辅测试相关知识的宣传普及

机辅测试“测试意向”情况调查1( 表2) 相关数据表明,尽管机辅测试相对人测的社会接受度优势显著,但在四类人群“测试意向”反馈中,差异表现明显。其中,“未接受过测试的”和“接受过机辅测试和人测的”两类人群选择机辅测试的比例差异高达32% 。说明越是了解机辅测试相关知识的,机辅测试的选择率越高。

机辅测试“测试意向”情况调查2( 表3) 显示,对于自身语音比较好的应试人群,播音员主持人、测试员对机辅测试的选择只有52. 3% 和78. 9% ,通过访谈得知,播音员主持人平时经常面对观众,所以对于面对面的评测并不会感到紧张,反而会觉得有一种交流感,同时,这部分人群对机辅测试还存在一定的疑虑,担心通过机器传递给测试员的声音会有一定的影响。测试员都是从人测开始评分的,对于人工测试比较有感情,同时对于自己的评判比较有自信,对机辅测试的原理不是非常清楚。而有一定年龄的教师、公务员对于新技术的接受度明显低于年轻的学生,访谈中提到他们因为对新技术的不熟悉而可能会选择传统方式。

为此,课题组认为,机辅测试相关知识的宣传普及,是提高普通话水平测试作为国家考试公信力的重要途径,也是增加测试工作的透明度,保障应试人知情权、参与权、表达权、监督权的重要举措,各测试机构应把机辅测试相关知识的普及宣传定位为推进机辅测试工作科学发展的基础性工程。

首先,要树立宣传就是影响力的理念。其实测试机构和社会上广大应试人一样,都需要一个普及宣传的平台,以建立来自社会的认同感。普及宣传工作的好与坏,直接影响着机辅测试在应试人心中的地位和形象。机辅测试推进中,我们可以通过测试专业网站、单位和学校的日常宣传和测前培训,将机辅测试的科学性、可行性及其信度、效度以及规范程序、制度规章、操作办法等一一公开告知,做到普及宣传的全覆盖。这就等于在测试机构与应试人之间架设了桥梁,使社会可以最大程度地给予机辅测试关注、理解、支持和参与。

其次,要造好势。可以通过群体调查、个别随访等形式,把机辅测试的客观优势告知社会,以便获得舆论的支持,所有的应试人都乐意接受( 如表2“接受过机辅测试和人测的”中反映的高接受率) ,自然会使我们赢得社会的支持优势,同样也会给测试机构推进机辅测试带来正面的促进效果。

( 二) 执行不严,建议加强对机辅测试环境建设的规范管理

受测者对影响机辅测试成绩的担忧程度( 表5) 调查数据中表明,尽管测试机构重视机辅测试环境建设规范,并基本认可机辅测试环境,但我们还是能够看到,有些测试机构为了满足庞大的测试量,而放宽了机辅测试对环境建设的要求。有些受测者对于计算机指令提示、计算机话筒音量大小以及计算机教室测试环境下多人同时应试的影响等方面,还存在一些不适,其中,有5% 的人认为“机房里与其他考生的距离过近影响我测试”,1. 7% 的人认为“在测试中,我常常担心会出现设备故障影响我的成绩”,0. 7% 的人认为“在测试时,我担心自己的音量大小会影响我的测试成绩”。为此,测试机构还要加强管理,完善制度,确保机辅测试环境建设达到规范标准,只有这样,才能确保国家考试的严肃性,并切实维护好国家考试的信誉。

为满足不同的测试环境和使用条件,机辅测试设有网络版和单机版两种测试方式,对于网络、计算机硬件以及应试人间隔距离等有规范标准。对此,各测试机构应制订相应的机辅测试环境建设规范。比如,上海市语言文字水平测试中心就制订了《计算机辅助普通话水平测试考区设置要求》《普通话水平测试计算机、网络设置要求》《计算机辅助普通话水平测试准备工作验收项目与要求》《普通话水平测试机辅测试设备标志粘贴登记表》等规范与规定,经过实践,应试人反馈情况良好。

( 三) 管理弱化,建议加强对机辅测试说话项评分的质量管理

机辅测试对于测试员评分的管理有所减弱,人测时,测试机构在现场全程监控,而机辅测试说话项评分因测试员是在网络条件下进行的个体分散性评分,缺少了前三项评分的基础,对直接评测第四项带来一定的难度,因此,加强机辅测试说话项评分培训及质量监控管理十分重要。在对测试管理机构测试评分情况调查中得知,2009 年测试员评分差异显著的( 测试员之间差异达3 分以上) 占25% ,可见机辅测试下说话项评分的不稳定性相对人测明显偏高。

上海自2010 年初开始建立了“测试员基本技能培训与考核系统”“测试评分质量监控系统”,通过“测试员基本技能培训与考核系统”,测试员实现自我培训与考核,能更好地适应说话项的评测; 通过“测试评分质量监控系统”,测试员能得到每次评分的质量反馈,并对自己的评分状态及时做出调整。2010 年测试员的评分差异超过3 分的占9. 5% ,评分监控管理效果明显,确保了评分的高质量。

由表8 可以看到,应试人面对“如果测试成绩不满意,您会提出异议”,95. 1% 的人表示会对人测提出异议,只有4. 9% 的人表示会对机辅测试提出异议。这与测试机构强化对机辅测试说话项的培训以及评分的质量监控管理是分不开的。因此,课题组认为,测试机构一是要建立测试员网上模拟评分训练平台,并定期进行评分考核; 二是应建立质量监控管理制度,使测试员了解自己的评分情况,确保机辅测试说话项评分质量的科学、稳定。

( 四) 地区差异,建议加强机辅测试模式组织管理的科学研究

我国幅员辽阔,地区间的经济、观念以及测试基础差异性大。正因为这样,鉴于普通话水平测试等级证书全国通用的现实,国家要求各地采用机辅测试,以利于全国各地测试质量相对一致,也便于国家的统一管理和评估。目前,全国各省已全部开始试点机辅测试,参测人员已达1500 万人。2010 年6 月9 日教育部副部长、国家语委主任李卫红在全国普通话培训测试信息化工作会议上指出,“要在实践中继续探索、研究和发展计算机辅助测试模式,不断提升测试手段的现代化、科学化水平”,同时强调,要坚持“科学、规范、积极、稳妥”的原则,有序推进机辅测试试点。因此,课题组认为,面对机辅测试全面推进的大好形势,国家应加大推进机辅测试的科学研究与管理。

1. 测试模式多样性研究。以上海为例,上海有81 个测试站,其中17 个测试站建有独立的专用测试室; 14 个测试站( 测试量在1000 人以下) 由上海市语言文字水平测试中心提供单机版组织测试; 14 个测试站借用临近区域测试站的专用测试室组织测试; 其他36 个测试站均在本校的计算机房组织测试。调查数据统计分析显示,应试人更希望在独立的测试室进行测试,认为“在机房里与其他考生的距离过近影响我测试”,但是,建设一个专用测试室的成本比较高,一间测试室( 1 个机位) 投入在2 万元左右。因此,课题组认为,应客观正视各省市的地区差异性,站在科学发展观的角度,允许机辅测试模式的多样性。具体来说,就是在确保机辅测试质量的前提下,指导或引导发达地区在测试硬件等方面投入大一点,标准高一点; 西部等一些暂时欠发达地区,比如在测试硬件方面,可使用兼容测试室和单机版测试,以后根据条件发展,再循序渐进,逐步提高硬件建设水平。

2. 测试组织管理的研究。目前,各地都制定了机辅测试的相关规章制度,但是各地的标准、要求有所差异。国家现行的《普通话水平测试管理规定》《普通话水平测试规程》均只适合人测条件下的组织管理,机辅测试已开展8 年,国家可以根据各地实际情况,制定适合机辅测试的管理规定、测试规程、测试评分细则等,使各地在不同模式下有章可循,严格按照国家标准,规范有序地推进机辅测试,只有这样,才能真正实现机辅测试的科学、健康、可持续发展。

参考文献

[1]普通话水平测试大纲[S].北京:商务印书馆,2004.

[2]姚喜双.推普工作的重要抓手——谈依法推进的普通话水平测试[J].语言文字应用,2010,(3).

[3]叶军.计算机辅助普通话水平测试(试行)信度评估[A].语言文字水平测试研究[C].上海:上海立信会计出版社,2010.

[4]李卫红.加快推进普通话培训测试的信息化建设和资源建设,努力开创新时期新阶段普通话推广工作新局面[J].语言文字应用,2011,(2).

浅谈计算机辅助语言的学习展望 第8篇

1 计算机辅助语言的基本介绍

计算机辅助语言学习(Computer Assisted Language Learning简称CALL),顾名思义,是建立在计算机技术上的一门学习语言。它应用于语言教学始于20世纪60年代,其发展经历了行为模式、交际模式、整合模式三个阶段。CALL在其发展的每个阶段都有相应的技术和教学方法。利用计算机辅助语言自主学习,能够很好地将网络上一些垃圾信息进行过滤,提高了信息的利用率,避免了时间浪费。且计算机的互联网技术本身就是一个交流小组,学生可以通过互联网进行网上交流讨论学习,这样一来更是方便了学生对于知识点的深入理解,开拓了学生的视野,有利于提高学生的学习兴趣。

2 我国计算机辅助语言的发展现状

2.1 教师教学中对于计算机使用的盲区大

计算机辅助语言在中国的发展起步相对较晚,对于年纪稍大的老师而言,他们对于计算机的接受能力较差,不能够熟练掌握计算机的使用方法,这样阻碍了计算机辅助语言的学习优势的发挥,学生也无法感受到计算机辅助语言学习的魅力所在。而且其中所涉及的一些软件更新、硬件修复等问题是计算机专业知识不够丰富的人所不能解决的,这样就导致教师无法利用到计算机的优点。

2.2 计算机技术的落后

中国计算机科学技术一直是在不断学习国外,技术也不是特别成熟,教育教学软件也不如国外那些软件方便。例如现今为大家所熟用的办公教学软件,Word(文字处理)、Excel(试算表)、Access(桌面数据库)、Power Point(幻灯片制作)、Outlook(个人邮件和日程管理)等均起源于国外。尽管这些软件已经被中国大部分人所接受,但是毕竟不是自己设计的软件,无论是使用习惯还是文化习俗上都存在着较大差异。如果我们不能设计出适合中国学生学习的计算机软件,很难将我国的传统文化延续下去。

2.3 学校经济条件的差距

目前,我国一些地区的经济条件较差,学校无法实现多媒体教育,更谈不上学生能够使用计算机辅助语言进行学习。许多乡村贫困县的学生甚至连计算机都没有见过,更不用谈使用计算机了。

3 提高计算机辅助语言学习的策略

3.1 教师自身教学方案改变

教师要转变思想、树立现代教育理念、尽快转变角色。计算机辅助语言教学的发展不仅是计算机等现代化技术、设备的投入,与之相适应的教师的教学指导思想、教学方法和教学设计等方面的改革也要深入。教师要从单纯的知识传授者、灌输者转变为学生主动建构意义的引导者、促进者、协作者和课堂管理者等多元角色于一身的教育者。并以此作为自己的教学指导思想,在传授知识的同时培养学生各种能力、调动学生积极性,同时转变教学模式、教学方法和教学设计。

3.2 多媒体教学的应用

教师应该脚踏实地侧重语言教学研究,同时也要找准计算机技术与外语教学的结合点、切入点和使用时机,所以教师的整合能力显得尤为重要。要从理论上让教师明白信息技术与课程整合不是把信息技术仅仅作为辅助教或辅助学的工具,而是要利用信息技术营造一种新型的教学环境,对教育资源进行最优化利用,之后在这种理念的指导下来进行自己的教学,才能将信息技术的优势充分展现出来。

3.3 普及计算机知识

计算机知识的普及要从小学生抓起,从小进行一定的计算机基础知识和基本操作的教育。技术的缺乏可以通过必要的基础培训来解决。许多学生之前接受了很长时间的传统教育,突然面对计算机、面对新的教学风格和学习方法还有大量的信息,他们不知如何去学习,不能适应教师的教学方法和教学模式,甚至产生抵触心理。这种想法的出现是因为他们还没有适应以学生为中心的教学方法,还没有接受自主学习、协作学习和探索性学习等学习理念。

计算机科学技术的发展为计算机辅助语言开辟一条宽敞大道,更为学生提供一种特别的学习方式。在计算机辅助语言学习所营造的氛围中,学生有了更大的学习兴趣。但是计算机辅助语言学习也不是尽善尽美,这种学习方式并不适合所有学生。教师应该尽可能最大程度地发挥计算机辅助语言的优势,真正地让学生感受到计算机辅助语言学习的好处。

摘要:随着电子信息技术的不断完善和成熟,使得计算机辅助语言正逐步成为学生日常学习生活中不可或缺的交流工具。计算机辅助语言不仅方便学生的学习与交流,更能够培养学生的自主学习能力。

关键词:计算机辅助语言,自主学习,多媒体学习

参考文献

[1]顾佩娅.计算机辅助语言教学理论与实践[M].上海:复旦大学出版社,2006.

[2]李宝鸿.计算机辅助语言教学现状与前瞻[J].西安外国语学院学报,2002,(1):102—104.

计算机辅助语言测试 第9篇

关键词:高等学校,计算机辅助,普通话,测试

计算机辅助普通话不平测试 (以下简称机辅测试) 就是以计算机普通话测试系统代替传统的人工测试方式对被测的普通话水平进行更为客观, 准确的评价, 定级。

一、机辅测试中存在的主要问题

1、测试环境不达标准

在高校开展机辅测试已有几年, 但有些高校因各方面重视程度不够, 还没有建立专用的语音测试室, 一般机辅测试时都会采用学校的机房作为测试室, 同时各高校的软硬件设施不同, 机房的大小、机器的配置都有很大差距, 多种因素都会使测试效果达不到要求, 同时给评分的准确度带来一定的不确定因素。

2、测试人员对测评系统熟练程度不够

现在的机辅测试统一使用《国家普通话不平测试信息管理系统》, 虽然使用该系统已有一段时间, 但部分测试人员并不能熟练掌握或使用测试系统, 特别是对一些年龄较大的测试人员, 本来对计算机的使用就不是很熟练, 再加上一些系统的操作, 就更加难以掌控。

3、评测人员的打分结果差异较大

采取机辅测试后, 前三题的打分由计算机来完成, 这大大提高了评测速度, 也给评测人员省去了许多时间, 但第四题命题说话部分的打分, 还是由人工听录音进行打分, 此部分在传统改为机测后, 在评分项上更加细化了, 在原有的三大项评分标准细化为七项评分标准, 这给评测增加了难度, 也对评测人员对打分标准的掌握要求更高了, 部分测试人员对新细化的评分项并不能够很好的掌握, 所以时常会出现打分不符合要求的现象。

4、大部分考生不懂得操作规程

从传统的测试模式转变为机辅测试后, 对于学生来说应该是一个新鲜事物, 虽然他们对计算机并不陌生, 但对测试中计算机是如何来界定发音标准程度、怎样掌握应该技巧等问题上, 大部分考生都不太了解, 从而出现了在传统测试中可以达到二级甲等的同学, 在机辅测试中却只能达到二级乙等的情况出现。这不仅达不到应有的测试效果, 也不利于机辅测试的发展。

5、测试人员的责任心有待加强

开展机辅测试后, 评测人员一般只对第四项听录音进行打分, 同时只需登陆互联网进入评测系统就可以直接进行打分, 给评测人员带来了极大的方便, 同时也就会产生一些不负责任的现象出现, 有些评测人员不仔细听录音, 只是凭着感觉进行打分, 这也就失去了测评的公平性。

6、普通话测试方面的规章制度建立不够完善

有部分高校成立了测试站或语委办, 一般院校都挂靠在教务处等部门, 采用兼职人员来分管此项工作, 对于此项工作还没有进行系统的管理, 也没建立相应的规章管理制度, 很难保证管理上的规范化。

二、机辅测试的解决对策

1、加大测试工作方面的资金投入, 优化测试环境。

各高校的测试点应该高度重视普通话测试工作, 加大测试工作方面的资金投入力度, 尽快完善测试的相关配套设施, 不断优化测试环境。良好的测试环境, 可以使考生不受其他考生的干扰, 充分发挥自己的水平, 提高考生的成绩, 同时完善的设备设施可以使录音得到保证, 对评测人员的评分准确度更有帮助。

2、组织测试员进行培训, 不断提高测试员水平。

高校中的测试员多以兼职为主, 平时很少学习普通话测试相关知识, 一般只到测试前进行简单的复习, 所以各高校要重视测试员队伍的管理, 多组织骨干测试员参加国家或省市级的培训, 再由骨干测试员培训其他测试员, 争取把队伍建设成为学习、研究型的队伍。

3、加强打分项的标准度研究, 保证测试质量。

各测试站要不定期的开展测试经验交流座谈会, 组织测试人员共同学习, 将测试中典型或有争议的录音, 让大家听, 练习测试员的听音、辨音的能力, 使测试员能够更好的掌握扣分标准度。

4、加大考生测试前的培训力度

大力加强考生的测试前培训, 是普通话水平测试顺利实施的基础, 更是圆满实现测试目的的保证。加大测试前培训力度, 可以促使考生考前做好充分准备, 各测试站要高度重视测前培训工作, 培训时间不能低于八学时, 同时保证每位考生都能上机实际操作, 使考生熟练掌握操作系统与考试的要领。

5、规范测试人员管理, 提高测试人员责任心

计算机辅助语言测试 第10篇

精品课程建设计算机辅助语言应用《教育部关于启动高等学校教学质量与教学改革工程精品课程建设工作的通知》教高[2003]1号中指出:为切实推进教育创新,深化教学改革,促进现代信息技术在教学中的应用,共享优质教学资源,进一步促进教授上讲台,全面提高教育教学质量,造就数以千万计的专门人才和一大批拔尖创新人才,提升我国高等教育的综合实力和国际竞争能力,决定在全国高等学校(包括高職高专院校)中启动高等学校教学质量与教学改革工程精品课程建设工作(以下简称“精品课程建设”)。2010年,我参与建设的《商务英语听说入门与实训》课程被评为福建省高职类省级精品课程。通过精品课程建设,我对于计算机辅助语言教学(Computer-assisted language learning,简称“CALL”)对于高职高专英语听说课程的教学所产生的作用和影响有了更深的认识和体会。

一、计算机辅助语言教学在高职高专精品课程建设中的地位与作用

在精品课程建设中要重点抓好的工作中明确强调:要合理运用现代信息技术等手段,改革传统的教学思想观念、教学方法、教学手段和教学管理。这说明计算机辅助语言教学(CALL)在精品课程建设中的重要地位,也说明计算机辅助语言教学(CALL)是未来高职高专教学模式的一个重要补充。

二、计算机辅助语言教学(CALL)的主要发展阶段

计算机辅助语言教学(CALL)自上个世纪50年代形成发展至今,已有50多年的历史。在其发展过程中,主要经历三个阶段:行为主义(behavioristCALL)、交际法(communicative CALL)、集成化(integrative CALL)模式阶段。

集成化模式的计算机辅助语言教学(integrative CALL)是以两大技术发展为基础,即多媒体技术和互联网。这二者的结合使得计算机辅助语言教学的功能变得更加强大。其优点有:由于计算机功能的日益强大,使得视听说得以整合,计算机语言学习的环境更加真实完善;计算机技术使得在设计单一教学活动时能够同时进行听、说、读、写训练;学生对于学习的控制度得到增强。

三、在精品课程建设中计算机辅助语言教学(CALL)的应用

高等院校展示精品课程建设的平台都是一致的,即架设精品课程网站。教师将教学设计思路贯穿于教学活动及相关练习板块,利用多媒体技术将教师的教学设计立体地展示在网页中。而这些设想的实现,正是根据计算机辅助语言教学(CALL)理论,辅以较为成熟的计算机多媒体技术,利用互联网来完成的。

在《商务英语听说入门与实训》精品课程建设中,教学教案主要以WORD形式上传,教学课件以POWERPOINT形式上传。自主学习和文化生活板块中的听力和口语练习以POWERPOINT的课件形式提供给学生。课程亮点“YOYO课堂”的主要特色是以动态画面呈现课本知识。学生根据教师提供的指定工作场景为背景,编写脚本,自导自演,并用相机记录下交流的片段,我们将这些学生实训的视频通过后期剪接,插入情景介绍的音频,制作成口语教学录像上传到课程网站。

在设计实现这五大板块的过程中,集成化模式的计算机辅助语言教学的作用始终贯穿其中。由于专业教师大多数只是掌握常用的计算机多媒体技术,如POWERPOINT、Word、moviemaker。对于视频、音频的处理,网站建设等网络知识的掌握不足,因此必须依靠技术人员的支持才能最终完成设计方案。而技术人员在了解设计意图,帮助完成设计方案过程中,根据他们所掌握的技术知识,能够对教师的设计方案提出意见,进一步完善设计方案,精益求精。因此,精品课程建设团队中技术人员的重要作用不可忽视。

四、对教师在高职高专英语听说课程教学中的作用的思考

教师对于学生情况最为了解,对于课堂的教学目标、教学计划、教学内容的掌握也最为详细,因此教师在集成化计算机辅助语言教学中应担任课件设计者的角色。

在课程建设过程中,我发现教师对于多媒体技术的掌握水平会间接地影响到教师对于集成化计算机辅助语言教学的理解和执行。因此,这也要求教师必须注意现代教育技术知识的学习和掌握。

综上所述,通过先进的多媒体技术,将教师的教学思路立体,直观地展现在学生面前,引导学生进行教学任务,完成教学步骤,这样才能够真正完成教学方法改革和教学手段改革相结合,教学改革与课程建设相结合,将课程建设得更加成熟完善。

参考文献:

[1]朱雪茹.计算机辅助语言教学模式下高职英语教师的作用.

[2]张晓.CALL引入我国后英语教师面临的困难及建议.中国市场,2008,(14).

计算机辅助语言测试 第11篇

评分办法是机辅测试的重要组成部分, 其科学性、客观性和可操作性是机辅测试信度和效度的根本保证。教育部语言文字应用管理司印发的《计算机辅助普通话水平测试评分试行办法》 (以下简称《试行办法》) 对机辅测试中仍需人工干预的第四题“命题说话”的测试内容和评分标准做出了解释, 也为各省在执行中留出了具体实施和调整的限定空间。因此, 在机辅测试初创期, 各省结合自身测试实际, 制定了各省“评分办法” (有省份称之为“评分细则”, 本文统称“评分办法”) , 对《试行办法》进行了补充和微调。综观各省“评分办法”, 能遵循《试行办法》的要求, 基本保证评分标准的统一性和稳定性;不少细化是对《试行办法》的丰富和发展, 为《试行办法》的进一步完善积累了有益的经验。但也存在因理解不足导致的以“定量”代替“定性”、术语含混、机械细化、依据不明等问题。

笔者以《试行办法》为基础, 根据地域分布情况选取湖北、安徽、江苏、吉林、陕西、内蒙、广东、广西等八省“评分办法”, 对比八省评分标准与《试行办法》在“命题说话”项的评测异同。将其中存在的问题分为两大类:第一类是人工测试阶段遗留问题, 第二类是机辅测评阶段新问题。前者表现在“语音标准程度、词汇语法规范程度、自然流畅程度、缺时”等四项;后者存在于“离题与雷同、无效话语”等两项。为行文方便, 下文所引数据或相关描述皆源自八省机测标准, 不再专门对比列出。

一人工测试阶段遗留问题

机辅测试“命题说话”项共有六个评分要素, 其中“语音标准程度、词汇语法规范程度、自然流畅程度、缺时”等四个要素与传统人工评测一致。《试行办法》与八省“评分办法”针对这四个要素的评测基本都沿用了人工测试阶段的标准。因此, 人工测试阶段各省依据《普通话水平测试大纲》 (以下简称《大纲》) 制定的“评分细则 (或办法) ”中存在的诸多问题遗留至今。比如, 与国家标准对比, 各省标准表现出明显的重“定量”轻“定性”、对部分核心概念缺乏科学理解等。这些传统遗留问题, 此前已有部分研究, 如王晖 (2007) 、陶昱霖 (2007) 、齐影 (2007) 等, 研究多从各省“评分细则 (或办法) ”与《普通话水平测试大纲》之间的异同进行比较。与其不同的是, 我们主要针对“命题说话”项, 通过横向对比多省“评分办法”, 进一步指出这些遗留问题的共性与差异, 以期各省相关机构加深对国家标准的理解, 及早修订遗留问题, 从而兼顾自身操作需要与国家标准的统一, 真正提高普通话水平测试的信度与效度。

(一) “定量”代替“定性”使测试过度机械

“在测试中进行正确的定量、定性的分析是测试科学的体现……‘定量’是‘定性’的基础, 而‘定性’是以量化为依据进行的概括与总结。” (2) 对比八省“评分办法”与《试行办法》, 各省为提升测评可操作性所做的细化主要表现在两方面:一是在原有扣分分值区间内增设分值段, 提高区分度。如湖北“评分办法”对语音标准程度一档的处理是:将原有的以1分为分值段的做法细化为以0.5分为分值段, 使原来的三个分值段增加为五个分值段;二是对原有扣分分值用语音错误数值或数值区间来加以区分。如江苏“评分办法”对语音标准程度二档的处理是:把《试行办法》的对应表述修改为“语音错误在5~7次之间, 有方音但不明显, 扣3分;语音错误8次、9次, 有方音但不明显, 扣4分”。这种表述对“10个以下”的语音错误次数进行细化, 从而确定“3分、4分”的具体评判依据。我们认为, 各省的评分细则更应该结合本省的方言特点和容易出现的语音失误类型进行细化和补充, 而不是从定量的角度更改已有的评分要素和分值区间。

最为明显的是各省对“缺时”要素的处理。《试行办法》根据缺时时长划分为三档, 每档内视程度分出不同分值, 这是定量与定性相结合的表现。而八省“评分办法” (除湖北省外) 则明显表现出对“定量”的极度依赖, 即:强化缺时时长的细致划分, 严格分出具体的时长及对应的扣分分值。这里面有两个问题。一是“定量”完全取代了“定性”, 虽然增加了评测的可操作性, 却因机械操作使主试人失去了对应试人表达总体面貌的整体把握。同时, 八省“评分办法”中细致的分值段可以让主试人接收更具体的评测信息, 从而提升可操作性。但其评测维度的设置明显超出欧洲测试学给出的主试人4个认知维度的数额上限, 未能考虑到主试人认知负荷加重的事实。 (3) 二是各省在细分缺时时长与匹配分值时单位值存在明显差异, 其科学性颇受怀疑, 如表1。

表1中, 各省在扣分起点时间上差异较大, 最大差异相差3倍。在扣1分的单位时间和累计扣分上限两项中也有明显差异。由此可见, 各省在具体评测中寻求精确定值的定量操作, 偏离了《试行办法》“定性”与“定量”相结合的操作思路。同时, 各省单项分值段的分布在横向比较中缺乏均衡性, 不利于测试成绩在全国范围的公允公平, 其分布的科学性有待对样本科学统计的基础上予以检验。

(二) 概念界定不严谨, 影响评测科学性

八省“评分办法”对《试行办法》部分评测概念缺乏准确理解, 一定程度上影响了评测的信度与效度。如以下几个概念。

1. 失误。

《试行办法》在“语音标准程度”要素的一档和二档都使用了“失误”概念, 而在三至六档则使用了“错误”概念。我们认为这是《试行办法》对定性和定量结合评判的严谨而科学的做法。“失误”的结果是错误, 但其诱因和程度与错误略有差异。前者主要是“由于疏忽或水平不高而造成差错”, 将其放在语音标准程度的第一档和第二档, 主要是强调它是偶发性的、少量的, 而非系统性错误的呈现。“失误”和“错误”的区分提升了主试人评测的可操作性。但各省“评分办法”几乎混同这两个概念。如八省该评分要素的第一项里除湖北省外全部将“失误”改为“错误”, 并用具体错误次数明确对应该档的各分数段, 这显然是没有理解《试行办法》运用这两个概念时对其性质内涵的区分所致。这里也反映出各省用“定量”取代“定性”的操作倾向。如对一档中“极少”一词的理解, 《试行办法》中“极少”是指“失误在10次以内”, 但这一表述对应的分值是“1分、2分”, 这是需要主试人进行定性评判的。但各省为图评测方便, 又进行了定量的细化, 如江苏将“极少”限定在5次以内, 广西为3次以下, 陕西为5次 (含5次) 以内, 山东和吉林的表述则在10次以内, 而湖北增加了分值段, 却并未指出与之对应的失误量。显而易见, 各省丢失定性的原则, 依赖定量评测, 使各省之间产生了差异, 从而降低了“评分办法”的信度和效度。“语音标准程度的评测应是定量与定性兼顾。不宜过于机械地看待关于错误数量的表述, 而应从定性方面总体把握。” (4)

2. 背稿。

“背稿”是“命题说话”项“自然”程度的一个评判要素, 《普通话水平测试大纲》及《试行办法》对此描述为“有背稿子的表现”。广东、山西、陕西、内蒙四省将其修改为“背文本”“有书面语或背诵腔”或“背诵事先准备的说话稿”。这里涉及两个要素, 一是“背”的声音形式, 二是“背”的具体内容。前者主要指“背诵腔”, 后者是各省提到的“书面语”“文本”“说话稿”等。上述四省在把握“有背稿子的表现”时做了细致的区分, 对丰富标准有积极意义。不过, 针对区分出的两个要素, 还需要进一步分析其评测归属和评测依据。

“背诵腔”是基于对已有文本背诵的基础上通过有声语言表达出来的一种特有腔调。这种腔调受文本书面化程度和背诵的熟练程度影响。书面化程度高或熟练度低的背诵都会迥异于一般的日常口语表达。尤其是受心理、环境、目的和输入强度等因素影响的背诵输出, 其“背诵腔”有较为明显的听觉感知“标记”, 如不假思索、记忆检索式重复、记忆遗失式长时间停顿甚至放弃表达等。即便如此, 受机测环境影响的主试人依然难以精准评测应试人是否属于背诵。除非文本特殊 (已知文本) 或视频监控 (综合表情、状态等多重因素) 方能使评测具备科学依据。

我们认为, 评测“有背稿子的表现”要从自然流畅程度项三个档位间的区分来看 (见表2) 。

比较表2三个档位, 在对自然度的判断上, 二档这个“过渡档位”使用了“背稿”的概念。我们认为这是从性质上描述介于“自然”和“生硬”之间的“非自然痕迹”的一种形象说法, 它可能表现出上文提到的“背诵腔”特有的较为明显的听觉感知“标记”。这一表述的意义在于从程度上区分“自然度”的三个档位, 因而关注的重点是应试人的声音形式, 而非其内容要素。如果涉及“文本”“说话稿”等问题, 则需放入“雷同”项里评判。

3. 连贯。

“连贯与否”是考察应试人口语流畅度的指标。表2中三档对流畅性差的描述是“不连贯”。湖北、山东、陕西和吉林四省对《试行办法》中“不连贯”进行了举例式说明, 所举例子如“长时间停顿或多次重复”“语句重复、冗余”“一个字一个字的说话”等。显然, 这些描述未能全面展现“连贯”的可能性表征, 过于简单的例举式说明让我们无法全面评测应试人的“流畅度”。同时, 四省说明中“重复”“冗余”等概念也需要细致区分, 因不同的表征而归属不同的评测项目, 这一点在后面仍会论述。

需要指出的是, 目前国内外对口语流畅度的认识已逐渐清晰。较为统一的意见认为主要有两大衡量指标:时间指标和表达指标。前者包括语速、发音速度、语流长度、停顿长度、发音长度、发音与时间比等, 后者包括重复、替换、改述、犹豫、错误启动等。 (5) 我们认为, 可以借鉴这些成熟的研究成果评测应试人的“流畅度”, 对提高评测科学性是有益处的。

二机辅测评阶段新问题

“离题与雷同”“无效语料”是机辅测试新增要素, “这两个评分要素主要是针对受测形式和评测形式的改变所导致的一些新的问题而增加的” (6) , 是在大量机辅测试实践中涌现的比较突出的问题。下面, 我们对比分析八省“评分办法”与《试行办法》的异同。

(一) 离题、雷同要素的分析

1. 离题的概念阐释与评测标准。

(1) 概念阐释。八省“评分办法”阐释离题概念的角度有两个:定性角度, 即从内容与主题的关联度来解释离题 (如江苏、广西、山东、陕西) ;例释角度, 即列举离题的典型类型 (如广东、内蒙) 。对于前者, 八省表述不一, 认定程度有别。如有的认为离题是内容与主题“完全不符合或基本不符合”, 有的是“完全不符合”, 有的是“明显偏离”。但紧跟这些不一的表述, 各省又或多或少地进行了“基本离题”“部分离题”和“少量离题”等二次程度评判, 形成了概念阐述的自相矛盾。这一点山东省定性阐释比较合理, 与程度评判相吻合, 可供参考。对于后者, 广东和内蒙两省完全一致, 列举出典型类型, 如硬套、嫁接命题、转换话题等。其优点是可操作性高, 属于内容判定;其缺点是类型间的程度不易区分且类型难以穷尽。

(2) 评测标准。八省的评测标准可分三类:一是程度评测 (湖北、江苏、山东、陕西) ;二是时间评测 (广西、吉林) ;三是程度和时间结合评测 (广东、内蒙) 。离题作为内容失误, 应主要依托内容与主题的关联度来评测。关联度从无到有、从有到深形成一个连续统, 因此在判断上不易采取精准量化的办法。尽管这与关联时间长短有一定的联系, 但不是必然联系。如有的虽然关联不紧密, 但也贯穿整个应试时间, 显然无法进行时间评测。我们认为, 评测时应放弃机械地用时间单维度简单评测, 而应用内容关联度来进行程度评测。

评测内容与主题的关联度, 关键是对主题的把握。姚喜双 (2009) 从主题角度将当前普通话测试使用的备选话题分为七类:人物、事情、事物、地方、关系、道理、感想;聂丹 (2011) 为考察话题难易度将话题分为三大类:个体化话题、社会化话题和专业化话题。这两种分类从不同角度对普通话测试话题进行了细致划分。通过尝试, 我们认为, 可以结合两个角度, 较为清晰准确地分析主题侧重点, 从而为评测关联度提供有力依据。具体为通过考生所选题目判定主题类别, 进而考量其表述内容与主题的关联度。根据其关联度将离题分为“整体离题、局部离题、偶发离题”, 以提高“离题”项的评测操作。我们用评测实例来展示具体做法, 见表3:

注:表3的例子取自湖北省2013年机辅测试音档

2. 雷同的内容界定与评测标准。

雷同, 即不该相同而相同。吉林、广西两省“评分办法”没有使用这一概念, 湖北省“评分办法”将“雷同”替换为“朗读课本”。而其他五省则对“雷同”内容进行了界定, 并从程度和时间两个角度进行评测。

(1) 雷同内容界定。江苏、广东、内蒙、陕西、山东等五省界定尺度不一。江苏是二分法, 分为《普通话水平测试纲要》中的60篇朗读短文 (下面简称60篇) 和其他内容。山东是三分法:60篇, 其他媒体现成文章, 多人使用同一篇文章。陕西是五分法, 在山东的内容上增加了读稿和同一应试人所说内容前后雷同。广东和内蒙一致, 将其分为说话雷同和朗读雷同。上述五省界定中有的比较模糊 (如江苏省的“其他内容”) , 有的印证难度大 (如山东和陕西的“其他媒体现成文章”、广东和内蒙的“背诵或改编他人文稿”等) , 有的易陷入评判延迟或因打分系统技术问题不易记录和重评 (如山东的“多人使用同一篇文章”) , 有的与其他概念混同 (如山东的“同一应试人所说内容前后雷同”与重复混同) 。尽管以上各省所界定的内容都大体属内容雷同的范畴, 却因各种问题而在评测中不易操控。

(2) 评测标准。由于各省对《试行办法》中的“视程度”理解不一, 标准也就存在差异。如江苏省认为与“60篇”雷同和与“其他内容”雷同程度不同, 前者程度重, 后者略轻。山东和陕西只界定雷同范围, 对“程度”未做细化阐释。广东和内蒙则从时间长短角度判定雷同“程度”深浅。

我们认为, 对雷同内容的界定在标准中不易过细, 因为每位考生阅读范围和知识结构不同, 围绕话题从不同来源借用文本都有可能, 过细的划分只会给主试人的评测增加认知负荷。对雷同内容表达方式也不易界定, 如朗诵、朗读、背诵、读稿、复述等, 这些在以听觉为主的评测中是无法科学判定的。而且这些概念只是方式, 与内容无关, 不属于雷同界定范畴。

雷同“程度”应包含内容的“质”与“量”两个方面, “质”是判定应试人引用他人内容的合理性, “量”是判定应试人引用他人内容的覆盖范围。二者需紧密结合, 综合判定。“量”与时间有关联, 但仍要结合语言表达事实, 从覆盖范围上加以评测, 避免以雷同时间长短机械性评测。坚持定性与定量相结合, 从“质”上尽可能有依据地准确判断应试人所说内容非原创表达;从“量”上结合语言事实, 根据雷同覆盖范围, 以句群为最小单位, 篇章为最大单位, 分为“句群雷同、段落雷同和整篇雷同”, 以便层次分明, 容易通过听觉感知和判断。

综合以上对离题和雷同的分析, 我们将本项分为离题、雷同、离题且雷同三类, 拟构一个新的评分模型 (见表4) 。

(二) 无效话语要素的对比分析

“无效话语, 指应试人的话语与要测查的语言特征无关, 无评判效度。” (7) 通过对大量机测语料的观察, 各省标准中提出了一些出现频率高、形式标记明显的无效话语, 如“读秒、数数、唱歌、念诗、读标题等”, 这些类型多因应试人无法把握话题、缺乏充分准备、测试态度不严肃等因素所致。这些内容与话题毫无关联, 因此是典型的无效话语。另有一类“无效语料”———“重复”, 也出现在多省“评分办法”中, 我们认为该类型定性是否准确值得商榷。

“重复作为语言使用中一个自然存在的组成结构” (8) , 是“自然语言中最常见的非流利现象” (9) 。重复的类型、原因和功能在国内外语言研究中已有很多成果。就机辅测试中的重复情况来看, 更多地应该归属于流畅性这一评测要素, 而不应该放在无效语料里。

有一种比较特殊的重复情况是除外的, 即应试人有意地重复某句话或某个已表达句群来填补空白时间的话语形式。该重复形式多为机械重复, 且与话题表达本身无关。如:应试人不断重复话题标题;应试人在表达几句话后, 不断地重复这几句话直至考试结束等等。因此, 这种“重复”不是应试人言语产出过程中为“赢得时间、保持连贯、缓解产出压力”等目的而做的自然话语中正常的重复, 可以判定为“无效语料”。

湖北、江苏、山东、陕西、吉林等省“评分办法”中将“重复”作为“无效语料”, 但未注意以上区分, 二者混同必然导致该要素与“流畅”中的“重复”评测形成重复扣分。

另外, 广西省“评分办法”将“无效语料”定义为“与测试话题毫不相关的话语, 多次简单重复相同的语句, 以背诵他人文本代替说话”。这显然将“无效语料、重复、雷同”等概念混同, 是不利于科学评测的。另有一些省份在表述“无效话语”时, 用到“废话”“语言冗余”等概念。我们认为, 这些概念看似简单, 在言语表达中却非常复杂, 评测可操作性低, 不建议使用。

三提高机辅测试评测水平的几点思考

机辅测试环境下, 第四题“命题说话”成为唯一一道人工评测的主观性较强的口语试题。作为一种产出性试题, 能直接测量应试人口语表达水平。但要真实、准确反映应试人的“说话”水平, 必须保证其评测信度。决定测试信度的包含两个因素, 一是具有科学性、稳定性和可操作性的测试标准;二是准确、熟练把握测试标准的主试人。这两个因素中, 最为重要的是测试标准, 它是确保信度的基础。各省在“评分办法”中涌现出诸多问题, 需要从以下四个方面引起注意。

(一) 深入理解标准, 提高测评能力

《大纲》是“全国进行普通话水平测试工作的统一大纲”, 《试行办法》是我国当前计算机辅助普通话水平测试新阶段的重要依据。二者在全国范围的具体操作中“必须全国统一”。 (10) 各省“评分办法”对《试行办法》的偏离, 是制定者在传统人工测试阶段和当下机辅测试新阶段中对《大纲》和《试行办法》理解不够、把握不准造成的。因此, 一方面相关管理部门应加强对《大纲》和《试行办法》的科学阐释, 提高各省认识;同时, 各省“评分办法”制定者和各级测试员要努力提高对标准的准确理解和透彻把握, 规避单纯为提高可操作性而做的“过度定量”、对《试行办法》的随意理解等降低信度的不当做法。制定各省“评分办法”时应在《大纲》和《试行办法》基础上根据本省的主要方言特点、易出现的语音失误点进行微调, 而不是简单、机械地修改评分要素和增设分值区间。

(二) 确保“性”“量”结合, 规避机械评测

机辅测试的“命题说话”应始终把握“定性”与“定量”相结合的双重标准。缺乏“定量”的“定性”易使评测流于主观, 无法统一;而缺乏“定性”的“定量”也有失科学、流于机械。“命题说话”项作为口语表达题, 是一个复杂的有声系统, 其间多种因素的相互关系和相互作用, 注定了我们无法单一地借助“定量”或“定性”手段来增强科学性。该题的评测应该做到“精确”与“模糊”相结合, “定性”与“定量”相结合。各省为提升测试可操作性所做的具体的细化和调整, 一定程度上或多或少地破坏了“定性”与“定量”相结合、“模糊”与“精确”相结合的原则, 使自己的“评分办法”陷入单一、机械操作的境地。

(三) 准确把握概念, 提高标准信度

无论是传统的人工评测, 还是当下的机辅测试, 对每个评分概念内涵的深入理解和准确把握是我们提高评测信度和效度的重要保证。各省“评分办法”对很多概念、要素的理解还存在一些偏差或混乱的地方, 需要及时修正和调整。如重复性话语的区分与归类、雷同的程度区分、“无效话语”的界定、自然流畅程度的科学评测, 等等。由教育部语言文字应用管理司印制的《试行办法》, 其具体内容不宜过细, 但需在解读时明确各个评测概念、要素的内涵, 这样方能维护标准的统一性, 保证其科学性。

(四) 认清“说话”性质, 科学定位标准

《大纲》将“说话”题测试的目的界定为“测查应试人在无文字凭借的情况下说普通话的水平”, 并指出应试人是“单向说话”。在计算机辅助测试环境下, 应试人更是失去了主试人的提示或引导, 使该题真正变成“独白”模式的口语测试。既然是一种自主性的“独白”口语表达, 就必然有其自身的特点。如受思维、话题难度、心理等因素影响导致的“语音空白”、重复、口头禅等都属于“独白”式口语特有的现象, 应试人在“独白”时缺乏对确定主题表达的严谨性而导致话题表述的的主题偏离等, 都需要我们在评分时加以适度对待, 而不能简单量化、机械评测。

计算机辅助普通话水平测试走过6年历程, 存在一些问题是其发展过程中的必然现象。通过对该项活动持续的关注和研究, 不断提升其效度和信度, 使评测达到现代化、科学化和规范化, 是机辅助测试理论和实践的应有之义。

参考文献

[1]陈建民.汉语口语研究[J].语文建设, 1991, (4) .

[2]姚喜双等.普通话水平测试概论[M].北京:高等教育出版社, 2011.

[3]刘照雄.普通话水平测试大纲[M].长春:吉林人民出版社, 1994.

[4]宋欣桥.普通话水平测试员实用手册[M].北京:商务印书馆, 2000.

[5]第三届全国普通话水平测试学术研讨会论文集[C].北京:语文出版社, 2009.

[6]第四届全国普通话水平测试学术研讨会论文集[C].北京:语文出版社, 2010.

[7]孙海洋, 魏梅.口语测试评分标准的现代测试学分析[J].外语与外语教学, 2012, (6) .

[8]聂丹.普通话水平测试体裁难度层级探析[J].湖南大学学报 (社会科学版) , 2012, (2) .

计算机辅助语言测试

计算机辅助语言测试(精选11篇)计算机辅助语言测试 第1篇A.各种题型中知识点分布符合制卷目标(即考试要求);B.试题、试卷难度符合制卷要求...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部