專門用途英語的口語測試效度研究
作者:西安外國語大學(xué)出國留學(xué)人員培訓(xùn)部 陜西西安 曹懷軍
發(fā)布時間:2012-08-28 11:15:03 來源:陜西教育報刊社
【摘 要】專門用途英語口語能力測試在實(shí)際生活中需求非常廣泛。但其設(shè)計、組織和執(zhí)行過程卻往往缺乏科學(xué)性,難以保障測試效度。文章從結(jié)構(gòu)效度、內(nèi)容效度、和分?jǐn)?shù)效度三個層面入手,詳細(xì)論述了專門用途英語口語測試設(shè)計、編寫、直到評分過程中應(yīng)該注意的種種問題,同時分析了測試規(guī)范的制訂過程以及它在保障測試效度中的重要性。
【關(guān)鍵詞】專門用途英語 口語測試 效度
中圖分類號:H310.4
外語口語測試一直被認(rèn)為是測試中非常困難的一個環(huán)節(jié),其效度、信度和可行度都面臨著種種挑戰(zhàn)。具體到專門用途英語中來,由于文體和專業(yè)知識等因素的干擾,問題就會顯得更加復(fù)雜。本文擬著重從效度入手,探討專門用途英語口語測試中應(yīng)該注意的問題,以期對專門用途英語口語測試的效度提高推動作用。
明確命題理念 確保結(jié)構(gòu)效度
要想保證測試的效度,首先要明確命題理念,即搞清楚到底想要測試什么。具體地講,就是專門用途英語口語能力都包括什么。Douglas 把專門用途英語測試的命題理念概括為語言知識、策略知識、和背景知識[2](P35)。
語言水平毫無疑問是外語測試命題理念中最基本的一環(huán)。具體到口語來講,主要包括語音、詞匯、語法、篇章、流利程度、話輪轉(zhuǎn)換技能和語用知識等方面。關(guān)于語音,需要考察被測試者的發(fā)音是否準(zhǔn)確清晰,重音是否正確,連讀是否自然,是否掌握語調(diào)的各種變化等等。詞匯方面,要求被測試者選詞貼切,表意準(zhǔn)確,搭配合適,并且富于詞匯變化。語法是語言準(zhǔn)確度的一個重要決定因素,主要表現(xiàn)為句子結(jié)構(gòu)準(zhǔn)確合適并且符合英美人士口語表達(dá)習(xí)慣。篇章是一個較為宏觀的視角,主要考察被測試者銜接詞的使用情況,信息結(jié)構(gòu)的流暢程度,篇章結(jié)構(gòu)的組織安排和修辭手法的使用狀況。流利程度在口語中的反映較為明顯,主要障礙表現(xiàn)為言語支吾,重復(fù),起句失誤,詞語修正等。話輪轉(zhuǎn)換技能是會話交際能力的重要體現(xiàn),主要反映被測試者話輪獲取策略、話輪控制策略和交互策略的掌握情況。語用知識則主要考察被測試者使用語言是否恰當(dāng)?shù)皿w,是否掌握語言暗示現(xiàn)象,能否使用語言順利實(shí)現(xiàn)各種交際功能等等。
會話策略也是口語能力的一個重要組成部分。沒有人能夠熟知所有的英語單詞,也沒有人能夠通曉各行各業(yè),成為“萬事通”,同樣沒有人能保證自己永遠(yuǎn)處在理想化的語言交流環(huán)境中。諸多因素決定了交流障礙存在的必然性。為了保證交際的順利完成,對會話策略的熟練掌握和靈活運(yùn)用就顯得非常重要了。在無法提取到合適的單詞時,被測試者應(yīng)當(dāng)有能力調(diào)用同義詞、近義詞、甚至上義詞,或者對單詞意思進(jìn)行解釋,或者按照構(gòu)詞法合理地“造詞”。在無法確保某種表達(dá)方式時,被測試者應(yīng)當(dāng)知道采用適當(dāng)?shù)幕乇懿呗岳@開這個難題。在的確無法表達(dá)時,被測試者應(yīng)當(dāng)有意識和有能力調(diào)用非語言策略,比如肢體語言,來最終完成交流。一個英語口語測試,如果缺少了對于會話策略和話輪轉(zhuǎn)換技能的考察,最多只能看作寬泛意義上的外語水平測試,只不過是以口頭形式進(jìn)行罷了,而不能稱為真正意義上的口語能力測試。
專業(yè)知識是專門用途英語測試命題理念中獨(dú)有的部分。在Douglas看來,專業(yè)知識和語言知識緊密交織,具有不可分割性。“對于任何專門領(lǐng)域,語言都會具有該領(lǐng)域獨(dú)特的用詞、語義、句法、和語音特征,以及相應(yīng)的修辭、語用、和社會語言學(xué)特征” [3](P48)。所以,專門用途英語測試必須考察被測試者是否了解普通詞匯在該專門領(lǐng)域中的特殊用法,是否有能力對專業(yè)術(shù)語進(jìn)行英漢互譯,是否掌握在該專業(yè)領(lǐng)域中應(yīng)當(dāng)使用的正確文體,是否知道該專門領(lǐng)域中的語言交際習(xí)慣等等。具體到商務(wù)英語口語測試為例,被測試者應(yīng)當(dāng)表現(xiàn)出對商務(wù)詞匯掌握的熟練程度,使用英語同外商電話交流、商貿(mào)洽談、解決爭端的能力,按照西方文化同外籍員工或老板有效溝通的能力等等。被測試者只有掌握了這些技能,才能在商務(wù)環(huán)境中實(shí)現(xiàn)順暢的英語交流,才能使自己的語言能力真正用到實(shí)處,語言用于交際的最終目的才能得以實(shí)現(xiàn)。
廣泛深入調(diào)研 保證內(nèi)容效度
同一個人在不同的會話環(huán)境中會表現(xiàn)出不同的語言操控能力。要想反映被測試者在專門領(lǐng)域中對于英語的掌握程度,測試任務(wù)必須最大程度上模擬出目標(biāo)語使用環(huán)境,能夠真正反映被測試者在專門領(lǐng)域中的英語口語水平。這也正是Douglas重點(diǎn)強(qiáng)調(diào)的專門用途英語測試與一般外語測試的另一主要區(qū)別:考題的真實(shí)性 [2](P2)。也就是說,語言測試任務(wù)的特征要與目標(biāo)語使用任務(wù)的特征保持高度一致。
Bachman和Palmer為我們總結(jié)了保持這種一致性所需要注意的五大方面:任務(wù)場景、任務(wù)指令、任務(wù)內(nèi)容、預(yù)期反應(yīng)、以及任務(wù)和預(yù)期反應(yīng)之間的關(guān)系[1](P49)。任務(wù)場景包括外在環(huán)境、參與者情況以及任務(wù)所處時間等因素。具體到口語測試中,我們需要了解目標(biāo)語使用任務(wù)通常是什么時間,發(fā)生在什么樣的環(huán)境中(噪音、光線等),有幾個人參與,身份地位如何等等。任務(wù)指令是指在設(shè)計測試任務(wù)時要考慮到目標(biāo)語使用任務(wù)以何種語言(母語還是外語)、何種渠道(書面還是口頭)給出指令,任務(wù)通常由幾個部分組成,按照什么順序,時間如何分配,任務(wù)完成情況的評判標(biāo)準(zhǔn)如何等等。任務(wù)內(nèi)容是指測試任務(wù)要依據(jù)目標(biāo)語使用任務(wù)來確定輸入材料的信息量大小、語速快慢、詞匯語法難易度和篇章結(jié)構(gòu)清晰度。同時還要根據(jù)目標(biāo)語使用任務(wù)來確定測試任務(wù)的輸入材料中應(yīng)當(dāng)涉及到的語用功能、方言俚語、話題知識和文化特征。預(yù)期反應(yīng)是指被測試者預(yù)期語言產(chǎn)出所具備的各種特點(diǎn)。同任務(wù)內(nèi)容一樣,要考慮到預(yù)期產(chǎn)出的篇幅長短、詞匯語法難易度、語用功能和話題知識等。任務(wù)和預(yù)期反應(yīng)之間的關(guān)系包括互動關(guān)系和幅度關(guān)系等。根據(jù)目標(biāo)語使用任務(wù)的不同,互動關(guān)系可能表現(xiàn)為互動型、非互動型和調(diào)節(jié)型。幅度關(guān)系則是指被測試者為了完成測試任務(wù)所需要處理的輸入信息量的大小。
很顯然,為了能在這五大方面保證測試任務(wù)與目標(biāo)語使用任務(wù)的一致性,測試設(shè)計者必須對目標(biāo)語使用任務(wù)進(jìn)行全面詳細(xì)的了解。基本方法有實(shí)地觀察、同測試組織者面談、同在崗人員面談、調(diào)查問卷等。實(shí)地觀察是最為直接有效的調(diào)查手段。測試設(shè)計者親自到目標(biāo)語使用環(huán)境中觀察了解目標(biāo)語使用任務(wù),獲取第一手的資料。缺點(diǎn)是受時空限制較大,未必能夠全面了解到各種目標(biāo)語使用任務(wù)。同測試組織者面談是較為簡單易行的方法。測試設(shè)計者可以了解到測試組織者的真實(shí)想法(通常也就是測試的根本目的)。缺點(diǎn)是組織者(通常是行政管理者,而非專業(yè)技術(shù)人員))對于目標(biāo)語使用任務(wù)的描述只能是間接資料,其準(zhǔn)確程度有待考證。同在崗人員面談則可以有效克服這一缺點(diǎn)。已經(jīng)在崗的從業(yè)人員每日身處目標(biāo)語使用環(huán)境,對目標(biāo)語使用任務(wù)有切身體會,能夠?qū)δ繕?biāo)語使用任務(wù)作出較為客觀細(xì)致的描述。但是上述方法都需要單一進(jìn)行,比較耗時,而且受個體影響較大。所以在了解到一些基本情況后,可以設(shè)計調(diào)查問卷,大量收集數(shù)據(jù),在節(jié)省時間的同時也可以增加資料的可靠性和代表性。
嚴(yán)把評分體系 提高分?jǐn)?shù)效度
任何一門測試都需要保證其所評分?jǐn)?shù)具有一致性和穩(wěn)定性,也就是傳統(tǒng)測試學(xué)所講的信度。Weir把它列為效度的一種,并稱之為“分?jǐn)?shù)效度”。本文沿用這一提法。由于口語測試自身的特點(diǎn)決定了它不能像閱讀、聽力、或者寫作那樣一次性集中大規(guī)模舉行。它需要多位考官,耗費(fèi)大量的時間,對被測試者逐一或者逐對進(jìn)行測試。而口語測試評分又帶有極強(qiáng)的主觀性。這就使得考官與考官之間可能評分不統(tǒng)一,即使同一個考官也會受環(huán)境、情緒等影響前后評分不統(tǒng)一。專門用途英語口語測試也不例外,必須采取各種科學(xué)有效的手段,最大可能地提高評分的統(tǒng)一性,保證測試的分?jǐn)?shù)效度。
首先,要制訂科學(xué)、詳盡的評分標(biāo)準(zhǔn)。評分標(biāo)準(zhǔn)必須以命題理念為基礎(chǔ)。凡是命題理念當(dāng)中確定了的要素在評分標(biāo)準(zhǔn)當(dāng)中都應(yīng)該有所體現(xiàn)。不在命題理念范圍內(nèi)的因素則不應(yīng)該或者要盡可能小的影響評分結(jié)果。評分結(jié)果應(yīng)該以劃分檔次為主,不宜采用百分制。通常認(rèn)為,人對檔次區(qū)分的能力以九檔為限。設(shè)置過多的分?jǐn)?shù)檔次只會加重考官的評分難度,降低評分效率和準(zhǔn)確性。檔次標(biāo)準(zhǔn)描述要盡可能的詳盡、具體、可操作化,并且要盡量避免各個檔次互相作為參考標(biāo)準(zhǔn),最好能夠配以各個檔次的語言樣本,以加深考官對檔次標(biāo)準(zhǔn)描述的理解。
其次,要培訓(xùn)、遴選合適的考官。目前,大部分英語口語測試的考官都是來自高校英語教師。他們的英語口語水平當(dāng)然毋庸置疑。但是,考官還必須具有較強(qiáng)的語言敏感度和區(qū)分不同檔次語言水平的甄別能力。而且,專門用途英語需要的口語考官還要對專業(yè)知識有大概的了解。所以考官也需要進(jìn)行提前培訓(xùn)和篩選,以確保考官自己對測查內(nèi)容的正確理解和考官之間對評分標(biāo)準(zhǔn)的理解相互一致,以保證測試的公正性。考官篩選的常用辦法是試評,通過播放以前的測試錄像或者模擬測試過程,由考官評分,并和標(biāo)準(zhǔn)分?jǐn)?shù)進(jìn)行對比。如果經(jīng)過多次調(diào)整仍不能準(zhǔn)確分檔,則不能成為正式考官。
第三,要盡可能為每一位被測試者提供良好的測試環(huán)境。口語測試的被測試者并不是在同一時間、同一地點(diǎn)接受測試,而口語的發(fā)揮狀況又極易受到會話環(huán)境的干擾。所以,在口語測試過程中,要盡量保證安靜、舒適的客觀環(huán)境。同時,考官要注意不要因?yàn)樽约簾o意識的言行舉止而使被測試者受到負(fù)面影響。良好的測試環(huán)境既有利于被測試者的正常發(fā)揮,也能確保測試的公正性,提高分?jǐn)?shù)效度。
第四,加強(qiáng)評分監(jiān)控。鑒于口語測試極強(qiáng)的主觀性,提倡采用兩位考官同時評分,取其平均值或者加權(quán)值的辦法,以增加評分的準(zhǔn)確度。如果兩位考官評分差異過大,就應(yīng)該考慮到至少一位考官未能準(zhǔn)確評分的可能性。這時需要由第三位考官或者主考官介入,來綜合給出最終評分。此外,可以在不干擾被測試者的情況下,對測試過程進(jìn)行錄音,以作為重新評分或者審查評分的依據(jù)。也可以由主考官隨機(jī)抽查,親自進(jìn)入測試現(xiàn)場或者實(shí)時監(jiān)控測試現(xiàn)場,檢查考官的評分質(zhì)量。
最后,在匯報測試結(jié)果時,應(yīng)該盡量細(xì)化。尤其是對于專門用途英語口語測試,不能簡單的給出一個B檔或者7分。這樣的測試結(jié)果到底意味著什么,不同的人會有不同的解讀。應(yīng)該給出一個簡要的檔次介紹,說明取得該成績的被測試者在專門用途英語口語方面達(dá)到了一個什么樣的水平。通過以上種種措施,相信可以較好地保障專門用途英語口語測試的分?jǐn)?shù)效度。
制訂測試規(guī)范 確保效度實(shí)現(xiàn)
效度是一個多方面的概念。各個因素互為補(bǔ)充,才能確保測試的整體效度[5](P13)。為了避免在測試的設(shè)計執(zhí)行過程中顧此失彼,保證各種效度全面實(shí)現(xiàn),非常有必要提前撰寫測試規(guī)范,時時加以參考。測試規(guī)范能夠明確測試設(shè)計者對于命題理念的理解,對測試任務(wù)作出詳盡的描述,并且確定評分體系來指導(dǎo)整個評分過程。
按照模塊規(guī)范理論,測試規(guī)范中最主要應(yīng)當(dāng)包含的三大模塊是理念規(guī)范、任務(wù)規(guī)范、和評分規(guī)范[4](P117)。理念規(guī)范是測試規(guī)范中最重要的部分,任務(wù)規(guī)范和評分規(guī)范都以理念規(guī)范為基礎(chǔ)。前文已經(jīng)詳細(xì)討論了專門用途英語口語測試命題理念的三大主要內(nèi)容:語言水平、會話策略、和專業(yè)知識。但是,具體制訂理念規(guī)范時,在這三個方面分別對被測試者應(yīng)該提出多高的要求,以及這三個方面相互之間應(yīng)該是一種什么樣的比重關(guān)系,則需要結(jié)合測試背景加以詳細(xì)分析。例如測試的目的是什么?是企業(yè)選拔招聘未來的員工還是對現(xiàn)有員工進(jìn)行測查從而確定下一步的培訓(xùn)方案?被測試者是誰?有什么樣的學(xué)歷背景和工作經(jīng)歷?在本次測試中看重的是口語能力的具體哪個方面?測試過程是否會涉及到與測試無關(guān)的其他技能?應(yīng)該如何避免這些因素的干擾?這些問題都需要在理念規(guī)范中給出一個明確的答案。
制訂任務(wù)規(guī)范時,要在盡力模擬目標(biāo)語使用環(huán)境和充分反映命題理念的前提下,對任務(wù)形式、功能、難度等一一作出選擇。是逐個測試還是成對測試?現(xiàn)場測試還是錄音測試?采用問答形式還是角色扮演形式?測試任務(wù)以口頭還是書面、文字還是圖片形式給出?此外,任務(wù)規(guī)范還要詳盡描述測試任務(wù)共分幾個部分?分別占用多長時間?每一個部分分別測查了命題理念中的哪些要素?在要求被測試者進(jìn)行語言產(chǎn)出之前留不留準(zhǔn)備時間?留多長時間?所預(yù)期的語言產(chǎn)出是什么形式?應(yīng)當(dāng)涵蓋什么話題內(nèi)容?主要表現(xiàn)何種交際功能等等?任務(wù)規(guī)范中最好能夠配備每個測試任務(wù)的樣題,以使任務(wù)規(guī)范描述更加形象,便于測試任務(wù)編寫過程參考。
評分規(guī)范當(dāng)中最重要的是評分等級和標(biāo)準(zhǔn)。等級和標(biāo)準(zhǔn)的制訂要科學(xué),要以理念規(guī)范為依據(jù)。評分形式可以根據(jù)不同的實(shí)際需求,采用整體評分法或者分項(xiàng)評分法。對于專門用途英語口語測試來講,比較推薦分項(xiàng)評分法,可以使測試結(jié)果承載更大的信息量。常用的分項(xiàng)標(biāo)準(zhǔn)多從語言產(chǎn)出的內(nèi)容長度、復(fù)雜程度、流利程度和準(zhǔn)確程度等方面入手,具體表現(xiàn)為語音、詞匯、語法、語篇、語用、文體等細(xì)目。但是細(xì)目不宜過多,尤其是對于現(xiàn)場評分的情況,因?yàn)榭脊偻ǔW疃嘀荒軐λ牡轿屙?xiàng)要素同時作出判別。
測試規(guī)范的重要性決定了它的制訂過程不容馬虎。尤其是對于專門用途英語口語測試,應(yīng)該形成由英語口語教師、外語測試專家、和專業(yè)人才組成的編創(chuàng)小組。其中,外語測試專家把握測試的總體方向,確保測試規(guī)范理念合理,任務(wù)適宜,評分科學(xué)。專業(yè)人才審核測試中所涉及到的專門領(lǐng)域知識,保證專業(yè)知識范圍合理,難度適宜。英語口語教師則從教學(xué)的角度提供建議,避免測試對口語教學(xué)產(chǎn)生負(fù)面的反撥效應(yīng)。編創(chuàng)小組成員不宜過多,每位組員要清楚自己的角色和任務(wù)。測試規(guī)范的撰寫過程中要不斷聽取各方面的反饋意見。如果情況允許的話,可以用樣題進(jìn)行試測,從中發(fā)現(xiàn)問題,不斷完善測試規(guī)范。
綜上所述,專門用途英語口語測試時,應(yīng)當(dāng)首先制訂科學(xué)的測試規(guī)范,為測試效度的實(shí)現(xiàn)提供書面依據(jù)。然后從明確命題理念、完善測試任務(wù)、加強(qiáng)評分體系三方面入手,采取多種有效措施,相信可以在較大程度上保障專門用途英語口語測試效度的全面實(shí)現(xiàn)。
參考文獻(xiàn):
[1]Bachman,L.&A.Palmer.Language Testing in Practice[M].Oxford: Oxford University Press,1996.
[2]Douglas,D.Assessing Languages for Specific Purposes [M]. Cambridge: Cambridge University Press,2000.
[3]Douglas,D.Three Problems in Testing Language for Specific Purposes: Authenticity, Specificity, and Inseparability[C]//C. Elder et al.Studies in Language Testing 11: Experimenting with Uncertainty.Cambridge:Cambridge University Press,2001: 45-52.
[4]Luoma,S.Assessing Speaking[M]. Cambridge: Cambridge University Press,2004.
[5]Weir,C.Language Testing and Validation: An Evidence-based Approach[M]. Basingstoke: Palgrave Macmillan,2005.



