畢業論文:高考語文測試理念缺失探析

時間:2022-04-20 04:52:00

導語:畢業論文:高考語文測試理念缺失探析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

畢業論文:高考語文測試理念缺失探析

畢業論文

畢業論文

高考語文測試理念缺失探析

一.從一些統計和調查談起

(1)教師評定(前20名左右)與高考成績相關性統計(擬作)

(筆者以為教師的評定應該是一個較好的效標,美國的很多大型關聯效度調查都以老師對學生一年以上的觀察作為效標)。語文應該最差。

(2)學生成績波動性調查。(擬作)

語文的波動性肯定最大。

(3)對中學語文教師的調查采訪(擬作)

對語文高考命題科學性的認識采訪一些參加過高考閱卷的老師(評卷誤差)

并調查中學語文教師的處境

(4)對大一新生的調查(擬作)

(主要就高考各科命題的效度進行調查。先給學生一個通俗易懂的“效度”定義---能測量出你真實水平的程度。然后讓他們回答諸如此類的問題:請你按照效度水平給高考各科排序;按成績波動性排序.)

(5)高考成績與大學成績相關調查:

語文“高考成績與大學成績相關極低”,說明語文“高考的預測性很差,作為一種選拔性測驗現行高考是不成功的”(轉引自北師大心理系高考研究組《改革高考,更加準確有效地選拔人才》第83和89頁)(再查出處)

(6)歷年的高考抽樣統計結果

已有93、97、98(在自抄的信紙上)、2000(在小筆記本上)、2002年的,無論信度效度(好像沒有公布)標準差(反映考生成績離散程度,即試卷的區分功能,在150分的試卷中標準差20分以上說明離散程度較好。),還是成績的正態分布曲線,語文都基本上是最不理想的,而且和其他科(尤其英語和理科各科)相去甚遠(語言測試略低一些可以理解,低得太多,就需反思)。

官方對于低信度的解釋往往是:語文屬于異質性測試(國內的確也作過一些這方面的調查).我們不禁要問:為何國外的語文測試信度比我們高得多呢?為何高考英語試卷的信度往往是各科中最高的呢?再者,我們用來作異質性調查研究的試題其命題和批閱質量(尤其作文批改的誤差控制)有足夠的擔保嗎?

而且,我國每年的高考抽樣統計公布都缺少最重要的一項統計指標:效度.(效度測起來的確更復雜更麻煩,但并非“沒有數學方法,只能靠定性分析”.分析請參照后面的“實踐性缺失”一章.)

“信度比效度更容易證明,所以附在測驗一起的技術說明通常只報告信度數據。測驗發表者打算通過顯示信度而暗示其效度。這種做法不好,它只是做了一半的工作。”(出自小筆記本-書名作者待查)

另外,許多知名專家學者不止一次對語文高考測試提出了嚴厲的批評:

"我讀了,非常吃力,首先是弄懂題目要求就費了極大的勁,有的至今也沒有弄得太清楚……"(錢理群評1998年高考試題)

"語文綜合能力強的學生在高考中反而得不到高分"(待查)

錢夢龍也指出:現在的語文考試測不出學生的真實水平.

顧德希:“從十幾年來我所教的高三學生來看,每年總有不少于四分之一的學生,語文高考成績與平時成績存在較大反差.盡管這比十幾年前已是不小的進步(以前誤差更大),但問題仍然是嚴重的。”(<<中國考試>>2002年第三期<<學科能力等級研究與素質教育>>)

“現在優生得分不高差生得分不低的現象越來越突出…學生的積極性受到了嚴重打擊。”(李群、張中環《關鍵是怎樣操作》《中學語文教學》2003,6)…

每一個理智的語文工作者應當承認,我們的語文高考存在著很大的問題,其信度和效度離語言測試科學化的要求尚有很大差距,迫切需要改革.

筆者于高中語文教學一線工作九年有余,深感執教的困惑和艱難。我對于高考語文測試最大的不解在于:學生高考成績與其平時成績和能力(老師對自己起碼一半左右的學生還是十分了解的)嚴重不符-其程度遠遠超過其他各科,波動幅度之大,范圍之廣怵目驚心。

反思是枚苦澀的果子,也是語文界同仁不得不品嘗的果子。大發牢騷沒有用,怨天尤人沒有用,擺出一幅任人宰割的架式只會使問題更加嚴重。我們應當首先虛心聽取別人的批評,然后靜下心來,仔細調查研究,實事求是地分析,進而拿出改進措施。

令人遺憾的是,五六年過去了,批斗余音猶在,認真的反思,尤其是業內人士的腳踏實地的分析研究寥若晨星,高考測試問題依舊。

筆者不敢稱內行,僅憑自己的一些體驗和調查,試圖對高考測試信度和效度不高的原因作些反思。筆者以為,之所以出現這么嚴重的問題,肯定與命題指導思想上的缺失,制度建設不完善,很多工作環節欠科學有關。

傳統偏見、習慣勢力、既定的規范、固有的理論、盲從的心理,把我們禁錮在狹小的天地里。本文主要就命題指導思想方面作些探討.

二.測試指導思想方面存在的問題

以我看來,主要有以下幾個方面:

(一)過于相信經驗,測試理論欠缺

我國的高考帶有濃厚的“行政”色彩,命題人員普遍缺少足夠的系統的科學測試知識,或是不大買測試理論的帳;測試理論專家往往對語言學科的特點又不是非常熟悉.他們依靠的主要是經驗.

譬如,試題命制完成后的預測分析,各種標準化測試量表的研制(量化研究不可或缺的工具,其嚴謹的編制程序與信效度檢驗,使測量的品質得以確保--邱皓政《社會與行為科學的量化研究與統計分析》五南圖書出版公司2000,8第一版)以及考試完成后成績的統計分析和解釋(“西方發達國家十分重視考試成績的研究開發利用。如,美國每年對大學入學考試成績的統計分析就達幾十種甚至上百種信息資料,然后將其分送給考生畢業中學和政府有關部門,作為中學教育教學和政府制定相關政策的參考。”(馬文卿劉文超著《中國高考走向》山東人民出版社2002,3,一版,121~122頁)),這些環節都十分欠缺.這就使得我們很難有效地控制試題的各項指標,不能及時的吸取往年的教訓并迅速的作出調整.我們的高考改革步伐緩慢,試題多少年難以改變模樣,與此有直接關系.

“我國高考工作者由于缺少教育測量學的理論與技巧,主要憑經驗進行工作,在試卷編制上一般只有初步的編制計劃及按這初步計劃編寫試題的簡單步驟,試卷初步編成后,不經預測和數量化分析,只由編制人員根據經驗作一些主觀的討論、審核,即交付使用.致使試卷編制者本身對他的各項指標心中無數,造成歷年來高考難度波動很大,甚至還有出錯題目或出題不當的情況發生.”(北京師范大學心理系高考研究組《改革高考更加準確有效的選拔人才》)(出處再查)

實行了十幾年的高考標準化考試竟然仍采用老掉牙的原始分相加的方法來計分,說明我們的測試理論是多么的欠缺.“很多實行了標準分制度的六七個省份已經取消(山東省于2001年取消)或正在取消,據說原因僅僅在于某些領導欠缺基本的測試知識.”(馬文卿劉文超著《中國高考走向》山東人民出版社2002,3,一版,32頁)“癥結主要有兩個,一是統計測量理論沒有為高層決策者所熟悉;二是大眾對其陌生排斥。”(馬文卿劉文超著《中國高考走向》山東人民出版社2002,3,一版,118頁)

國際上的語言測試早已發展到第三個階段--“交際測試”(communicativetesting)階段,而我國的語文高考測試仍停留在第二階段--心理計量-結構主義測試(psychometric-structuralisttesting)的初期,仍然在圍繞著“要不要選擇題”“語文測試要不要精確量化”等本已無需再爭辯的問題糾纏不休.

“交際測試”以完形填空、短文聽寫等題型為典型特征,強調語境中運用,側重考查學生運用語言的靈活性,對能力認識更為全面深刻。而我國的語言測試在這點上幾乎為空白.

“高揚科學的大旗,…走出行政性評價的窠臼.…評價方式上力求創新,走科學評價的道路,既要做到倫理的善,更要做到邏輯的真和形式的美.”(孔祥沛《淺論傳統文化對我國教育評價制度的影響》《教育科學研究》年月待查)

(二)重書面表達輕聽說閱讀

中國古代相對封閉的社會實際以及重人文輕科學的傳統,此外還有“以文取士”科舉制度的影響,使得“寫文章”得到了高得不能再高的社會地位,所謂“天子重英豪,文章授爾曹”,而“聽說”“閱讀”卻被大大的冷落了。此種偏差時至今日依然相當嚴重,并在語文高考上體現出來。

高考試卷中一篇作文幾乎占據半壁江山(60/150),而意義非常的聽說測試始終不能提上議事日程。(我們的高考第二語言聽說測試早已起步,而且也積累起了不少經驗)

這種偏頗的測試方式,遠遠不能滿足現代信息社會的需求.在現今社會,“聽”“說”“讀”“寫”四種語言活動中,“寫”的地位應該是最低的,前三者的重要性遠遠超過后者.“據專家研究,聽說在一生的語言活動中占到75%,而讀寫只占25%.”(吳昌順<<語文教學需要科學化>>,出自<<中學語文教學>>2000年第九期)

而傳統觀念里,“讀”也是從屬于“寫”的:“中國以前所謂‘讀寫結合’只不過是把讀物作為寫作的樣本,作為一種仿效的對象.所謂的‘讀’,只是揣摩作者是如何‘寫’的.閱讀教學,也只是把教材作為一種寫作的模式加以分析,以便對寫作有所裨益.這種觀念,實質上是以寫作為中心,閱讀不過是寫作的附庸.”(章熊<<中國當作與閱讀測試>>四川教育出版社2000,10第二版47頁)

國外多數國家的語言測試則不然,其比例很注意和社會的需求相吻合.聽說測試受到高度重視,而且很多國家也舉辦的非常成功.此外,閱讀測試在書面語言測試中的分量也遠遠超過寫作測試.以美國的SAT(相當于我國的高考)為例,其閱讀領會能力的考查占總分的51%,閱讀短文為五篇(以前為六篇),字數約為2500~3000字;而我國高考閱讀領會短文大致為兩三篇,字數約為1000~1500字,分數比例也低得多。我國高考各科中試題命制科學性最高(有統計數據為證)社會信譽最好的英語科試題閱讀的短文數量達七篇左右,占總分一半還多。

而且,現今寫作能力測試模式迫切需要改革的最重要的理由是:它是導致語文高考信效度不高的罪魁禍首。原因很簡單:我們的作文評閱雖經不斷改進,但主觀誤差始終得不到有效控制。

“九十年代初,有關部門曾經連續做過幾年研究,結果表明高考語文試卷中的主觀性試題(主要是作文)誤差達到總分的40%,盡管我們采取了多種方法(制定作文評分量表,計算機監控評分等)…但誤差仍然較大。”(張偉明《高考語文科考試內容與形式的改革》《中國考試》1999,1期)

作文的評分誤差巨大是個不爭的事實,很多的調查早已給出了駭人的評分差距.但筆者認為,在大規模考試中,誤差還要大得多,因為這里面有個“動機效應是值得注意的。黃煜烽等人的研究中曾經讓一位教師在不到一年的時間里兩次批閱同一篇作文。第二次批改時,作文前加上‘組織教師批改這篇作文的目的旨在測試語文教師對學生作文水平的鑒定水平,以此作為衡量教師批改作文能力的指標’這樣一段話作為動機暗示。結果,第一次評85分,第二次評72分,相差13分;第一次的評語是‘文章結構完整,用詞恰當,注意了旁征博引,語言老練、簡明’第二次的評語是‘本文結構欠嚴謹和完整,觀點和材料不盡統一,語言上也有毛病’,從肯定變成了否定,截然相反。”(章熊<<中國當作與閱讀測試>>四川教育出版社2000,10第二版69頁)

高考閱卷很大程度上還帶有大鍋飯性質,監督不嚴,建立老師評卷檔案等工作幾乎為空白,閱卷老師的認真度是有限的;而應付調查時,作為調查對象,因為特別在意調查結果對自己造成的影響,必然慎之又慎,再加上調查時的勞動強度也無法和高考這類大規模考試相提并論。

高考作文評閱存在的主要問題是:

(1)投入少時間短,導致勞動強度大

時間過長會增大誤差,但太短更會草菅人命.由于時間太短作文批改打保險分的現象非常嚴重

“《南方周末》曾對高考閱卷作過報道:近30萬份作文,規定180位老師在10天內改完,除去每天高溫休息一小時,其余七小時不喝水不上廁所不與人說話,在每篇作文上也只能停留70秒。”(李群、張中環《關鍵是怎樣操作》《中學語文教學》2003,6)

“集中全日閱卷,根據各試驗省份的經驗,以日平均90份左右為宜”(章熊<<中國當作與閱讀測試>>四川教育出版社2000,10第二版265頁),實際的批閱數量若干倍于此.

(2)趨中主義

.評分既不高也不低,高度集中在中部偏上的狹小區間內,既能夠保證閱卷速度,又不容易讓復查人員抓住把柄.

“據江西戴海崎、曹紹游就1987年高考試卷隨機抽取的2700人樣本統計,二類卷和三類卷占總數的86%,一類卷和五類卷合起來僅占6.6%,四類卷占7.4%,成峰值極高的偏態分布…產生的原因大約有兩個:一是‘打保險分’,二是連續作戰統一疲勞,反應的靈敏度降低,區分能力減弱.、據江西省1990年高考閱卷7月13日、14日和十六日三天的抽樣統計(樣本數一千左右),平均分從22.69分(滿分40分)上升為24.33分,標準差則從7.67降為5.97,說明分數的離散程度越來越小,趨中傾向越來越嚴重。”(章熊<<中國當作與閱讀測試>>四川教育出版社2000,10第二版67~68頁)

(3)思維定勢:

由于閱卷強度過大,所以文章的書寫、篇幅、謀篇(開頭結尾的安排受到格外重視)等外在因素很大程度上決定了考生的得分。主要由這些因素構成的第一印象一旦確立,就很難再改變.

(4)責任心差

很大原因歸咎于制度不全監督不力.這兒既有閱卷老師的責任心問題,也有復查領導的責任心問題.

“有的閱卷的研究生經常遲到早退,‘一位女博士戴著隨身聽,一邊聽音樂一邊改卷’;‘一高校的副研究員不知為什么年年來閱卷,它改作文判分一半有誤,有一次查他改的三篇作文,總誤差竟達三十多分’;一位老師30份作文錯判十分以上的有三份(那一年是40分的大作文)…有一本30份的作文幾乎全是42和43兩個分數。有個組長表揚一個青年教師,說他一天改了二十多本作文…復查能挽救幾個人呢…每次閱卷結束時,心里都很沉重。”(李群、張中環《關鍵是怎樣操作》《中學語文教學》2003,6)

目前的高考寫作測試模式必須改革,而且,此改革是切實可行的。國外的成功經驗早已證明了這一點.

改革的方向當然首先是增加聽說測試;其次,是改變大作文占分過多的局面,途徑又有二:(1)大作文題轉化為小型作文題(有兩個小作文的語文試卷信度效度明顯高于一個大作文題的試卷)和各種靈活的主觀題(2)使用客觀題來考查寫作能力.

圍繞是否繼續使用選擇題的爭論,尤其是對使用選擇題來考查寫作能力的爭議.美國最大的考試研究機構教育測驗服務中心(ETS),從1954年起進行了長達三年的試驗研究。考試的有效性標準是語文教師對學生作文水平一年或一年以上的觀察結論。結論是:SAT(學習能力傾向測驗,主要是客觀題)的效度最高,與語文教師基于長期觀察對學生寫作能力作出的主觀評價最一致;其次是由客觀性試題組成的ECT(英文寫作水平考試,全為選擇題),最差的是由作文題目組成的GCT(普通寫作測驗,兩個小時的作文考試)。(D.Owen:Noneoftheabove,Rowman&LittlefieldPublishers,INC,Lanham,1999,27~29頁)“正是基于這樣的研究,才使其后的40年中客觀性選擇題成為美國語言能力測試的主要題型.”(謝小慶《談語言能力的考查》《中學語文教學》2003,6)

有人質疑:現在的國際趨勢是增大主觀題的數量,特別是增大作文的分量,咱們怎么能逆國際潮流而動呢?這兒有一個前提,國外主觀題的評分比我們更有保障。尤其是國外作文量化水平較高,評分的客觀化程度較高.(電子記分員的啟用明顯提高了打分的客觀性)

“美國長期使用選擇題,出現了‘高分低能’的現象,轉而求助于主觀性試題.我們始終主要采用主觀性試題,結果導致了更加嚴重的‘高分低能’,這不能不引起我們的深思.”(于新鳳《考試學引論》遼寧人民出版社)

由此看來,題型的選擇未必是測試中最重要的因素.相對而言,試題的命制水平、施測的標準化水平和客觀化水平應該是更重要的因素.

還有人說漢語和英語等語言不同.的確,我們承認漢語的彈性張力模糊性是更強,但我們同時認為:同為語言,漢語和其他語言沒有質的差別,夸大這一點就缺少了最起碼的科學態度;而且,作為量化集中體現的測試,更不宜在模糊性上大做文章,那樣只能使得試題變得更加玄乎其玄.

有人擔心,降低大作文的分值勢必影響中學作文的教學.當然,這種擔心不無道理,但審視現在的中學作文教學,我們不僅充滿了疑惑:(1)我們的應試作文都訓練了些什么呢?很多中學將主要的精力都放在了‘新八股’的制造上了,形式主義泛濫,作文教學日益走向死胡同。“‘三個一’工程”(即寫一手好字,擬一個好題目,起一個貌似不俗的開頭)長期以來風靡全國很多地區,一點也不令人感到奇怪.(2)看看我們學生的作文就知道我們投入了那么多精力大搞特搞的作文訓練究竟有多大成效.以筆者看來,靈活多樣的寫作能力測試方式(通過聽說測試、各種類型的主客觀題)對中學教學的引導作用或許更好.

總之,提高作文測試信度效度的途徑主要有二:(1)加快主觀題(尤其作文)評分的客觀化進程(制定科學的評分量表;嘗試無紙化評閱-廣西在這方面已有較為成功的嘗試;啟用電子閱卷員等等)(2)主觀題型的客觀化

而且,就我國的實際情況而言,后者可能是近期內比較可行的辦法.

(三)實踐性缺失

前面曾提到語言測試理論的欠缺,實際上,相對測試理論而言,我們的高考更欠缺的是實踐性.

我國傳統重主觀體驗,輕客觀實證,加上“官本位”和“大一統”思想的影響,我們的測試向來不大善于從實際出發,思維行事從來就是一種“自上而下”式的,上層的官員專家多憑自己的學識和對下面有限的了解,想當然的組織測試。

“‘德性’文化傳統使得評價更多的是一種人文主義的評價模式,過分強調了評價的民主性和倫理性,而忽視了評價以客觀事實為基礎的原則.”(孔祥沛《淺論傳統文化對我國教育評價制度的影響》《教育科學研究》年月待查)

我國政府及團體組織的大規模實際調查與國外相比少得可憐.我們的借口總是很多,但我看主要原因是惰于實踐,譬如,關聯效度的調查研究,我們的借口總是效標難以確定.實際的原因是懶于嘗試,怕麻煩,不敢直面現實改革.美國的很多大型關聯效度調查都以老師對學生一年以上的觀察作為效標.筆者也覺得,將教師綜合評估的一部分學生的平時成績(比如說每班選二三十名,最少基于一年以上的觀察)作為效標,來衡量高考成績的有效性,可能是個不錯的參照標準。可惜沒有人深入做調查,偶爾有人嘗試,要么淺嘗輒止,輕率結論;要么阻力重重,不得不放棄.(在我國,民間性質的調查由于種種原因更是難上加難)

1.試題內容和測試方法忽略學生實際

(1)對課本的徹底拋棄

在我國目前這種‘一考定乾坤’的人才選拔制度下,徹底不考課本,只會導致拋棄課本;無本可依、見效緩慢(再加上成績偶然性大),只會導致放棄語文學習.

多年來高考命題在內容選擇上有一個指導原則:所選材料應主要來自課外,以測試考生運用已知知識來解決未知問題的能力。應當說這一原則是對的,但筆者認為近些年的高考命題在這一點上做得有些絕對,一定程度上忽略了中國的國情。“主要”不是“不出”,近十幾年的題目幾乎杜絕了課本上的內容。這導致了高中生不愿意上語文課,不重視語文課文學習的現狀。

筆者想提醒命題者的是:語文考試不應完全模仿數學類考試--定理公式是課內的,題目完全是課外的。(這樣,只要學生學好了課本,就能考出好成績.語文呢?課本對于考試的作用微乎其微,學與不學差不多.)語言的學習畢竟有它自己的一些特點,譬如說,名言佳篇的背誦默寫就完全是考查學生的記憶情況,這往往是語言學習和語言測試所必不可少的。

語文學科平時的教與學缺乏一個有效的抓手和平臺,由此導致語文課本使用的困惑和混亂.(有些學校甚至用一年的時間就能完成三年的任務)

語文是應該更開放更靈活,但目前的國情是:大學尚不能普及,大學入學選拔只依靠僅有的一次考試,全國各地發展狀況極不平衡,高考競爭依然激烈;此外,語文高考測試科學化水平較低,學生成績波動太大太經常.鑒于此,掌握好試題的開放度和靈活度就顯得尤其重要.否則,學生必然會將語文學習時間轉向其他學科.

并非只有考課外才能有效地區分學生。課內知識一定比例講究方式的考查,不僅能夠在一定程度上解決中學語文無本可依的尷尬,而且照樣能夠測出學生的真實水平.舉個例子,考成語,完全可以從中學語文課本內部出些題目,選學生學過的常用詞語的常用義項,改變語境,進行考查.

(2)遠離學生實際

高考語文測試,既不能離開語文學科的特點,也不能脫離高中學生的實際--政治、科技、文化類已有的學科基礎知識以及他們生理心理的發育狀況.

我們的高考命題卻常常忽略這一點,存在著較為嚴重的“專業化”“成人化”傾向

很多現代文閱讀題內容具有明顯的專業化傾向--古文化探源、詩的哲理、基本粒子中的中微子、智力結構模式、應激激素和迷走神經等等,離學生的生活太遠.

科技短文考查力度的確應該加大,這符合現代社會的需求.但有一點必須要搞清楚:我們必須在平時的教材里和學生的生活中,補充大量的科技時文,有了這個鋪墊,學生在考試時就不會感覺到突兀.然而,我們中學的教材編排和教學活動,在這一點上做得很不夠.“國內教材忽視現代科技時文不能不說是個遺憾.而國外更加注重從現代社會的實際需要出發選文,以培養學生的現代科技意識,增長學生的現代科技知識,增強學生對現代社會的適應能力…他們的選材內容十分廣泛,幾乎涵蓋了生活的各個方面-報刊新聞,規章條文,科技說明文,推理小說,科幻小說都進入教材.例如法國有一套語文閱讀教材,每冊十幾個單元都有個中心主題,其中包括‘現代生活’‘科學技術’‘時代問題’等等.而國內僅有的說明文大多是些實體說明文,涉及現代科技的是少之又少.”(張承明《中外語文教育比較研究》云南教育出版社2000,10第一版)

此外,很多閱讀文段的文字表達和中學生的實際生活距離遙遠.“以往往往選擇二三十年代的文章,這些文章在詞語的用法上與現代人有些差別,文章中的一些背景知識學生不了解,這就增加了學生答題的難度”(張偉明《再談語文到底考什么》《語文教學通訊》1999,2)

“前幾年高考中出現的成語誤用和病句,材料大多來自報刊雜志,應該說他們是專業編輯人員認可或通過的東西,雖有不當之處,但很隱蔽,一般人看不出來,而且也不十分影響表達,有的則完全是大學中文系語法教材里面的例子,拿這些東西來考涉世未深的高中生是勉為其難的…決不是要所有的學生都成為語言學家或語法學家.”(《語文教學通訊》2001,22期,盛華明《讓語文考試更貼近實際》)

作文命題“政治化”“成人化”等傾向,無意中加重了學生“說假話”“空洞無物”的弊病,從而又在一定程度上降低了作文的區分度(都覺無話可說,都撒謊瞎編).試看下面一些題目:“毀樹容易種樹難”“致光明日報編輯部的信”(關于環境污染問題)“樹木·森林·氣候”“議論‘花與刺’”(關于辯證的看待事物)“‘近墨者黑’或‘近墨者未必黑’”“先天下之憂而憂,后天下之樂而樂”“看‘截肢’漫畫寫感受”(關于責任心問題)“讀材料‘紅雨衣踢碎玻璃罐’寫感受”(關于社會公德心)“堅韌-我追求的品格”“誠信”“心靈的選擇”…

我們的高考作文承載了多少“政治教育”“道德說教”的重任,承載了多少成年人對于年輕人的良苦用心!

然而,這些用意到底能產生多少實際效果,有誰做過實際的調查研究呢?

看一看我們的孩子們作文時苦思冥想來適應成年人思路的痛苦模樣,看一看高考作文試卷上幾乎千篇一律的翻來覆去重復著的空話和為了贏得高分編造出來的一個個‘凄慘’的故事,看一看孩子們“談作文色變”避之唯恐不及的神情…

我們為什么不去反思自身的問題,而是一味的批評孩子們沒有實際生活感受,寫作能力差呢?

2.命題對閱卷執行實際缺乏足夠考慮

我們的閱卷情況很不理想,這是個不爭的事實.要提高命題的科學性就必須充分考慮這一點.

從理論上講,主觀題相對客觀題目應該具有更高的效度,但從批閱實際角度來看則不然.既然高考試卷的首要職責是區分選拔學生,那么我們為何反而忘記了根本而去追求表面的科學呢?

關于作文的問題及改革方案,請參照上文.

3.制定的作文評分標準缺乏可操作性.

我們制定的作文評分標準貌似科學,很難落實,以至于閱卷老師們試批時或批閱之初,還按評分標準打分.之后很快就又回歸到打一個囫圇的總分的老路上去了.批閱時間短,勞動強度大,制定的標準形同虛設.

4.閱卷教師的選拔標準缺少實踐調查的支持,多憑想當然.

我們缺乏科學嚴格閱卷老師資格審查制度.

“1991和1992年,河南省招辦和河南大學教育系、中文系聯合對高考閱卷人員的組成問題進行了大規模的調查,結果出乎一般人預料,也是令人深思的。結論是:高校教師、職稱高的老師、年齡大的老師評分誤差明顯大于中學教師、職稱低的老師、年齡小的老師。”(章熊<<中國當作與閱讀測試>>四川教育出版社2000,10第二版70~72頁)

由此可見,我們平時想當然的觀念里面潛藏著多少主觀臆想的成分,我們的行動多么缺少實際調查的支持!而現在很多省份的高考閱卷仍然主要由一所大學承包(閱卷老師主要由大學老師及一些碩士生和博士生組成)的事實,說明了我們的有關部門是多么不重視此類的調查研究(此后沒再做類似的調查研究),改革是多么的困難!

(四)“數量”觀念匱乏

國人向來重主觀體驗輕理性實證,重定性分析,輕定量研究,語文因而長期停留在一種“運用之妙,存乎一心”的撲朔迷離的狀態。語文的量化水平低下,語文效率很不理想.

葉老在20世紀80年代初就曾呼吁,對學生語文方面的能力“必須達到什么程度”,進行認真的調查研究,從而“形成一個周密的體系”.可惜的是,這種心中無數的狀況至今沒有多大改變.

無論是教學大綱,還是考試說明,都十分缺乏量的規定.教者只能憑感覺,憑大致的把握.這樣的教學也能培養少數的語文精英,卻絕不適合大批量的生產――我們中學語文教育的目的在于培養大批量的具有合格的聽說讀寫能力的現代青年,而不在于培養少數的語文精英.

“效率”是現代社會的重要特征,“量化”是“規模效益”之必需,無“規模效益”何談高效率?

自人類社會進入信息時代以后,科技的發展更加日新月異,人們生活的節奏越來越快,辦事效率也越來越高--需要更快的處理更多的信息(尤其是高速膨脹的科技信息).語言的學習運用以及測試理應緊跟時展的步伐.我們祖上傳下來的語言學習和運用上的“體悟癥”“探究癖”理應遭到信息化社會的唾棄.處理語言信息的敏捷性和靈活性應該是語言測試的一個極其重要的目標.

顧德希說:“母語教學如何適應現代化的問題一直沒有解決”

“數量”這個概念,在語文界乃至我們整個社會都十分缺乏.鑒于此,有必要再重新認識幾個概念.

1.再談“量”“量化”

唯物辯證法告訴我們,“質”是一事物成為它自身并區別另一事物的內在規定性,“量”是表示事物存在的規模、程度、速度以及構成事物要素在空間中的排列組合等的數量的規定性.任何事物都是質和量的統一.質是具有一定量的質,量也總是一定質的量,一定事物的值總以一定的量來表現,世界上不能量化的質是不存在的.因此,只有既作定性分析,又作定量分析,才能正確認識事物.

按一般規律,社會科學的研究由定性到定量再到二者結合,是學科成熟的表現,是其科學化的表現.

“量化,簡單的說就是要數字化,即用數字說明問題.它具有客觀性,準確性,廣泛性(建立在大量抽樣統計的基礎上,遠勝于個案分析),深刻性(描述和解釋是基礎的,預測和控制才是科學研究的最高目標,這些都要借助于量化),普及性”(佟慶偉等著《教育科研中的量化方法》)

量化標志著分析方法的科學水平,其主要功能是實證.而且,量化研究早已成為當代社會與行為科學的強勢典范

“人類追求知識的活動,逐漸從啟蒙運動之后的唯心傳統,配合19世紀末數學與邏輯的發展,走上一條量化、實證、非歷史、非心理的科學實證典范.以數學為基礎的符號邏輯思考體系,取代了亞里斯多德以來的形式邏輯概念,發展出以量化研究為主軸的科學研究典范.…實證主義下的符號邏輯思考體系,仍是當代科學研究的主流思想,量化研究仍是學術訓練的主要研究方法.”(邱皓政《社會與行為科學的量化研究與統計分析》五南圖書出版公司2000,8第一版)

桑代克和麥柯爾有兩句名言:“凡是客觀存在的事物都有其數量”“凡是有數量的事物都可以測量”(轉引自范偉達《現代社會研究方法》復旦大學出版社)有些事物現在不能量化,只能說明量化的水平還不夠,將來某一天肯定能量化.

“馬克思說:一門科學只有成功的運用了數學時,才算真正成為科學.”(孫建軍等著《定量分析方法》南京大學出版社2002,9第一版,第三頁)

“科學的本質是數”(笛卡爾)“宇宙這本書是用數學語言寫成的,沒有它們,人就在一個黑暗的的迷宮里勞而無功的游蕩著.”(伽利略)(轉引自郭俊義《廣義量化引論》江西高校出版社91,9第一版)

“缺乏數字處理技巧和文盲一樣,將被這個社會拋棄.透過復雜瑣碎的數字抓住問題本質的技巧,將鼎力助您作出英明決策.”〖(英)約翰·鮑威爾著《定量決策分析》李潔、林毓銘等譯上海遠東出版社1998,8第一版第一頁〗

不重視量化是小生產者的狹隘眼光和傳統觀念.

孟子說“權然后知輕重,度然后知長短。”(轉引自范偉達《現代社會研究方法》復旦大學出版社)“考試既然是對人的知識與能力的測量,就必須用數量表示它的結果,有考試就有統計分析,甚至可以說,考試就是經過測量所作的統計分析。”

2.我們的高考語文測試特別欠缺“數量”“效率”觀念

(1)考試題量有限,不重視對學生反應敏捷性的考查.

一般的來講,試卷長,覆蓋面廣,題目多,區分度高.題量小,覆蓋面就小,這勢必會增大考試結果的偶然性.

好的命題要兼顧質量和數量,一道題設計得再高明,也不能準確測出全體學生的真實水平.

此外,思維的敏捷性作為語文基本能力的重要組成部分,其重要性在現代社會越來越凸顯.忽視這方面的考查,無疑是高考測試的一大失誤.

“伊薩克(Eysenck)說:感知及其過程的速度,實際上是重要的高級認知技能.”〖(英國)阿美·戴維斯《語言測試學原理》任福昌、吳平等譯,經濟科學出版社1997,12第一版〗

先對中美語言測試的閱讀量作一個比較:

美國的SAT(相當于我國的高考)言語部分特別注重閱讀領會能力(占總分的51%),要求考生通過閱讀獲取新的信息回答有關問題。…就題量而言,新SAT言語部分的題量為78題,時限為75分鐘,為我國高考語文的兩倍。…我國高考閱讀領會的短文大致為2~3篇,字數約為1000~1500字;新SAT閱讀領會的短文為五篇,字數約為2500~3000字,再加上40個問題的題干,閱讀量是我國的兩倍多。舊SAT為六篇,閱讀量更大。

再和高考英語試題比較一下.英語閱讀大概有八篇(包括聽力,閱讀理解短文和完形填空等),其余語法、詞匯等客觀題的題量更為語文試題的若干倍,只是作文少了些.為何英語測試的效度和信度在各科中是名列前茅的呢?同是語言類學科,相去天壤,這難道不值得我們語文同仁反思嗎?難道僅僅是因為英語在難度上要求低嗎

以數量有限的試題來區分學生,必然會在題目的“質量”上下功夫,而這很容易導致“難”“偏”“怪”題泛濫.

遺憾的是,現在有很多人呼吁減少高考題的題量,以便讓學生有充足的時間思考,更利于水平發揮.(筆者認為,再增加一個小時,也不見得有多少改觀.病根在于試題難度過大,而不在于題量過大.)

(2)很多領域的數量指標嚴重欠缺,各種標準化的測驗量表亟待完善.

譬如,詞匯量表的制定.這應該是教學和測試中量化的基礎一環.

特定領域中哪些詞匯是最基本最常用的;詞義中的哪個義項是常用的.這些情況都要借助大規模的統計分析來搞清楚.否則,對詞匯量的科學考查便無從談起.我們的高考詞匯題目往往考查一些不大常用的偏僻詞匯和偏僻義項來區分學生,這也是這些題目屢遭詬病的主要原因之一.而英語測試早已解決了這一問題.師生平時學習的目標很明確.考試所測也主要是平時所學詞匯(當然也有少數超綱的).學生水平區分主要體現在反應的敏捷性、判斷的準確性和運用語言的靈活性上.所以,英語的教學和測試就相對實在,好把握得多,師生的怨言也少得多.

再如閱讀量表的制定.閱讀能力可以從閱讀速度、閱讀材料難易度和閱讀理解等方面來進行定性和定量分析.前二者是可以量化的.

國外對閱讀速度的重視由來已久,也早已制定了非常完備的閱讀速度量表.“世界范圍內的快速閱讀已從理論發展到實際訓練階段,最近20年里,法、美、英、前蘇、日、巴西等國先后成立了全國性的閱讀指導組織.速讀是其指導的重要內容.”(祝新華《語文能力發展心理學》杭州大學出版社1993版)

國內的英語考試也早已制定了閱讀速度的指標.(大學四級考試要求50w.p.m,六級70w.p.m)(查高考指標)

閱讀材料易讀度(readability)的計算公式國外也有很多種。例如Flesh公式:RE=206.84-0.85wl-1.02sl(RE為易讀度指數wl為每100詞音節數sl每句平均詞數)(楊惠中《語言能力的分級測試》,《考試研究》2002年第一輯61頁)我國的英語考試常用Flesh公式來計算閱讀材料的難易度。易讀度只有合于一定的范疇才能入選某種類型的試題。而我們的高考閱讀考試說明只有類似“閱讀‘淺易的…文章’”“閱讀‘一般的…作品’”這樣一些模糊的要求。

閱讀理解主要屬于定性分析。這一點國外也有很多成果值得我們借鑒。

此外,國外還有很多關于語言微技能的量化標準。

作文能力量化標準更是急需完善的一個項目。

譬如說,錯別字、詞語誤用、病句,這些方面到底扣不扣分?達到幾個開始扣分?扣多少分?這些一直都是糊涂帳。閱卷人員多是憑感覺來減分。然而,高溫高強度下的感覺又有多少準確性可言呢?或許一篇不錯的文章,因為題目是個病句就給槍斃了;或許無意中瞅見的一個非常反感的錯別字(可能自己在教學中強調過幾百次了),就使得閱卷老師的情緒一下子激憤起來,此作文因而失去多少分只有天知道。凡此種種,舉不勝舉。

當然,即使有了比較科學的量化標準,如果仍然采用人工高強度閱卷的話,這些標準仍然難以落到實處。所以,要使這些量化標準發揮作用,還得加快作文批閱的客觀化進程,尤其要積極嘗試計算機閱卷。這在上文已經探討過。

美國的“托福”和GMAT寫作評分中,共有“詞匯使用、句子結構、文章組織、寫作邏輯、修辭、論述條理、文章內容等諸多因素,統計了包括文章長度、平均詞長度、平均句長度、詞頻率、句式結構、標點使用等在內的共60多種可以定量分析的指標…”(謝小慶《談語言能力的考查》《中學語文教學》2003,6)

他們這些量化標準能得以很好的落實,主要在于啟用了“電子評分員”。

3.令人遺憾和不解的是,時至今日,反對語文“量化”之聲仍不絕于耳.

“追求語言水平的精確量化,或試圖把人的語言能力發展劃分出精細的等級,諸如此類的努力,其意義和價值都值得懷疑。”

“百年來,語文教學最大的失誤是什么?是所謂‘科學化’--理性的分析研究,已經使語文這個生命體沒有了生命的感覺。”

主要原因在于,一些傳統的獲取知識的方法在我國仍然很有市場,對各種定量分析方法缺乏足夠的信心,同時也是過分相信充滿人類智慧的文化知識不能簡化為純粹的數字的結果

.“Helmstadter(1970)指出:傳統的獲取知識的方法有(一)慣常法(themethodoftenacity):基于慣例、傳統及先入為主的印象或觀念,過去總是如此或天經地義之事,便認為是真實可信的。(二)權威法(themethodofauthority):權威的個人團體或典籍。(三)直覺法(themethodofintuition):人們的觀念與知識訴諸于直觀與直覺,人們相信自己的經驗判斷與知覺,從個人的頓悟與奇想中,發現新的想法與概念。(四)強調推理或推論的可靠性,認為只要推理或推論是對的,所得的結論便是真實或可信的。”(邱皓政《社會與行為科學的量化研究與統計分析》五南圖書出版公司2000,8第一版)

我們承認,語文有很多模糊難以量化的地方(例如語文中的文化因素、情感因素等等),這樣的地方就不妨先讓它模糊著。但不可否認,有更多的地方是可以量化也必須要量化的,尤其是中小學領域里的基礎知識和基本能力方面。

"我認為現在的中學語文教學和測評倒不是科學主義泛濫,而是科學主義嚴重不足"(顧德希《語文教學的病根》)

令人遺憾的是,我們的高考閱讀量很少,測試方法還深深地打著傳統的“體悟癥”“探究癖”(悟文析法,一切為寫作服務)的痕跡.閱讀題目的設置玄玄乎乎,像擺迷魂陣.

“前幾年的高考精讀題目,任意挖壁打洞,圈圈點點,條條框框,搞得面目全非。選擇項的設置差別微細,玄玄乎乎,云里霧里…我們不禁要問:我們是否是在培養老學究?人們平時的閱讀是這個樣子嗎?”“1996的科技說明文閱讀中的‘示范廠’‘小規模工廠’‘正式規模的工廠’‘小型廠’等概念,文章本身就表達不清,令人費解…選材欠當;97年科技文中的‘顱腦’和‘腸腦’,不用說中學生聞所未聞,就是生物老師和一般醫務人員也不太清楚,用如此專業化的東西考學生實在太離譜”(《語文教學通訊》2001,22盛華明《讓語文考試更貼近實際》)

“對效度威脅的因素之一:每個目標的項目太少。有時候一個成績測驗的是某種技能是否存在,而依靠的卻只是一兩個題目…”“一個工具需要的財力人力越多,那么如果它的信度是低的話,越是要慎重考慮是否采用。”(出自小筆記本-書名作者待查)

“我國學科成就考試偏重測量學科知識及其應用,例如,我國語文高考強調常識、語法、文章結構等等知識;美國的SAT言語部分則強調言語概念的把握、詞匯量,重視概念之間的關系的揭示及邏輯推理(類推),特別注重閱讀領會能力(占總分的51%),要求考生通過閱讀獲取新的信息回答有關問題。…就題量而言,新SAT言語部分的題量為78題,時限為75分鐘,為我國高考語文的兩倍。…我國高考閱讀領會的短文大致為2~3篇,字數約為1000~1500字;新SAT閱讀領會的短文為五篇,字數約為2500~3000字,再加上40個問題的題干,閱讀量是我國的兩倍多。舊SAT為六篇,閱讀量更大。…我國高考適當降低知識難度,注重聯系實際,加強思維的敏捷性和靈活性。…命題周期約為18個月,每年都要準備多套等值的測驗試卷…先進的心理計量技術…其完善性是國際測量界所公認的。…其信度和效度均比較理想。…ETS的研究表明:完成四分之三試卷的考生比例一般都在95%以上。”

“正是基于這樣的研究,才使其后的40年中客觀性選擇題成為美國語言能力測試的主要題型…從上世紀90年代開始,美國的語言考試逐漸開始了作文考試。伴隨它出現的是借助計算機給作文評分的‘電子評分員’…用自然語言處理技術與信息擷取技術研究開發的一種主要基于語言特征分析之上的計算機程序,考慮了詞匯使用、句子結構、文章組織、寫作邏輯、修辭、論述條理、文章內容等諸多因素,統計了包括文章長度、平均詞長度、平均句長度、詞頻率、句式結構、標點使用等在內的共60多種可以定量分析的指標…”(謝小慶《談語言能力的考查》《中學語文教學》2003,6)

4.適當增加試題數量是增加考試信度效度的有效手段,這是測試學中被反復驗證了的真理.

而加大題量的最好辦法是多出選擇題

選擇題的良好品質早已在世界上得到公認,并早已確立了其在大規模語言考試中主要題型的地位,持續了半個多世紀未曾被動搖,為什么偏偏在我們國家得不到應有的重視呢?是由于漢語和其他語言有著本質的區別呢,還是由于我們批閱主觀題的誤差遠比別人來的小而達到了較為理想的程度呢?

自1987年語文大批判開始至今,對于選擇題的批評就從來沒有停止過。雖經許多專家闡釋糾正,仍未獲得足夠的信任。鑒于此,筆者想再就此說幾點。

(1)選擇題的“天然”優勢特別適合我國國情

(2)其命制的科學性也亟待提高

選擇題特別便于考查被試思維的敏捷性和準確的判斷力。

筆者認為,客觀題不僅不能取消,反而應適當加大題量.因為這種題型有其天然的"客觀"優勢,特別適合我國國情(主觀題很難增大題量,而且批閱的主觀誤差太大,需更多的人力物力財力)

"在一份試卷中,這樣的試題需要有一定數量。若只一道這樣的題,就有四分之一"蒙對"的可能;若夠一定數量,"蒙"就失去了意義,客觀性就可得到保證”再說,“猜測”有時也是一種能力.國外的考試很多試卷上面就有鼓勵猜測的提示語.

其實,客觀性試題的優越性是多方面的:能根據考生的認知實際合理設置選項,使考查目的明確;避免受考生表達能力干擾而答題不準確;考查點更明確、單一;在大規模測試中能做到答案唯一,保證測試的權威性。大范圍抽樣檢測發現,高質量客觀性試題與主觀性試題所獲分值十分吻合。這說明客觀性試題是完全可用的,片面地否定它就可能妨害高考。至于這類試題對教學可能產生的負面影響,應在教學中實事求是地加以解決。

當然,我們的選擇題命題的科學性繼續提高.當前亟待深入研究的課題是,如何克服漢語的模糊性,達到精確量化的目標,而不是什么取消選擇題的問題。

"從學生考試的結果來看,這些客觀題起到了積極作用。因為這比過去高考只考一篇作文出的"冤假錯案"要少得多。我先后送走過近30個高三畢業班,對使用"客觀題"與不使用"客觀題"的結果做過反復對比。結論是:客觀題出得好,頭腦清楚的學生少受委屈;考主觀題則要憑運氣,主觀題的成績與學生實際水平有時出現極大反差。所以采用一定數量的客觀題,有利于公平選拔,相對而言是對考生比較負責的做法。"

“況且,在沒有引進客觀題之前,語文教學的少慢差費早就長期存在。我們對客觀題引進前后的語文教學質量根本沒有足資憑信的對比,便斷言一種命題方法能對語文教學起決定性作用,而且口誅筆伐,恐怕過分輕率了。"還有一些人批判選擇題不過是為了趕世界反對科學主義的潮流。"(顧德希《語文教學的病根》)

美日高考全為客觀題,法國主要考大題.(康乃美等著《中外考試制度比較研究》華中師范大學出版社2002年版)

“SAT是美國最具代表性的團體學術能力傾向測驗之一,其功能相當于我國的高考。它以基本的言語能力為核心部分。它是一種預測性測驗,注重測量與未來學習成功有關的能力測驗時間短,題量大,對思維和反應的敏捷性與正確性要求較高。全部采取多選一的客觀題方式。嚴格按照科學化標準化的程序編制并實施,具有較堅實的心理計量學基礎。它這種學能測驗和我們的學科測驗只是處于同一測量連續體的不同位置。前者側重依據校內外經驗而發展起來的能力,后者側重教學中發展的能力,前者可以為后者加強能力考查方面提供借鑒。它努力創設新的問題情境或采用新的材料,力求與中學課程及教材無直接聯系。(1)各科均如此(2)體制和我們不一樣,壓力差別很大。”

現在該是結束爭執的時候了.將精力放到…努力提高語文高考的科學化水平.

(一)試題難度過大,有“專家化”傾向,重學科知識的運用,輕基本能力的考查

想對于高考其他科目而言,與文科題目的“偏”“難”“怪”是早已出了名的.學生戲稱考語文是"跟著感覺走"

這是高考語文遭受批評的焦點之一.

很多語文界專家(劉國正等)和作家(如王蒙),甚至不惜以身試法,以自己慘不忍睹的成績(嚴格的按標準答案批閱基本不及格),向語文高考提出了強有力的質疑.

對此,有關考試官員和專家的解釋卻是:“對試題不熟悉”“沒經過專門訓練”“所操之術多異”…

這些托詞雖含有一點道理在里面,但包含著更多的狡辯,缺乏起碼的自我批評精神。我們不禁要問:連漢語專家都及不了格的試題其科學性又有幾何?如此考試到底是為了考查學生的語文基本功,還是為了顯示命題者的水平呢?

顯然,我們對“語文基本功”的定位出了問題.我們缺少足夠的水平來科學的提高試題的區分度

那么,到底應該如何來定位“語文基本功”呢?

“作為基礎教育階段的語文教育,對于絕大多數學生來說,無疑應注重語文基本能力的培養”(顧德希)(<<中國考試>>2002年第三期<<學科能力等級研究與素質教育>>)

“SAT是美國最具代表性的團體學術能力傾向測驗之一,其功能相當于我國的高考。它以基本的言語能力為核心部分。它是一種預測性測驗,注重測量與未來學習成功有關的能力測驗時間短,題量大,對思維和反應的敏捷性與正確性要求較高。全部采取多選一的客觀題方式。嚴格按照科學化標準化的程序編制并實施,具有較堅實的心理計量學基礎。它這種學能測驗和我們的學科測驗只是處于同一測量連續體的不同位置。前者側重依據校內外經驗而發展起來的能力,后者側重教學中發展的能力,前者可以為后者加強能力考查方面提供借鑒。它努力創設新的問題情境或采用新的材料,力求與中學課程及教材無直接聯系。

美國的SAT(相當于我國的高考)言語部分則強調言語概念的把握、詞匯量,重視概念之間的關系的揭示及邏輯推理(類推)

“美國明顯重基本能力,輕基礎知識考查,內容廣泛,體裁靈活多樣,知識覆蓋面廣,題量大.中日法則重知識掌握.”(康乃美等著《中外考試制度比較研究》華中師范大學出版社2002年版)

作文考查應大大降低對“藝術才能”(如想象力情感力感悟力形象思維力以及思維的創造性和批判性;高的格調境界)的要求,-略有體現足矣,畢竟高考的選拔是一種基礎性選拔,這方面要求過高勢必會扼殺大批具有其他專長的精英。確實有寫作才華的學生可以通過其他渠道破格錄取。

有很多科學家、政治家的文章,的確缺乏文采,但卻有足夠的魅力吸引人們。由此可見,解決作文能力等級量化問題,不能不在緯度上加以劃分。

“作文教學盡管可以提倡文采,但顯然不必以此為每個學生作文的劃一尺度。能文采飛揚,固然值得鼓勵;不能的,盡可在不同方面發展。文字清楚,意思明確,作為文學刊物用稿的尺度是不行的,但作為語文表達能力的一種基本要求,為什么就不值得大力提倡呢?”(顧德希《學科能力等級研究與素質教育》《中國考試》)

作文批閱是過于重格調,重境界,也扼殺了不少敢說真話,抒真情的性靈之作.

語文由于是母語,再加上高考屬選拔性測試,所以考題必須有一定的難度,這是正確的。問題是如何來增加難度,是不是增加難度就一定意味著將題目搞的神秘兮兮呢

“我國學科成就考試偏重測量學科知識及其應用,例如,我國語文高考強調常識、語法、文章結構等等知識;美國的SAT言語部分則強調言語概念的把握、詞匯量,重視概念之間的關系的揭示及邏輯推理(類推),特別注重閱讀領會能力(占總分的51%),要求考生通過閱讀獲取新的信息回答有關問題。…就題量而言,新SAT言語部分的題量為78題,時限為75分鐘,為我國高考語文的兩倍。…我國高考閱讀領會的短文大致為2~3篇,字數約為1000~1500字;新SAT閱讀領會的短文為五篇,字數約為2500~3000字,再加上40個問題的題干,閱讀量是我國的兩倍多。舊SAT為六篇,閱讀量更大。…我國高考適當降低知識難度,注重聯系實際,加強思維的敏捷性和靈活性。…命題周期約為18個月,每年都要準備多套等值的測驗試卷…先進的心理計量技術…其完善性是國際測量界所公認的。…其信度和效度均比較理想。…ETS的研究表明:完成四分之三試卷的考生比例一般都在95%以上。”

讓我們選擇幾個題型,來具體的看看語文試題的難度有多大.

應該承認,把高考題卷上的多數題分別孤立地看,并無太大難度,但是,以整張試卷來看,難度是很大的。每年高考學生得分很少有上130分的(150分為滿分),而外語考分上140分則不為少數;許多語文專家試做高考題也往往難以及格。語文專家劉國正先生有一次很認真地答了一張高考語文試卷,按標準答案,嚴格計算,結果只能達到70分。王蒙稱自己很難及格.

深圳市紅嶺中學的胡立根老師曾作過一個數據統計,是關于91年到97年高考語音題目中部分漢字的使用頻率的:

試題年份9193949495959697

漢字抔涔鋌捭皈帙戕殄

85年字次10439567

使用度0.55.02.21.86.53.13.74

十科分布11235333

“使用度在10以下的字,是使用度極低的字…在7000通用漢字中,至少有6500個漢字的使用度超過了0.5。”(《語文學習》1999年第八期)

2000年識別錯字題考了兩個冷僻字“圜”“禎”,占總數的__分之一

前些年盛行的字音字義字形題,一道選擇題目中考查36個知識點,且都是比較難的或者說報章雜志都經常錯的,只要有一個點掌握不好,此題得分的可能性就和純粹猜測差不多。如此測試能公平客觀的評定、區分考生的實際水平層次嗎?這兒僅舉一個例子:

且看高考命題提高難度的手段1.合多為一法

如考卷第一題,要求辨別幾個字的讀音或字型或解釋(有時一道題目包含上述三個方面)的正誤,四個選擇肢每肢至少包含四個知識點,這實際上是將很多道題合并到了一起.

2.避熟就生法.如考一些常用詞語中相對不很常用的詞語或熟詞生義(附統計結果);出一些專業性較強的文章(命題者稱是從語文角度考查,但如果文章的大概都把握不了,答題又從何說起呢)

3.將水搞渾法.這突出表現在客觀題中選擇項的設置上.命題者唯恐考生輕易答出,于是處處設疑置絆,將選擇項搞的玄玄乎乎,使人如墜云里霧里.

語文考題中致難之因還有,這兒就不再列舉了。我們要注意的是這種"難度"的性質與它帶來的后果,它的難不在于考及的知識如何艱深,而主要是考查的繁瑣復雜,廣布疑陣,因而使程度差的人反可籍猜測答案得分,而程度較高的人卻因錯誤人人難免而無法得到高分。這種考試不可能有大的區分度,不利于人才的選拔。

“我國高考使用的標準化考試并不是嚴格意義上的標準化考試。第一,我們的試卷編制過程不標準。采用的還是我們老祖宗的出題方式,沒有建立題庫,試卷形成后沒有預測;這樣就很難保證試題的難度、區分度,以及試卷的信度和效度達到一定的指標。第二,我們的分數解釋沒有標準化,我國至今(在標準化考試使用了十幾年之后)基本上還在使用卷面分數報告成績,還在采用將各科的卷面成績相加來計算總分的方式。有一點統計學和測量學常識的人都知道,這種做法是錯誤的。”(余明輝《我國中小學語文教學的病根到底是什么》《中學語文教學》2000,9)

中國傳統思維具有求同與封閉性特點.“法古”“法師”“去異”

東方:宗法專制文化;西方:科學民主精神.(李宇升《教學藝術比較研究》天津大學出版社1998,第一版23頁)

“‘德性’文化傳統使得評價更多的是一種人文主義的評價模式,過分強調了評價的民主性和倫理性,而忽視了評價以客觀事實為基礎的原則.”“科學主義的教育評價忽視了教育評價的主體性的一面,形成了單一凝固的教育價值觀及指標體系,‘抹煞了豐富的教育活動的多樣性和教學的藝術性’…而在教育評價的實際操作中,定性評價往往也比定量評價更容易進行,自覺不自覺的陷入了人本主義的泥坑.…高揚科學的大旗,,定性和定量相結合,充分利用現代科學技術,特別是計算機技術…使評價結果是建立在大量信息基礎上的一種判斷,走出行政性評價的窠臼.…文化是一個民族的特質,傳統文化對一個民族的影響是潛意識的,揮之不去的.…我國的教育評價制度既要學習西方的先進經驗,又不能脫離本國的文化背景.評價主體宜具有官方的背景,評價機構性質宜‘半官半民’,評價方式上力求創新,走科學評價的道路,既要做到倫理的善,更要做到邏輯的真和形式的美.”(孔祥沛《淺論傳統文化對我國教育評價制度的影響》《教育科學研究》年月日待查)“中國文化是強調人文精神、倫理道德、中庸和諧關系的‘道德理性文化’,西方文化是注重科學主義的‘工具理性’文化.”(顧冠華沈廣斌《中國傳統文化與高等教育》海洋出版社1999年版,23頁)

“考試機構不宜制造一個錯覺,讓外界誤以為考試是一門精確的科學,這樣的定位并不表示考試機構自貶身價,而是一種負責任和實事求是的態度.考試政策必須經過縝密的考慮,有理有據,合情合法;運作程序的設計必須算無遺策,把人為因素減至最低,務求考生的成績得到公平、正確的處理.對于考試的局限,以坦誠的態度處理.這樣,把有關政策和運作程序公諸于世,不但不會削弱考試機構的權威性,反而有助于提升其公信力.揭開面紗,責無旁貸.”

馬克思恩格斯說過:“科學就是在于用理性的方法去整理感性材料.”(劉堯《論教育評價的科學性與科學化問題》《教育研究》2001,6)

考試原則:科學性、客觀性、公平性、實踐性(廖平勝等著《考試學》)

命題只有少數人“入闈”突擊進行,試題質量缺乏科學管理的指標,對以往考試很少統計分析,試題水平往往不穩定。評卷每年抽調近十萬教師,耗資千萬,閱卷人員水平參差不齊(缺乏必要的選拔資格認證體系),缺少控制評卷質量的有效方法。

筆者想,我們的高考卷如果像世界上很多國家一樣可以復查(當然這在高考競爭異常激烈的時候施行起來是很困難的),肯定會輿論大嘩!但這對于增加考試的透明度,提升考試的公信力,是多么有益的事呀!我們的改革步伐好像總是如此緩慢,我們只能翹首企盼了。

從實際效果來看,筆者建議還是多聘請中學高水平教師批閱為宜

缺少立法。“由于缺少對招生制度的深入細致的科學研究,沒有一個總體的規劃,缺少一個‘法’,所以多年來高考政策不穩定,反復大,領導意志明顯。招生政策幾乎年年有變化,有時甚至今年完全推翻了去年的做法。”(馬文卿劉文超著《中國高考走向》山東人民出版社2002,3,一版,41頁)

“無紙化考試在國外已很流行成熟,而我國尚處于試驗階段.雖然西方人運用考試的歷史比我們晚整整一千年,卻早已形成了一些更為科學的考試觀念,就像他們雖然從我們這兒學會了造紙術和印刷術,今天卻向我們出口造紙和印刷的成套設備.”(《關于考試公平性的一些思考》《考試研究》2002第二輯作者待再查)

閱讀測試忽視現代社會實際需求

自人類社會進入信息時代以后,科技的發展更加日新月異,人們生活的節奏越來越快,辦事效率也越來越高--需要更快的處理更多的信息(尤其是高速膨脹的科技信息).語言的學習運用以及測試理應緊跟時展的步伐.我們祖上傳下來的語言學習和運用上的“體悟癥”“探究癖”理應遭到信息化社會的唾棄.處理語言信息的敏捷性和靈活性應該是語言測試的一個極其重要的目標.

“量化研究是當代社會與行為科學的強勢典范.統計分析則是量化研究的核心.…標準化的測驗量表,是量化研究不可或缺的工具,其嚴謹的編制程序與信效度檢驗,使測量的品質得以確保.”“人類追求知識的活動,逐漸從啟蒙運動之后的唯心傳統,配合19世紀末數學與邏輯的發展,走上一條量化、實證、非歷史、非心理的科學實證典范.以數學為基礎的符號邏輯思考體系,取代了亞里斯多德以來的形式邏輯概念,發展出以量化研究為主軸的科學研究典范.…實證主義下的符號邏輯思考體系,仍是當代科學研究的主流思想,量化研究仍是學術訓練的主要研究方法.”)

“我國的中學生每學期只不過認真學三十篇文章(教材規定的),而美國初中生每學期達一百篇左右,德國有近六十篇.”(張承明《中外語文教育比較研究》云南教育出版社2000,10第一版62頁)

“思想內容”的合理構成又是怎樣的呢?“品德修養”到底應不應該占分?若占,占多少分?這也是個很迫切的問題。以筆者之見,應弱化這方面的考查。原因如下:(一)追求“品德”的高境界,對學生抒寫真生活真情感是個極大的束縛,助長了“假、大、空”的惡習。(二)紙上的“品德”是很靠不住的,言行不一的現象畢竟太普遍。(三)很難定位量化。而我們的命題一旦去除了背負在肩上的這份“道德教化”的額外負擔,會一下子輕松許多。文言片段的選材不必再拘泥于“英雄事跡”,作文命題也可根本上避免“政治化”傾向,學生可以放開手腳,“我手寫我口”,局面會一下子生動活潑許多。