首頁 > 資訊頻道 > 教育評價

學校增值的一致性與穩定性——基於多水平追蹤數據的實證研究

2020-08-20 8060

核心提示：用增值來評價學校是一種更為公平和精確的評價方法。然而這種評價方式也存在一定風險。研究發現，學校的增值在各個學科之間的一致性並不高，基於學生總分計算的增值可能會掩蓋校內各個學科教師效能的差異，這可能會引起部分學科教師的“搭便車”行為。此外，對於同一屆學生來說，學校增值在不同年份具有極大的變動性。因此，基於單個年份計算的學校增值不能被運用於具有高利害性質的學校問責體係中。

利用學生的進步而非學生在關鍵考試中的原始分數來評價學校的績效，被公認為是一種更加公平和精確的學校評價方法。這種評價方法因考慮到學校的生源水平以及學生的家庭背景，因此被稱為增值評價。學校的增值被定義為在剔除了其他因素的影響後，學校對於學生學業成就的 “淨貢獻 ”。在美國、英國等發達國家，增值指標已經被廣泛用來評價學校甚至教師的效能。作為評價指標體係的全部或一個部分，增值指標已被運用到一些國家的教育問責體係如對教師有高利害關係的獎勵和懲罰製度中。一些國家和地區還在網絡上公開學校的增值指標，為家長擇校提供更為科學的信息來源。
當前，我國仍廣泛使用學生升學率、優秀率來評價學校的工作業績，使用平均成績、及格率等來評價教師的工作業績。這種忽略生源水平差異和學生背景差異的評價方法，無法公平公正地評價學校和教師對學生學業成績的促進作用，甚至會誤導家長對學校質量的評判，從而做出非理性的擇校決策。據此，我們認為，實施增值評價的意義尤為重大。
增值評價已經引起了我國一些學者的注意，他們的研究均表明增值評價與原始分評價的結果相差很大 [1]。然而，對於增值評價的研究不能止步於此。要想在中國推廣這種評價方法，還需要對增值指標及其計量模型本身做更為深人的探究，以了解增值指標更多維度的特點。在學校效能研究的經典文獻 — — 《教育效能基礎》一書中，希潤斯和博斯尚無國家一級或省一級的學生學業成就的長期追蹤數據。因此，針對本文的研究問題，隻能選取一個區實施探索性研究。此外，增值評價所用多水平模型的參數估計依賴於正態分布的假設，對於學生 (層一 )和學校 (層二 ) 的樣本量有一定要求。經合組織建議每所學校的學生數至少為 20~-"30人 [3l，本文中每所學校的學生數都高於此標準。有關層二的樣本量，目前並沒有一致的意見，一個經驗法則是 20個以上 [4]。本文中學校數為 25所，滿足分析的要求。
1．學生測試成績數據
由於增值測量依賴於兩次考試成績，所以對於測量工具的選擇尤為重要。目前，對於增值測量在考試工具上有多種選擇。
第一種方法是讓前後兩次試題完全相同。這樣能讓保證前後測的分數等價，但這種方法缺點非常明顯，如果前後測試間隔時間較短，那麼可能存在記憶效應，學生的真正進步難以測出；此外，學生的學習是接受新知識的發展過程，前後測試如果完全相同，就難以反映學生學習的增值。
第二種方法是通過項目反應理論 (IRT)設計標準化試卷，前後測試的部分試題相同，對兩次考試進行垂直等化鏈接，讓兩次測試的分數能直接比較。這種方法的優點是認為學生學習是一個累積過程，但對於試題製定的技術要求較高，在標準化考試非常流行的國家如美國運用較多，但在我國尚無成規模的應用。其缺點則是測試更強調不同年級中所學的共同內容，對教學的敏感度不高[5】，且據此估算的增值排名對所選擇的鏈接方法非常敏感【6]。
第三種方法是根據經典測試理論和課程內容本身設計前後試題，在增值模型中運用標準分。這種方法在標準化考試不甚流行的國家，特別是在關鍵考試中以等級計分的英國，非常受歡迎。該方法比較簡單易行，符合我國的教育評價國情，其缺點是標準分增值所測量的並非學生絕對進步，而是學生在兩次測試中成績在總體中相對位置的變化。本研究采用的測試依據的是第三種方法，即該區本身實施的區統考以及 2012年的中考。圖 2本研究所采用的縱向測試成績數據圖 2顯示了本研究所采用的測試成績數據結構。其中測試 1為該區 2012屆學生於 2009年初一入學時的摸底統考，該考試度量了學生學習的初始能力。測試 2與測試 3為初一和初二年級末的統考，測試 4為初三末的中考，它們分別度量了學生在初中各年末的最終學習成果。這些測試的試題均由獨立於學校之外的專門機構依據義務教育國家課程標準設計開發，且考試程序嚴格，確保了考試本身的公平性。此外，試題的信度較高。如測試 3中，語文試題的信度為0．72，數學為 0．87，英語為 0．92(Alpha內部一致性係數 )。我們利用學號、學生姓名、學校識別碼將這四次考試成績在學生個體層次上連接起來，形成了本文所用的追蹤測試數據，共涉及語文、數學、外語三個科目。
2．學生家庭社會經濟地位數據 (SES)
自科爾曼報告以來，研究界就形成了普遍的共識：家庭背景對於學生的學業成就有影響。而學生的家庭背景是學校不能控製的變量，因此有必要將其納入增值模型中，以盡可能得到學校的“淨 ”效應。本文參考 PISA 學生問卷，利用三個指標來描述學生的家庭背景：社會經濟地位 (SES)、家庭財富 (Wealth)和文化資源 (Culture)。變量具體描述見表 1。納入模型的其他人口學變量還包括學生的性別、年齡、是否為農民工子弟等。需要提及的是，一些學生層次的變量如學習態度、學習時間不能被納入增值模型，因為這些變量受學校和教師影響較大，某種程度上反映了學校的效能，納入模型會導致增值的估計偏誤。此外，學生從入學到畢業的三年中，樣本的損耗率 (sampleattrition)較大，即使考慮到新轉到該區學校的學生，仍有 20％的學生因各種原因缺失中考成績數據。因為難以判斷缺失值是否為隨機，所以在分析中隻能做逐條刪除(1istwisedeletion)。由於每個變量都可能存在缺失值，所以最後參與建模的個案數更低。為方便解釋參數，對於連續型的自變量納入模型時我們采用的是總均值中心化方法 (grandmeancentering)，即將自變量的值減去該自變量的均值。
3．學校層次的變量
在教育生產函數研究中，由於缺乏理論指導，往往將學校層次的各種資源投入都納入模型，然後根據純統計學的標準來對自變量進行取舍。但在增值模型中要避免這樣做，這主要是因為我們假定學校的效能與資源投入是相關的，而且資源投入是學校能夠控製和改變的 (至少在一個區域內的義務教育學校，資源投入反映了學校的努力程度，比如教師的學曆、職稱、生均經費等 )。依據同樣的邏輯，我們也避免在增值模型中納入任何班級層次的投入變量，這樣做也可以避免受到學生中途換班的影響。在本文的模型設置中我們隻控製那些學校難以改變的變量：第一，學校生源的平均初始學習能力(以平均前測成績代替 )；第二，學校生源的平均社會經濟地位。這兩個變量屬於學生個體的學校彙總變量 (aggregatedvariables)，也稱情境變量 (contextualvariables)，納入它們是因為學生個體特征在不同學校的分布不同，納入這些變量能增加增值估計的精確度。為了模型參數解釋的方便，納人模型時對這兩個變量也實施總均值中心化。最後要說明的是，對於哪些變量進入增值模型，理論指導仍然是不夠的，實踐中也遠未達成共識。過少的變量可能會導致模型調整不足 (under—adjustment)，而納入過多的變量可能會導致調整過度 (over-adjustment)，因為教育投入變量的效應存在相關性和重疊性。巴婁等 (Ballou，eta1．)學者的研究表明，納人班級層次的變量對於班級增值的估計影響不大。[8]本文中納人學校彙總變量，並不完全依從純統計學原則，目的也不是僅讓模型能更好地擬合數據，而是為了更合理地計算學校增值。要明確的是，在實踐中不存在最好的模型，隻存在最符合政策目標的合適模型。
(二 )增值的計量方法
在有關學校效能的文獻中，有一係列的統計計量模型可用來估算學校增值。如果不考慮麵板數據，當前主要的增值計量模型可以分為三類：簡單回歸增值模型、固定效應增值模型、多水平(隨機效應 )增值模型。這三類模型在估算增值時所遵循的邏輯是相同的，即將模型擬合後的“殘差”(residua1)中的學校部分作為學校貢獻程度的度量。因此，無論采用哪種模型，所估算出的學校增值排名都應該很類似，我們之前的實證研究亦發現，不同模型估算的學校增值相關程度在 0．96以上。[9]由於在學校效能研究中多水平模型已經得到多數學者的認同和應用，因此，本文擬采用兩水平 (學校、學生 )模型來估算學校的增值，並以此為基礎考察增值的一致性和穩定性。本文的模型中隻包括隨機截距，出於方便考慮沒有納入隨機斜率。
Y =flo，+fl,y + +句 (層 1：學生 ) 『=燦 + ．。 +U。， (層 2：學校 ) vaF(U0J)=z~var(句)= 在此計量模型中，y啦為學校，中學生 f的後測成績，。為學生的前測成績，。為斜率，句為每個學生的殘差，假定其服從均值為0，方差為cr2的正態分布。為學生層次的其他變量，如學生家庭社會經濟地位、性別、年齡等。_，是學校層次的彙總變量。對於每所學校而言，其截距包括兩個部分： (固定截距，所有學校都一樣 )與 U。，(隨機截距，每所學校不一樣 )。隨機截距 U。，即為學校增值的度量，我們假定其滿足均值為 0，方差為的正態分布，其估算公式為：，、 “ 『二F 年L 一啦公式中nl為學校，的學生數，．啦為模型的預測值，這種估計也被稱為經驗貝葉斯預測。對此增值估計要做兩點說明。首先，增值是一種相對指標。一所學校增值的計算必須依賴於樣本內所有其他學校的信息，它不能用來孤立地衡量一所學校學生學業進步的絕對數。其次，增值帶有不確定性。由於多水平模型將學校以及學生個體作為某個“超總體 ”中一個隨機樣本來看待，其增值估計是帶有抽樣誤差的，因此比較學校增值時必須考慮到其置信區間。置信區間的長短取決於標準誤，標準誤的計算公式為： E 麗 1 [10] 由此公式可以看出，增值的置信區間長短取決於殘差的校內變異、校間變異以及學校的學生數量。在同一顯著性水平下 (如 95％)，學校的學生數越多，標準誤越小，置信區間越窄，估計精度越高。理論上來說，增值的置信區間重合的兩所學校，盡管其增值排名不同，但它們之間實際上沒有統計學意義的差異。 (三 )研究問題的分析方法本文聚焦於增值的一致性和穩定性，因此是對計量模型中對增值估計後的二次分析。本文擬用兩個指標來分析。第一，斯皮爾曼等級相關係數 (Spearman’srho)。由於學校增值在用於學校問責和家長擇校時，利益相關者所關注的是各個學校增值的排名情況，所以我們用等級相關係數而非皮爾遜線性相關係數來衡量學校增值的一致性與穩定性。例如，如果所有學校語文的增值排名與數學的增值排名相關程度很高，那說明增值的一致性在這兩個科目之間較高。第二，評分一致性係數 (Cohen’skappa)。從統計意義來說，增值分析隻將學校分為三類：顯著高於平均值 (即置信區間底端大於 0)、與平均值無顯著差異(置信區間與 0重合 )、顯著低於平均值 (置信區間頂端小於 0)。在考察增值的一致性和穩定性時，相當於三個評分者(三個科目或三年 )將所有學校歸人這三個類別中。如果不同學校在三年內始終處於某一個類別，那麼可以認定增值的穩定性較高。
三、研究發現
(一 )模型參數估計本部分給出總分增值模型的參數估計結果(見表 2)。在控製其他變量時，學生個體的初始學習能力 (入學總分 )每增加一個標準差，學生中考總分能增加 0．929個標準差。這表明學生個體的初始學習能力是學習結果的最佳預測變量。和女生相比，男生即使在入學總分上相同，其學業進步程度仍較低。同一屆內的學生年齡越大 (以月份計 )，成績越低。進城務工子女的學習進步幅度要高於非農民工子女學生，但這種差異沒有統計學意義。學生個體的社會經濟地位在控製其他變量時，對學生學習結果仍有正的影響。家庭文化資源對學生成績有正的影響，但該影響不顯著。

點讚 0舉報收藏 0打賞 0評論 0

更多>同類資訊頻道

shtxc
加關注1
~~沒有留下簽名~~~~

推薦圖文

推薦資訊頻道

點擊排行

網站首頁 | 福建省海峽教育研究院簡況 | 聯係方式 | 使用協議 | 隱私政策 | 版權隱私 | 網站地圖 | 排名推廣 | 廣告服務 | 積分換禮 | 網站留言 | RSS訂閱 | 違規舉報 | 閩ICP備19002640號-1

工信部備案管理係統網站：http://www.beian.miit.gov.cn。