利 用 學生 的進 步 而非 學 生在 關鍵 考試 中 的原始分數來評價學校的績效 ,被公認為是 一 種更加公平和精確的學校評價方法 。這種 評價方法 因考慮到學校的生源水平 以及學生 的家庭背景 ,因此被稱 為增值評價 。學校 的 增值被定義為在剔除 了其他因素的影響後 , 學 校 對 於 學 生 學 業 成 就 的 “淨 貢獻 ”。在 美 國、英國等發達國家 ,增值指標 已經被廣泛用 來評價學校甚至教師的效能 。作為評價指標 體係 的全部或一個部分 ,增值指標 已被運用 到一些 國家的教育問責體係如對教師有高利 害關係的獎勵和懲罰製度中。一些 國家和地 區還在 網絡上公開學校的增值指標 ,為家長 擇校提供更為科學的信息來源 。
當前 ,我 國 仍廣泛使用學生升學率 、優秀率來評價學校的工作業績 ,使用平均成績 、及格率等來評價 教師 的工作業績。這種忽略生源水平差異和 學 生背景 差異的評 價方法 ,無法公平公正地 評 價學 校和 教師對 學生學 業成績 的促進 作 用 ,甚至會誤導家長對學校質量的評判 ,從而 做 出非理性的擇校決策。據此 ,我們認為 ,實 施 增 值評 價 的意 義 尤 為重大 。
增值評價已經引起 了我國一些學者的注 意 ,他們 的研究均表 明增值評價與原始分評 價 的結果相差很大 [1]。然而 ,對 於增值評價 的研 究 不能 止 步 於此 。要想 在 中 國推 廣這 種 評 價方法 ,還需要對增值指標及其計量模型 本 身做 更為深人的探究 ,以了解增值指標更 多維度的特點 。在學校效能研究 的經典文獻 — — 《教育效能基礎》一 書中 ,希潤斯和博斯尚無 國家一級或省一級 的學生學業成就 的長 期追蹤數據 。因此 ,針對本文的研究問題 ,隻 能選 取一 個 區實施 探索性研究 。此外 ,增值 評價所用多水平模型的參數估計依賴於正態 分 布 的 假設 ,對 於 學生 (層一 )和 學 校 (層 二 ) 的樣本量有一定要求 。經合組 織建議每所學 校 的 學生 數 至 少 為 20~-"30人 [3l,本 文 中每所 學校的學生數都高於此標準 。有關層二的樣 本量 ,目前並沒有一致 的意見 ,一個經驗法則 是 20個 以上 [4]。本 文 中學 校數 為 25所 ,滿 足 分析的要求 。
1.學生測試成績數據
由於增值測量依賴於兩次考試成績 ,所 以對 於測量工具 的選擇尤為重要 。 目前 ,對 於增值測量在考試工具上有多種選擇 。
第一 種方法是讓前後兩次試題完全相同。這樣能 讓保證前後測 的分數等價 ,但這種方法缺點 非常明顯 ,如果前後測試間隔時間較短 ,那麼 可 能存在記憶效應 ,學生的真正進步難 以測 出 ;此外 ,學生 的學 習是接受新知識的發展過 程 ,前後測試如果完全相 同,就難 以反映學生 學 習的增 值 。
第 二 種方 法 是通 過 項 目反 應理 論 (IRT)設計標準化試卷 ,前後測試的部分試 題相同 ,對兩次考試進行垂直等化鏈接 ,讓兩 次測試的分數能直接 比較 。這種方法的優點 是認 為學生學 習是一個 累積過程 ,但對 於試 題 製 定 的技 術 要 求 較 高 ,在 標 準 化 考試 非 常 流行 的國家如美 國運用較多 ,但 在我國尚無 成規模的應用。其缺點則是測試更強調不同 年級 中所學 的共 同內容 ,對教學的敏感度不 高[5】,且據此估算的增值排名對所選擇的鏈 接方法非 常敏感 【6]。
第 三種方 法是根據 經 典測試理論 和課程 內容本身設計前後試題 , 在增 值模 型 中運用 標 準分 。這 種 方 法在 標 準 化 考 試 不 甚 流行 的 國家 ,特 別是 在關 鍵 考試 中以等級計 分的英 國 ,非常受歡迎 。該 方法 比較簡單易行 ,符合我國的教育評價國情 ,其 缺點是標準分增值所測量的並非學生絕對進 步 ,而是學生在兩次測試 中成績在總體中相對位置的變化 。本研究采用 的測試依據 的是 第三種方法 ,即該 區本身實施 的區統考 以及 2012年 的 中考 。 圖 2本研究所采用的縱 向測試成績數據 圖 2顯 示 了本 研 究 所 采 用 的測 試 成績 數 據 結構 。其 中測試 1為該 區 2012屆 學生於 2009年 初 一 入 學 時 的摸 底 統 考 ,該 考 試 度 量 了學 生 學 習 的初 始 能 力 。測 試 2與測 試 3為 初一 和初二年級末 的統考 ,測試 4為初三末 的中考 ,它們分別度量 了學生在初 中各年末 的最 終 學 習成 果 。這 些測 試 的試 題均 由獨立 於學校之外 的專 門機構依據義務教育 國家課 程標準設計開發 ,且考試程序嚴格 ,確保 了考 試本 身 的公 平性 。此外 ,試題 的信度較 高。 如測試 3中 ,語文試題 的信度 為0.72,數學 為 0.87,英語 為 0.92(Alpha內部 一致性 係數 )。 我們利用學號 、學生姓名 、學校識別碼將這四 次考試成績 在學生個體層次上連接起來 ,形 成 了本文所用的追蹤測試數據 ,共涉及語文 、 數學 、外語三個科 目。
2.學生家庭社會經濟地位數據 (SES)
自科爾曼報告 以來 ,研究界就形成 了普 遍 的共識 :家庭背景對於學生的學業成就有 影 響。而學生的家庭背景是學校不能控製的 變量 ,因此有必要將其納入增值模型中,以盡 可能得 到學校 的“淨 ”效應 。本文參考 PISA 學生問卷 ,利用三個指標來描述學生的家庭 背 景 :社 會 經 濟 地 位 (SES)、家 庭 財 富 (Wealth)和文化資源 (Culture)。變量具體描 述 見 表 1。 納入模型的其他人 口學變量還包括學生 的性別 、年齡 、是否為農 民工子弟等。需要提 及 的是 ,一些 學 生層 次 的變 量如 學 習態度 、學 習時間不能被納入增值模型 ,因為這些變量受 學 校 和教 師影 響較 大 ,某 種 程 度 上 反 映 了 學校 的效能 ,納入模型會導致增值的估計偏 誤 。此外 ,學 生從 入 學到 畢 業 的三 年 中 ,樣本 的損耗 率 (sampleattrition)較 大 ,即使考慮 到 新轉到該 區學校 的學生 ,仍有 20%的學生 因 各種原因缺失中考成績數據。因為難以判斷 缺失值是否為隨機 ,所 以在分析 中隻能做逐 條刪除(1istwisedeletion)。由於每個變量都可 能 存 在 缺 失值 ,所 以最 後 參 與 建模 的個 案數 更 低 。為 方 便解 釋參 數 ,對 於 連 續 型 的 自變 量納入模 型時我們采用 的是總均值中心化方 法 (grandmeancentering),即將 自變量 的值 減 去該 自變量的均值。
3.學校層次的變量
在 教 育 生 產 函數 研 究 中 ,由於 缺 乏 理 論 指導 ,往往將學校層次 的各種資源投入都納 入 模 型 ,然 後 根 據 純 統 計 學 的標 準 來 對 自變 量 進 行 取 舍 。 但 在 增 值 模 型 中要 避 免 這 樣 做 ,這主要是 因為我們假定學校 的效能與資 源投入是相關的 ,而且資源投入是學校能夠 控 製 和 改 變 的 (至少 在 一 個 區域 內 的義 務 教 育學校 ,資源投入反映 了學校的努力程度 ,比 如教師 的學曆 、職稱 、生均經費等 )。依據 同 樣 的邏輯 ,我們也避免在增值模型 中納入任 何班級層次 的投入變量 ,這樣做也可 以避免 受 到 學生 中途 換 班 的影 響 。在 本文 的模 型設 置 中我 們 隻控 製 那 些 學 校 難 以改 變 的 變量 : 第一 ,學校生源的平均初始學習能力(以平均 前測成績代替 );第 二 ,學校生源的平均社會經濟地位 。這兩個變量屬於學生個體的學校 彙總變 量 (aggregatedvariables),也稱 情境 變 量 (contextualvariables),納入 它 們是 因為學 生 個體特征在不 同學校 的分布不同 ,納入這些 變量能增加增值估計 的精確度。為 了模 型參 數解 釋的方便 ,納人模 型時對這兩個變量也 實施總均值 中心化 。 最後要說 明的是 ,對 於哪些變量進入增 值模型 ,理論指導仍然是不夠的 ,實踐中也遠 未 達 成共 識 。過 少 的變 量可 能會 導 致模 型 調 整 不 足 (under—adjustment),而 納 入 過 多 的 變 量 可 能會 導 致 調 整 過 度 (over-adjustment),因 為教育投 入變量 的效應 存在相關 性 和重疊 性。巴婁等 (Ballou,eta1.)學者 的研究表明 , 納人班級層次的變量對於班級增值 的估計影 響不大 。[8]本 文 中納人學校 彙總變量 ,並不 完全依從 純統計學原則 ,目的也不是僅讓模 型能更好地擬合數據 ,而是為了更合理地計 算學校增值 。要 明確 的是 ,在實踐 中不存在 最好的模 型 ,隻存在最符合政策 目標 的合適 模 型 。
(二 )增 值 的 計 量 方 法
在有關學校效能的文獻 中 ,有一係列的 統計計量模型可用來估算學校增值 。如果不 考慮麵板數據 ,當前主要的增值計 量模 型可 以分為三類 :簡單 回歸增值模 型、固定效應增 值模 型 、多水平(隨機效應 )增值模型。這三 類模 型在估算增 值 時所遵循 的邏輯 是相 同 的 ,即將模型擬合後的“殘差”(residua1)中的 學校部分作為學校貢獻程度 的度量 。因此 , 無論采用哪種模 型 ,所估算 出的學校增值排 名都應該很類 似 ,我們之前的實證研究 亦發 現 ,不 同模 型估 算 的學 校增 值 相關 程 度 在 0.96以上 。[9]由於在學校效能研究中多水平 模型已經得到多數學者 的認同和應用 ,因此, 本文擬采用兩水平 (學校 、學生 )模型來估算 學 校 的 增 值 ,並 以此 為 基 礎 考 察 增 值 的 一 致 性和穩 定性 。本文 的模 型中隻包 括隨機 截 距 ,出於方便考慮沒有納入 隨機斜率。
Y =flo,+fl,y + +句 (層 1:學 生 ) 『=燦 + .。 +U。, (層 2:學 校 ) vaF(U0J)=z~var(句)= 在此計量模型 中,y啦為學校 ,中學生 f的 後測成績 , 。為學生的前測成績 ,。為斜率 ,句 為每個學生 的殘差 ,假定其服從 均值 為0,方 差 為cr2的正態分布。 為學生層次的其他變 量 ,如學 生家 庭社 會 經濟 地位 、性 別 、年 齡 等。_,是學校層次 的彙總變量。對於每所學 校而言 ,其截距 包括兩個部分 : (固定截 距 ,所 有學校都一樣 )與 U。,(隨機截距 ,每所 學校不一樣 )。隨機截距 U。,即為學校增值 的 度 量 ,我們假定 其滿足均值為 0,方差為 的 正態分布 ,其估算公式為: , 、 “ 『二F 年L 一 啦 公式中nl為學校 ,的學生數 ,.啦為模型的 預測 值 ,這 種估 計 也 被稱 為 經驗 貝 葉斯 預 測 。對此增值估計要做兩點說 明。首先 ,增 值是一種相對指標 。一所學校增值 的計算必 須依賴於樣本 內所有其他學校 的信息 ,它不 能用來孤立地衡量一所學校學生學業進步的 絕對數 。其次 ,增值帶有不確定性 。由於多 水平模型將學校 以及學生個體作為某個“超 總體 ”中一個 隨機樣本來看待 ,其增值估計是 帶有抽樣誤差 的 ,因此 比較學校增值 時必須 考慮到其置信 區間。置信區間的長短取決於 標準誤 ,標準誤的計算公式為 : E 麗 1 [10] 由此公式可 以看 出 ,增值 的置信 區間長 短 取 決 於 殘 差 的校 內變 異 、校 間變 異 以及 學 校 的 學生 數量 。在 同一 顯 著性 水 平下 (如 95%),學校的學生數越多 ,標準誤越小 ,置信 區間越 窄 ,估計 精 度越 高 。理 論 上來 說 ,增值 的置信 區間重合 的兩所學校 ,盡管其增值排 名不 同 ,但 它們 之間實際上沒有統計學 意義 的差異 。 (三 )研 究 問題 的分 析 方 法本文 聚焦於增值 的一致性和穩定性 ,因 此是 對計量模 型 中對增值 估計後 的二 次分 析 。本文擬用兩個指標來分析 。第一 ,斯皮 爾曼等級相關 係數 (Spearman’srho)。由於學 校增值在用於學校 問責和家長擇校時 ,利益 相關 者所關 注 的是各個 學校增 值 的排 名情 況 ,所以我們用等級相關 係數而非皮爾遜線 性相關 係數來衡量學校增值 的一致性與穩定 性 。例 如 ,如果所有學校語文的增值排名 與 數學 的增值排名相關程度很高 ,那說 明增值 的一致性在這兩個科 目之 間較高 。第二 ,評 分一致 性係數 (Cohen’skappa)。從統計意義 來說 ,增值分析隻將學校分為三類 :顯著高於 平 均值 (即置信 區間底端 大於 0)、與平均值 無顯 著差異(置信 區間與 0重合 )、顯著低 於 平均值 (置信 區間頂端小於 0)。在考察增值 的一致性和穩定性時 ,相 當於三個評分者(三 個 科 目或 三年 )將 所 有 學 校 歸 人 這 三個 類 別 中 。如果 不 同學 校 在 三年 內始 終處 於某 一個 類別 ,那 麼可以認定增值的穩定性較高 。
三 、研 究發 現
(一 )模 型參數 估 計 本部分給出總分增值模型的參數估計結 果(見表 2)。在控製 其他變量 時 ,學生個體 的初始學習能力 (入學總分 )每增加一個標準 差 ,學生 中考 總分 能增 加 0.929個標 準 差 。這 表明學生個體的初始學習能力是學習結果的 最佳 預測 變量。和女生相 比 ,男生即使 在入 學總分上相同 ,其學業進步程度仍較低 。同 一 屆 內的學生年齡越大 (以月份計 ),成績越 低 。進城務工子女 的學習進步幅度要高於非 農 民工子女學生 ,但這種差異沒有統計 學意 義。學生個體的社會經濟地位在控製其他變 量時 ,對學生學習結果仍有正的影響。家庭 文化資源對學生成績有 正的影 響 ,但 該影響 不顯著 。
