国产特级特黄一级片|在线嘿咻嘿咻视频|91本色超碰在线|波多野结衣一区无码|精品一区二区束缚|国内视频在线观看一区二区不卡|日韩美女视频网址|免费无码婬片AAAA片直播中文|高清无码在线网站|国产网站日韩四季

教育資訊 首頁  》  新聞資訊  》  教育資訊

關注|高中學業(yè)水平等級性考試數據分析拓展研究

2022-05-20 | 6257|

摘要

為考試機構的考試數據分析工作提供實踐新思路,以某學科高中學業(yè)水平等級考適應性測試數據為樣本,采用 CTT下的亞組分析及試題難度參數結構分析、多級計分IRT下的試題類別特征曲線和信息函數,分析試卷對不同能力考生的區(qū)分程度、試題難度結構配比、非選擇題分值及采分點設置的適宜性。研究表明,上述結合CTT和IRT的考試數據分析方法拓展了傳統(tǒng)的考試數據分析模型,研究展現的數據分析流程、結果樣式及用途說明能為等級考命題提供數據支持。具體內容快跟著信息技術考試系統(tǒng)的小編來看看吧~



引言

以教育測量學的傳統(tǒng)理論來界定,學業(yè)水平等級性考試(以下簡稱“等級考”或“選考”)由于采用等級賦分的方式計入高考總分,并被用作高等學校錄取的依據之一,因而兼具標準參照測驗與常模參照測驗的性質。當一次考試兼具兩種不同的測驗性質時,對試題命制和考試數據分析工作提出新要求。傳統(tǒng)教育測量理論主要針對單一測驗性質提出,在測量屬性增加與選考復雜性并存的現實下,等級考的數據分析模式若還固守經典測量理論的模式,僅用總體參數評價試題試卷,則不僅考試數據分析模型單一,也不能滿足新一輪高考綜合改革對試題命制和考試數據分析工作的新要求。張敏強指出,“十四五”期間要提升高考的科學化水平,需要加強教育測量學理論方法深度研究,方向之一是結合應用經典測量理論(CTT)和項目反應理論(IRT)評價高考試題試卷質量[1]。


CTT和IRT在考試數據分析中各具優(yōu)勢,CTT的指標因計算簡便而更為常用,但CTT的參數計算具有樣本依賴性。等級考因為是選考,所以各科目考生群體數量和層次結構不確定,即便年度之間的等級考試題具有穩(wěn)定性,但因考生群體變化大,用CTT計算出的試題參數也不一定能為下次類似的命題提供穩(wěn)健的信息。IRT可以克服CTT對樣本的依賴性,實現試題參數估計跨群體的不變性,適合等級考背景下的數據分析,前一次考后的試題參數估計值,能為下次類似的命題提供穩(wěn)健的信息;此外,IRT引進了試題信息函數,并用信息量來替代信度的概念,可以針對不同考生精確估計每個試題的測量誤差,有了不同題目對不同考生單獨計算信息量值的方法,就可以對不同考生的特質水平估計誤差進行主動控制,從而更加有利于反饋命題質量,指導測驗編制;IRT還具有將考生的能力參數與試題的難度參數定義在同一量尺上,并通過試題特征曲線直觀地呈現出來等優(yōu)點。

本研究結合CTT和IRT,拓展高中學業(yè)水平等級考數據分析模型,以期為考試機構的考試數據分析工作提供實踐新思路,滿足新一輪高考綜合改革落地的新要求。


01
CTT框架下的亞組分析模型

在CTT框架下,以等級賦分的理論值為切分點,對考生得分進行分層,即將考生分為不同能力的亞組,通過計算不同能力亞組考生群體的難度系數,可以評價整份試卷對不同能力考生的區(qū)分能力。將試題的難度系數劃分為10檔,計算10檔試題難度與考生得分的交叉分類列聯(lián)關系,得到試題難度參數結構表,從試題的角度進一步評價10檔難度試題對不同能力考生的區(qū)分。


1.1 試卷對不同能力亞組考生的區(qū)分能力

以某學科等級考適應性測試數據為對象(數據經過處理,無個人身份信息),使用單純隨機抽樣方式,抽取2000份作為樣本數據集。按照A省等級考賦分方案,將考生卷面總分從高至低劃分為21個等級。如果想著重了解某學科試卷對于中高端能力考生的區(qū)分度,可計算等級賦分方案中的A1至A5、B1至B5共10個等級相對應的能力亞組上的區(qū)分度,實現流程如下:以樣本數據集中的卷面總分為目標變量,首先按照卷面總分,將所有樣本考生的卷面總分從高至低排列,然后計算卷面總分的一分一段頻數、百分比及累計百分比,再按照賦分方案中各等級的比例要求,找到每個亞組的切分點,將所有樣本數據歸到不同的亞組中,最后計算每個亞組中的卷面難度系數,即可得到CTT下試卷對不同能力亞組的區(qū)分度。計算亞組切分點的方法是:按照等級賦分方案各等級的比例,計算出“排名占比區(qū)間”(表1為示例),當某個卷面總分的累計百分比落在“排名占比區(qū)間”內時,該卷面總分即成為一個亞組的切分點。需要說明的是,本研究的亞組劃分僅是為本研究需要設計的,不一定與實際錄取的賦分方式相同。


各種數據庫管理軟件或統(tǒng)計軟件均可完成上述結果的實現。以R軟件為例,排序使用order(),降序排列則在目標變量前面加上減號(-),頻數分布使用table(),累計百分比用cumsum(),亞組難度系數使用aggregate(),指定函數為mean。

以樣本數據集為例,將按照上述流程計算后的結果繪制成圖1,可以看到某學科試卷對A1至A5、B1至B5共10個等級相對應能力亞組考生的亞組難度系數大致呈均勻遞減趨勢,除A3和A4、A4和A5兩對亞組之間的難度系數差為0.02外,其余亞組之間的難度系數差均為0.03,與賦分方案中每一級之間差 3分的設計較為吻合,整卷對中高端能力考生的區(qū)分比較均勻。由此可見,通過亞組內的難度系數計算,能方便直觀地分析出試卷對目標群體的區(qū)分程度,對反饋等級考命題質量具有借鑒作用。


1.2 試題難度參數結構表

以上述同一樣本數據集為例。該學科等級考適應性測試卷共30道試題(或設問),以0.1為步長,將試題的難度系數從0~1劃分為10檔。首先計算每一道試題(或設問)的難度系數,然后將每一道試題(或設問)歸類到10檔難度分類中,再將試卷總分值相同的考生歸為一個總分亞組,最后計算每一個總分亞組中10檔難度分類下的試題平均難度系數,即可得到試題難度參數結構表,見表 2。表中每一個格子代表10檔難度系數區(qū)間的試題在試卷總分值相同的一組考生內的試題平均難度系數。


通過試題難度參數結構表,可以分析整個試卷中試題難度結構配比問題。如表2所示,縱向看每一列:試卷中難度系數在(0.3,0.4]的試題,總分在78分以上的考生能答對50%以上的試題;難度系數在(0.4,0.5]的試題,總分在72分以上的考生能答對50%以上的試題;以此類推。

試題難度參數結構表的基本思想是:當得分率為0.5時,定位試題難度系數與考生試卷總分大致對應位置,這種思想類似于在 IRT試題反應曲線ICC上,用答對某試題的概率為50%時的點定位考生能力值θ。通過檢視10檔試題難度在試卷不同總分值上平均得分率的拐點位置、坡度變化,不僅可反饋當次等級考命題質量,還可以對下一次試題命制時難度結構的預分析提供一定的幫助。


02
IRT框架下非選擇題分值及采分點設置的適宜性分析模型

在非選擇題命制完成后,命題者還須制定盡可能詳細的評分標準指導閱卷評分。制定評分標準首先要研究每一道試題的滿分值是多少,給定試題滿分值即是在明確這道題所要測量的行為特征的等級數,如一道滿分 10分的非選擇題,得分就有0~10共11個等級。如果等級過少,就難以有效區(qū)分不同能力水平的考生;如果等級過多,就有可能增加評分誤差;只有等級劃分合理,才能減少試題設計本身帶來的測量誤差。為設置非選擇題的分值及采分點,可以用IRT模型,以試題類別特征曲線和信息函數為基礎,研究以下兩個方面的問題:一是相鄰兩個得分等級的難度閾值對考生作出有效區(qū)分的程度,二是不同分值的非選擇題提供的實際信息量與理論上應提供的信息量的匹配程度。


2.1 GRM模型試題參數估計

采用多級計分的GRM模型(graded response model)[2]進行參數估計,公式為:


以樣本數據集為例,使用R軟件中的mirt[3]、lavaan[4]、psych[5]包實現流程和結果,16 個非選擇題的采分等級數如表3所示,采分等級數為該題滿分值加1。


使用單維IRT模型的前提之一是測試數據符合單維性假設,可使用驗證性因子分析或探索性因子分析進行檢驗。驗證性因子分析的操作如下:調用R軟件lavaan包中的 fitmeasures()函數,對建立的單一因子模型進行檢驗,檢驗的相關參數為CFI、TLI、RMSEA和SRMR。如果CFI>0.95,TLI>0.95,RMSEA<0.06,SRMR<0.08,則有足夠的證據證明測試數據與單一因子模型擬合較好,適合使用單維IRT模型[6]。探索性因子分析的操作如下:調用R軟件的psych包,求出特征根,先用cor()語句求出數據集的相關系數矩陣,隨后用eigen()語句對相關系數矩陣求特征根。一般情況下,當第一因子的特征根與第二因子的特征根之比在4倍及以上時,認為數據是單維的。

使用IRT 模型對題目進行分析,還需要考慮數據和模型的擬合度,如果擬合度過低,則研究結果沒有意義。GRM模型與實測數據的擬合性,可在mirt包中調用函數M2()對建立的GRM模型進行檢驗,函數會給出統(tǒng)計量M2及相關參數CFI、TLI、RMSEA和SRMR。如前所述,如果CFI>0.95,TLI>0.95,RMSEA<0.06,SRMR<0.08,則代表GRM模型與數據擬合度好。

在上述檢驗完成后,應用R軟件中的mirt包進行GRM模型的試題難度和區(qū)分度參數估計。調用函數mirt(),設置參數itemtype=“graded”構建GRM模型;隨后調用函數coef()對建立好的GRM模型提取參數。樣本數據集的參數估計結果如表4所示,其中a為試題的區(qū)分度參數,b1~b4代表得1~4分的難度閾值。


表4顯示,該等級考適應性測試的非選擇題區(qū)分度a在0.71~2.11,均值為1.76。試題的區(qū)分度在多大的區(qū)間合適,需要學科領域的專家進行判斷。國外有對情緒管理情境測試的研究報道[7],試題a值在0.01~0.24為非常低,0.25~0.63為低,0.64~1.34為中等,1.35~1.69為高。若以此標準為判斷依據,則本次測試中只有Q172為中等區(qū)分,其余非選擇題的區(qū)分度都很高。

按照一般經驗,難度參數在-2~2時較為合適,避免了試題太難或太易。從表4中的難度閾值參數可見,所有非選擇題最低采分點的難度閾值b1均大于-2,表明試卷中沒有太容易的非選擇題,這與等級考非選擇題承擔的選拔功能是一致的。Q163、Q181和Q182最高采分點的難度閾值分別為2.34、2.37和2.25,表明這3道試題的最高采分點難度較大,學科命題專家可結合數據,查看這3道試題考查的內容和能力范疇,用難度閾值參數輔助判斷試題是否達到了命題預設時的質量。Q172最高采分點的難度閾值為4.47,是所有非選擇題中最高的,但是此題的區(qū)分度為0.71,是所有非選擇題中區(qū)分度最低的,對這道試題的質量評價還需結合試題特征曲線、試題信息量等綜合分析。

除對試題質量進行評價外,難度閾值參數還有利于命題者將考查核心素養(yǎng)不同水平、不同難度的試題對標,對新課標下以核心素養(yǎng)為要點的試題命制具有參考價值,如有研究認為高中生地理野外實踐能力水平1~3的試題難度定位為-0.726、-0.186和0.602[8]。


2.2 類別特征曲線圖分析

等級性應答的試題特征曲線又被稱為類別特征曲線(option characteristic curve, OCC),按照等級數量的不同,有多條。OCC橫軸為考生的能力水平θ,縱軸為作答的正確概率P(θ),每一條曲線代表了不同能力水平的考生在該題中獲得相應等級分數的概率。

實現類別特征曲線圖的操作是:調用mirt包中plot()函數對構建好的GRM模型作圖,參數type=“trace”,which.items設定需要對哪幾道試題作類別特征曲線,語句為plot(grm_fit, type=“trace”, which.items=c(1, 2, 3), …)。

以樣本數據集為例,試題Q161、Q162、Q163的類別特征曲線如圖2~圖4所示。由圖2可見,Q161共有5個采分點等級(0,1,2,3,4),但是采分點等級1、2的累積概率曲線P2、P3彼此難以區(qū)分,表明其區(qū)分不同能力水平考生的效果較差。圖3和圖4顯示,Q162和Q163對不同分數等級的區(qū)分較為理想。


通過圖式化的類別特征曲線圖,能幫助命題者分析不同采分點等級對不同能力考生水平的區(qū)分。Q161的結果顯示,該題的滿分雖為4分,但實際并沒有起到5個采分等級的區(qū)分效果,如果該題的設計沒有問題,閱卷評分標準表述的清晰度也不存在問題,則可考慮合并采分等級,將該題的滿分值從4分調為3分。


2.3 試題信息函數圖分析

在IRT中,試題信息量表示的是試題評價考生能力水平的準確性。試題信息函數圖(item information function,IIF)的橫坐標為能力水平θ,縱坐標為試題信息量I(θ),每條曲線代表了該試題在不同的能力水平下所能提供的信息量值。一道試題的信息量越大,表示它越能準確估計考生的水平。

實現試題信息函數圖的操作為:調用mirt包中plot()函數對構建好的GRM模型作圖,參數type=“infotrace”,which.items設定需要對哪幾道試題作試題信息函數圖,語句為plot(grm_fit, type=“infotrace”, which.items=c(1, 2, 3), …)。

圖5~圖7為Q161、Q162、Q163的試題信息函數曲線。由圖可見,Q161的信息函數曲線最高峰比Q162、Q163低,同為采分點等級數為5的3道試題,Q161實際提供的信息量要低于Q162和Q163,區(qū)分不同能力考生的水平相對也較弱。


Q1712和Q172是同一道大題的2個小問,采分等級數均為5。圖8為Q1712和Q172的類別特征曲線,圖9為Q1712和Q172的試題信息函數曲線。結合2個圖分析,Q172的類別特征曲線較為平坦且曲線重疊,試題信息量在整個能力刻度θ(-6,6)上都較低;再據表4可知,Q172的區(qū)分度在所有非選擇題中最小,提示命題者可考慮對該題進行修改。


2.4 試題信息量匹配分析

試題信息量匹配分析的目的是通過構建所有試題在不同能力水平考生中的局部特征表達模式,以及分析不同分值的非選擇題提供的實際信息量與理論上應提供的信息量的匹配性,協(xié)助命題者檢驗命題預期,為改進試題提供有價值的數據支撐。試題信息量匹配分析的方法為以下2步。

第一步,計算試題最大信息量I(θ)max及其對應的能力水平θ值,將每道試題的I(θ)max及對應的θ值作散點圖,得到每道試題對什么能力水平的考生具有最良好估計的直觀判斷,從而構建出所有試題在不同能力水平考生中的局部特征表達模式。R軟件mirt包中沒有找到直接的函數可以得到I(θ)max及對應的θ值,可以采用以下語句進行計算:

extr.1<-extract.item(grm_fit,1)(提取建立好的GRM試題參數)

Theta<-matrix(seq(-4, 4, by=.1))(生成一個以0.1為步長從-4到4的矩陣θ)

info.1<-iteminfo(extr.1, Theta)(得到第1題θ從-4到4上所有的信息量值)

max(info.1)(得到最大信息量值)

第二步,對比分析試題理論上應提供的信息量比例,以及試題實際提供的最高信息量比例。理論上應提供的信息量比例等于某道非選擇題的滿分值占所有非選擇題滿分值的百分比,實際提供的最高信息量比例等于某道非選擇題信息量的最大值占所有非選擇題信息量最大值的百分比。

以樣本數據集為例,按照上述步驟計算后的結果如圖10和表5。圖10展現了所有非選擇題的I(θ)max及對應的θ值,在16道非選擇題中:有7道對θ在(-1,0)之間的考生測量最精確,比較適合考查能力水平處于平均水平偏下的考生;有7道對θ在(0,1)之間的考生測量最精確,比較適合考查能力水平處于平均水平偏上的考生;有1道對θ在(1,1.25)的考生測量最精確,有1道對θ在2.25附近的考生測量最精確,這2道題比較適合考查能力水平較高的考生。通過對試題最大信息量分布的刻畫,構建出整份試卷所有試題的局部特征表達模式,用數據幫助驗證命題時的難度預設。


表5依次列出了每道非選擇題的滿分、I (θ)max及對應的θ值、實際提供的最高信息量比例、理論上應提供的信息量比例。通過對比第5列和第6列可見,樣本數據集16道非選擇題,其中有6道實際提供的最高信息量低于理論上應提供的信息量。綜合試題最大信息量分布及信息量匹配分析,可以透視試題命制方面的問題,提出改進試題的措施。


03
總結與展望

本文結合實例,闡述結合CTT和IRT分析考試數據的實現流程,期望將測量結果有效、客觀地應用于命題及試題質量改進,以盡可能多的證據完善考試命題工作及試題質量評價。在實際工作中,雖然考試機構工作人員已經認識到CTT在指導實踐過程中暴露出的不足,但因IRT需要的各種參數和技術的應用沒有簡單易用的計算機軟件支持,所以并沒有在考試工作實踐中廣泛應用IRT。為解決這一問題:一方面,在考試機構從事考試數據評價的工作人員,需要增加數據的量化實踐能力;另一方面,考試機構應在評價系統(tǒng)的信息化研究中,開發(fā)適用于關鍵數據統(tǒng)計分析的智能化應用軟件,使其既能對IRT、認知診斷理論等現代測量理論的基本指標進行計算,又能使該應用操作與普通辦公軟件一樣簡潔直觀,便于一般工作人員使用。

在高考綜合改革背景下,考試數據分析模型要適應改革特點,結合考試機構實際工作需求進行相應拓展,才能發(fā)揮出實證數據對考試改革的支撐作用。


原文刊載于《中國考試》2022年第5期第54—63頁。

作者:沈勵,北京教育考試院科研與評價處。萬雅奇,北京教育考試院科研與評價處副處長,教授級高級工程師(通信作者)。

?