国产特级特黄一级片|在线嘿咻嘿咻视频|91本色超碰在线|波多野结衣一区无码|精品一区二区束缚|国内视频在线观看一区二区不卡|日韩美女视频网址|免费无码婬片AAAA片直播中文|高清无码在线网站|国产网站日韩四季

教育資訊 首頁  》  新聞資訊  》  教育資訊

關(guān)注|高中學(xué)業(yè)水平等級性考試數(shù)據(jù)分析拓展研究

2022-05-20 | 7020|

摘要

為考試機(jī)構(gòu)的考試數(shù)據(jù)分析工作提供實踐新思路,以某學(xué)科高中學(xué)業(yè)水平等級考適應(yīng)性測試數(shù)據(jù)為樣本,采用 CTT下的亞組分析及試題難度參數(shù)結(jié)構(gòu)分析、多級計分IRT下的試題類別特征曲線和信息函數(shù),分析試卷對不同能力考生的區(qū)分程度、試題難度結(jié)構(gòu)配比、非選擇題分值及采分點設(shè)置的適宜性。研究表明,上述結(jié)合CTT和IRT的考試數(shù)據(jù)分析方法拓展了傳統(tǒng)的考試數(shù)據(jù)分析模型,研究展現(xiàn)的數(shù)據(jù)分析流程、結(jié)果樣式及用途說明能為等級考命題提供數(shù)據(jù)支持。具體內(nèi)容快跟著信息技術(shù)考試系統(tǒng)的小編來看看吧~



引言

以教育測量學(xué)的傳統(tǒng)理論來界定,學(xué)業(yè)水平等級性考試(以下簡稱“等級考”或“選考”)由于采用等級賦分的方式計入高考總分,并被用作高等學(xué)校錄取的依據(jù)之一,因而兼具標(biāo)準(zhǔn)參照測驗與常模參照測驗的性質(zhì)。當(dāng)一次考試兼具兩種不同的測驗性質(zhì)時,對試題命制和考試數(shù)據(jù)分析工作提出新要求。傳統(tǒng)教育測量理論主要針對單一測驗性質(zhì)提出,在測量屬性增加與選考復(fù)雜性并存的現(xiàn)實下,等級考的數(shù)據(jù)分析模式若還固守經(jīng)典測量理論的模式,僅用總體參數(shù)評價試題試卷,則不僅考試數(shù)據(jù)分析模型單一,也不能滿足新一輪高考綜合改革對試題命制和考試數(shù)據(jù)分析工作的新要求。張敏強(qiáng)指出,“十四五”期間要提升高考的科學(xué)化水平,需要加強(qiáng)教育測量學(xué)理論方法深度研究,方向之一是結(jié)合應(yīng)用經(jīng)典測量理論(CTT)和項目反應(yīng)理論(IRT)評價高考試題試卷質(zhì)量[1]。


CTT和IRT在考試數(shù)據(jù)分析中各具優(yōu)勢,CTT的指標(biāo)因計算簡便而更為常用,但CTT的參數(shù)計算具有樣本依賴性。等級考因為是選考,所以各科目考生群體數(shù)量和層次結(jié)構(gòu)不確定,即便年度之間的等級考試題具有穩(wěn)定性,但因考生群體變化大,用CTT計算出的試題參數(shù)也不一定能為下次類似的命題提供穩(wěn)健的信息。IRT可以克服CTT對樣本的依賴性,實現(xiàn)試題參數(shù)估計跨群體的不變性,適合等級考背景下的數(shù)據(jù)分析,前一次考后的試題參數(shù)估計值,能為下次類似的命題提供穩(wěn)健的信息;此外,IRT引進(jìn)了試題信息函數(shù),并用信息量來替代信度的概念,可以針對不同考生精確估計每個試題的測量誤差,有了不同題目對不同考生單獨(dú)計算信息量值的方法,就可以對不同考生的特質(zhì)水平估計誤差進(jìn)行主動控制,從而更加有利于反饋命題質(zhì)量,指導(dǎo)測驗編制;IRT還具有將考生的能力參數(shù)與試題的難度參數(shù)定義在同一量尺上,并通過試題特征曲線直觀地呈現(xiàn)出來等優(yōu)點。

本研究結(jié)合CTT和IRT,拓展高中學(xué)業(yè)水平等級考數(shù)據(jù)分析模型,以期為考試機(jī)構(gòu)的考試數(shù)據(jù)分析工作提供實踐新思路,滿足新一輪高考綜合改革落地的新要求。


01
CTT框架下的亞組分析模型

在CTT框架下,以等級賦分的理論值為切分點,對考生得分進(jìn)行分層,即將考生分為不同能力的亞組,通過計算不同能力亞組考生群體的難度系數(shù),可以評價整份試卷對不同能力考生的區(qū)分能力。將試題的難度系數(shù)劃分為10檔,計算10檔試題難度與考生得分的交叉分類列聯(lián)關(guān)系,得到試題難度參數(shù)結(jié)構(gòu)表,從試題的角度進(jìn)一步評價10檔難度試題對不同能力考生的區(qū)分。


1.1 試卷對不同能力亞組考生的區(qū)分能力

以某學(xué)科等級考適應(yīng)性測試數(shù)據(jù)為對象(數(shù)據(jù)經(jīng)過處理,無個人身份信息),使用單純隨機(jī)抽樣方式,抽取2000份作為樣本數(shù)據(jù)集。按照A省等級考賦分方案,將考生卷面總分從高至低劃分為21個等級。如果想著重了解某學(xué)科試卷對于中高端能力考生的區(qū)分度,可計算等級賦分方案中的A1至A5、B1至B5共10個等級相對應(yīng)的能力亞組上的區(qū)分度,實現(xiàn)流程如下:以樣本數(shù)據(jù)集中的卷面總分為目標(biāo)變量,首先按照卷面總分,將所有樣本考生的卷面總分從高至低排列,然后計算卷面總分的一分一段頻數(shù)、百分比及累計百分比,再按照賦分方案中各等級的比例要求,找到每個亞組的切分點,將所有樣本數(shù)據(jù)歸到不同的亞組中,最后計算每個亞組中的卷面難度系數(shù),即可得到CTT下試卷對不同能力亞組的區(qū)分度。計算亞組切分點的方法是:按照等級賦分方案各等級的比例,計算出“排名占比區(qū)間”(表1為示例),當(dāng)某個卷面總分的累計百分比落在“排名占比區(qū)間”內(nèi)時,該卷面總分即成為一個亞組的切分點。需要說明的是,本研究的亞組劃分僅是為本研究需要設(shè)計的,不一定與實際錄取的賦分方式相同。


各種數(shù)據(jù)庫管理軟件或統(tǒng)計軟件均可完成上述結(jié)果的實現(xiàn)。以R軟件為例,排序使用order(),降序排列則在目標(biāo)變量前面加上減號(-),頻數(shù)分布使用table(),累計百分比用cumsum(),亞組難度系數(shù)使用aggregate(),指定函數(shù)為mean。

以樣本數(shù)據(jù)集為例,將按照上述流程計算后的結(jié)果繪制成圖1,可以看到某學(xué)科試卷對A1至A5、B1至B5共10個等級相對應(yīng)能力亞組考生的亞組難度系數(shù)大致呈均勻遞減趨勢,除A3和A4、A4和A5兩對亞組之間的難度系數(shù)差為0.02外,其余亞組之間的難度系數(shù)差均為0.03,與賦分方案中每一級之間差 3分的設(shè)計較為吻合,整卷對中高端能力考生的區(qū)分比較均勻。由此可見,通過亞組內(nèi)的難度系數(shù)計算,能方便直觀地分析出試卷對目標(biāo)群體的區(qū)分程度,對反饋等級考命題質(zhì)量具有借鑒作用。


1.2 試題難度參數(shù)結(jié)構(gòu)表

以上述同一樣本數(shù)據(jù)集為例。該學(xué)科等級考適應(yīng)性測試卷共30道試題(或設(shè)問),以0.1為步長,將試題的難度系數(shù)從0~1劃分為10檔。首先計算每一道試題(或設(shè)問)的難度系數(shù),然后將每一道試題(或設(shè)問)歸類到10檔難度分類中,再將試卷總分值相同的考生歸為一個總分亞組,最后計算每一個總分亞組中10檔難度分類下的試題平均難度系數(shù),即可得到試題難度參數(shù)結(jié)構(gòu)表,見表 2。表中每一個格子代表10檔難度系數(shù)區(qū)間的試題在試卷總分值相同的一組考生內(nèi)的試題平均難度系數(shù)。


通過試題難度參數(shù)結(jié)構(gòu)表,可以分析整個試卷中試題難度結(jié)構(gòu)配比問題。如表2所示,縱向看每一列:試卷中難度系數(shù)在(0.3,0.4]的試題,總分在78分以上的考生能答對50%以上的試題;難度系數(shù)在(0.4,0.5]的試題,總分在72分以上的考生能答對50%以上的試題;以此類推。

試題難度參數(shù)結(jié)構(gòu)表的基本思想是:當(dāng)?shù)梅致蕿?.5時,定位試題難度系數(shù)與考生試卷總分大致對應(yīng)位置,這種思想類似于在 IRT試題反應(yīng)曲線ICC上,用答對某試題的概率為50%時的點定位考生能力值θ。通過檢視10檔試題難度在試卷不同總分值上平均得分率的拐點位置、坡度變化,不僅可反饋當(dāng)次等級考命題質(zhì)量,還可以對下一次試題命制時難度結(jié)構(gòu)的預(yù)分析提供一定的幫助。


02
IRT框架下非選擇題分值及采分點設(shè)置的適宜性分析模型

在非選擇題命制完成后,命題者還須制定盡可能詳細(xì)的評分標(biāo)準(zhǔn)指導(dǎo)閱卷評分。制定評分標(biāo)準(zhǔn)首先要研究每一道試題的滿分值是多少,給定試題滿分值即是在明確這道題所要測量的行為特征的等級數(shù),如一道滿分 10分的非選擇題,得分就有0~10共11個等級。如果等級過少,就難以有效區(qū)分不同能力水平的考生;如果等級過多,就有可能增加評分誤差;只有等級劃分合理,才能減少試題設(shè)計本身帶來的測量誤差。為設(shè)置非選擇題的分值及采分點,可以用IRT模型,以試題類別特征曲線和信息函數(shù)為基礎(chǔ),研究以下兩個方面的問題:一是相鄰兩個得分等級的難度閾值對考生作出有效區(qū)分的程度,二是不同分值的非選擇題提供的實際信息量與理論上應(yīng)提供的信息量的匹配程度。


2.1 GRM模型試題參數(shù)估計

采用多級計分的GRM模型(graded response model)[2]進(jìn)行參數(shù)估計,公式為:


以樣本數(shù)據(jù)集為例,使用R軟件中的mirt[3]、lavaan[4]、psych[5]包實現(xiàn)流程和結(jié)果,16 個非選擇題的采分等級數(shù)如表3所示,采分等級數(shù)為該題滿分值加1。


使用單維IRT模型的前提之一是測試數(shù)據(jù)符合單維性假設(shè),可使用驗證性因子分析或探索性因子分析進(jìn)行檢驗。驗證性因子分析的操作如下:調(diào)用R軟件lavaan包中的 fitmeasures()函數(shù),對建立的單一因子模型進(jìn)行檢驗,檢驗的相關(guān)參數(shù)為CFI、TLI、RMSEA和SRMR。如果CFI>0.95,TLI>0.95,RMSEA<0.06,SRMR<0.08,則有足夠的證據(jù)證明測試數(shù)據(jù)與單一因子模型擬合較好,適合使用單維IRT模型[6]。探索性因子分析的操作如下:調(diào)用R軟件的psych包,求出特征根,先用cor()語句求出數(shù)據(jù)集的相關(guān)系數(shù)矩陣,隨后用eigen()語句對相關(guān)系數(shù)矩陣求特征根。一般情況下,當(dāng)?shù)谝灰蜃拥奶卣鞲c第二因子的特征根之比在4倍及以上時,認(rèn)為數(shù)據(jù)是單維的。

使用IRT 模型對題目進(jìn)行分析,還需要考慮數(shù)據(jù)和模型的擬合度,如果擬合度過低,則研究結(jié)果沒有意義。GRM模型與實測數(shù)據(jù)的擬合性,可在mirt包中調(diào)用函數(shù)M2()對建立的GRM模型進(jìn)行檢驗,函數(shù)會給出統(tǒng)計量M2及相關(guān)參數(shù)CFI、TLI、RMSEA和SRMR。如前所述,如果CFI>0.95,TLI>0.95,RMSEA<0.06,SRMR<0.08,則代表GRM模型與數(shù)據(jù)擬合度好。

在上述檢驗完成后,應(yīng)用R軟件中的mirt包進(jìn)行GRM模型的試題難度和區(qū)分度參數(shù)估計。調(diào)用函數(shù)mirt(),設(shè)置參數(shù)itemtype=“graded”構(gòu)建GRM模型;隨后調(diào)用函數(shù)coef()對建立好的GRM模型提取參數(shù)。樣本數(shù)據(jù)集的參數(shù)估計結(jié)果如表4所示,其中a為試題的區(qū)分度參數(shù),b1~b4代表得1~4分的難度閾值。


表4顯示,該等級考適應(yīng)性測試的非選擇題區(qū)分度a在0.71~2.11,均值為1.76。試題的區(qū)分度在多大的區(qū)間合適,需要學(xué)科領(lǐng)域的專家進(jìn)行判斷。國外有對情緒管理情境測試的研究報道[7],試題a值在0.01~0.24為非常低,0.25~0.63為低,0.64~1.34為中等,1.35~1.69為高。若以此標(biāo)準(zhǔn)為判斷依據(jù),則本次測試中只有Q172為中等區(qū)分,其余非選擇題的區(qū)分度都很高。

按照一般經(jīng)驗,難度參數(shù)在-2~2時較為合適,避免了試題太難或太易。從表4中的難度閾值參數(shù)可見,所有非選擇題最低采分點的難度閾值b1均大于-2,表明試卷中沒有太容易的非選擇題,這與等級考非選擇題承擔(dān)的選拔功能是一致的。Q163、Q181和Q182最高采分點的難度閾值分別為2.34、2.37和2.25,表明這3道試題的最高采分點難度較大,學(xué)科命題專家可結(jié)合數(shù)據(jù),查看這3道試題考查的內(nèi)容和能力范疇,用難度閾值參數(shù)輔助判斷試題是否達(dá)到了命題預(yù)設(shè)時的質(zhì)量。Q172最高采分點的難度閾值為4.47,是所有非選擇題中最高的,但是此題的區(qū)分度為0.71,是所有非選擇題中區(qū)分度最低的,對這道試題的質(zhì)量評價還需結(jié)合試題特征曲線、試題信息量等綜合分析。

除對試題質(zhì)量進(jìn)行評價外,難度閾值參數(shù)還有利于命題者將考查核心素養(yǎng)不同水平、不同難度的試題對標(biāo),對新課標(biāo)下以核心素養(yǎng)為要點的試題命制具有參考價值,如有研究認(rèn)為高中生地理野外實踐能力水平1~3的試題難度定位為-0.726、-0.186和0.602[8]。


2.2 類別特征曲線圖分析

等級性應(yīng)答的試題特征曲線又被稱為類別特征曲線(option characteristic curve, OCC),按照等級數(shù)量的不同,有多條。OCC橫軸為考生的能力水平θ,縱軸為作答的正確概率P(θ),每一條曲線代表了不同能力水平的考生在該題中獲得相應(yīng)等級分?jǐn)?shù)的概率。

實現(xiàn)類別特征曲線圖的操作是:調(diào)用mirt包中plot()函數(shù)對構(gòu)建好的GRM模型作圖,參數(shù)type=“trace”,which.items設(shè)定需要對哪幾道試題作類別特征曲線,語句為plot(grm_fit, type=“trace”, which.items=c(1, 2, 3), …)。

以樣本數(shù)據(jù)集為例,試題Q161、Q162、Q163的類別特征曲線如圖2~圖4所示。由圖2可見,Q161共有5個采分點等級(0,1,2,3,4),但是采分點等級1、2的累積概率曲線P2、P3彼此難以區(qū)分,表明其區(qū)分不同能力水平考生的效果較差。圖3和圖4顯示,Q162和Q163對不同分?jǐn)?shù)等級的區(qū)分較為理想。


通過圖式化的類別特征曲線圖,能幫助命題者分析不同采分點等級對不同能力考生水平的區(qū)分。Q161的結(jié)果顯示,該題的滿分雖為4分,但實際并沒有起到5個采分等級的區(qū)分效果,如果該題的設(shè)計沒有問題,閱卷評分標(biāo)準(zhǔn)表述的清晰度也不存在問題,則可考慮合并采分等級,將該題的滿分值從4分調(diào)為3分。


2.3 試題信息函數(shù)圖分析

在IRT中,試題信息量表示的是試題評價考生能力水平的準(zhǔn)確性。試題信息函數(shù)圖(item information function,IIF)的橫坐標(biāo)為能力水平θ,縱坐標(biāo)為試題信息量I(θ),每條曲線代表了該試題在不同的能力水平下所能提供的信息量值。一道試題的信息量越大,表示它越能準(zhǔn)確估計考生的水平。

實現(xiàn)試題信息函數(shù)圖的操作為:調(diào)用mirt包中plot()函數(shù)對構(gòu)建好的GRM模型作圖,參數(shù)type=“infotrace”,which.items設(shè)定需要對哪幾道試題作試題信息函數(shù)圖,語句為plot(grm_fit, type=“infotrace”, which.items=c(1, 2, 3), …)。

圖5~圖7為Q161、Q162、Q163的試題信息函數(shù)曲線。由圖可見,Q161的信息函數(shù)曲線最高峰比Q162、Q163低,同為采分點等級數(shù)為5的3道試題,Q161實際提供的信息量要低于Q162和Q163,區(qū)分不同能力考生的水平相對也較弱。


Q1712和Q172是同一道大題的2個小問,采分等級數(shù)均為5。圖8為Q1712和Q172的類別特征曲線,圖9為Q1712和Q172的試題信息函數(shù)曲線。結(jié)合2個圖分析,Q172的類別特征曲線較為平坦且曲線重疊,試題信息量在整個能力刻度θ(-6,6)上都較低;再據(jù)表4可知,Q172的區(qū)分度在所有非選擇題中最小,提示命題者可考慮對該題進(jìn)行修改。


2.4 試題信息量匹配分析

試題信息量匹配分析的目的是通過構(gòu)建所有試題在不同能力水平考生中的局部特征表達(dá)模式,以及分析不同分值的非選擇題提供的實際信息量與理論上應(yīng)提供的信息量的匹配性,協(xié)助命題者檢驗命題預(yù)期,為改進(jìn)試題提供有價值的數(shù)據(jù)支撐。試題信息量匹配分析的方法為以下2步。

第一步,計算試題最大信息量I(θ)max及其對應(yīng)的能力水平θ值,將每道試題的I(θ)max及對應(yīng)的θ值作散點圖,得到每道試題對什么能力水平的考生具有最良好估計的直觀判斷,從而構(gòu)建出所有試題在不同能力水平考生中的局部特征表達(dá)模式。R軟件mirt包中沒有找到直接的函數(shù)可以得到I(θ)max及對應(yīng)的θ值,可以采用以下語句進(jìn)行計算:

extr.1<-extract.item(grm_fit,1)(提取建立好的GRM試題參數(shù))

Theta<-matrix(seq(-4, 4, by=.1))(生成一個以0.1為步長從-4到4的矩陣θ)

info.1<-iteminfo(extr.1, Theta)(得到第1題θ從-4到4上所有的信息量值)

max(info.1)(得到最大信息量值)

第二步,對比分析試題理論上應(yīng)提供的信息量比例,以及試題實際提供的最高信息量比例。理論上應(yīng)提供的信息量比例等于某道非選擇題的滿分值占所有非選擇題滿分值的百分比,實際提供的最高信息量比例等于某道非選擇題信息量的最大值占所有非選擇題信息量最大值的百分比。

以樣本數(shù)據(jù)集為例,按照上述步驟計算后的結(jié)果如圖10和表5。圖10展現(xiàn)了所有非選擇題的I(θ)max及對應(yīng)的θ值,在16道非選擇題中:有7道對θ在(-1,0)之間的考生測量最精確,比較適合考查能力水平處于平均水平偏下的考生;有7道對θ在(0,1)之間的考生測量最精確,比較適合考查能力水平處于平均水平偏上的考生;有1道對θ在(1,1.25)的考生測量最精確,有1道對θ在2.25附近的考生測量最精確,這2道題比較適合考查能力水平較高的考生。通過對試題最大信息量分布的刻畫,構(gòu)建出整份試卷所有試題的局部特征表達(dá)模式,用數(shù)據(jù)幫助驗證命題時的難度預(yù)設(shè)。


表5依次列出了每道非選擇題的滿分、I (θ)max及對應(yīng)的θ值、實際提供的最高信息量比例、理論上應(yīng)提供的信息量比例。通過對比第5列和第6列可見,樣本數(shù)據(jù)集16道非選擇題,其中有6道實際提供的最高信息量低于理論上應(yīng)提供的信息量。綜合試題最大信息量分布及信息量匹配分析,可以透視試題命制方面的問題,提出改進(jìn)試題的措施。


03
總結(jié)與展望

本文結(jié)合實例,闡述結(jié)合CTT和IRT分析考試數(shù)據(jù)的實現(xiàn)流程,期望將測量結(jié)果有效、客觀地應(yīng)用于命題及試題質(zhì)量改進(jìn),以盡可能多的證據(jù)完善考試命題工作及試題質(zhì)量評價。在實際工作中,雖然考試機(jī)構(gòu)工作人員已經(jīng)認(rèn)識到CTT在指導(dǎo)實踐過程中暴露出的不足,但因IRT需要的各種參數(shù)和技術(shù)的應(yīng)用沒有簡單易用的計算機(jī)軟件支持,所以并沒有在考試工作實踐中廣泛應(yīng)用IRT。為解決這一問題:一方面,在考試機(jī)構(gòu)從事考試數(shù)據(jù)評價的工作人員,需要增加數(shù)據(jù)的量化實踐能力;另一方面,考試機(jī)構(gòu)應(yīng)在評價系統(tǒng)的信息化研究中,開發(fā)適用于關(guān)鍵數(shù)據(jù)統(tǒng)計分析的智能化應(yīng)用軟件,使其既能對IRT、認(rèn)知診斷理論等現(xiàn)代測量理論的基本指標(biāo)進(jìn)行計算,又能使該應(yīng)用操作與普通辦公軟件一樣簡潔直觀,便于一般工作人員使用。

在高考綜合改革背景下,考試數(shù)據(jù)分析模型要適應(yīng)改革特點,結(jié)合考試機(jī)構(gòu)實際工作需求進(jìn)行相應(yīng)拓展,才能發(fā)揮出實證數(shù)據(jù)對考試改革的支撐作用。


原文刊載于《中國考試》2022年第5期第54—63頁。

作者:沈勵,北京教育考試院科研與評價處。萬雅奇,北京教育考試院科研與評價處副處長,教授級高級工程師(通信作者)。

?