關(guān)注|高中學(xué)業(yè)水平等級(jí)性考試數(shù)據(jù)分析拓展研究

2022-05-20 |

7917|

摘要

為考試機(jī)構(gòu)的考試數(shù)據(jù)分析工作提供實(shí)踐新思路，以某學(xué)科高中學(xué)業(yè)水平等級(jí)考適應(yīng)性測(cè)試數(shù)據(jù)為樣本，采用 CTT下的亞組分析及試題難度參數(shù)結(jié)構(gòu)分析、多級(jí)計(jì)分IRT下的試題類別特征曲線和信息函數(shù)，分析試卷對(duì)不同能力考生的區(qū)分程度、試題難度結(jié)構(gòu)配比、非選擇題分值及采分點(diǎn)設(shè)置的適宜性。研究表明，上述結(jié)合CTT和IRT的考試數(shù)據(jù)分析方法拓展了傳統(tǒng)的考試數(shù)據(jù)分析模型，研究展現(xiàn)的數(shù)據(jù)分析流程、結(jié)果樣式及用途說明能為等級(jí)考命題提供數(shù)據(jù)支持。具體內(nèi)容快跟著信息技術(shù)考試系統(tǒng)的小編來看看吧~

引言

以教育測(cè)量學(xué)的傳統(tǒng)理論來界定，學(xué)業(yè)水平等級(jí)性考試（以下簡稱“等級(jí)考”或“選考”）由于采用等級(jí)賦分的方式計(jì)入高考總分，并被用作高等學(xué)校錄取的依據(jù)之一，因而兼具標(biāo)準(zhǔn)參照測(cè)驗(yàn)與常模參照測(cè)驗(yàn)的性質(zhì)。當(dāng)一次考試兼具兩種不同的測(cè)驗(yàn)性質(zhì)時(shí)，對(duì)試題命制和考試數(shù)據(jù)分析工作提出新要求。傳統(tǒng)教育測(cè)量理論主要針對(duì)單一測(cè)驗(yàn)性質(zhì)提出，在測(cè)量屬性增加與選考復(fù)雜性并存的現(xiàn)實(shí)下，等級(jí)考的數(shù)據(jù)分析模式若還固守經(jīng)典測(cè)量理論的模式，僅用總體參數(shù)評(píng)價(jià)試題試卷，則不僅考試數(shù)據(jù)分析模型單一，也不能滿足新一輪高考綜合改革對(duì)試題命制和考試數(shù)據(jù)分析工作的新要求。張敏強(qiáng)指出，“十四五”期間要提升高考的科學(xué)化水平，需要加強(qiáng)教育測(cè)量學(xué)理論方法深度研究，方向之一是結(jié)合應(yīng)用經(jīng)典測(cè)量理論（CTT）和項(xiàng)目反應(yīng)理論（IRT）評(píng)價(jià)高考試題試卷質(zhì)量[1]。

CTT和IRT在考試數(shù)據(jù)分析中各具優(yōu)勢(shì)，CTT的指標(biāo)因計(jì)算簡便而更為常用，但CTT的參數(shù)計(jì)算具有樣本依賴性。等級(jí)考因?yàn)槭沁x考，所以各科目考生群體數(shù)量和層次結(jié)構(gòu)不確定，即便年度之間的等級(jí)考試題具有穩(wěn)定性，但因考生群體變化大，用CTT計(jì)算出的試題參數(shù)也不一定能為下次類似的命題提供穩(wěn)健的信息。IRT可以克服CTT對(duì)樣本的依賴性，實(shí)現(xiàn)試題參數(shù)估計(jì)跨群體的不變性，適合等級(jí)考背景下的數(shù)據(jù)分析，前一次考后的試題參數(shù)估計(jì)值，能為下次類似的命題提供穩(wěn)健的信息；此外，IRT引進(jìn)了試題信息函數(shù)，并用信息量來替代信度的概念，可以針對(duì)不同考生精確估計(jì)每個(gè)試題的測(cè)量誤差，有了不同題目對(duì)不同考生單獨(dú)計(jì)算信息量值的方法，就可以對(duì)不同考生的特質(zhì)水平估計(jì)誤差進(jìn)行主動(dòng)控制，從而更加有利于反饋命題質(zhì)量，指導(dǎo)測(cè)驗(yàn)編制；IRT還具有將考生的能力參數(shù)與試題的難度參數(shù)定義在同一量尺上，并通過試題特征曲線直觀地呈現(xiàn)出來等優(yōu)點(diǎn)。

本研究結(jié)合CTT和IRT，拓展高中學(xué)業(yè)水平等級(jí)考數(shù)據(jù)分析模型，以期為考試機(jī)構(gòu)的考試數(shù)據(jù)分析工作提供實(shí)踐新思路，滿足新一輪高考綜合改革落地的新要求。

CTT框架下的亞組分析模型

在CTT框架下，以等級(jí)賦分的理論值為切分點(diǎn)，對(duì)考生得分進(jìn)行分層，即將考生分為不同能力的亞組，通過計(jì)算不同能力亞組考生群體的難度系數(shù)，可以評(píng)價(jià)整份試卷對(duì)不同能力考生的區(qū)分能力。將試題的難度系數(shù)劃分為10檔，計(jì)算10檔試題難度與考生得分的交叉分類列聯(lián)關(guān)系，得到試題難度參數(shù)結(jié)構(gòu)表，從試題的角度進(jìn)一步評(píng)價(jià)10檔難度試題對(duì)不同能力考生的區(qū)分。

1.1　試卷對(duì)不同能力亞組考生的區(qū)分能力

以某學(xué)科等級(jí)考適應(yīng)性測(cè)試數(shù)據(jù)為對(duì)象（數(shù)據(jù)經(jīng)過處理，無個(gè)人身份信息），使用單純隨機(jī)抽樣方式，抽取2000份作為樣本數(shù)據(jù)集。按照A省等級(jí)考賦分方案，將考生卷面總分從高至低劃分為21個(gè)等級(jí)。如果想著重了解某學(xué)科試卷對(duì)于中高端能力考生的區(qū)分度，可計(jì)算等級(jí)賦分方案中的A1至A5、B1至B5共10個(gè)等級(jí)相對(duì)應(yīng)的能力亞組上的區(qū)分度，實(shí)現(xiàn)流程如下：以樣本數(shù)據(jù)集中的卷面總分為目標(biāo)變量，首先按照卷面總分，將所有樣本考生的卷面總分從高至低排列，然后計(jì)算卷面總分的一分一段頻數(shù)、百分比及累計(jì)百分比，再按照賦分方案中各等級(jí)的比例要求，找到每個(gè)亞組的切分點(diǎn)，將所有樣本數(shù)據(jù)歸到不同的亞組中，最后計(jì)算每個(gè)亞組中的卷面難度系數(shù)，即可得到CTT下試卷對(duì)不同能力亞組的區(qū)分度。計(jì)算亞組切分點(diǎn)的方法是：按照等級(jí)賦分方案各等級(jí)的比例，計(jì)算出“排名占比區(qū)間”（表1為示例），當(dāng)某個(gè)卷面總分的累計(jì)百分比落在“排名占比區(qū)間”內(nèi)時(shí)，該卷面總分即成為一個(gè)亞組的切分點(diǎn)。需要說明的是，本研究的亞組劃分僅是為本研究需要設(shè)計(jì)的，不一定與實(shí)際錄取的賦分方式相同。

各種數(shù)據(jù)庫管理軟件或統(tǒng)計(jì)軟件均可完成上述結(jié)果的實(shí)現(xiàn)。以R軟件為例，排序使用order（），降序排列則在目標(biāo)變量前面加上減號(hào)（-），頻數(shù)分布使用table（），累計(jì)百分比用cumsum（），亞組難度系數(shù)使用aggregate（），指定函數(shù)為mean。

以樣本數(shù)據(jù)集為例，將按照上述流程計(jì)算后的結(jié)果繪制成圖1，可以看到某學(xué)科試卷對(duì)A1至A5、B1至B5共10個(gè)等級(jí)相對(duì)應(yīng)能力亞組考生的亞組難度系數(shù)大致呈均勻遞減趨勢(shì)，除A3和A4、A4和A5兩對(duì)亞組之間的難度系數(shù)差為0.02外，其余亞組之間的難度系數(shù)差均為0.03，與賦分方案中每一級(jí)之間差 3分的設(shè)計(jì)較為吻合，整卷對(duì)中高端能力考生的區(qū)分比較均勻。由此可見，通過亞組內(nèi)的難度系數(shù)計(jì)算，能方便直觀地分析出試卷對(duì)目標(biāo)群體的區(qū)分程度，對(duì)反饋等級(jí)考命題質(zhì)量具有借鑒作用。

1.2　試題難度參數(shù)結(jié)構(gòu)表

以上述同一樣本數(shù)據(jù)集為例。該學(xué)科等級(jí)考適應(yīng)性測(cè)試卷共30道試題（或設(shè)問），以0.1為步長，將試題的難度系數(shù)從0~1劃分為10檔。首先計(jì)算每一道試題（或設(shè)問）的難度系數(shù)，然后將每一道試題（或設(shè)問）歸類到10檔難度分類中，再將試卷總分值相同的考生歸為一個(gè)總分亞組，最后計(jì)算每一個(gè)總分亞組中10檔難度分類下的試題平均難度系數(shù)，即可得到試題難度參數(shù)結(jié)構(gòu)表，見表 2。表中每一個(gè)格子代表10檔難度系數(shù)區(qū)間的試題在試卷總分值相同的一組考生內(nèi)的試題平均難度系數(shù)。

通過試題難度參數(shù)結(jié)構(gòu)表，可以分析整個(gè)試卷中試題難度結(jié)構(gòu)配比問題。如表2所示，縱向看每一列：試卷中難度系數(shù)在（0.3，0.4］的試題，總分在78分以上的考生能答對(duì)50%以上的試題；難度系數(shù)在（0.4，0.5］的試題，總分在72分以上的考生能答對(duì)50%以上的試題；以此類推。

試題難度參數(shù)結(jié)構(gòu)表的基本思想是：當(dāng)?shù)梅致蕿?.5時(shí)，定位試題難度系數(shù)與考生試卷總分大致對(duì)應(yīng)位置，這種思想類似于在 IRT試題反應(yīng)曲線ICC上，用答對(duì)某試題的概率為50%時(shí)的點(diǎn)定位考生能力值θ。通過檢視10檔試題難度在試卷不同總分值上平均得分率的拐點(diǎn)位置、坡度變化，不僅可反饋當(dāng)次等級(jí)考命題質(zhì)量，還可以對(duì)下一次試題命制時(shí)難度結(jié)構(gòu)的預(yù)分析提供一定的幫助。

IRT框架下非選擇題分值及采分點(diǎn)設(shè)置的適宜性分析模型

在非選擇題命制完成后，命題者還須制定盡可能詳細(xì)的評(píng)分標(biāo)準(zhǔn)指導(dǎo)閱卷評(píng)分。制定評(píng)分標(biāo)準(zhǔn)首先要研究每一道試題的滿分值是多少，給定試題滿分值即是在明確這道題所要測(cè)量的行為特征的等級(jí)數(shù)，如一道滿分 10分的非選擇題，得分就有0~10共11個(gè)等級(jí)。如果等級(jí)過少，就難以有效區(qū)分不同能力水平的考生；如果等級(jí)過多，就有可能增加評(píng)分誤差；只有等級(jí)劃分合理，才能減少試題設(shè)計(jì)本身帶來的測(cè)量誤差。為設(shè)置非選擇題的分值及采分點(diǎn)，可以用IRT模型，以試題類別特征曲線和信息函數(shù)為基礎(chǔ)，研究以下兩個(gè)方面的問題：一是相鄰兩個(gè)得分等級(jí)的難度閾值對(duì)考生作出有效區(qū)分的程度，二是不同分值的非選擇題提供的實(shí)際信息量與理論上應(yīng)提供的信息量的匹配程度。

2.1　GRM模型試題參數(shù)估計(jì)

采用多級(jí)計(jì)分的GRM模型（graded response model）[2]進(jìn)行參數(shù)估計(jì)，公式為：

以樣本數(shù)據(jù)集為例，使用R軟件中的mirt[3]、lavaan[4]、psych[5]包實(shí)現(xiàn)流程和結(jié)果，16 個(gè)非選擇題的采分等級(jí)數(shù)如表3所示，采分等級(jí)數(shù)為該題滿分值加1。

使用單維IRT模型的前提之一是測(cè)試數(shù)據(jù)符合單維性假設(shè)，可使用驗(yàn)證性因子分析或探索性因子分析進(jìn)行檢驗(yàn)。驗(yàn)證性因子分析的操作如下：調(diào)用R軟件lavaan包中的 fitmeasures（）函數(shù)，對(duì)建立的單一因子模型進(jìn)行檢驗(yàn)，檢驗(yàn)的相關(guān)參數(shù)為CFI、TLI、RMSEA和SRMR。如果CFI>0.95，TLI>0.95，RMSEA<0.06，SRMR<0.08，則有足夠的證據(jù)證明測(cè)試數(shù)據(jù)與單一因子模型擬合較好，適合使用單維IRT模型[6]。探索性因子分析的操作如下：調(diào)用R軟件的psych包，求出特征根，先用cor（）語句求出數(shù)據(jù)集的相關(guān)系數(shù)矩陣，隨后用eigen（）語句對(duì)相關(guān)系數(shù)矩陣求特征根。一般情況下，當(dāng)?shù)谝灰蜃拥奶卣鞲c第二因子的特征根之比在4倍及以上時(shí)，認(rèn)為數(shù)據(jù)是單維的。

使用IRT 模型對(duì)題目進(jìn)行分析，還需要考慮數(shù)據(jù)和模型的擬合度，如果擬合度過低，則研究結(jié)果沒有意義。GRM模型與實(shí)測(cè)數(shù)據(jù)的擬合性，可在mirt包中調(diào)用函數(shù)M2（）對(duì)建立的GRM模型進(jìn)行檢驗(yàn)，函數(shù)會(huì)給出統(tǒng)計(jì)量M2及相關(guān)參數(shù)CFI、TLI、RMSEA和SRMR。如前所述，如果CFI>0.95，TLI>0.95，RMSEA<0.06，SRMR<0.08，則代表GRM模型與數(shù)據(jù)擬合度好。

在上述檢驗(yàn)完成后，應(yīng)用R軟件中的mirt包進(jìn)行GRM模型的試題難度和區(qū)分度參數(shù)估計(jì)。調(diào)用函數(shù)mirt（），設(shè)置參數(shù)itemtype=“graded”構(gòu)建GRM模型；隨后調(diào)用函數(shù)coef（）對(duì)建立好的GRM模型提取參數(shù)。樣本數(shù)據(jù)集的參數(shù)估計(jì)結(jié)果如表4所示，其中a為試題的區(qū)分度參數(shù)，b1~b4代表得1~4分的難度閾值。

表4顯示，該等級(jí)考適應(yīng)性測(cè)試的非選擇題區(qū)分度a在0.71~2.11，均值為1.76。試題的區(qū)分度在多大的區(qū)間合適，需要學(xué)科領(lǐng)域的專家進(jìn)行判斷。國外有對(duì)情緒管理情境測(cè)試的研究報(bào)道[7]，試題a值在0.01~0.24為非常低，0.25~0.63為低，0.64~1.34為中等，1.35~1.69為高。若以此標(biāo)準(zhǔn)為判斷依據(jù)，則本次測(cè)試中只有Q172為中等區(qū)分，其余非選擇題的區(qū)分度都很高。

按照一般經(jīng)驗(yàn)，難度參數(shù)在-2~2時(shí)較為合適，避免了試題太難或太易。從表4中的難度閾值參數(shù)可見，所有非選擇題最低采分點(diǎn)的難度閾值b1均大于-2，表明試卷中沒有太容易的非選擇題，這與等級(jí)考非選擇題承擔(dān)的選拔功能是一致的。Q163、Q181和Q182最高采分點(diǎn)的難度閾值分別為2.34、2.37和2.25，表明這3道試題的最高采分點(diǎn)難度較大，學(xué)科命題專家可結(jié)合數(shù)據(jù)，查看這3道試題考查的內(nèi)容和能力范疇，用難度閾值參數(shù)輔助判斷試題是否達(dá)到了命題預(yù)設(shè)時(shí)的質(zhì)量。Q172最高采分點(diǎn)的難度閾值為4.47，是所有非選擇題中最高的，但是此題的區(qū)分度為0.71，是所有非選擇題中區(qū)分度最低的，對(duì)這道試題的質(zhì)量評(píng)價(jià)還需結(jié)合試題特征曲線、試題信息量等綜合分析。

除對(duì)試題質(zhì)量進(jìn)行評(píng)價(jià)外，難度閾值參數(shù)還有利于命題者將考查核心素養(yǎng)不同水平、不同難度的試題對(duì)標(biāo)，對(duì)新課標(biāo)下以核心素養(yǎng)為要點(diǎn)的試題命制具有參考價(jià)值，如有研究認(rèn)為高中生地理野外實(shí)踐能力水平1~3的試題難度定位為-0.726、-0.186和0.602[8]。

2.2　類別特征曲線圖分析

等級(jí)性應(yīng)答的試題特征曲線又被稱為類別特征曲線（option characteristic curve, OCC），按照等級(jí)數(shù)量的不同，有多條。OCC橫軸為考生的能力水平θ，縱軸為作答的正確概率P（θ），每一條曲線代表了不同能力水平的考生在該題中獲得相應(yīng)等級(jí)分?jǐn)?shù)的概率。

實(shí)現(xiàn)類別特征曲線圖的操作是：調(diào)用mirt包中plot（）函數(shù)對(duì)構(gòu)建好的GRM模型作圖，參數(shù)type=“trace”，which.items設(shè)定需要對(duì)哪幾道試題作類別特征曲線，語句為plot（grm_fit, type=“trace”, which.items=c（1, 2, 3）, …）。

以樣本數(shù)據(jù)集為例，試題Q161、Q162、Q163的類別特征曲線如圖2~圖4所示。由圖2可見，Q161共有5個(gè)采分點(diǎn)等級(jí)（0，1，2，3，4），但是采分點(diǎn)等級(jí)1、2的累積概率曲線P2、P3彼此難以區(qū)分，表明其區(qū)分不同能力水平考生的效果較差。圖3和圖4顯示，Q162和Q163對(duì)不同分?jǐn)?shù)等級(jí)的區(qū)分較為理想。

通過圖式化的類別特征曲線圖，能幫助命題者分析不同采分點(diǎn)等級(jí)對(duì)不同能力考生水平的區(qū)分。Q161的結(jié)果顯示，該題的滿分雖為4分，但實(shí)際并沒有起到5個(gè)采分等級(jí)的區(qū)分效果，如果該題的設(shè)計(jì)沒有問題，閱卷評(píng)分標(biāo)準(zhǔn)表述的清晰度也不存在問題，則可考慮合并采分等級(jí)，將該題的滿分值從4分調(diào)為3分。

2.3　試題信息函數(shù)圖分析

在IRT中，試題信息量表示的是試題評(píng)價(jià)考生能力水平的準(zhǔn)確性。試題信息函數(shù)圖（item information function，IIF）的橫坐標(biāo)為能力水平θ，縱坐標(biāo)為試題信息量I（θ），每條曲線代表了該試題在不同的能力水平下所能提供的信息量值。一道試題的信息量越大，表示它越能準(zhǔn)確估計(jì)考生的水平。

實(shí)現(xiàn)試題信息函數(shù)圖的操作為：調(diào)用mirt包中plot（）函數(shù)對(duì)構(gòu)建好的GRM模型作圖，參數(shù)type=“infotrace”，which.items設(shè)定需要對(duì)哪幾道試題作試題信息函數(shù)圖，語句為plot（grm_fit, type=“infotrace”, which.items=c（1, 2, 3）, …）。

圖5~圖7為Q161、Q162、Q163的試題信息函數(shù)曲線。由圖可見，Q161的信息函數(shù)曲線最高峰比Q162、Q163低，同為采分點(diǎn)等級(jí)數(shù)為5的3道試題，Q161實(shí)際提供的信息量要低于Q162和Q163，區(qū)分不同能力考生的水平相對(duì)也較弱。

Q1712和Q172是同一道大題的2個(gè)小問，采分等級(jí)數(shù)均為5。圖8為Q1712和Q172的類別特征曲線，圖9為Q1712和Q172的試題信息函數(shù)曲線。結(jié)合2個(gè)圖分析，Q172的類別特征曲線較為平坦且曲線重疊，試題信息量在整個(gè)能力刻度θ（-6，6）上都較低；再據(jù)表4可知，Q172的區(qū)分度在所有非選擇題中最小，提示命題者可考慮對(duì)該題進(jìn)行修改。

2.4　試題信息量匹配分析

試題信息量匹配分析的目的是通過構(gòu)建所有試題在不同能力水平考生中的局部特征表達(dá)模式，以及分析不同分值的非選擇題提供的實(shí)際信息量與理論上應(yīng)提供的信息量的匹配性，協(xié)助命題者檢驗(yàn)命題預(yù)期，為改進(jìn)試題提供有價(jià)值的數(shù)據(jù)支撐。試題信息量匹配分析的方法為以下2步。

第一步，計(jì)算試題最大信息量I（θ）max及其對(duì)應(yīng)的能力水平θ值，將每道試題的I（θ）max及對(duì)應(yīng)的θ值作散點(diǎn)圖，得到每道試題對(duì)什么能力水平的考生具有最良好估計(jì)的直觀判斷，從而構(gòu)建出所有試題在不同能力水平考生中的局部特征表達(dá)模式。R軟件mirt包中沒有找到直接的函數(shù)可以得到I（θ）max及對(duì)應(yīng)的θ值，可以采用以下語句進(jìn)行計(jì)算：

extr.1<-extract.item（grm_fit,1）（提取建立好的GRM試題參數(shù)）

Theta<-matrix（seq（-4, 4, by=.1））（生成一個(gè)以0.1為步長從-4到4的矩陣θ）

info.1<-iteminfo（extr.1, Theta）（得到第1題θ從-4到4上所有的信息量值）

max（info.1）（得到最大信息量值）

第二步，對(duì)比分析試題理論上應(yīng)提供的信息量比例，以及試題實(shí)際提供的最高信息量比例。理論上應(yīng)提供的信息量比例等于某道非選擇題的滿分值占所有非選擇題滿分值的百分比，實(shí)際提供的最高信息量比例等于某道非選擇題信息量的最大值占所有非選擇題信息量最大值的百分比。

以樣本數(shù)據(jù)集為例，按照上述步驟計(jì)算后的結(jié)果如圖10和表5。圖10展現(xiàn)了所有非選擇題的I（θ）max及對(duì)應(yīng)的θ值，在16道非選擇題中：有7道對(duì)θ在（-1，0）之間的考生測(cè)量最精確，比較適合考查能力水平處于平均水平偏下的考生；有7道對(duì)θ在（0，1）之間的考生測(cè)量最精確，比較適合考查能力水平處于平均水平偏上的考生；有1道對(duì)θ在（1，1.25）的考生測(cè)量最精確，有1道對(duì)θ在2.25附近的考生測(cè)量最精確，這2道題比較適合考查能力水平較高的考生。通過對(duì)試題最大信息量分布的刻畫，構(gòu)建出整份試卷所有試題的局部特征表達(dá)模式，用數(shù)據(jù)幫助驗(yàn)證命題時(shí)的難度預(yù)設(shè)。

表5依次列出了每道非選擇題的滿分、I （θ）max及對(duì)應(yīng)的θ值、實(shí)際提供的最高信息量比例、理論上應(yīng)提供的信息量比例。通過對(duì)比第5列和第6列可見，樣本數(shù)據(jù)集16道非選擇題，其中有6道實(shí)際提供的最高信息量低于理論上應(yīng)提供的信息量。綜合試題最大信息量分布及信息量匹配分析，可以透視試題命制方面的問題，提出改進(jìn)試題的措施。

總結(jié)與展望

本文結(jié)合實(shí)例，闡述結(jié)合CTT和IRT分析考試數(shù)據(jù)的實(shí)現(xiàn)流程，期望將測(cè)量結(jié)果有效、客觀地應(yīng)用于命題及試題質(zhì)量改進(jìn)，以盡可能多的證據(jù)完善考試命題工作及試題質(zhì)量評(píng)價(jià)。在實(shí)際工作中，雖然考試機(jī)構(gòu)工作人員已經(jīng)認(rèn)識(shí)到CTT在指導(dǎo)實(shí)踐過程中暴露出的不足，但因IRT需要的各種參數(shù)和技術(shù)的應(yīng)用沒有簡單易用的計(jì)算機(jī)軟件支持，所以并沒有在考試工作實(shí)踐中廣泛應(yīng)用IRT。為解決這一問題：一方面，在考試機(jī)構(gòu)從事考試數(shù)據(jù)評(píng)價(jià)的工作人員，需要增加數(shù)據(jù)的量化實(shí)踐能力；另一方面，考試機(jī)構(gòu)應(yīng)在評(píng)價(jià)系統(tǒng)的信息化研究中，開發(fā)適用于關(guān)鍵數(shù)據(jù)統(tǒng)計(jì)分析的智能化應(yīng)用軟件，使其既能對(duì)IRT、認(rèn)知診斷理論等現(xiàn)代測(cè)量理論的基本指標(biāo)進(jìn)行計(jì)算，又能使該應(yīng)用操作與普通辦公軟件一樣簡潔直觀，便于一般工作人員使用。

在高考綜合改革背景下，考試數(shù)據(jù)分析模型要適應(yīng)改革特點(diǎn)，結(jié)合考試機(jī)構(gòu)實(shí)際工作需求進(jìn)行相應(yīng)拓展，才能發(fā)揮出實(shí)證數(shù)據(jù)對(duì)考試改革的支撐作用。

原文刊載于《中國考試》2022年第5期第54—63頁。

作者：沈勵(lì)，北京教育考試院科研與評(píng)價(jià)處。萬雅奇，北京教育考試院科研與評(píng)價(jià)處副處長，教授級(jí)高級(jí)工程師（通信作者）。

国产特级特黄一级片|在线嘿咻嘿咻视频|91本色超碰在线|波多野结衣一区无码|精品一区二区束缚|国内视频在线观看一区二区不卡|日韩美女视频网址|免费无码婬片AAAA片直播中文|高清无码在线网站|国产网站日韩四季

關(guān)注|高中學(xué)業(yè)水平等級(jí)性考試數(shù)據(jù)分析拓展研究

0532-87699966、