技術(shù)賦能教育評價(jià)不僅是縱深推進(jìn)教育評價(jià)改革的關(guān)鍵途徑和重要突破口,而且是加快推動(dòng)教育高質(zhì)量發(fā)展的必然選擇。場景化評價(jià)作為一種能夠評估學(xué)生在真實(shí)性場景中的行為表現(xiàn)的評價(jià)方法,不僅能使評價(jià)更具場景真實(shí)性、智能動(dòng)態(tài)性、融合連接性和內(nèi)隱聯(lián)結(jié)性,還能更全面、更真實(shí)地反映學(xué)生的能力與素養(yǎng),是當(dāng)前智能化評價(jià)階段的新趨向。
快跟著信息科技考試系統(tǒng)的小編一起來看,技術(shù)賦能教育評價(jià)有哪些現(xiàn)實(shí)困境?如何科學(xué)設(shè)計(jì)場景化評價(jià)?
發(fā)揮智能技術(shù)優(yōu)化教育評價(jià)結(jié)構(gòu),創(chuàng)新教育評價(jià)手段的支撐作用,可以讓教育評價(jià)改革牽引育人方式轉(zhuǎn)變,使教育評價(jià)回歸促進(jìn)學(xué)生全面發(fā)展本位。然而,目前技術(shù)賦能教育評價(jià)仍面臨學(xué)生復(fù)雜特征難以表征、評價(jià)工具的發(fā)展瓶頸難以突破、評價(jià)結(jié)果的人機(jī)互信危機(jī)難以規(guī)避等評價(jià)能力不足的現(xiàn)實(shí)困境。場景化評價(jià)作為一種能夠評估學(xué)生在真實(shí)性場景中的行為表現(xiàn)的評價(jià)方法,不僅能使評價(jià)更具場景真實(shí)性、智能動(dòng)態(tài)性、融合連接性和內(nèi)隱聯(lián)結(jié)性,還能更全面、更真實(shí)地反映學(xué)生的能力與素養(yǎng),從而提供更準(zhǔn)確、更具指導(dǎo)意義的評價(jià)結(jié)果,促進(jìn)學(xué)生全面發(fā)展。
近年來,國際測評和教育評價(jià)改革實(shí)踐強(qiáng)調(diào)技術(shù)賦能推動(dòng)學(xué)生核心素養(yǎng)發(fā)展與評價(jià),以引導(dǎo)教育教學(xué)改革。但由于核心素養(yǎng)具有綜合性、復(fù)雜性和內(nèi)隱性的特征,目前還難以對其進(jìn)行準(zhǔn)確和客觀的評價(jià)。此外,現(xiàn)有技術(shù)手段在表征學(xué)生復(fù)雜特征、突破評價(jià)工具發(fā)展瓶頸、規(guī)避人機(jī)互信危機(jī)等方面仍面臨評價(jià)能力不足的困境,未能有效地對學(xué)生關(guān)鍵能力與素養(yǎng)進(jìn)行評價(jià),也無法滿足創(chuàng)新人才培養(yǎng)和選拔需求,制約著教育評價(jià)改革的縱深推進(jìn)。
核心素養(yǎng)評價(jià)要求全面深入地表征學(xué)生復(fù)雜特征,但現(xiàn)有評價(jià)模式側(cè)重單次、單一知識點(diǎn)的評價(jià),評價(jià)結(jié)果只能提供對學(xué)生特征的簡單化表征,無法全面反映學(xué)生能力與素養(yǎng)。其中存在的主要問題有二。一是缺少人機(jī)交互的表現(xiàn)性任務(wù)。盡管我們普及了在線測試,但多是將傳統(tǒng)紙筆測試以電子化形式“搬運(yùn)”到在線平臺,偏向于知識傳遞與獲得的標(biāo)準(zhǔn)化任務(wù),缺乏動(dòng)態(tài)環(huán)境下對能力與素養(yǎng)的評估,限制了學(xué)生展現(xiàn)自我的機(jī)會(huì)。二是評價(jià)標(biāo)準(zhǔn)難以調(diào)整。評價(jià)標(biāo)準(zhǔn)仍以知識記憶和理解為主,缺少對問題解決、批判性思維、創(chuàng)造力等素養(yǎng)指標(biāo)的評價(jià),適用性和可操作性不強(qiáng),導(dǎo)致評價(jià)難以捕捉學(xué)生復(fù)雜特征,亦難以真實(shí)反映學(xué)生能力與素養(yǎng)發(fā)展情況。
為實(shí)現(xiàn)全面評價(jià)學(xué)生的核心素養(yǎng),評價(jià)工具需要超越對知識記憶和理解的評價(jià)范疇,轉(zhuǎn)向通過模擬真實(shí)性場景下的評價(jià)任務(wù),以獲取學(xué)生能力與素養(yǎng)評價(jià)的多維度信息。然而,這一轉(zhuǎn)變面臨技術(shù)局限、數(shù)據(jù)利用問題和場景適應(yīng)性不足三個(gè)發(fā)展瓶頸:一是技術(shù)支持的不充分使得實(shí)時(shí)反饋和持續(xù)評估難以實(shí)施,在很大程度上限制了教學(xué)、學(xué)習(xí)與評價(jià)的一體化遷移至多樣化學(xué)習(xí)環(huán)境中,進(jìn)而影響了教學(xué)精準(zhǔn)化、學(xué)習(xí)個(gè)性化和評價(jià)智能化的實(shí)現(xiàn);二是多模型評價(jià)數(shù)據(jù)利用問題,包括數(shù)據(jù)采集的局限性,難以精準(zhǔn)捕捉表現(xiàn)性和非結(jié)構(gòu)化學(xué)習(xí)任務(wù)中的復(fù)雜、動(dòng)態(tài)和多維數(shù)據(jù),導(dǎo)致許多評價(jià)研究僅限于特定情境,同時(shí)數(shù)據(jù)運(yùn)用方法尚未成熟,在構(gòu)建評價(jià)模型時(shí)需要克服多模態(tài)數(shù)據(jù)之間的同步性、互補(bǔ)性、冗余性以及特征提取和整合等一系列問題;三是評價(jià)工具的場景適應(yīng)性不足,難以靈活應(yīng)對復(fù)雜多變的教育環(huán)境和場景,特別是在資源有限和數(shù)字化基礎(chǔ)設(shè)施不健全的情況下,無法在不同場景間實(shí)現(xiàn)有效應(yīng)用,進(jìn)而造成評價(jià)與實(shí)踐的分離。
評價(jià)模型的可解釋性是指其產(chǎn)生的評價(jià)結(jié)果能夠被人們理解和接受的程度。隨著深度學(xué)習(xí)和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,可解釋性評價(jià)模型主要分為三類:獨(dú)立于模型的方法、依賴于模型的方法以及因果解釋方法。盡管人工智能可解釋性評價(jià)模型的準(zhǔn)確性顯著提升,但仍存在精度不穩(wěn)定、教育場景適應(yīng)能力弱、單一模型分析不足等問題,導(dǎo)致人機(jī)信任危機(jī),影響教育評價(jià)結(jié)果的公平性和科學(xué)性,容易誤導(dǎo)教育決策。究其根本:一是源于算法偏見,評價(jià)結(jié)果可能嵌入技術(shù)構(gòu)建者的價(jià)值觀,導(dǎo)致價(jià)值觀窄化;二是由于認(rèn)知決策偏差,現(xiàn)有技術(shù)未能完全模擬人類思維和缺乏情感理解,加劇了智能機(jī)器決策過程中的不確定性;三是因?yàn)槿狈山忉屝栽u價(jià)模型效度的驗(yàn)證,預(yù)測準(zhǔn)確性驗(yàn)證相對較多,而對可解釋性的驗(yàn)證相對缺乏。
學(xué)生需要完成的真實(shí)性任務(wù),包括任務(wù)的性質(zhì)和要求等,必須基于真實(shí)性場景。真實(shí)性場景作為真實(shí)性任務(wù)的實(shí)踐場域,包括時(shí)空背景和數(shù)字化資源等,需要貼近現(xiàn)實(shí),評價(jià)目標(biāo)被精心融入場景中,從而引導(dǎo)學(xué)生解決現(xiàn)實(shí)和未來生活問題,促進(jìn)能力與素養(yǎng)的逐層深化。同時(shí),通過創(chuàng)設(shè)涉及現(xiàn)實(shí)世界中經(jīng)濟(jì)、社會(huì)和環(huán)境等方面的人機(jī)交互真實(shí)性任務(wù),不僅能夠測試學(xué)生的知識記憶和理解,更能助推學(xué)生將知識和技能遷移到現(xiàn)實(shí)生活場景中,實(shí)現(xiàn)對學(xué)生能力與素養(yǎng)的直接評價(jià),并發(fā)揮場景化評價(jià)在“主動(dòng)育人”方面的積極作用。
智能動(dòng)態(tài)性體現(xiàn)為通過高度智能化和動(dòng)態(tài)適應(yīng)能力,使場景化評價(jià)能夠根據(jù)學(xué)生學(xué)習(xí)進(jìn)度和實(shí)時(shí)反饋,靈活調(diào)整真實(shí)性場景和個(gè)性化評價(jià)方案。具體表現(xiàn)在:一方面,真實(shí)性場景可動(dòng)態(tài)調(diào)整,通過利用追蹤技術(shù)、動(dòng)態(tài)模擬技術(shù)和事件觸發(fā)器,實(shí)時(shí)接收、傳輸和整合來自現(xiàn)實(shí)世界的變化與數(shù)據(jù),智能化調(diào)整場景設(shè)置,能夠增強(qiáng)場景的真實(shí)感知、動(dòng)態(tài)互動(dòng)和智能適應(yīng),使評價(jià)工具與教育實(shí)踐、教育場景、教育環(huán)境相銜接,從而為學(xué)生提供最適宜的真實(shí)性場景;另一方面,個(gè)性化評價(jià)方案的智能適配,借助智能監(jiān)測和多模態(tài)學(xué)習(xí)情感計(jì)算等技術(shù),持續(xù)跟蹤分析學(xué)生的認(rèn)知過程、自我調(diào)節(jié)過程、情感狀態(tài)變化等全過程學(xué)習(xí)行為表現(xiàn),進(jìn)而向?qū)W生提供智能化、個(gè)性化的學(xué)習(xí)資源和學(xué)習(xí)策略等服務(wù)與支持,以提升評價(jià)的精確度。
場景化評價(jià)環(huán)境依托“AI+真實(shí)性場景”的教學(xué)評一體化數(shù)字空間,不僅消除了傳統(tǒng)教育場景的壁壘,還實(shí)現(xiàn)了學(xué)校、社區(qū)、場館、工作等多場景聯(lián)動(dòng)、數(shù)據(jù)互通共享以及技術(shù)、教學(xué)、評價(jià)的深度融合。一是人機(jī)融合互動(dòng)。利用可穿戴和嵌入式傳感器等智能設(shè)備,提供豐富的學(xué)生體驗(yàn)視角,使學(xué)生能夠無意識地、自然地融入虛實(shí)融合的真實(shí)性場景中,并在多個(gè)場景間自由切換,從而全面捕捉和記錄學(xué)生學(xué)習(xí)行為表現(xiàn)。二是角色與場景的融合。真實(shí)性場景提供情感沉浸體驗(yàn),不僅能夠充分調(diào)動(dòng)學(xué)生的多感官參與,還能增強(qiáng)人與人之間以及人與場景之間的價(jià)值觀傳遞,有效促進(jìn)學(xué)生在真實(shí)性場景中實(shí)現(xiàn)情感與認(rèn)知的深度互動(dòng)。三是評價(jià)過程與評價(jià)結(jié)果的緊密結(jié)合。通過應(yīng)用貝葉斯知識追蹤模型、知識情境感知的深度知識追蹤模型等自適應(yīng)學(xué)習(xí)技術(shù),能夠持續(xù)監(jiān)測和診斷學(xué)生與真實(shí)性任務(wù)的互動(dòng)情況,為教師和學(xué)生提供實(shí)時(shí)且有意義的反饋信息,有效彌合教學(xué)、學(xué)習(xí)與評價(jià)之間的鴻溝。
場景化評價(jià)的內(nèi)隱聯(lián)結(jié)性體現(xiàn)在其以一種不易被學(xué)生察覺的方式,持續(xù)且穩(wěn)定地對學(xué)生在真實(shí)性場景中展現(xiàn)的、難以直接觀測到的個(gè)人能力與素養(yǎng)進(jìn)行評估,并能夠預(yù)測學(xué)生的未來潛力和發(fā)展趨勢,為學(xué)生全面成長提供堅(jiān)實(shí)的支撐。場景化評價(jià)通過與教學(xué)活動(dòng)的無縫對接,使得評價(jià)過程自然地融入真實(shí)性場景之中,學(xué)生幾乎不會(huì)察覺到評價(jià)的存在,確保了教學(xué)與評價(jià)的同步性和連貫性。在真實(shí)性任務(wù)的完成過程中,學(xué)生能夠獲得持續(xù)的學(xué)習(xí)支持和即時(shí)反饋,這將幫助他們超越現(xiàn)有能力,向更高層次發(fā)展。同時(shí),借助腦機(jī)交互和信號傳遞等技術(shù),場景化評價(jià)能精確捕捉并映射學(xué)生實(shí)時(shí)的思維活動(dòng)、意識細(xì)胞功能變化、神經(jīng)元?jiǎng)討B(tài)突變以及認(rèn)知過程進(jìn)展,從而揭示他們在創(chuàng)新思維、問題解決、溝通協(xié)作和價(jià)值觀形成等方面的發(fā)展情況。
學(xué)習(xí)者模型旨在確立評價(jià)目標(biāo)和描述學(xué)生能力與素養(yǎng),通過明確學(xué)生評價(jià)指標(biāo)體系和構(gòu)建學(xué)生評價(jià)觀測指標(biāo)框架兩個(gè)環(huán)節(jié),確保教育工作者能夠捕捉和觀察到更為精細(xì)、微觀的學(xué)生學(xué)習(xí)行為表現(xiàn)。
為了精準(zhǔn)、客觀和科學(xué)地評價(jià)學(xué)生的能力與素養(yǎng),首先需要明確學(xué)生評價(jià)指標(biāo),深入分析所要評價(jià)的學(xué)生能力與素養(yǎng)的內(nèi)涵與特征,并有機(jī)整合權(quán)威評價(jià)指標(biāo)體系/框架,進(jìn)行指標(biāo)的系統(tǒng)提取和優(yōu)化,最終形成學(xué)生評價(jià)指標(biāo)體系的一級和二級維度。在此基礎(chǔ)上,為了構(gòu)建一個(gè)更精準(zhǔn)、可操作的學(xué)生評價(jià)觀測指標(biāo)框架,還需要深入分析評價(jià)指標(biāo)體系的一級和二級維度,明確各個(gè)評價(jià)維度與學(xué)生行為之間的具體聯(lián)系和表現(xiàn)特征,并據(jù)此分別確立每個(gè)評價(jià)維度的觀測指標(biāo)、具體行為表現(xiàn)及其相對應(yīng)的數(shù)據(jù)采集類型。例如在“師范生智能教育素養(yǎng)測評”的場景化評價(jià)中,以已有的“師范生智能教育素養(yǎng)框架”為基礎(chǔ),將其3個(gè)一級維度和9個(gè)二級維度作為師范生智能教育素養(yǎng)評價(jià)指標(biāo)體系,并分別確立35個(gè)觀測指標(biāo)、具體行為表現(xiàn)及所對應(yīng)的數(shù)據(jù)采集類型,形成師范生智能教育素養(yǎng)評價(jià)觀測指標(biāo)框架。
真實(shí)性任務(wù)模型需要?jiǎng)?chuàng)建真實(shí)性場景,并在場景中設(shè)計(jì)真實(shí)性任務(wù),引發(fā)學(xué)生展現(xiàn)出與評價(jià)觀測指標(biāo)緊密相關(guān)的行為表現(xiàn),為收集學(xué)生行為過程流數(shù)據(jù)提供基礎(chǔ),以便深入理解學(xué)生如何應(yīng)用知識和技能解決實(shí)際問題。
第一,創(chuàng)建真實(shí)性場景,通過構(gòu)建數(shù)字技術(shù)豐富的評價(jià)環(huán)境,為學(xué)生提供與現(xiàn)實(shí)世界緊密相連、直面真實(shí)性問題的線上線下、課堂內(nèi)外虛實(shí)融合的實(shí)踐場域。通過利用元宇宙、AI大模型、動(dòng)態(tài)模擬等技術(shù),整合人物、時(shí)間、空間、事件等場景數(shù)據(jù)維度,創(chuàng)建硬件設(shè)備場景、軟件操作場景和任務(wù)解決場景,使評價(jià)活動(dòng)和內(nèi)容與現(xiàn)實(shí)世界、學(xué)科領(lǐng)域、工作場景保持高度一致,促進(jìn)學(xué)生在與場景實(shí)時(shí)融合互動(dòng)中有效應(yīng)對真實(shí)性問題。此外,真實(shí)性場景的設(shè)計(jì)還需嵌入問題解決材料、認(rèn)知發(fā)展資源、探究活動(dòng)工具等支架,并結(jié)合場景識別算法和頻繁序列挖掘算法,對學(xué)生在場景中的特征狀態(tài)進(jìn)行感知分析,從而提供實(shí)時(shí)的、持續(xù)的引導(dǎo)和支持。
第二,以真實(shí)性場景為基礎(chǔ),緊扣觀測指標(biāo),力求貼近現(xiàn)實(shí)生活且具備認(rèn)知挑戰(zhàn)性,設(shè)計(jì)基于遞進(jìn)式問題鏈的學(xué)習(xí)理解型、應(yīng)用實(shí)踐型、遷移創(chuàng)新型三類真實(shí)性任務(wù),通過邏輯關(guān)聯(lián)、層次遞進(jìn)的任務(wù)活動(dòng),引導(dǎo)學(xué)生在解決現(xiàn)實(shí)問題的過程中循序漸進(jìn)地展現(xiàn)出全面的行為表現(xiàn)。同時(shí),結(jié)合自適應(yīng)學(xué)習(xí)和生成式人工智能等技術(shù),根據(jù)學(xué)生表現(xiàn)動(dòng)態(tài)提供模塊化任務(wù),確保學(xué)生持續(xù)保持在最優(yōu)學(xué)習(xí)路徑上,提升學(xué)生能力與素養(yǎng)發(fā)展水平的可見性。
正日信息科技考試系統(tǒng)基于對學(xué)生能力的評定及考查而設(shè)計(jì),并依據(jù)2022年版課程標(biāo)準(zhǔn)及理念設(shè)計(jì)多種“新”考查形式。基于真實(shí)情境下,設(shè)計(jì)考查學(xué)生信息感知能力、信息社會(huì)責(zé)任意識及綜合利用數(shù)字技術(shù)計(jì)算、處理應(yīng)用能力的試題,借助綜合式、大單元式、項(xiàng)目式的考查形式,多維度呈現(xiàn)學(xué)生數(shù)字行為考查結(jié)果。目前,基于情景下的綜合式考查形式已在多個(gè)地市成功應(yīng)用,例如在某地市數(shù)字素養(yǎng)考查上,借助信息科技考試系統(tǒng)設(shè)計(jì)了情景式綜合式材料分析題、流程圖題、網(wǎng)絡(luò)拓?fù)漕}等,綜合評定學(xué)生學(xué)科核心素養(yǎng)在知、情、意、行等方面協(xié)調(diào)發(fā)展情況,有效檢驗(yàn)學(xué)生的創(chuàng)新能力及素養(yǎng)應(yīng)用實(shí)踐能力。
學(xué)生行為表現(xiàn)數(shù)據(jù)是揭示他們在完成真實(shí)性任務(wù)時(shí)知識掌握、能力展現(xiàn)與素養(yǎng)體現(xiàn)的重要依據(jù)。為了精確評估這些能力,需要在過程流數(shù)據(jù)與具體推論或假設(shè)之間建立聯(lián)系,從而使數(shù)據(jù)能夠作為有效證據(jù)使用。為此,通過提取數(shù)據(jù)證據(jù)和建立評價(jià)分析模型兩個(gè)方面,將過程流數(shù)據(jù)與觀測指標(biāo)緊密關(guān)聯(lián),以此來推斷學(xué)生在知識、能力與素養(yǎng)等方面的真實(shí)情況。
一方面要提取數(shù)據(jù)證據(jù)。首先,建立證據(jù)規(guī)則,將過程流數(shù)據(jù)與評價(jià)目標(biāo)相關(guān)聯(lián),并制定評分機(jī)制為數(shù)據(jù)直接賦予分值或通過算法程序進(jìn)行計(jì)算;其次,通過數(shù)據(jù)預(yù)處理和行為模式識別,篩選出與觀測指標(biāo)高度相關(guān)的數(shù)據(jù)證據(jù);最后,將這些數(shù)據(jù)證據(jù)與觀測指標(biāo)建立映射關(guān)系,為評價(jià)分析模型和評價(jià)結(jié)果提供可靠支持。
另一方面要建立評價(jià)分析模型。可以通過數(shù)據(jù)證據(jù)特征提取、模型建立與訓(xùn)練和模型信效度檢驗(yàn),并依據(jù)各觀測指標(biāo),構(gòu)建準(zhǔn)確性和可解釋性能力強(qiáng)的智能評價(jià)分析模型,實(shí)現(xiàn)各維度能力與素養(yǎng)的智能分析、評價(jià)反饋和預(yù)測發(fā)展?;诖?,可以通過文本報(bào)告、可視化畫像等多種方式,全方位輸出學(xué)生個(gè)體或群體的特征型、發(fā)展型和比較型評價(jià)結(jié)果,并能夠提供包括個(gè)性化反饋和差異性建議的評價(jià)反饋,從而實(shí)現(xiàn)對學(xué)生素養(yǎng)水平與發(fā)展?jié)撃艿木珳?zhǔn)刻畫,并為制定培養(yǎng)方案和相關(guān)教育決策提供科學(xué)依據(jù)。
來源丨節(jié)選自中國遠(yuǎn)程教育微刊,作者丨郭炯(西北師范大學(xué)教育技術(shù)學(xué)院教授),鄒佳人(西北師范大學(xué)教育技術(shù)學(xué)院);本文轉(zhuǎn)載自號“中關(guān)村互聯(lián)網(wǎng)教育創(chuàng)新中心(ID:zgc-mtb)”。
版權(quán)聲明:以上圖文,貴在分享,版權(quán)歸原作者及原出處所有。如涉及侵權(quán),請權(quán)利方及時(shí)與我們聯(lián)系,我們將及時(shí)更正、刪除或依法處理。