技術(shù)賦能教育評價不僅是縱深推進教育評價改革的關(guān)鍵途徑和重要突破口,而且是加快推動教育高質(zhì)量發(fā)展的必然選擇。場景化評價作為一種能夠評估學(xué)生在真實性場景中的行為表現(xiàn)的評價方法,不僅能使評價更具場景真實性、智能動態(tài)性、融合連接性和內(nèi)隱聯(lián)結(jié)性,還能更全面、更真實地反映學(xué)生的能力與素養(yǎng),是當前智能化評價階段的新趨向。
快跟著信息科技考試系統(tǒng)的小編一起來看,技術(shù)賦能教育評價有哪些現(xiàn)實困境?如何科學(xué)設(shè)計場景化評價?
發(fā)揮智能技術(shù)優(yōu)化教育評價結(jié)構(gòu),創(chuàng)新教育評價手段的支撐作用,可以讓教育評價改革牽引育人方式轉(zhuǎn)變,使教育評價回歸促進學(xué)生全面發(fā)展本位。然而,目前技術(shù)賦能教育評價仍面臨學(xué)生復(fù)雜特征難以表征、評價工具的發(fā)展瓶頸難以突破、評價結(jié)果的人機互信危機難以規(guī)避等評價能力不足的現(xiàn)實困境。場景化評價作為一種能夠評估學(xué)生在真實性場景中的行為表現(xiàn)的評價方法,不僅能使評價更具場景真實性、智能動態(tài)性、融合連接性和內(nèi)隱聯(lián)結(jié)性,還能更全面、更真實地反映學(xué)生的能力與素養(yǎng),從而提供更準確、更具指導(dǎo)意義的評價結(jié)果,促進學(xué)生全面發(fā)展。
近年來,國際測評和教育評價改革實踐強調(diào)技術(shù)賦能推動學(xué)生核心素養(yǎng)發(fā)展與評價,以引導(dǎo)教育教學(xué)改革。但由于核心素養(yǎng)具有綜合性、復(fù)雜性和內(nèi)隱性的特征,目前還難以對其進行準確和客觀的評價。此外,現(xiàn)有技術(shù)手段在表征學(xué)生復(fù)雜特征、突破評價工具發(fā)展瓶頸、規(guī)避人機互信危機等方面仍面臨評價能力不足的困境,未能有效地對學(xué)生關(guān)鍵能力與素養(yǎng)進行評價,也無法滿足創(chuàng)新人才培養(yǎng)和選拔需求,制約著教育評價改革的縱深推進。
核心素養(yǎng)評價要求全面深入地表征學(xué)生復(fù)雜特征,但現(xiàn)有評價模式側(cè)重單次、單一知識點的評價,評價結(jié)果只能提供對學(xué)生特征的簡單化表征,無法全面反映學(xué)生能力與素養(yǎng)。其中存在的主要問題有二。一是缺少人機交互的表現(xiàn)性任務(wù)。盡管我們普及了在線測試,但多是將傳統(tǒng)紙筆測試以電子化形式“搬運”到在線平臺,偏向于知識傳遞與獲得的標準化任務(wù),缺乏動態(tài)環(huán)境下對能力與素養(yǎng)的評估,限制了學(xué)生展現(xiàn)自我的機會。二是評價標準難以調(diào)整。評價標準仍以知識記憶和理解為主,缺少對問題解決、批判性思維、創(chuàng)造力等素養(yǎng)指標的評價,適用性和可操作性不強,導(dǎo)致評價難以捕捉學(xué)生復(fù)雜特征,亦難以真實反映學(xué)生能力與素養(yǎng)發(fā)展情況。
為實現(xiàn)全面評價學(xué)生的核心素養(yǎng),評價工具需要超越對知識記憶和理解的評價范疇,轉(zhuǎn)向通過模擬真實性場景下的評價任務(wù),以獲取學(xué)生能力與素養(yǎng)評價的多維度信息。然而,這一轉(zhuǎn)變面臨技術(shù)局限、數(shù)據(jù)利用問題和場景適應(yīng)性不足三個發(fā)展瓶頸:一是技術(shù)支持的不充分使得實時反饋和持續(xù)評估難以實施,在很大程度上限制了教學(xué)、學(xué)習(xí)與評價的一體化遷移至多樣化學(xué)習(xí)環(huán)境中,進而影響了教學(xué)精準化、學(xué)習(xí)個性化和評價智能化的實現(xiàn);二是多模型評價數(shù)據(jù)利用問題,包括數(shù)據(jù)采集的局限性,難以精準捕捉表現(xiàn)性和非結(jié)構(gòu)化學(xué)習(xí)任務(wù)中的復(fù)雜、動態(tài)和多維數(shù)據(jù),導(dǎo)致許多評價研究僅限于特定情境,同時數(shù)據(jù)運用方法尚未成熟,在構(gòu)建評價模型時需要克服多模態(tài)數(shù)據(jù)之間的同步性、互補性、冗余性以及特征提取和整合等一系列問題;三是評價工具的場景適應(yīng)性不足,難以靈活應(yīng)對復(fù)雜多變的教育環(huán)境和場景,特別是在資源有限和數(shù)字化基礎(chǔ)設(shè)施不健全的情況下,無法在不同場景間實現(xiàn)有效應(yīng)用,進而造成評價與實踐的分離。
評價模型的可解釋性是指其產(chǎn)生的評價結(jié)果能夠被人們理解和接受的程度。隨著深度學(xué)習(xí)和機器學(xué)習(xí)技術(shù)的發(fā)展,可解釋性評價模型主要分為三類:獨立于模型的方法、依賴于模型的方法以及因果解釋方法。盡管人工智能可解釋性評價模型的準確性顯著提升,但仍存在精度不穩(wěn)定、教育場景適應(yīng)能力弱、單一模型分析不足等問題,導(dǎo)致人機信任危機,影響教育評價結(jié)果的公平性和科學(xué)性,容易誤導(dǎo)教育決策。究其根本:一是源于算法偏見,評價結(jié)果可能嵌入技術(shù)構(gòu)建者的價值觀,導(dǎo)致價值觀窄化;二是由于認知決策偏差,現(xiàn)有技術(shù)未能完全模擬人類思維和缺乏情感理解,加劇了智能機器決策過程中的不確定性;三是因為缺乏對可解釋性評價模型效度的驗證,預(yù)測準確性驗證相對較多,而對可解釋性的驗證相對缺乏。
學(xué)生需要完成的真實性任務(wù),包括任務(wù)的性質(zhì)和要求等,必須基于真實性場景。真實性場景作為真實性任務(wù)的實踐場域,包括時空背景和數(shù)字化資源等,需要貼近現(xiàn)實,評價目標被精心融入場景中,從而引導(dǎo)學(xué)生解決現(xiàn)實和未來生活問題,促進能力與素養(yǎng)的逐層深化。同時,通過創(chuàng)設(shè)涉及現(xiàn)實世界中經(jīng)濟、社會和環(huán)境等方面的人機交互真實性任務(wù),不僅能夠測試學(xué)生的知識記憶和理解,更能助推學(xué)生將知識和技能遷移到現(xiàn)實生活場景中,實現(xiàn)對學(xué)生能力與素養(yǎng)的直接評價,并發(fā)揮場景化評價在“主動育人”方面的積極作用。
智能動態(tài)性體現(xiàn)為通過高度智能化和動態(tài)適應(yīng)能力,使場景化評價能夠根據(jù)學(xué)生學(xué)習(xí)進度和實時反饋,靈活調(diào)整真實性場景和個性化評價方案。具體表現(xiàn)在:一方面,真實性場景可動態(tài)調(diào)整,通過利用追蹤技術(shù)、動態(tài)模擬技術(shù)和事件觸發(fā)器,實時接收、傳輸和整合來自現(xiàn)實世界的變化與數(shù)據(jù),智能化調(diào)整場景設(shè)置,能夠增強場景的真實感知、動態(tài)互動和智能適應(yīng),使評價工具與教育實踐、教育場景、教育環(huán)境相銜接,從而為學(xué)生提供最適宜的真實性場景;另一方面,個性化評價方案的智能適配,借助智能監(jiān)測和多模態(tài)學(xué)習(xí)情感計算等技術(shù),持續(xù)跟蹤分析學(xué)生的認知過程、自我調(diào)節(jié)過程、情感狀態(tài)變化等全過程學(xué)習(xí)行為表現(xiàn),進而向?qū)W生提供智能化、個性化的學(xué)習(xí)資源和學(xué)習(xí)策略等服務(wù)與支持,以提升評價的精確度。
場景化評價環(huán)境依托“AI+真實性場景”的教學(xué)評一體化數(shù)字空間,不僅消除了傳統(tǒng)教育場景的壁壘,還實現(xiàn)了學(xué)校、社區(qū)、場館、工作等多場景聯(lián)動、數(shù)據(jù)互通共享以及技術(shù)、教學(xué)、評價的深度融合。一是人機融合互動。利用可穿戴和嵌入式傳感器等智能設(shè)備,提供豐富的學(xué)生體驗視角,使學(xué)生能夠無意識地、自然地融入虛實融合的真實性場景中,并在多個場景間自由切換,從而全面捕捉和記錄學(xué)生學(xué)習(xí)行為表現(xiàn)。二是角色與場景的融合。真實性場景提供情感沉浸體驗,不僅能夠充分調(diào)動學(xué)生的多感官參與,還能增強人與人之間以及人與場景之間的價值觀傳遞,有效促進學(xué)生在真實性場景中實現(xiàn)情感與認知的深度互動。三是評價過程與評價結(jié)果的緊密結(jié)合。通過應(yīng)用貝葉斯知識追蹤模型、知識情境感知的深度知識追蹤模型等自適應(yīng)學(xué)習(xí)技術(shù),能夠持續(xù)監(jiān)測和診斷學(xué)生與真實性任務(wù)的互動情況,為教師和學(xué)生提供實時且有意義的反饋信息,有效彌合教學(xué)、學(xué)習(xí)與評價之間的鴻溝。
場景化評價的內(nèi)隱聯(lián)結(jié)性體現(xiàn)在其以一種不易被學(xué)生察覺的方式,持續(xù)且穩(wěn)定地對學(xué)生在真實性場景中展現(xiàn)的、難以直接觀測到的個人能力與素養(yǎng)進行評估,并能夠預(yù)測學(xué)生的未來潛力和發(fā)展趨勢,為學(xué)生全面成長提供堅實的支撐。場景化評價通過與教學(xué)活動的無縫對接,使得評價過程自然地融入真實性場景之中,學(xué)生幾乎不會察覺到評價的存在,確保了教學(xué)與評價的同步性和連貫性。在真實性任務(wù)的完成過程中,學(xué)生能夠獲得持續(xù)的學(xué)習(xí)支持和即時反饋,這將幫助他們超越現(xiàn)有能力,向更高層次發(fā)展。同時,借助腦機交互和信號傳遞等技術(shù),場景化評價能精確捕捉并映射學(xué)生實時的思維活動、意識細胞功能變化、神經(jīng)元動態(tài)突變以及認知過程進展,從而揭示他們在創(chuàng)新思維、問題解決、溝通協(xié)作和價值觀形成等方面的發(fā)展情況。
學(xué)習(xí)者模型旨在確立評價目標和描述學(xué)生能力與素養(yǎng),通過明確學(xué)生評價指標體系和構(gòu)建學(xué)生評價觀測指標框架兩個環(huán)節(jié),確保教育工作者能夠捕捉和觀察到更為精細、微觀的學(xué)生學(xué)習(xí)行為表現(xiàn)。
為了精準、客觀和科學(xué)地評價學(xué)生的能力與素養(yǎng),首先需要明確學(xué)生評價指標,深入分析所要評價的學(xué)生能力與素養(yǎng)的內(nèi)涵與特征,并有機整合權(quán)威評價指標體系/框架,進行指標的系統(tǒng)提取和優(yōu)化,最終形成學(xué)生評價指標體系的一級和二級維度。在此基礎(chǔ)上,為了構(gòu)建一個更精準、可操作的學(xué)生評價觀測指標框架,還需要深入分析評價指標體系的一級和二級維度,明確各個評價維度與學(xué)生行為之間的具體聯(lián)系和表現(xiàn)特征,并據(jù)此分別確立每個評價維度的觀測指標、具體行為表現(xiàn)及其相對應(yīng)的數(shù)據(jù)采集類型。例如在“師范生智能教育素養(yǎng)測評”的場景化評價中,以已有的“師范生智能教育素養(yǎng)框架”為基礎(chǔ),將其3個一級維度和9個二級維度作為師范生智能教育素養(yǎng)評價指標體系,并分別確立35個觀測指標、具體行為表現(xiàn)及所對應(yīng)的數(shù)據(jù)采集類型,形成師范生智能教育素養(yǎng)評價觀測指標框架。
真實性任務(wù)模型需要創(chuàng)建真實性場景,并在場景中設(shè)計真實性任務(wù),引發(fā)學(xué)生展現(xiàn)出與評價觀測指標緊密相關(guān)的行為表現(xiàn),為收集學(xué)生行為過程流數(shù)據(jù)提供基礎(chǔ),以便深入理解學(xué)生如何應(yīng)用知識和技能解決實際問題。
第一,創(chuàng)建真實性場景,通過構(gòu)建數(shù)字技術(shù)豐富的評價環(huán)境,為學(xué)生提供與現(xiàn)實世界緊密相連、直面真實性問題的線上線下、課堂內(nèi)外虛實融合的實踐場域。通過利用元宇宙、AI大模型、動態(tài)模擬等技術(shù),整合人物、時間、空間、事件等場景數(shù)據(jù)維度,創(chuàng)建硬件設(shè)備場景、軟件操作場景和任務(wù)解決場景,使評價活動和內(nèi)容與現(xiàn)實世界、學(xué)科領(lǐng)域、工作場景保持高度一致,促進學(xué)生在與場景實時融合互動中有效應(yīng)對真實性問題。此外,真實性場景的設(shè)計還需嵌入問題解決材料、認知發(fā)展資源、探究活動工具等支架,并結(jié)合場景識別算法和頻繁序列挖掘算法,對學(xué)生在場景中的特征狀態(tài)進行感知分析,從而提供實時的、持續(xù)的引導(dǎo)和支持。
第二,以真實性場景為基礎(chǔ),緊扣觀測指標,力求貼近現(xiàn)實生活且具備認知挑戰(zhàn)性,設(shè)計基于遞進式問題鏈的學(xué)習(xí)理解型、應(yīng)用實踐型、遷移創(chuàng)新型三類真實性任務(wù),通過邏輯關(guān)聯(lián)、層次遞進的任務(wù)活動,引導(dǎo)學(xué)生在解決現(xiàn)實問題的過程中循序漸進地展現(xiàn)出全面的行為表現(xiàn)。同時,結(jié)合自適應(yīng)學(xué)習(xí)和生成式人工智能等技術(shù),根據(jù)學(xué)生表現(xiàn)動態(tài)提供模塊化任務(wù),確保學(xué)生持續(xù)保持在最優(yōu)學(xué)習(xí)路徑上,提升學(xué)生能力與素養(yǎng)發(fā)展水平的可見性。
正日信息科技考試系統(tǒng)基于對學(xué)生能力的評定及考查而設(shè)計,并依據(jù)2022年版課程標準及理念設(shè)計多種“新”考查形式。基于真實情境下,設(shè)計考查學(xué)生信息感知能力、信息社會責(zé)任意識及綜合利用數(shù)字技術(shù)計算、處理應(yīng)用能力的試題,借助綜合式、大單元式、項目式的考查形式,多維度呈現(xiàn)學(xué)生數(shù)字行為考查結(jié)果。目前,基于情景下的綜合式考查形式已在多個地市成功應(yīng)用,例如在某地市數(shù)字素養(yǎng)考查上,借助信息科技考試系統(tǒng)設(shè)計了情景式綜合式材料分析題、流程圖題、網(wǎng)絡(luò)拓撲題等,綜合評定學(xué)生學(xué)科核心素養(yǎng)在知、情、意、行等方面協(xié)調(diào)發(fā)展情況,有效檢驗學(xué)生的創(chuàng)新能力及素養(yǎng)應(yīng)用實踐能力。
學(xué)生行為表現(xiàn)數(shù)據(jù)是揭示他們在完成真實性任務(wù)時知識掌握、能力展現(xiàn)與素養(yǎng)體現(xiàn)的重要依據(jù)。為了精確評估這些能力,需要在過程流數(shù)據(jù)與具體推論或假設(shè)之間建立聯(lián)系,從而使數(shù)據(jù)能夠作為有效證據(jù)使用。為此,通過提取數(shù)據(jù)證據(jù)和建立評價分析模型兩個方面,將過程流數(shù)據(jù)與觀測指標緊密關(guān)聯(lián),以此來推斷學(xué)生在知識、能力與素養(yǎng)等方面的真實情況。
一方面要提取數(shù)據(jù)證據(jù)。首先,建立證據(jù)規(guī)則,將過程流數(shù)據(jù)與評價目標相關(guān)聯(lián),并制定評分機制為數(shù)據(jù)直接賦予分值或通過算法程序進行計算;其次,通過數(shù)據(jù)預(yù)處理和行為模式識別,篩選出與觀測指標高度相關(guān)的數(shù)據(jù)證據(jù);最后,將這些數(shù)據(jù)證據(jù)與觀測指標建立映射關(guān)系,為評價分析模型和評價結(jié)果提供可靠支持。
另一方面要建立評價分析模型。可以通過數(shù)據(jù)證據(jù)特征提取、模型建立與訓(xùn)練和模型信效度檢驗,并依據(jù)各觀測指標,構(gòu)建準確性和可解釋性能力強的智能評價分析模型,實現(xiàn)各維度能力與素養(yǎng)的智能分析、評價反饋和預(yù)測發(fā)展。基于此,可以通過文本報告、可視化畫像等多種方式,全方位輸出學(xué)生個體或群體的特征型、發(fā)展型和比較型評價結(jié)果,并能夠提供包括個性化反饋和差異性建議的評價反饋,從而實現(xiàn)對學(xué)生素養(yǎng)水平與發(fā)展?jié)撃艿木珳士坍?,并為制定培養(yǎng)方案和相關(guān)教育決策提供科學(xué)依據(jù)。
來源丨節(jié)選自中國遠程教育微刊,作者丨郭炯(西北師范大學(xué)教育技術(shù)學(xué)院教授),鄒佳人(西北師范大學(xué)教育技術(shù)學(xué)院);本文轉(zhuǎn)載自號“中關(guān)村互聯(lián)網(wǎng)教育創(chuàng)新中心(ID:zgc-mtb)”。
版權(quán)聲明:以上圖文,貴在分享,版權(quán)歸原作者及原出處所有。如涉及侵權(quán),請權(quán)利方及時與我們聯(lián)系,我們將及時更正、刪除或依法處理。