基于改進(jìn)型K-means算法的高校研究生成績(jī)畫(huà)像研究
作者:羅鑫帥 高 洋
發(fā)布時(shí)間:2023-08-31 16:17:26 來(lái)源:陜西教育·高教
[摘 要]成績(jī)畫(huà)像對(duì)研究生培養(yǎng)具有重要參考價(jià)值,以某師范大學(xué)某學(xué)院某專業(yè)學(xué)位碩士研究生近5年成績(jī)?yōu)閿?shù)據(jù)基礎(chǔ),通過(guò)K-means算法對(duì)研究生考試成績(jī)進(jìn)行分析,獲得代表研究生群體的成績(jī)屬性特征。本文運(yùn)用手肘法確定K值后,選取K個(gè)歐式距離最遠(yuǎn)點(diǎn)為初始中心建立改進(jìn)型K-means算法模型,描繪出客觀的研究生成績(jī)畫(huà)像,并從研究生入學(xué)教育、學(xué)風(fēng)建設(shè)等方面給出具有參考價(jià)值的工作建議。
[關(guān)鍵詞]成績(jī)畫(huà)像 K-means 研究生 學(xué)風(fēng)建設(shè)
本項(xiàng)目受助于陜西師范大學(xué)研究生思政精品項(xiàng)目(YGYB2114)、教育部高校思想政治工作創(chuàng)新發(fā)展中心(武漢東湖學(xué)院)2022年度專項(xiàng)研究課題(編號(hào):WHDHSZZX2022075)以及陜西高校網(wǎng)絡(luò)思想政治工作第二批實(shí)踐項(xiàng)目(編號(hào):2022WSYJ100083)。
引 言
學(xué)業(yè)成績(jī)作為研究生培養(yǎng)質(zhì)量的重要參考指標(biāo)之一,在一定程度上反映了研究生的學(xué)習(xí)狀態(tài)、學(xué)習(xí)效果和學(xué)習(xí)能力。隨著大數(shù)據(jù)技術(shù)的發(fā)展,用較為科學(xué)的方法分析數(shù)據(jù),給予高校研究生教育管理的參考方案,對(duì)高校研究生教育管理工作具有重要意義。數(shù)字賦能,能夠輔助升級(jí)高校教育管理模式,精準(zhǔn)開(kāi)展各類教育工作,豐富大數(shù)據(jù)技術(shù)背景下的典型教育案例。目前越來(lái)越多的科研工作者圍繞學(xué)生畫(huà)像構(gòu)建進(jìn)行探索研究,在研究對(duì)象方面,針對(duì)校園一卡通的消費(fèi)記錄、學(xué)生成績(jī)和學(xué)生上網(wǎng)時(shí)長(zhǎng)等方面進(jìn)行聚類分析與關(guān)聯(lián)研究。姜楠和許維勝基于校園一卡通的刷卡記錄,利用K-means聚類算法梳理了學(xué)生校園消費(fèi)習(xí)慣,并用Apriori關(guān)聯(lián)規(guī)則算法與學(xué)生學(xué)習(xí)行為進(jìn)行關(guān)聯(lián)分析;陶婷婷也利用了類似的方法,進(jìn)一步分析了一卡通數(shù)據(jù)、學(xué)生在線學(xué)習(xí)時(shí)長(zhǎng)與學(xué)生成績(jī)之間的關(guān)系;郭鵬基于一卡通數(shù)據(jù),對(duì)學(xué)生消費(fèi)水平、消費(fèi)行為、上網(wǎng)情況和借閱圖書(shū)情況進(jìn)行了系統(tǒng)聚類,并對(duì)關(guān)聯(lián)算法進(jìn)行改進(jìn)。在研究技術(shù)方面,根據(jù)研究對(duì)象的差異化以及數(shù)據(jù)的多樣性,改進(jìn)型K-means聚類算法得到越來(lái)越廣泛的應(yīng)用。凌玉龍等提出了基于馬氏距離的改進(jìn)型K-means算法;何選森等提出了用有效性評(píng)價(jià)函數(shù)的最小值確定K值的方法;許智宏等運(yùn)用DPCA方法改進(jìn)了K-means初始聚類中心的選擇問(wèn)題;于莉佳和汪濤通過(guò)模糊K均值聚類算法分析了高校網(wǎng)絡(luò)用戶行為;張?jiān)坪蛷堓W分別用加權(quán)K-means算法對(duì)高校學(xué)生成績(jī)和高校貧困生進(jìn)行了聚類分析。在研究架構(gòu)層面,馮廣等對(duì)學(xué)生畫(huà)像系統(tǒng)的技術(shù)架構(gòu)和應(yīng)用場(chǎng)景進(jìn)行了分析;黃煒等基于“五育融合”的綜合素質(zhì)評(píng)價(jià)構(gòu)建了學(xué)生數(shù)字畫(huà)像。在研究?jī)r(jià)值方面,黃文林基于學(xué)生畫(huà)像技術(shù)對(duì)高校精準(zhǔn)思政探索進(jìn)行了闡釋。
由上述研究可以看出,高校教育管理工作越發(fā)精細(xì)化與科學(xué)化,在學(xué)生精準(zhǔn)資助、學(xué)業(yè)成績(jī)分析、校園行為研判等方面均有數(shù)據(jù)化的依據(jù)作為科學(xué)決策的有力保障,如何將數(shù)據(jù)有效處理,提供科學(xué)決策依據(jù),也是高校教育管理工作面臨的重要問(wèn)題。本文結(jié)合研究生考試成績(jī)數(shù)據(jù)量度特點(diǎn),通過(guò)算法選擇歐式距離最遠(yuǎn)的K個(gè)點(diǎn)作為初始中心,運(yùn)用K-means聚類算法對(duì)研究生考試成績(jī)進(jìn)行分析,做出有效分類,針對(duì)成績(jī)有困難的研究生群體進(jìn)行重點(diǎn)關(guān)注與幫扶,針對(duì)成績(jī)優(yōu)秀的研究生群體進(jìn)行示范宣傳與經(jīng)驗(yàn)分享,為研究生培養(yǎng)工作提供參考依據(jù)。通過(guò)對(duì)近5年相同專業(yè)研究生成績(jī)進(jìn)行縱向?qū)Ρ龋瑱z驗(yàn)教師的教學(xué)效果及研究生學(xué)習(xí)效果,探索該專業(yè)研究生教育的一般規(guī)律,對(duì)研究生教育引導(dǎo)和學(xué)風(fēng)建設(shè)工作提供參考建議。
算法介紹
K-means算法是在給定分類簇?cái)?shù)和初始簇中心的前提下對(duì)樣本數(shù)據(jù)進(jìn)行分類分析的方法,它屬于一種無(wú)監(jiān)督、迭代的學(xué)習(xí)算法,可以將同一樣本簇的距離盡可能縮小,不同樣本簇之間距離盡可能遠(yuǎn)離,從而達(dá)到劃分?jǐn)?shù)據(jù)、有效分析的目的。在K-means算法中隨機(jī)選擇樣本點(diǎn)作為初始中心,不斷計(jì)算每個(gè)樣本點(diǎn)與初始中心的歐式距離,選定距離最近的初始中心為一簇,并對(duì)簇的中心進(jìn)行重新選取,重復(fù)上述過(guò)程,直至各個(gè)簇中心位置不再發(fā)生變化,樣本數(shù)據(jù)也完成劃分,算法結(jié)束。本文以研究生成績(jī)?yōu)闃颖荆瑢?duì)數(shù)據(jù)進(jìn)行聚類,直到尋找出最終聚類中心樣本,這一研究生成績(jī)樣本也就能夠反映出該群體研究生的成績(jī)屬性特征。在算法執(zhí)行過(guò)程中,確定簇的數(shù)量與初始中心的位置是完成K-means算法的關(guān)鍵,本文運(yùn)用手肘法確定簇的數(shù)量,運(yùn)用算法遍歷選擇出歐式距離最遠(yuǎn)的點(diǎn)作為初始聚類中心。
1.簇的數(shù)量即K值選取
簇的數(shù)量即K值采用手肘法確定:
是隨機(jī)樣本點(diǎn),是聚類中心,SSE是誤差平方和,隨著簇的數(shù)量即K值的精細(xì)劃分,SSE會(huì)逐漸變小,當(dāng)SSE與K值關(guān)系曲線出現(xiàn)拐點(diǎn)時(shí),SSE不再隨著K值增大有較為明顯的變化,此時(shí)的K值就是簇的最佳數(shù)量。本文以2021級(jí)此專業(yè)第一學(xué)期61名碩士的671條成績(jī)數(shù)據(jù)為例,繪制SSE與K值關(guān)系圖,可以發(fā)現(xiàn)K值為2或3時(shí),SSE出現(xiàn)拐點(diǎn)。由于手肘法本質(zhì)也是觀察法,筆者認(rèn)為按照K=3劃分,學(xué)生成績(jī)類別更加具體,更有利于對(duì)學(xué)生的教育管理工作。
2.初始中心的選擇
K-means算法一般在樣本集合中隨機(jī)挑選K個(gè)樣本點(diǎn)作為初始中心,雖然隨機(jī)選擇的初始中心經(jīng)過(guò)迭代后均是高密度聚集的樣本點(diǎn),但是結(jié)合成績(jī)數(shù)據(jù)特點(diǎn),即量綱及數(shù)量級(jí)無(wú)差別,為了使聚類點(diǎn)更有代表性,根據(jù)每個(gè)學(xué)生n個(gè)成績(jī)數(shù)據(jù)構(gòu)成M維數(shù)據(jù)集合=,選擇K個(gè)歐式距離最遠(yuǎn)的初始中心進(jìn)行聚類,具體計(jì)算方法為:
在這種初始中心選擇方式上,主要考慮了數(shù)據(jù)分布特點(diǎn),降低數(shù)據(jù)處理的復(fù)雜度,又使得高密度聚類樣本點(diǎn)特征加以凸顯。基于量綱及數(shù)量級(jí)無(wú)差別的成績(jī)數(shù)據(jù)和上述改進(jìn)思想,應(yīng)用于研究生成績(jī)分析,更好地描繪研究生成績(jī)畫(huà)像。
根據(jù)上述論述,歸納出改進(jìn)型K-means算法步驟如下:
步驟1:遍歷成績(jī)樣本集合,得到K個(gè)歐式距離最遠(yuǎn)的樣本點(diǎn)為初始聚類中心;
步驟2:計(jì)算樣本點(diǎn)到初始聚類中心距離,進(jìn)行成績(jī)分類;
步驟3:計(jì)算每一簇的中心點(diǎn)作為新中心點(diǎn);
步驟4:重復(fù)以上步驟,直到每一簇中心在迭代后收斂為止。
實(shí)驗(yàn)分析
1.初始數(shù)據(jù)
本文以某師范大學(xué)某學(xué)院某專業(yè)學(xué)位碩士研究生近5年成績(jī)數(shù)據(jù)為基礎(chǔ),對(duì)該專業(yè)學(xué)位碩士研究生成績(jī)數(shù)據(jù)逐年進(jìn)行分析,表1以2021級(jí)該專業(yè)研究生第一學(xué)期成績(jī)?yōu)槔⒏鶕?jù)本文提出算法,對(duì)歐式距離最遠(yuǎn)的3個(gè)成績(jī)樣本點(diǎn)為初始聚類中心,與隨機(jī)選取3個(gè)成績(jī)樣本點(diǎn)為初始聚類中心的計(jì)算迭代次數(shù)進(jìn)行對(duì)比,從迭代結(jié)果可以看出,使用改進(jìn)型算法,3個(gè)初始中心就在3個(gè)分類區(qū)域內(nèi),并在3個(gè)對(duì)應(yīng)區(qū)域進(jìn)行迭代優(yōu)化,而未使用改進(jìn)算法隨機(jī)選擇3個(gè)初始中心情況則不相同。在表1中,中心1經(jīng)過(guò)1次迭代后移動(dòng)距離明顯大于另外2個(gè)中心的移動(dòng)距離,體現(xiàn)了分布的隨機(jī)性。因此,使用改進(jìn)型算法在一般情況下可以更快地得到聚類結(jié)果,迭代次數(shù)也更低。表2是使用改進(jìn)型算法的3個(gè)初始聚類中心,可以看出,初始聚類中心樣本點(diǎn)集中部分科目成績(jī)具有較為明顯差異,碩士英語(yǔ)(專碩)、新時(shí)代中國(guó)特色社會(huì)主義理論與實(shí)踐、心理發(fā)展與教育、課程與教學(xué)論、教育研究方法等課程應(yīng)該是該專業(yè)該年級(jí)成績(jī)分類的重要參考科目。
2.數(shù)據(jù)分析
根據(jù)K-means聚類算法,執(zhí)行上述算法過(guò)程得到最終3個(gè)聚類中心(表3),并計(jì)算了各中心之間的歐式距離以及每一類數(shù)據(jù)的有效樣本數(shù)(表4)。
按照算法執(zhí)行數(shù)據(jù)迭代后,從表3中可以看出,該專業(yè)21級(jí)61名專業(yè)碩士研究生的成績(jī)特點(diǎn):第一類研究生在公共必修課碩士英語(yǔ)(專碩)、新時(shí)代中國(guó)特色社會(huì)主義理論與實(shí)踐考試中成績(jī)偏低,其他科目成績(jī)均良好;第二類研究生在所有科目的考試中均獲得了較為理想的成績(jī);第三類研究生在公共必修課新時(shí)代中國(guó)特色社會(huì)主義理論與實(shí)踐、專業(yè)課心理發(fā)展與教育及教育研究方法等考試中成績(jī)偏低,其他科目成績(jī)較為理想。從表4中可以看出,各聚類中心分布數(shù)據(jù)樣本數(shù)量依次為18、34、9人,分別約占樣本總數(shù)的三分之一、二分之一和六分之一,樣本均為有效樣本且分布數(shù)量均勻。并且三個(gè)聚類中心兩兩距離均在10~12之間,亦是數(shù)據(jù)高密度質(zhì)心位置。因此從數(shù)據(jù)角度來(lái)看,聚類結(jié)果較為理想。
對(duì)該專業(yè)近5年研究生成績(jī)進(jìn)行分析,從圖2中可以看出,“基礎(chǔ)教育課程改革”系列講座、心理發(fā)展與教育等專業(yè)課平均成績(jī)較為穩(wěn)定;教育研究方法、教育原理及課程與教學(xué)論等專業(yè)課平均成績(jī)穩(wěn)步提升。“基礎(chǔ)教育課程改革”系列講座是研究生取得高分較容易的科目,而心理發(fā)展與教育相對(duì)其他科目近5年考試成績(jī)均較低,從數(shù)據(jù)角度來(lái)看,該門專業(yè)課難度較大,應(yīng)引起足夠重視。碩士英語(yǔ)(專碩)、新時(shí)代中國(guó)特色社會(huì)主義理論與實(shí)踐公共必修課成績(jī)較為穩(wěn)定,且平均成績(jī)低于專業(yè)課考試成績(jī)。
針對(duì)聚類結(jié)果和近5年成績(jī)曲線圖可以看出,研究生教育管理工作者應(yīng)該對(duì)碩士英語(yǔ)(專碩)、新時(shí)代中國(guó)特色社會(huì)主義理論與實(shí)踐、心理發(fā)展與教育、課程與教學(xué)論等進(jìn)行重點(diǎn)引導(dǎo)。
一是加強(qiáng)公共必修課重視程度。專業(yè)型碩士研究生公共必修課為碩士英語(yǔ)(專碩)和新時(shí)代中國(guó)特色社會(huì)主義理論與實(shí)踐兩門課程,從該專業(yè)近5年研究生學(xué)習(xí)效果來(lái)看,公共必修課成績(jī)低于專業(yè)課成績(jī)。在課程安排較多的情況下,許多研究生對(duì)公共必修課的重視程度不夠,投入學(xué)習(xí)精力有限,部分研究生出現(xiàn)重視專業(yè)課而輕視公共必修課的學(xué)習(xí)現(xiàn)象。因此,在研究生教育管理過(guò)程中,要加強(qiáng)日常學(xué)習(xí)管理與考前動(dòng)員工作,提醒研究生重視公共必修課。
二是加強(qiáng)重難點(diǎn)專業(yè)課學(xué)習(xí)指導(dǎo)。從近5年研究生專業(yè)課考試成績(jī)來(lái)看,該專業(yè)研究生在教育研究方法、教育原理及課程與教學(xué)論等專業(yè)課學(xué)習(xí)中均有較為明顯的進(jìn)步,也說(shuō)明研究生學(xué)習(xí)能力越來(lái)越強(qiáng),對(duì)專業(yè)課程的掌握情況越來(lái)越好。但是心理發(fā)展與教育這門課程,該專業(yè)研究生在近5年內(nèi)考試成績(jī)低于其他課程,也說(shuō)明這門課程難度較大,并且根據(jù)聚類結(jié)果,該專業(yè)21級(jí)的研究生學(xué)習(xí)掌握程度也有差異,9名研究生(約占總?cè)藬?shù)的六分之一)成績(jī)較低。在日常學(xué)習(xí)過(guò)程中,建議研究生教育管理工作者主動(dòng)摸排并關(guān)心專業(yè)課學(xué)習(xí)有困難的研究生,邀請(qǐng)授課教師或者高年級(jí)研究生進(jìn)行學(xué)習(xí)經(jīng)驗(yàn)分享,提升學(xué)習(xí)效果。
結(jié) 語(yǔ)
K-means算法適用于研究生考試成績(jī)樣本分析場(chǎng)景,根據(jù)考試成績(jī)分析場(chǎng)景使用改進(jìn)型K-means算法可以降低算法迭代次數(shù),更快地得到聚類結(jié)果,該算法可以更好地分析研究生成績(jī)特點(diǎn),描繪研究生成績(jī)畫(huà)像,為研究生教育管理工作者提供一定參考價(jià)值,幫助研究生教育管理工作者科學(xué)高效地掌握研究生分類特點(diǎn),因材施教,更加精準(zhǔn)地開(kāi)展研究生學(xué)風(fēng)建設(shè)等相關(guān)工作。
參考文獻(xiàn):
[1]郭鵬.基于校園一卡通數(shù)據(jù)的學(xué)生消費(fèi)行為與成績(jī)的關(guān)聯(lián)性研究[D].楊凌:西北農(nóng)林科技大學(xué),2019.
[2]陶婷婷.基于校園一卡通和云課堂數(shù)據(jù)的消費(fèi)與學(xué)習(xí)行為分析[D].武漢:華中師范大學(xué),2017.
[3]姜楠,許維勝.基于校園一卡通數(shù)據(jù)的學(xué)生消費(fèi)及學(xué)習(xí)行為分析[J].微型電腦應(yīng)用,2015,31(2):35-38.
[4]凌玉龍,張曉,李霞,張勇.改進(jìn)k-means算法在學(xué)生消費(fèi)畫(huà)像中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,202,31(10):122-127.
[5]何選森,何帆,徐麗,等.K-Means算法最優(yōu)聚類數(shù)量的確定[J].電子科技大學(xué)學(xué)報(bào),2022,51(6):904-912.
[6]許智宏,李彤彤,董永峰,等.基于改進(jìn)K-means算法的學(xué)生用戶畫(huà)像構(gòu)建研究[J].河北工業(yè)大學(xué)學(xué)報(bào),2022,51(3):19-24.
[7]于莉佳,汪濤.基于模糊K均值聚類的高校網(wǎng)絡(luò)用戶行為分析[J].智能計(jì)算機(jī)與應(yīng)用,2022,12(10):200-202.
[8]張?jiān)?基于改進(jìn)的K-means聚類算法的學(xué)生成績(jī)分析[J].安徽開(kāi)放大學(xué)學(xué)報(bào),2022,(3):92-96.
[9]張軼,高雪冬,郭亞偉,趙丙賀.加權(quán)k-means算法及其在高校貧困生判別中的應(yīng)用[J].產(chǎn)業(yè)與科技論壇,2022,21(19):40-44.
[10]馮廣,何雅萱,賀敏慧.基于校園大數(shù)據(jù)的學(xué)生畫(huà)像系統(tǒng)應(yīng)用研究[J].軟件,2020,41(8):40-42.
[11]黃煒,張治,胡愛(ài)花,等.基于“五育融合”的學(xué)生數(shù)字畫(huà)像構(gòu)建與實(shí)踐分析[J].教育發(fā)展研究,2021,41(18):44-51.
[12]黃文林.基于學(xué)生畫(huà)像分析的高校精準(zhǔn)思政探索[J].東北大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2021,23(3):104-111.
(羅鑫帥:陜西師范大學(xué)黨委研究生工作部;高洋:西安外國(guó)語(yǔ)大學(xué)英文學(xué)院)


- 走進(jìn)陜西中小學(xué)看實(shí)驗(yàn)教學(xué):在實(shí)踐探究中埋下成長(zhǎng)的“種子”
- 讓實(shí)現(xiàn)夢(mèng)想的路更通暢——陜西新高考模擬志愿填報(bào)現(xiàn)場(chǎng)見(jiàn)聞
- 走進(jìn)陜西中小學(xué)看體育變化:課間延長(zhǎng)了,體育課增加了,特色活動(dòng)更豐富了
- 崗位學(xué)雷鋒標(biāo)兵事跡掠影:在立德樹(shù)人中弘揚(yáng)和踐行雷鋒精神
- 全省教育大會(huì)一線反響:落實(shí)立德樹(shù)人根本任務(wù) 奮力譜寫(xiě)陜西教育新篇章

