摘要:在非平衡數(shù)據(jù)分類問題中,為了合成有價值的新樣本和刪除無影響的原樣本,提出一種基于邊界混合重采樣的非平衡數(shù)據(jù)分類算法。該算法首先引入支持k-離群度概念,找出數(shù)據(jù)集中的邊界點集和非邊界點集;利用改進的SMOTE算法將少數(shù)類中的邊界點作為目標樣本合成新的點集,同時對多數(shù)類中的非邊界點采用基于距離的欠采樣算法,以此達到類之間的平衡。通過實驗結(jié)果對比表明了該算法在保證G-mean值較優(yōu)的前提下,一定程度上提高了少數(shù)類的分類精度。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機工程與應(yīng)用雜志, 半月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:博士論壇、網(wǎng)絡(luò)、通信與安全、數(shù)據(jù)庫、信號與信息處理 、工程與應(yīng)用等。于1964年經(jīng)新聞總署批準的正規(guī)刊物。