摘要:針對傳統(tǒng)基于鏈表結(jié)構(gòu)的Top-K高效用挖掘算法在大數(shù)據(jù)環(huán)境下不能滿足挖掘需求的問題,提出一種基于Spark的并行化高效用項集挖掘算法(STKO)。首先從閾值提升、搜索空間縮小等方面對TKO算法進行改進;然后選擇Spark平臺,改變原有數(shù)據(jù)存儲結(jié)構(gòu),利用廣播變量優(yōu)化迭代過程,在避免大量重新計算的同時使用負載均衡思想實現(xiàn)Top-K高效用項集的并行挖掘。實驗結(jié)果表明,該并行算法能有效地挖掘出大數(shù)據(jù)集中的高效用項集。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機工程與科學(xué)雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:算法研究、圖形與圖象、計算機網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、仿真技術(shù)研究、人工智能、研究與實現(xiàn)、試題選載與博士論文摘要等。于1973年經(jīng)新聞總署批準的正規(guī)刊物。