2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息技術(shù)的不斷發(fā)展,各行各業(yè)已經(jīng)積累了大量的數(shù)據(jù),為了將這些數(shù)據(jù)轉(zhuǎn)化為有用的知識(shí),產(chǎn)生了數(shù)據(jù)挖掘技術(shù)。然而,傳統(tǒng)的串行化數(shù)據(jù)挖掘技術(shù)在面對(duì)海量數(shù)據(jù)時(shí)效率難以讓人滿意。并行化技術(shù)近年來(lái)發(fā)展迅速,可以有效提升算法效率,是處理海量數(shù)據(jù)的利器,因此,使用并行化技術(shù)提升數(shù)據(jù)挖掘算法效率成為時(shí)下的研究熱點(diǎn)。
  關(guān)聯(lián)規(guī)則挖掘技術(shù)是數(shù)據(jù)挖掘的一個(gè)重要分支,主要研究的是事務(wù)數(shù)據(jù)庫(kù)中有利用價(jià)值項(xiàng)之間的關(guān)系。頻繁項(xiàng)集挖掘是關(guān)聯(lián)規(guī)則挖掘中最重要的環(huán)

2、節(jié),因此本文中的關(guān)聯(lián)規(guī)則挖掘算法其實(shí)也是針對(duì)如何挖掘頻繁模式的頻繁模式挖掘算法。關(guān)聯(lián)規(guī)則挖掘中的基本算法主要有多候選產(chǎn)生算法(Apriori,劃分,抽樣等),模式增長(zhǎng)算法(FP-growth,HMine,F(xiàn)PMax,Close+等)和垂直格式算法(Eclat,CHARM等)。本文旨在將部分關(guān)聯(lián)規(guī)則挖掘算法與并行計(jì)算技術(shù)相結(jié)合,介紹若干個(gè)關(guān)聯(lián)規(guī)則挖掘算法的并行化方案。本文分別探討了基于CPU、GPU和分布式環(huán)境下的并行關(guān)聯(lián)規(guī)則挖掘算法,介

3、紹了相關(guān)的并行化技術(shù),并對(duì)本文中用到的兩個(gè)重要技術(shù)GPU-CUDA并行計(jì)算框架和MapReduce-Spark并行計(jì)算框架做了詳細(xì)介紹。
  FP-growth算法是一種基于內(nèi)存的頻繁模式挖掘算法。然而,當(dāng)數(shù)據(jù)集很大或者支持度閡值太小時(shí),構(gòu)造基于主存的全局頻繁模式樹是不現(xiàn)實(shí)的。FP-growth算法擴(kuò)展化方案將大數(shù)據(jù)集切分成小數(shù)據(jù)集,然后通過(guò)在這些小數(shù)據(jù)集執(zhí)行FP-growth算法來(lái)解決此問(wèn)題。本文在分析研究FP-growth算法

4、擴(kuò)展化方案的基礎(chǔ)上,采用并行投影的核心思想,介紹了一種簡(jiǎn)單分組算法。在考慮節(jié)點(diǎn)間負(fù)載均衡的基礎(chǔ)上,對(duì)簡(jiǎn)單分組算法改進(jìn),介紹了一種負(fù)載均衡的分組算法?;谏鲜龇纸M算法,實(shí)現(xiàn)了基于Spark的并行FP-growth算法—Spark-FP-growth算法,該算法通過(guò)分組算法將大數(shù)據(jù)集切分成小數(shù)據(jù)集,然后分別在小數(shù)據(jù)集上并行執(zhí)行FP-growth算法得到頻繁項(xiàng)集。為了進(jìn)一步提升算法效率,本文又引入Topk聚集的思想,將小數(shù)據(jù)集上的FP-gro

5、wth算法提升為Topk-FP-growth算法,加強(qiáng)了算法的可用性和速度性能。
  基于上述算法,本文又研究了關(guān)聯(lián)規(guī)則挖掘算法在Spark-GPU平臺(tái)上的并行化方案。在分析研究眾多Spark和GPU融合技術(shù)的基礎(chǔ)上,采用Spark RDD pipe接口調(diào)用GPU-CUDA程序?qū)崿F(xiàn)Spark和GPU的結(jié)合。基于Spark-GPU平臺(tái)的關(guān)聯(lián)規(guī)則挖掘算法—Spark-GPU-Apriori算法依然采用Spark-FP-growth算法

6、的分組模型,但將小數(shù)據(jù)上的FP-growth算法替換為使用CUDA加速的Apriori算法。Spark-GPU-Apriori算法展現(xiàn)了一種涵蓋多種并行級(jí)別,將Spark和GPU有機(jī)結(jié)合的并行關(guān)聯(lián)規(guī)則挖掘算法。
  以Spark-Apriori算法和Spark-mblib-FP-growth算法作為基準(zhǔn)算法。本文分別測(cè)試對(duì)比了Spark-SPFP-growth算法、Spark-BPFP-growth算法和Spark-GPU-Apr

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論