版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、以高速的協(xié)處理器或加速器配合主處理器協(xié)同工作,正成為當(dāng)前高性能計算機架構(gòu)發(fā)展的新趨勢。例如,以圖形處理器(Graphic Processing Unit,簡稱GPU)為加速器、或者以Intel的集成眾核(Many Integrated Core,簡稱MIC)為協(xié)處理器的混合異構(gòu)架構(gòu)在高端計算機中日益成為主流,以2014年上半年世界超級計算機500強(TOP500)為例,前10名中有4臺、前15名中有7臺均為混合異構(gòu)架構(gòu)。如何將現(xiàn)有的領(lǐng)域
2、應(yīng)用問題無縫移植到這些混合異構(gòu)計算平臺上,將日益成為高性能計算應(yīng)用開發(fā)人員面臨的挑戰(zhàn)性問題。本文以典型計算流體動力學(xué)(CFD)應(yīng)用問題為切入點,分析了其訪存計算特征,重點探索了此類應(yīng)用問題在以天河二號為代表的CPU+MIC混合異構(gòu)計算平臺上的協(xié)同并行與性能優(yōu)化方法,以期為其它相似應(yīng)用領(lǐng)域的大規(guī)模異構(gòu)協(xié)同并行提供方法積累與技術(shù)借鑒。
考慮到當(dāng)前的CFD模擬包括Navier-Stokes控制方程離散求解、格子Boltzmann方程
3、求解等兩大主流方法,本文首先從應(yīng)用問題計算特征入手分析,結(jié)果表明,這兩類方法均屬計算密度較低的訪存受限型應(yīng)用;其次,對以CFD為代表的訪存受限類應(yīng)用在 CPU+MIC混合異構(gòu)平臺上的性能移植進行了詳細研究與探索。由于真實CFD應(yīng)用求解具有較為復(fù)雜的物理過程與計算流程,我們先以一個同樣具有訪存受限特征的簡單模型應(yīng)用(力導(dǎo)引算法 SORGRAD)為例,探索了在純 CPU平臺及純MIC平臺兩種同構(gòu)型平臺上的加速與優(yōu)化方法,然后以NS方程離散求
4、解的應(yīng)用程序 NPB BT-MZ和格子 Boltzmann方程求解方法(LBM)的應(yīng)用程序OpenLBMflow為例,分別研究了兩類CFD求解應(yīng)用在天河二號平臺上的異構(gòu)協(xié)同并行移植與性能優(yōu)化方法。
我們按照并行與優(yōu)化技術(shù)側(cè)重點、以及環(huán)境平臺的不同,將研究工作組織為兩部分:一是面向同構(gòu)型(即純CPU或純MIC)眾核平臺的典型CFD應(yīng)用并行與優(yōu)化,重點研究了性能模型、應(yīng)用特征與眾核平臺的高效并行與性能優(yōu)化技術(shù);面向天河CPU+MI
5、C混合異構(gòu)環(huán)境下的CFD數(shù)值模擬,重點關(guān)注異構(gòu)環(huán)境中獨特的協(xié)同并行與優(yōu)化方法。具體研究工作與主要創(chuàng)新點如下:
?。ㄒ唬┟嫦蛱旌颖姾送瑯?gòu)平臺的典型CFD應(yīng)用并行與優(yōu)化方面:
(1)基于屋頂式性能模型、以計算密度為度量指標,分析了典型CFD求解過程的程序特征,為后續(xù)并行移植及性能優(yōu)化時選擇突破口提供了理論基礎(chǔ)與決策依據(jù)。分析結(jié)果表明,傳統(tǒng)CFD求解方法通常屬于計算密度較小的“訪存受限型”應(yīng)用,這表明在進行并行移植及性能優(yōu)化
6、時,訪存性能優(yōu)化將是首要關(guān)注的目標。
?。?)以力導(dǎo)引算法應(yīng)用問題(SORGRAD)為例,基于CPU同構(gòu)平臺及MIC同構(gòu)平臺,提出并實現(xiàn)了數(shù)據(jù)級與指令級兩級并行的加速與優(yōu)化方法。數(shù)據(jù)級并行采用了 OpenMP多線程實現(xiàn),指令級并行則針對算法核心模塊采用了單指令多數(shù)據(jù)(SIMD)向量化實現(xiàn);將程序移植到MIC平臺上時,重點測試分析了使用更寬的向量指令的并行效果。數(shù)值測試結(jié)果表明,以native的模式在MIC對程序進行并行計算,在數(shù)
7、據(jù)規(guī)模大于8704時,并行程序相對于串行程序性能最高提升在600倍左右。在力導(dǎo)引問題上所獲得的訪存受限型應(yīng)用并行與優(yōu)化經(jīng)驗,可推廣到物理過程更復(fù)雜的CFD應(yīng)用問題中去。
?。?)針對采用格子Boltzmann方法(LBM)類的CFD應(yīng)用求解問題,采用了任務(wù)級、數(shù)據(jù)集和指令級三級并行策略,提出并實現(xiàn)了MPI+OpenMP混合并行方法,結(jié)果表明,LBM應(yīng)用問題具有良好的強可擴展性和弱可擴展性,在CPU上多線程優(yōu)化性能可提升14倍左右
8、。通過單核優(yōu)化,在數(shù)據(jù)規(guī)模為512*256*256(除特殊說明外測試規(guī)模均為512*256*256)時串行程序性能提升就可達2.97倍;通過程序多線程優(yōu)化,性能提升14倍左右;通過跨節(jié)點并行優(yōu)化,對MPI通信次序進行了重新排序,結(jié)果表明大規(guī)模的LBM并行計算具有良好的強可擴展性和弱可擴展性;通過指令級的SIMD優(yōu)化,使得訪存順序與計算順序相匹配,有效提高了計算/訪存比。
?。?)針對NS離散求解(NPB BT-MZ)類CFD應(yīng)用
9、問題,對其算法實現(xiàn)上的并行性進行了探索,實現(xiàn)了該問題的粘性項與非粘性項的并發(fā)計算,以及不同維方向上粘性項計算的并行。分析與測試驗證,驗證了并行方法的正確性,性能測試結(jié)果表明,新的并行算法可提升性能2.8倍。
?。ǘ┟嫦蛱旌覥PU+MIC混合異構(gòu)環(huán)境下的CFD應(yīng)用協(xié)同并行:
?。?)針對LBM應(yīng)用問題在混合異構(gòu)平臺上的計算,提出了基于offload異步傳輸?shù)膮f(xié)同并行計算方法。結(jié)果表明,該并行實現(xiàn)很好的將CPU與MIC通信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向眾核平臺的車輛識別技術(shù)研究.pdf
- 面向多核-眾核平臺的猜測并行關(guān)鍵技術(shù)研究.pdf
- 面向CFD的并行優(yōu)化技術(shù)研究.pdf
- 基于“天河二號”的纖維測試系統(tǒng).pdf
- 混合異構(gòu)眾核平臺上的高性能計算金融算法研究.pdf
- 黃磷脫砷裝置中分相器的CFD數(shù)值模擬與優(yōu)化技術(shù)研究.pdf
- 集成眾核平臺上CFD程序性能評測技術(shù)研究.pdf
- 埕島中心二號平臺的平面布局優(yōu)化研究
- 埕島中心二號平臺的平面布局優(yōu)化研究.pdf
- 面向新型異構(gòu)眾核系統(tǒng)的多設(shè)備協(xié)同并行計算關(guān)鍵技術(shù)研究.pdf
- 面向動態(tài)異構(gòu)眾核處理器的任務(wù)調(diào)度研究.pdf
- 溫室機械通風(fēng)CFD模擬與優(yōu)化控制研究.pdf
- 面向多媒體應(yīng)用的眾核SoC設(shè)計技術(shù)研究.pdf
- 基于眾核的網(wǎng)絡(luò)處理平臺關(guān)鍵技術(shù)研究.pdf
- 高通量眾核并行模擬加速技術(shù)研究.pdf
- 異構(gòu)眾核體系結(jié)構(gòu)Cache功耗和性能優(yōu)化關(guān)鍵技術(shù)研究.pdf
- 面向申威眾核架構(gòu)的GROMACS并行實現(xiàn)與性能優(yōu)化.pdf
- 丹山溝二號連拱隧道支護技術(shù)優(yōu)化研究.pdf
- 高性能眾核芯片動態(tài)熱管理技術(shù)研究.pdf
- 地鐵側(cè)式站臺通風(fēng)CFD模擬與優(yōu)化.pdf
評論
0/150
提交評論