

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、由于Hadoop MapReduce等大數據處理平臺的處理性能一直在不斷提升,使得大數據處理成為了IT業(yè)界內最受關注的領域。在這些大數據處理平臺中,Spark框架從被提出來之后變得越來越流行。相對于傳統(tǒng)的Hadoop MapReduce編程模型的key-value編程,Spark的編程模型中提供了更多對于集合操作的支持使得 Spark編程本身更容易學習使用。
由于Spark的是一個完全在內存中計算的框架,它相對于Hadoop
2、MapReduce在性能上有極大的提升。當Spark任務發(fā)生失敗或者RDD讀取未中的時候,Spark會重新計算丟失RDD的依賴路徑(lineage)上所有丟失RDD。一個非常長的依賴路徑不僅會增加重新計算的代價,同時也會耗費更多的時間與空間代價。Spark中的檢查點會切斷 RDD的依賴關系同時將數據存儲到磁盤上,檢查點頻率的選擇會極大的影響整個程序的性能。但是原生Spark檢查點需要由應用程序開發(fā)人員來進行設置,檢查點的設置過于頻繁會使
3、系統(tǒng)性能下降?;蛘弋斚到y(tǒng)配置變更后原有應用程序上的檢查點設置可能并不會很好的適應新的系統(tǒng)環(huán)境。
本文在研究與分析 Spark源代碼并進行驗證實驗的基礎上,發(fā)現了相應模塊上的不足。針對發(fā)現的問題探索設計并實現三種在Spark上的自動化檢查點策略來解決由長依賴路徑帶來的額外開銷,同時使得檢查點給性能本身帶來的影響較小。這個自動化的檢查點主要具有以下功能:
1)根據RDD依賴路徑關系自動選擇正確的檢查點數據進行保存。在Sp
4、ark應用的一次任務過程中會產生非常多的RDD,在進行檢查點數據保存時,挑選出依賴路徑上關鍵RDD數據進行保存。
2)選擇合適的檢查點執(zhí)行時間。根據內存使用情況以及檢查點執(zhí)行耗時等影響因素來平衡選擇檢查點執(zhí)行時機,在不造成過多額外時間開銷的情況下提高應用程序模塊的運行效率。
3)自動清理已經過期的檢查點數據。在新的檢查點完成之后刪除之前保存且并不需要的檢查點數據。采用SSD來存儲檢查點數據以提高存儲讀寫效率。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于自適應策略的MapReduce檢查點技術的研究與優(yōu)化.pdf
- 基于檢查點技術的系統(tǒng)性能優(yōu)化研究.pdf
- 分布式檢查點系統(tǒng)的存儲優(yōu)化策略研究.pdf
- 移動計算檢查點遷移處理策略的研究.pdf
- 面向Docker容錯的性能監(jiān)控和自適應預復制檢查點技術研究.pdf
- 基于檢查點優(yōu)化的進程級容錯系統(tǒng)設計與實現.pdf
- 基于檢查點的進程級容錯設計與研究.pdf
- 虛擬機檢查點優(yōu)化機制研究.pdf
- 基于檢查點機制的系統(tǒng)性能優(yōu)化技術研究.pdf
- OpenMP程序中基于活躍變量分析的檢查點優(yōu)化.pdf
- 移動計算環(huán)境下檢查點存儲策略的研究.pdf
- 基于索引的準同步檢查點協(xié)議研究.pdf
- 基于計算特性的Spark內存自適應管理策略研究.pdf
- 基于WinNT進程檢查點技術研究與實現.pdf
- 基于集群系統(tǒng)狀態(tài)的檢查點技術的研究.pdf
- 基于異步檢查點的動態(tài)軟件升級系統(tǒng).pdf
- 基于增量檢查點進程遷移機制研究.pdf
- 基于中間結果檢查點的MapReduce容錯方法研究與實現.pdf
- 基于Linux內核的進程檢查點技術研究.pdf
- 定向越野檢查點說明
評論
0/150
提交評論