日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
詳解Spark中的內(nèi)存計算

由于計算的融合只發(fā)生在 Stages 內(nèi)部,而 Shuffle 是切割 Stages 的邊界,因此一旦發(fā)生 Shuffle,內(nèi)存計算的代碼融合就會中斷。

成都創(chuàng)新互聯(lián)公司是一家專注于成都網(wǎng)站設(shè)計、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司與策劃設(shè)計,代縣網(wǎng)站建設(shè)哪家好?成都創(chuàng)新互聯(lián)公司做網(wǎng)站,專注于網(wǎng)站建設(shè)十多年,網(wǎng)設(shè)計領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:代縣等地區(qū)。代縣做網(wǎng)站價格咨詢:18980820575

在 Spark 中,內(nèi)存計算有兩層含義:

第一層含義就是眾所周知的分布式數(shù)據(jù)緩存;

第二層含義是 Stage 內(nèi)的流水線式計算模式,通過計算的融合來大幅提升數(shù)據(jù)在內(nèi)存中的轉(zhuǎn)換效率,進而從整體上提升應(yīng)用的執(zhí)行性能;

那 Stage 內(nèi)的流水線式計算模式到底長啥樣呢?在 Spark 中,流水線計算模式指的是:在同一 Stage 內(nèi)部,所有算子融合為一個函數(shù),Stage 的輸出結(jié)果,由這個函數(shù)一次性作用在輸入數(shù)據(jù)集而產(chǎn)生。

我們用一張圖來直觀地解釋這一計算模式。

在上面的計算流程中,如果你把流水線看作是內(nèi)存,每一步操作過后都會生成臨時數(shù)據(jù),如圖中的 clean 和 slice,這些臨時數(shù)據(jù)都會緩存在內(nèi)存里。

但在下面的內(nèi)存計算中,所有操作步驟如 clean、slice、bake,都會被捏合在一起構(gòu)成一個函數(shù)。這個函數(shù)一次性地作用在“帶泥土豆”上,直接生成“即食薯片”,在內(nèi)存中不產(chǎn)生任何中間數(shù)據(jù)形態(tài)。

由于計算的融合只發(fā)生在 Stages 內(nèi)部,而 Shuffle 是切割 Stages 的邊界,因此一旦發(fā)生 Shuffle,內(nèi)存計算的代碼融合就會中斷。但是,當(dāng)我們對內(nèi)存計算有了多方位理解以后,就不會一股腦地只想到用 cache 去提升應(yīng)用的執(zhí)行性能,而是會更主動地想辦法盡量避免 Shuffle,讓應(yīng)用代碼中盡可能多的部分融合為一個函數(shù),從而提升計算效率。


分享名稱:詳解Spark中的內(nèi)存計算
當(dāng)前網(wǎng)址:http://www.dlmjj.cn/article/coeshgj.html