日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢(xún)
選擇下列產(chǎn)品馬上在線(xiàn)溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
星星之火漸呈燎原之勢(shì):Spark2.0預(yù)覽版重磅來(lái)襲

【】目前Databricks訂閱用戶(hù)已經(jīng)能夠獲取Spark 2.0的技術(shù)預(yù)覽版。性能提升、SparkSessions以及數(shù)據(jù)流處理能力將成為新版本的主要發(fā)展方向。

成都創(chuàng)新互聯(lián)專(zhuān)注為客戶(hù)提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站制作、昌江黎族網(wǎng)絡(luò)推廣、成都微信小程序、昌江黎族網(wǎng)絡(luò)營(yíng)銷(xiāo)、昌江黎族企業(yè)策劃、昌江黎族品牌公關(guān)、搜索引擎seo、人物專(zhuān)訪(fǎng)、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);成都創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供昌江黎族建站搭建服務(wù),24小時(shí)服務(wù)熱線(xiàn):18980820575,官方網(wǎng)址:www.cdcxhl.com

[[166984]]

Apache Spark 2.0即將正式與廣大用戶(hù)見(jiàn)面。雖然目前其預(yù)覽版只向Databricks云產(chǎn)品訂閱用戶(hù)開(kāi)放,但考慮到Spark峰會(huì)即將于下個(gè)月召開(kāi),預(yù)計(jì)Apache Spark 2.0的全面降臨也將為時(shí)不遠(yuǎn)。在1.x系列時(shí)代,Apache Spark的發(fā)展速度相當(dāng)快,傾向于通過(guò)小版本更新推出各類(lèi)新功能。而在***大版本升級(jí)當(dāng)中,我們相信Spark 2.0將帶來(lái)真正具有突破性的變化與更加關(guān)鍵的新功能設(shè)計(jì)。

統(tǒng)一DataFrames與Datasets

這里要向大家強(qiáng)調(diào)新版本的一大變革:在Spark 1.6中,DataFrames與Datasets相互獨(dú)立,但在2.0版本中DataFrames將成為Row類(lèi)Dataset。

這一調(diào)整對(duì)于大多數(shù)用戶(hù)可能并不重要,但作為類(lèi)結(jié)構(gòu)的重要變化,大家現(xiàn)在可以在Java及Scala應(yīng)用當(dāng)中將DataFrames作為compile-time類(lèi)加以使用,并在DataFrames與Datasets中同時(shí)使用類(lèi)方法(map,filter)與非類(lèi)方法(select,groupBy)。

經(jīng)過(guò)改進(jìn)的全新SparkSession

在使用Spark時(shí),我們往往會(huì)遇到這樣一個(gè)問(wèn)題:“我們已經(jīng)有了SparkContext,SOLContext與HiveContext,那么什么情況下應(yīng)該使用哪一種?”Spark 2.0引入了新的SparkSession對(duì)象,旨在減少這種困擾并提供一致性入口點(diǎn)。以下為SparkSession示例:

 

val sparkSession = SparkSession.builder

.master("local")

.appName("my-spark-app")

.config("spark.some.config.option", "config-value")

.getOrCreate()

 

如果大家使用REPL,那么設(shè)置Spark的過(guò)程中會(huì)自動(dòng)生成SparkSession。希望讀取DataFrame中的數(shù)據(jù)?方式如下:

spark.read. json ("JSON URL")

另外一大標(biāo)志性調(diào)整,就是不再?gòu)?qiáng)調(diào)使用Spark彈性分布式數(shù)據(jù)集(簡(jiǎn)稱(chēng)RDD)的初始抽象,而是在底層SparkContext利用spark.sparkContext創(chuàng)建RDD。請(qǐng)注意,RDD仍然存在,只是***DataFrame模式的作法更為普遍。

對(duì)于已經(jīng)全面采用SparkSOL并發(fā)現(xiàn)這款查詢(xún)引擎有時(shí)候難以運(yùn)用的朋友,Spark 2.0也帶來(lái)了新的解決辦法。新版本提供另一款SQL解析引擎,其能夠支持子查詢(xún)及大量SQL 2003功能(但并未宣布支持全部功能),這應(yīng)該能讓傳統(tǒng)SQL應(yīng)用更好地被移植到Spark當(dāng)中。

Structured Streaming

Structured Streaming可能是此次發(fā)布的最令人激動(dòng)的新功能??傮w來(lái)講,Apache Spark 2.0帶來(lái)了新的流數(shù)據(jù)處理模式,由以往的RDD批處理機(jī)制轉(zhuǎn)向無(wú)邊界DataFrame概念。

這將使得某些場(chǎng)景下的數(shù)據(jù)流收集與更新更易于實(shí)現(xiàn)——同時(shí)允許時(shí)間列窗口存在于DataFrame本身而非立足于事件發(fā)生之時(shí)。作為令Spark Streaming長(zhǎng)久以來(lái)遜于Apache Flink與Apache Beam的軟肋所在,此次調(diào)整應(yīng)該能讓更多朋友樂(lè)于升級(jí)至2.0版本。

性能提升

Spark 2.0版本在運(yùn)行速度與智能化水平方面下了一番功夫。Tungsten引擎已經(jīng)采用源自編譯器的字節(jié)碼優(yōu)化機(jī)制,旨在減少函數(shù)調(diào)用并保持處理過(guò)程中的CPU占用率。

Parquet支持能力也得到改進(jìn),某些用例下運(yùn)行速度達(dá)到過(guò)去的十倍。另外,初次出現(xiàn)于Spark 1.6中且面向Java或Kryo的Encoder也得到系列化,得以繼續(xù)在集群中降低內(nèi)存使用量并提升數(shù)據(jù)吞吐能力。

ML/GraphX

如果大家關(guān)注Spark在機(jī)器學(xué)習(xí)與圖形方面的改進(jìn),那么恐怕會(huì)有些失望。目前機(jī)器學(xué)習(xí)方面的spark.mllib庫(kù)開(kāi)發(fā)工作已經(jīng)中止,大家需要轉(zhuǎn)而在spar.ml中使用基于DataFrame的API。

Spark 2.0繼續(xù)面向所有支持語(yǔ)言實(shí)現(xiàn)模型與機(jī)器學(xué)習(xí)流程,同時(shí)進(jìn)一步為不熟悉Java或者 Scala的數(shù)據(jù)科學(xué)家提供面向Python及R語(yǔ)言的MLLib API。

在GraphX方面,Spark 2.0對(duì)其似乎不太重視。這里我建議大家關(guān)注GraphFrames。目前其屬于主發(fā)行版之外的獨(dú)立版本,以DataFrames為基礎(chǔ)構(gòu)建圖形處理框架,且能夠支持Java、Scala、Python與R語(yǔ)言。相信其將在Spark 3.0時(shí)代被納入主版本當(dāng)中。

一代新人換舊人

新版本除了引入新特性之外,也移除了部分可能造成問(wèn)題的舊元素:

  • 不再支持Hadoop 2.2及更早版本
  • 移除Bagel圖形庫(kù)(即GraphX的前身)

另外需要注意的是,大家應(yīng)當(dāng)逐步放棄當(dāng)前在SparkSQL中人氣極高的registerTempTable,轉(zhuǎn)而使用createTempView,其輸出特點(diǎn)就是強(qiáng)調(diào)用戶(hù)不再利用API調(diào)用使用數(shù)據(jù)。另外,預(yù)計(jì)新版本中還將有部分日志通知機(jī)制被棄用。

是否需要盡快升級(jí)?

必須承認(rèn),考慮到可觀的性能提升與期待已久的Spark Streaming新功能,在未來(lái)幾周內(nèi)盡快升級(jí)到Apache Spark 2.0通用版本確實(shí)很有吸引力。

不過(guò)我之前遇到過(guò)匆忙升級(jí)而導(dǎo)致的麻煩,因此我個(gè)人打算等段時(shí)間,看看嘗試在測(cè)試集群上運(yùn)行新版本的朋友們是否會(huì)發(fā)現(xiàn)某些bug。

無(wú)論如何,Apache Spark 2.0帶來(lái)了眾多值得期待的元素,因此在確定一切安全后,升級(jí)無(wú)疑勢(shì)在必行!

原文鏈接:Spark 2.0 prepares to catch fire

【.com獨(dú)家譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明來(lái)源】


本文名稱(chēng):星星之火漸呈燎原之勢(shì):Spark2.0預(yù)覽版重磅來(lái)襲
標(biāo)題鏈接:http://www.dlmjj.cn/article/coojpdc.html