日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
部署高可用Spark集群:Spark+Zookeeper

spark是一個用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一計算引擎。適用于各種各樣原先需要多種不同的分布式平臺處理的場景,包括批處理、迭代計算、交互式查詢、流處理。通過統(tǒng)一的框架將各種處理流程整合到一起。

創(chuàng)新互聯(lián)主營阿瓦提網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,成都App定制開發(fā),阿瓦提h5成都微信小程序搭建,阿瓦提網(wǎng)站營銷推廣歡迎阿瓦提等地區(qū)企業(yè)咨詢

Spark三種分布式部署方式比較

目前Apache Spark支持三種分布式部署方式,分別是standalone、spark on mesos和 spark on YARN,詳情參考。

Spark standalone模式分布式部署

環(huán)境介紹

主機名 應(yīng)用 tvm11 zookeeper tvm12 zookeeper tvm13 zookeeper、spark(master)、spark(slave)、Scala tvm14 spark(backup)、spark(slave)、Scala

tvm15 spark(slave)、Scala

說明

依賴scala:

Note that support for Java 7, Python 2.6 and old Hadoop versions before 2.6.5 were removed as of Spark 2.2.0. Support for Scala 2.10 was removed as of 2.3.0. Support for Scala 2.11 is deprecated as of Spark 2.4.1 and will be removed in Spark 3.0.

zookeeper: Master結(jié)點存在單點故障,所以要借助zookeeper,至少啟動兩臺Master結(jié)點來實現(xiàn)高可用,配置方案比較簡單。

安裝scala

由上面的說明可知,spark對scala版本依賴較為嚴(yán)格,spark-2.4.5依賴scala-2.12.x,所以首先要安裝scala-2.12.x,在此選用scala-2.12.10。使用二進制安裝:

$ wget https://downloads.lightbend.com/scala/2.12.10/scala-2.12.10.tgz
$ tar zxvf scala-2.12.10.tgz -C /path/to/scala_install_dir

如果系統(tǒng)環(huán)境也要使用相同版本的scala,可以將其加入到用戶環(huán)境變量(.bashrc或.bash_profile)。

安裝spark

打通三臺spark機器的work用戶ssh通道;

現(xiàn)在安裝包到master機器:tvm13;

注意提示信息,及Hadoop版本(與已有環(huán)境匹配,如果不匹配則選非預(yù)編譯的版本自己編譯)。

解壓到安裝目錄即可。

配置spark

spark服務(wù)配置文件主要有兩個:spark-env.sh和slaves。

spark-evn.sh:配置spark運行相關(guān)環(huán)境變量

slaves:指定worker服務(wù)器

配置spark-env.sh:cp spark-env.sh.template spark-env.sh

export JAVA_HOME=/data/template/j/java/jdk1.8.0_201
export SCALA_HOME=/data/template/s/scala/scala-2.12.10
export SPARK_WORKER_MEMORY=2048m
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=2
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=tvm11:2181,tvm12:2181,tvm13:2181 -Dspark.deploy.zookeeper.dir=/data/template/s/spark"

# 關(guān)于 SPARK_DAEMON_JAVA_OPTS 參數(shù)含義:

# -Dspark.deploy.recoverMode=ZOOKEEPER #代表發(fā)生故障使用zookeeper服務(wù)
# -Dspark.depoly.zookeeper.url=master.hadoop,slave1.hadoop,slave1.hadoop #主機名的名字
# -Dspark.deploy.zookeeper.dir=/spark #spark要在zookeeper上寫數(shù)據(jù)時的保存目錄

# 其他參數(shù)含義:https://blog.csdn.net/u010199356/article/details/89056304

配置slaves:cp slaves.template slaves

# A Spark Worker will be started on each of the machines listed below.
tvm13
tvm14
tvm15

配置 spark-default.sh ,主要用于spark執(zhí)行任務(wù)(可以命令行動態(tài)指定):

# http://spark.apache.org/docs/latest/configuration.html#configuring-logging
# spark-defaults.sh
spark.app.name                                YunTuSpark
spark.driver.cores                            2
spark.driver.memory                           2g
spark.master                                  spark://tvm13:7077,tvm14:7077
spark.eventLog.enabled                        true
spark.eventLog.dir                            hdfs://cluster01/tmp/event/logs
spark.serializer                              org.apache.spark.serializer.KryoSerializer
spark.serializer.objectStreamReset            100
spark.executor.logs.rolling.time.interval     daily
spark.executor.logs.rolling.maxRetainedFiles  30
spark.ui.enabled                              true
spark.ui.killEnabled                          true
spark.ui.liveUpdate.period                    100ms
spark.ui.liveUpdate.minFlushPeriod            3s
spark.ui.port                                 4040
spark.history.ui.port                         18080
spark.ui.retainedJobs                         100
spark.ui.retainedStages                       100
spark.ui.retainedTasks                        1000
spark.ui.showConsoleProgress                  true
spark.worker.ui.retainedExecutors             100
spark.worker.ui.retainedDrivers               100
spark.sql.ui.retainedExecutions               100
spark.streaming.ui.retainedBatches            100
spark.ui.retainedDeadExecutors                100
# spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

hdfs資源準(zhǔn)備

因為 spark.eventLog.dir 指定為hdfs存儲,所以需要在hdfs預(yù)先創(chuàng)建相應(yīng)的目錄文件:

hdfs dfs -mkdir -p hdfs://cluster01/tmp/event/logs

配置系統(tǒng)環(huán)境變量

編輯 ~/.bashrc :

export SPARK_HOME=/data/template/s/spark/spark-2.4.5-bin-hadoop2.7
export PATH=$SPARK_HOME/bin/:$PATH

分發(fā)

以上配置完成后,將 /path/to/spark-2.4.5-bin-hadoop2.7 分發(fā)至各個slave節(jié)點,并配置各個節(jié)點的環(huán)境變量。

啟動

先在master節(jié)點啟動所有服務(wù):./sbin/start-all.sh

然后在backup節(jié)點單獨啟動master服務(wù):./sbin/start-master.sh

查看狀態(tài)

啟動完成后到web去查看:

master(8081端口):Status: ALIVE

backup(8080端口):Status: STANDBY

完成!


網(wǎng)頁標(biāo)題:部署高可用Spark集群:Spark+Zookeeper
網(wǎng)站地址:http://www.dlmjj.cn/article/djchedh.html