精品蜜桃秘一区二区三区在线,五月天亚洲精品欧美一区二区,玖草免费在线资原

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

利用Scala語言開發(fā)Spark應(yīng)用程序

Spark內(nèi)核是由Scala語言開發(fā)的，因此使用Scala語言開發(fā)Spark應(yīng)用程序是自然而然的事情。如果你對Scala語言還不太熟悉，可以閱讀網(wǎng)絡(luò)教程A Scala Tutorial for Java Programmers或者相關(guān)Scala書籍進行學(xué)習(xí)。

本文將介紹3個Scala Spark編程實例，分別是WordCount、TopK和SparkJoin，分別代表了Spark的三種典型應(yīng)用。

1. WordCount編程實例

WordCount是一個最簡單的分布式應(yīng)用實例，主要功能是統(tǒng)計輸入目錄中所有單詞出現(xiàn)的總次數(shù)，編寫步驟如下：

步驟1：創(chuàng)建一個SparkContext對象，該對象有四個參數(shù)：Spark master位置、應(yīng)用程序名稱，Spark安裝目錄和jar存放位置，對于Spark On YARN而言，最重要的是前兩個參數(shù)，***個參數(shù)指定為“yarn-standalone”，第二個參數(shù)是自定義的字符串，舉例如下：

 
 
 
  
  
  val sc = new SparkContext(args(0), "WordCount",
  
  
      System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))

步驟2：讀取輸入數(shù)據(jù)。我們要從HDFS上讀取文本數(shù)據(jù)，可以使用SparkCon

 
 
 
  
  
  val textFile = sc.textFile(args(1))

當(dāng)然，Spark允許你采用任何Hadoop InputFormat，比如二進制輸入格式SequenceFileInputFormat，此時你可以使用SparkContext中的hadoopRDD函數(shù)，舉例如下：

 
 
 
  
  
  val inputFormatClass = classOf[SequenceFileInputFormat[Text,Text]]
  
  
  var hadoopRdd = sc.hadoopRDD(conf, inputFormatClass, classOf[Text], classOf[Text])

或者直接創(chuàng)建一個HadoopRDD對象：

 
 
 
  
  
  var hadoopRdd = new HadoopRDD(sc, conf,
  
  
       classOf[SequenceFileInputFormat[Text,Text, classOf[Text], classOf[Text])

步驟3：通過RDD轉(zhuǎn)換算子操作和轉(zhuǎn)換RDD，對于WordCount而言，首先需要從輸入數(shù)據(jù)中每行字符串中解析出單詞，然后將相同單詞放到一個桶中，***統(tǒng)計每個桶中每個單詞出現(xiàn)的頻率，舉例如下：

 
 
 
  
  
  val result = hadoopRdd.flatMap{
  
  
          case(key, value)  => value.toString().split("\\s+");
  
  
  }.map(word => (word, 1)). reduceByKey (_ + _)

其中，flatMap函數(shù)可以將一條記錄轉(zhuǎn)換成多條記錄（一對多關(guān)系），map函數(shù)將一條記錄轉(zhuǎn)換為另一條記錄（一對一關(guān)系），reduceByKey函數(shù)將key相同的數(shù)據(jù)劃分到一個桶中，并以key為單位分組進行計算，這些函數(shù)的具體含義可參考：Spark Transformation。

步驟4：將產(chǎn)生的RDD數(shù)據(jù)集保存到HDFS上。可以使用SparkContext中的saveAsTextFile哈數(shù)將數(shù)據(jù)集保存到HDFS目錄下，默認采用Hadoop提供的TextOutputFormat，每條記錄以“（key,value）”的形式打印輸出，你也可以采用 saveAsSequenceFile函數(shù)將數(shù)據(jù)保存為SequenceFile格式等，舉例如下：

 
 
 
  
  
  result.saveAsSequenceFile(args(2))

當(dāng)然，一般我們寫Spark程序時，需要包含以下兩個頭文件：

 
 
 
  
  
  import org.apache.spark._
  
  
  import SparkContext._

WordCount完整程序已在“Apache Spark學(xué)習(xí)：利用Eclipse構(gòu)建Spark集成開發(fā)環(huán)境”一文中進行了介紹，在次不贅述。

需要注意的是，指定輸入輸出文件時，需要指定hdfs的URI，比如輸入目錄是hdfs://hadoop-test/tmp/input，輸出目錄是hdfs://hadoop-test/tmp/output，其中，“hdfs://hadoop-test”是由Hadoop配置文件core- site.xml中參數(shù)fs.default.name指定的，具體替換成你的配置即可。

2. TopK編程實例

TopK程序的任務(wù)是對一堆文本進行詞頻統(tǒng)計，并返回出現(xiàn)頻率***的K個詞。如果采用MapReduce實現(xiàn)，則需要編寫兩個作業(yè)：WordCount和TopK，而使用Spark則只需一個作業(yè)，其中WordCount部分已由前面實現(xiàn)了，接下來順著前面的實現(xiàn)，找到Top K個詞。注意，本文的實現(xiàn)并不是***的，有很大改進空間。

步驟1：首先需要對所有詞按照詞頻排序，如下：

 
 
 
  
  
  val sorted = result.map {
  
  
    case(key, value) => (value, key); //exchange key and value
  
  
  }.sortByKey(true, 1)

步驟2：返回前K個：

 
 
 
  
  
  val topK = sorted.top(args(3).toInt)

步驟3：將K各詞打印出來：

 
 
 
  
  
  topK.foreach(println)

注意，對于應(yīng)用程序標準輸出的內(nèi)容，YARN將保存到Container的stdout日志中。在YARN中，每個Container存在三個日志文件，分別是stdout、stderr和syslog，前兩個保存的是標準輸出產(chǎn)生的內(nèi)容，第三個保存的是log4j打印的日志，通常只有第三個日志中有內(nèi)容。

本程序完整代碼、編譯好的jar包和運行腳本可以從這里下載。下載之后，按照“Apache Spark學(xué)習(xí)：利用Eclipse構(gòu)建Spark集成開發(fā)環(huán)境”一文操作流程運行即可。

3. SparkJoin編程實例

在推薦領(lǐng)域有一個著名的開放測試集是movielens給的，下載鏈接是：http://grouplens.org/datasets/movielens/，該測試集包含三個文件，分別是ratings.dat、sers.dat、movies.dat，具體介紹可閱讀：README.txt，本節(jié)給出的SparkJoin實例則通過連接ratings.dat和movies.dat兩個文件得到平均得分超過4.0的電影列表，采用的數(shù)據(jù)集是：ml-1m。程序代碼如下：

 
 
 
  
  
  import org.apache.spark._
  
  
  import SparkContext._
  
  
  object SparkJoin {
  
  
    def main(args: Array[String]) {
  
  
      if (args.length != 4 ){
  
  
        println("usage is org.test.WordCount    ")
  
  
        return
  
  
      }
  
  
      val sc = new SparkContext(args(0), "WordCount",
  
  
      System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))
  
  
   
  
  
      // Read rating from HDFS file
  
  
      val textFile = sc.textFile(args(1))
  
  
   
  
  
      //extract (movieid, rating)
  
  
      val rating = textFile.map(line => {
  
  
          val fileds = line.split("::")
  
  
          (fileds(1).toInt, fileds(2).toDouble)
  
  
         })
  
  
   
  
  
      val movieScores = rating
  
  
         .groupByKey()
  
  
         .map(data => {
  
  
           val avg = data._2.sum / data._2.size
  
  
           (data._1, avg)
  
  
         })
  
  
   
  
  
       // Read movie from HDFS file
  
  
       val movies = sc.textFile(args(2))
  
  
       val movieskey = movies.map(line => {
  
  
         val fileds = line.split("::")
  
  
          (fileds(0).toInt, fileds(1))
  
  
       }).keyBy(tup => tup._1)
  
  
   
  
  
       // by join, we get 
  
  
       val result = movieScores
  
  
         .keyBy(tup => tup._1)
  
  
         .join(movieskey)
  
  
         .filter(f => f._2._1._2 > 4.0)
  
  
         .map(f => (f._1, f._2._1._2, f._2._2._2))
  
  
   
  
  
      result.saveAsTextFile(args(3))
  
  
    }
  
  
  }

你可以從這里下載代碼、編譯好的jar包和運行腳本。

這個程序直接使用Spark編寫有些麻煩，可以直接在Shark上編寫HQL實現(xiàn)，Shark是基于Spark的類似Hive的交互式查詢引擎，具體可參考：Shark。

4. 總結(jié)

Spark 程序設(shè)計對Scala語言的要求不高，正如Hadoop程序設(shè)計對Java語言要求不高一樣，只要掌握了最基本的語法就能編寫程序，且常見的語法和表達方式是很少的。通常，剛開始仿照官方實例編寫程序，包括Scala、Java和Python三種語言實例。

網(wǎng)站標題：利用Scala語言開發(fā)Spark應(yīng)用程序
瀏覽路徑：http://www.dlmjj.cn/article/cccejhj.html

日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

新聞中心

其他資訊