新聞中心
這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
Pyspark獲取并處理RDD數(shù)據(jù)代碼實例-創(chuàng)新互聯(lián)
彈性分布式數(shù)據(jù)集(RDD)是一組不可變的JVM對象的分布集,可以用于執(zhí)行高速運算,它是Apache Spark的核心。

在pyspark中獲取和處理RDD數(shù)據(jù)集的方法如下:
1. 首先是導(dǎo)入庫和環(huán)境配置(本測試在linux的pycharm上完成)
import os
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
conf = SparkConf().setAppName('test_rdd')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
網(wǎng)站標(biāo)題:Pyspark獲取并處理RDD數(shù)據(jù)代碼實例-創(chuàng)新互聯(lián)
URL網(wǎng)址:http://www.dlmjj.cn/article/cceeid.html


咨詢
建站咨詢
