- 軟件大小:30.09M
- 軟件語言:中文
- 軟件類型:國產(chǎn)軟件
- 軟件類別:免費軟件 / 電子圖書
- 更新時間:2018-01-22 14:47
- 運行環(huán)境:WinAll, WinXP, Win7, Win8, Win10
- 軟件等級:
- 軟件廠商:
- 官方網(wǎng)站:暫無
24.68M/中文/0.0
29.00M/中文/2.8
3.16M/中文/3.3
50.84M/中文/10.0
199.70M/中文/10.0
spark編程指南 pdf是一部非常實用的spark教程,這部電子書詳細(xì)講解了spark編程方法以及技巧,能夠讓你快速入門,需要的朋友歡迎來綠色資源網(wǎng)免費下載!
總體上來說,每個Spark應(yīng)用都包含一個驅(qū)動器(driver)程序,驅(qū)動器運行用戶的main函數(shù),并在集群上執(zhí)行各種并行操作。
Spark最重要的一個抽象概念就是彈性分布式數(shù)據(jù)集(resilient distributed dataset – RDD),RDD是一個可分區(qū)的元素集合,其包含的元素可以分布在集群各個節(jié)點上,并且可以執(zhí)行一些分布式并行操作。RDD通常是通過,HDFS(或者其他Hadoop支持的文件系統(tǒng))上的文件,或者驅(qū)動器中的Scala集合對象,來創(chuàng)建或轉(zhuǎn)換得到;其次,用戶也可以請求Spark將RDD持久化到內(nèi)存里,以便在不同的并行操作里復(fù)用之;最后,RDD具備容錯性,可以從節(jié)點失敗中自動恢復(fù)數(shù)據(jù)。
Spark第二個重要抽象概念是共享變量,共享變量是一種可以在并行操作之間共享使用的變量。默認(rèn)情況下,當(dāng)Spark把一系列任務(wù)調(diào)度到不同節(jié)點上運行時,Spark會同時把每個變量的副本和任務(wù)代碼一起發(fā)送給各個節(jié)點。但有時候,我們需要在任務(wù)之間,或者任務(wù)和驅(qū)動器之間共享一些變量。Spark提供了兩種類型的共享變量:廣播變量和累加器,廣播變量可以用來在各個節(jié)點上緩存數(shù)據(jù),而累加器則是用來執(zhí)行跨節(jié)點的“累加”操作,例如:計數(shù)和求和。
1. Introduction
2. 快速上手
i. SparkShell
ii. 獨立應(yīng)用程序
iii. 開始翻滾吧!
3. 編程指南
i. 引入Spark
ii. 初始化Spark
iii. SparkRDDs
i. 并行集合
ii. 外部數(shù)據(jù)集
iii. RDD操作
i. 傳遞函數(shù)到Spark
ii. 使用鍵值對
iii. Transformations
iv. Actions
iv. RDD持久化
iv. 共享變量
v. 從這里開始
4. SparkStre
i. 一個快速的例子
ii. 基本概念
i. 關(guān)聯(lián)
ii. 初始化StreamingContext
iii. 離散流
iv. 輸入DStreams
v. DStream中的轉(zhuǎn)換
vi. DStream的輸出操作
vii. 緩存或持久化
viii. Checkpointing
ix. 部署應(yīng)用程序
x. 監(jiān)控應(yīng)用程序
iii. 性能調(diào)優(yōu)
i. 減少批數(shù)據(jù)的執(zhí)行時間
ii. 設(shè)置正確的批容量
iii. 內(nèi)存調(diào)優(yōu)
iv. 容錯語義
5. SparkSQL
i. 開始
ii. 數(shù)據(jù)源
i. RDDs
ii. parquet文件
iii. JSON數(shù)據(jù)集
iv. Hive表
iii. 性能調(diào)優(yōu)
iv. 其它SQL接口
v. 編寫語言集成(Language-Integrated)的相關(guān)查詢
vi. SparkSQL數(shù)據(jù)類型
6. GraphX編程指南
i. 開始
ii. 屬性圖
iii. 圖操作符
TableofContentsiv. PregelAPI
v. 圖構(gòu)造者
vi. 頂點和邊RDDs
vii. 圖算法
viii. 例子
7. 部署
i. 提交應(yīng)用程序
ii. 獨立運行Spark
iii. 在yarn上運行Spark
8. 更多文檔
i. Spark配置
請描述您所遇到的錯誤,我們將盡快予以修正,謝謝!
*必填項,請輸入內(nèi)容