久久麻豆成人精品av,中文字幕+国产精品,四虎影视永久在线观看精品

扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)之相比Hadoop，如何看待Spark技術(shù)

2019-05-09 11:12:58 3892瀏覽

本篇文章扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編給讀者們分享一下相比Hadoop，如何看待Spark技術(shù)呢?對大數(shù)據(jù)開發(fā)感興趣的小伙伴就隨小編來了解一下吧，希望對小伙伴們有所幫助。

扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)之相比Hadoop，如何看待Spark技術(shù)

什么是Spark?Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架，Spark基于map reduce算法實現(xiàn)的分布式計算，擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的map reduce的算法。

Spark與Hadoop的對比

Spark的中間數(shù)據(jù)放到內(nèi)存中，對于迭代運算效率更高。

Spark更適合于迭代運算比較多的ML和DM運算。因為在Spark里面，有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的數(shù)據(jù)集操作類型有很多種，不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型，Spark把這些操作稱為Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions操作。

這些多種多樣的數(shù)據(jù)集操作類型，給給開發(fā)上層應(yīng)用的用戶提供了方便。各個處理節(jié)點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名，物化，控制中間結(jié)果的存儲、分區(qū)等?？梢哉f編程模型比Hadoop更靈活。

不過由于RDD的特性，Spark不適用那種異步細粒度更新狀態(tài)的應(yīng)用，例如web服務(wù)的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應(yīng)用模型不適合。

容錯性

在分布式數(shù)據(jù)集計算時通過checkpoint來實現(xiàn)容錯，而checkpoint有兩種方式，一個是checkpoint data，一個是logging the updates。用戶可以控制采用哪種方式來實現(xiàn)容錯。

可用性

Spark通過提供豐富的Scala, Java，Python API及交互式Shell來提高可用性。

Spark與Hadoop的結(jié)合

Spark可以直接對HDFS進行數(shù)據(jù)的讀寫，同樣支持Spark on YARN。Spark可以與MapReduce運行于同集群中，共享存儲資源與計算，數(shù)據(jù)倉庫Shark實現(xiàn)上借用Hive，幾乎與Hive完全兼容。

Spark的適用場景

Spark是基于內(nèi)存的迭代計算框架，適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合。需要反復(fù)操作的次數(shù)越多，所需讀取的數(shù)據(jù)量越大，受益越大，數(shù)據(jù)量小但是計算密集度較大的場合，受益就相對較小(大數(shù)據(jù)庫架構(gòu)中這是是否考慮使用Spark的重要因素)

由于RDD的特性，Spark不適用那種異步細粒度更新狀態(tài)的應(yīng)用，例如web服務(wù)的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應(yīng)用模型不適合。

總的來說Spark的適用面比較廣泛且比較通用。

運行模式：

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生態(tài)系統(tǒng)

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基礎(chǔ)上提供和Hive一樣的H iveQL命令接口，為了最大程度的保持和Hive的兼容性，Shark使用了Hive的API來實現(xiàn)query Parsing和 Logic Plan generation，最后的PhysicalPlan execution階段用Spark代替Hadoop MapReduce。通過配置Shark參數(shù)，Shark可以自動在內(nèi)存中緩存特定的RDD，實現(xiàn)數(shù)據(jù)重用，進而加快特定數(shù)據(jù)集的檢索。同時，Shark通過UDF用戶自定義函數(shù)實現(xiàn)特定的數(shù)據(jù)分析學(xué)習(xí)算法，使得SQL數(shù)據(jù)查詢和運算分析能結(jié)合在一起，最大化RDD的重復(fù)使用。

Spark streaming: 構(gòu)建在Spark上處理Stream數(shù)據(jù)的框架，基本的原理是將Stream數(shù)據(jù)分成小的時間片斷(幾秒)，以類似batch批量處理的方式來處理這小部分數(shù)據(jù)。Spark Streaming構(gòu)建在Spark上，一方面是因為Spark的低延遲執(zhí)行引擎(100ms+)可以用于實時計算，另一方面相比基于Record的其它處理框架(如Storm)，RDD數(shù)據(jù)集更容易做高效的容錯處理。此外小批量處理的方式使得它可以同時兼容批量和實時數(shù)據(jù)處理的邏輯和算法。方便了一些需要歷史數(shù)據(jù)和實時數(shù)據(jù)聯(lián)合分析的特定應(yīng)用場合。

Bagel: Pregel on Spark，可以用Spark進行圖計算，這是個非常有用的小項目。Bagel自帶了一個例子，實現(xiàn)了Google的PageRank算法。

最后想要了解更多關(guān)于大數(shù)據(jù)方面內(nèi)容的小伙伴，請關(guān)注扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)官網(wǎng)、微信等平臺，扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育平臺為您提供權(quán)威的大數(shù)據(jù)開發(fā)視頻，大數(shù)據(jù)培訓(xùn)后的前景無限，行業(yè)薪資和未來的發(fā)展會越來越好的，扣丁學(xué)堂老師精心推出的大數(shù)據(jù)視頻教程定能讓你快速掌握大數(shù)據(jù)從入門到精通開發(fā)實戰(zhàn)技能?？鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群：209080834。

扣丁學(xué)堂微信公眾號 Python全棧開發(fā)爬蟲人工智能機器學(xué)習(xí)數(shù)據(jù)分析免費公開課直播間

【關(guān)注微信公眾號獲取更多學(xué)習(xí)資料】【掃碼進入Python全棧開發(fā)免費公開課】

標簽: 大數(shù)據(jù)培訓(xùn) 大數(shù)據(jù)視頻教程大數(shù)據(jù)分析培訓(xùn) 大數(shù)據(jù)學(xué)習(xí)視頻 Hadoop生態(tài)圈

上一篇千鋒扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)從入門到精通學(xué)習(xí)路線圖下一篇扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)簡述內(nèi)存分析技術(shù)哪家強 Spark有幾成勝算

欧美成人午夜免费全部完,亚洲午夜福利精品久久,а√最新版在线天堂,另类亚洲综合区图片小说区,亚洲欧美日韩精品色xxx

扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)之相比Hadoop，如何看待Spark技術(shù)

熱門專區(qū)

課程推薦