综合色天天鬼久久鬼色,亚洲人成伊人成综合网76

大數(shù)據(jù)培訓(xùn)之大數(shù)據(jù)框架從Hadoop到Spark詳解

2018-02-06 13:38:03 1790瀏覽

　　談到大數(shù)據(jù)框架，不得不提Hadoop和Spark，今天我們進(jìn)行歷史溯源，幫助大家了解Hadoop和Spark的過去，感應(yīng)未來。

在Hadoop出現(xiàn)前人們采用什么計(jì)算模型呢?是典型的高性能HPCworkflow，它有專門負(fù)責(zé)計(jì)算的computecluster，clustermemory很小，所以計(jì)算產(chǎn)生的任何數(shù)據(jù)會(huì)存儲(chǔ)在storage中，最后在Tape里進(jìn)行備份，這種workflow主要適用高速大規(guī)模復(fù)雜計(jì)算，像核物理模擬中會(huì)用到。

HPCworkflow在實(shí)際應(yīng)用中存在一些問題，這些問題促進(jìn)了Hadoop的出現(xiàn)。

首先如果想對(duì)大量進(jìn)行簡單計(jì)算，比如對(duì)Searchlogs進(jìn)行“whatarethepopularkeywords”計(jì)算，這時(shí)是否可以用HPCworkflow?當(dāng)然可以，但卻并不適合，因?yàn)樾枰龅挠?jì)算非常簡單，并不需要在highperformancecomputecluster中進(jìn)行。

其次由于數(shù)據(jù)量大，HPCworkflow是I/Obound，計(jì)算時(shí)間只有1個(gè)微秒，但剩下的100個(gè)微秒可能都需要等數(shù)據(jù)，這時(shí)候computecluster就會(huì)非?？臻e，因此HPC同樣不不適用于specificuse。

另外HPC主要在政府部門、科研等領(lǐng)域使用，成本高昂，不適合廣泛推廣。

如果不能把數(shù)據(jù)移到計(jì)算的地方，那為什么不轉(zhuǎn)換思維，把計(jì)算移到數(shù)據(jù)里呢?

所以Google在2003至2006年發(fā)表了著名的三大論文——GFS、BigTable、MapReduce，解決怎么樣讓framework挪到有數(shù)據(jù)的地方去做，解決了數(shù)據(jù)怎么存儲(chǔ)，計(jì)算及訪問的問題。

在Google發(fā)出三大論文后，Yahoo用相同的框架開發(fā)出JAVA語言的project，這就是Hadoop。HadoopEcosystem在十年多時(shí)間發(fā)展的如火如荼，其核心就是HDFS，Mapreduce和Hbase。

HDFS很好地實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)的以下特性要求：

便宜

高可用性

高吞吐量

高擴(kuò)展性

故障檢測與恢復(fù)

大家從圖中可以看到HDFS數(shù)據(jù)讀取和寫入的過程，這個(gè)Architecture非常穩(wěn)定，當(dāng)數(shù)據(jù)量越來越大時(shí)Namenode從一個(gè)發(fā)展為多個(gè)，使內(nèi)存增大，產(chǎn)生了NamenodeFederation。

數(shù)據(jù)存儲(chǔ)已經(jīng)實(shí)現(xiàn)，那如何進(jìn)行計(jì)算呢?

如果有1PBsizelog，當(dāng)需要計(jì)數(shù)時(shí)，一個(gè)machine肯定無法計(jì)算海量數(shù)據(jù)，這時(shí)候可能需要寫Multi-threadscode，但也會(huì)存在進(jìn)程壞了，性能不穩(wěn)定等問題，如果DataScientist還要寫multi-threats程序是非常浪費(fèi)時(shí)間的，這時(shí)候Mapreduce就應(yīng)運(yùn)而生，目的是讓framework代替人來處理復(fù)雜問題，使人集中精力到重要的數(shù)據(jù)分析過程中，只需要通過codeMap和Reduce就可以實(shí)現(xiàn)數(shù)據(jù)運(yùn)算。

讓我們來思考下：在一次Mapreduce中至少需寫硬盤幾次?

至少3次!

開始從HDFS中讀取數(shù)據(jù)，在Mapreduce中計(jì)算，再寫回HDFS作為Intermediatedata，繼續(xù)把數(shù)據(jù)讀出來做reduce，最后再寫回HDFS，很多時(shí)候做meachinelearning需要不斷迭代，一次程序無法算出最終結(jié)果，需要不斷循環(huán)。

循環(huán)過程一直往硬盤里寫，效率非常低，如果把中間數(shù)據(jù)寫入內(nèi)存，可以極大提高性能，于是Spark出現(xiàn)了

當(dāng)把數(shù)據(jù)從HDFS中讀出來到內(nèi)存中，通過spark分析，Intermediatedata再存到內(nèi)存，繼續(xù)用spark進(jìn)行分析，不斷進(jìn)行循環(huán)，這樣Spark會(huì)很大地提高計(jì)算速度。

Spark在2009年由AMPLab開發(fā)，吸取了很多Hadoop發(fā)展的經(jīng)驗(yàn)教訓(xùn)，比如Hadoop對(duì)其他語言支持不夠，Spark提供了Java，Scala，Python，R這些廣泛受到DataScientist歡迎的語言

那Spark與Hadoop的區(qū)別有什么?

Spark比Hadoop使用更簡單

Spark對(duì)數(shù)據(jù)科學(xué)家更友好(Interactiveshell)

Spark有更多的API/language支持(Java,python,scala)

以上就是關(guān)于扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)之大數(shù)據(jù)框架從Hadoop到Spark詳解，最后想要了解更多關(guān)于大數(shù)據(jù)發(fā)展前景趨勢，請(qǐng)關(guān)注扣丁學(xué)堂官網(wǎng)、微信等平臺(tái)，扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育平臺(tái)為您提供權(quán)威的大數(shù)據(jù)視頻教程系統(tǒng)，通過千鋒旗下金牌講師在線錄制的大數(shù)據(jù)視頻教程系統(tǒng)，讓你快速掌握大數(shù)據(jù)從入門到精通大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)技能?？鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群：209080834。

扣丁學(xué)堂微信公眾號(hào)

【關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料】

標(biāo)簽: 大數(shù)據(jù)分析大數(shù)據(jù)培訓(xùn) 大數(shù)據(jù)視頻教程 Hadoop視頻教程大數(shù)據(jù)開發(fā)工程師

上一篇大數(shù)據(jù)培訓(xùn)之HBase命令行基本操作匯總分享下一篇扣丁學(xué)堂教你如何選擇大數(shù)據(jù)培訓(xùn)學(xué)校

欧美成人午夜免费全部完,亚洲午夜福利精品久久,а√最新版在线天堂,另类亚洲综合区图片小说区,亚洲欧美日韩精品色xxx

大數(shù)據(jù)培訓(xùn)之大數(shù)據(jù)框架從Hadoop到Spark詳解

熱門專區(qū)

課程推薦