2018-02-06 13:38:03 1790瀏覽
談到大數(shù)據(jù)框架,不得不提Hadoop和Spark,今天我們進(jìn)行歷史溯源,幫助大家了解Hadoop和Spark的過去,感應(yīng)未來。在Hadoop出現(xiàn)前人們采用什么計(jì)算模型呢?是典型的高性能HPCworkflow,它有專門負(fù)責(zé)計(jì)算的computecluster,clustermemory很小,所以計(jì)算產(chǎn)生的任何數(shù)據(jù)會(huì)存儲(chǔ)在storage中,最后在Tape里進(jìn)行備份,這種workflow主要適用高速大規(guī)模復(fù)雜計(jì)算,像核物理模擬中會(huì)用到。
在Google發(fā)出三大論文后,Yahoo用相同的框架開發(fā)出JAVA語言的project,這就是Hadoop。HadoopEcosystem在十年多時(shí)間發(fā)展的如火如荼,其核心就是HDFS,Mapreduce和Hbase。
故障檢測與恢復(fù)
大家從圖中可以看到HDFS數(shù)據(jù)讀取和寫入的過程,這個(gè)Architecture非常穩(wěn)定,當(dāng)數(shù)據(jù)量越來越大時(shí)Namenode從一個(gè)發(fā)展為多個(gè),使內(nèi)存增大,產(chǎn)生了NamenodeFederation。
如果有1PBsizelog,當(dāng)需要計(jì)數(shù)時(shí),一個(gè)machine肯定無法計(jì)算海量數(shù)據(jù),這時(shí)候可能需要寫Multi-threadscode,但也會(huì)存在進(jìn)程壞了,性能不穩(wěn)定等問題,如果DataScientist還要寫multi-threats程序是非常浪費(fèi)時(shí)間的,這時(shí)候Mapreduce就應(yīng)運(yùn)而生,目的是讓framework代替人來處理復(fù)雜問題,使人集中精力到重要的數(shù)據(jù)分析過程中,只需要通過codeMap和Reduce就可以實(shí)現(xiàn)數(shù)據(jù)運(yùn)算。
循環(huán)過程一直往硬盤里寫,效率非常低,如果把中間數(shù)據(jù)寫入內(nèi)存,可以極大提高性能,于是Spark出現(xiàn)了
當(dāng)把數(shù)據(jù)從HDFS中讀出來到內(nèi)存中,通過spark分析,Intermediatedata再存到內(nèi)存,繼續(xù)用spark進(jìn)行分析,不斷進(jìn)行循環(huán),這樣Spark會(huì)很大地提高計(jì)算速度。
Spark在2009年由AMPLab開發(fā),吸取了很多Hadoop發(fā)展的經(jīng)驗(yàn)教訓(xùn),比如Hadoop對(duì)其他語言支持不夠,Spark提供了Java,Scala,Python,R這些廣泛受到DataScientist歡迎的語言
Spark有更多的API/language支持(Java,python,scala)
以上就是關(guān)于扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)之大數(shù)據(jù)框架從Hadoop到Spark詳解,最后想要了解更多關(guān)于大數(shù)據(jù)發(fā)展前景趨勢,請(qǐng)關(guān)注扣丁學(xué)堂官網(wǎng)、微信等平臺(tái),扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育平臺(tái)為您提供權(quán)威的大數(shù)據(jù)視頻教程系統(tǒng),通過千鋒旗下金牌講師在線錄制的大數(shù)據(jù)視頻教程系統(tǒng),讓你快速掌握大數(shù)據(jù)從入門到精通大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)技能??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>>