欧美成人午夜免费全部完,亚洲午夜福利精品久久,а√最新版在线天堂,另类亚洲综合区图片小说区,亚洲欧美日韩精品色xxx

大數(shù)據(jù)培訓(xùn)之大數(shù)據(jù)框架從Hadoop到Spark詳解

2018-02-06 13:38:03 1790瀏覽

  談到大數(shù)據(jù)框架,不得不提Hadoop和Spark,今天我們進(jìn)行歷史溯源,幫助大家了解Hadoop和Spark的過去,感應(yīng)未來。

在Hadoop出現(xiàn)前人們采用什么計(jì)算模型呢?是典型的高性能HPCworkflow,它有專門負(fù)責(zé)計(jì)算的computecluster,clustermemory很小,所以計(jì)算產(chǎn)生的任何數(shù)據(jù)會(huì)存儲(chǔ)在storage中,最后在Tape里進(jìn)行備份,這種workflow主要適用高速大規(guī)模復(fù)雜計(jì)算,像核物理模擬中會(huì)用到。



HPCworkflow在實(shí)際應(yīng)用中存在一些問題,這些問題促進(jìn)了Hadoop的出現(xiàn)。

首先如果想對(duì)大量進(jìn)行簡單計(jì)算,比如對(duì)Searchlogs進(jìn)行“whatarethepopularkeywords”計(jì)算,這時(shí)是否可以用HPCworkflow?當(dāng)然可以,但卻并不適合,因?yàn)樾枰龅挠?jì)算非常簡單,并不需要在highperformancecomputecluster中進(jìn)行。

其次由于數(shù)據(jù)量大,HPCworkflow是I/Obound,計(jì)算時(shí)間只有1個(gè)微秒,但剩下的100個(gè)微秒可能都需要等數(shù)據(jù),這時(shí)候computecluster就會(huì)非??臻e,因此HPC同樣不不適用于specificuse。

另外HPC主要在政府部門、科研等領(lǐng)域使用,成本高昂,不適合廣泛推廣。

如果不能把數(shù)據(jù)移到計(jì)算的地方,那為什么不轉(zhuǎn)換思維,把計(jì)算移到數(shù)據(jù)里呢?

所以Google在2003至2006年發(fā)表了著名的三大論文——GFS、BigTable、MapReduce,解決怎么樣讓framework挪到有數(shù)據(jù)的地方去做,解決了數(shù)據(jù)怎么存儲(chǔ),計(jì)算及訪問的問題。

在Google發(fā)出三大論文后,Yahoo用相同的框架開發(fā)出JAVA語言的project,這就是Hadoop。HadoopEcosystem在十年多時(shí)間發(fā)展的如火如荼,其核心就是HDFS,Mapreduce和Hbase。



HDFS很好地實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)的以下特性要求:

便宜

高可用性

高吞吐量

高擴(kuò)展性

故障檢測與恢復(fù)



大家從圖中可以看到HDFS數(shù)據(jù)讀取和寫入的過程,這個(gè)Architecture非常穩(wěn)定,當(dāng)數(shù)據(jù)量越來越大時(shí)Namenode從一個(gè)發(fā)展為多個(gè),使內(nèi)存增大,產(chǎn)生了NamenodeFederation。



數(shù)據(jù)存儲(chǔ)已經(jīng)實(shí)現(xiàn),那如何進(jìn)行計(jì)算呢?

如果有1PBsizelog,當(dāng)需要計(jì)數(shù)時(shí),一個(gè)machine肯定無法計(jì)算海量數(shù)據(jù),這時(shí)候可能需要寫Multi-threadscode,但也會(huì)存在進(jìn)程壞了,性能不穩(wěn)定等問題,如果DataScientist還要寫multi-threats程序是非常浪費(fèi)時(shí)間的,這時(shí)候Mapreduce就應(yīng)運(yùn)而生,目的是讓framework代替人來處理復(fù)雜問題,使人集中精力到重要的數(shù)據(jù)分析過程中,只需要通過codeMap和Reduce就可以實(shí)現(xiàn)數(shù)據(jù)運(yùn)算。



讓我們來思考下:在一次Mapreduce中至少需寫硬盤幾次?

至少3次!

開始從HDFS中讀取數(shù)據(jù),在Mapreduce中計(jì)算,再寫回HDFS作為Intermediatedata,繼續(xù)把數(shù)據(jù)讀出來做reduce,最后再寫回HDFS,很多時(shí)候做meachinelearning需要不斷迭代,一次程序無法算出最終結(jié)果,需要不斷循環(huán)。

循環(huán)過程一直往硬盤里寫,效率非常低,如果把中間數(shù)據(jù)寫入內(nèi)存,可以極大提高性能,于是Spark出現(xiàn)了



當(dāng)把數(shù)據(jù)從HDFS中讀出來到內(nèi)存中,通過spark分析,Intermediatedata再存到內(nèi)存,繼續(xù)用spark進(jìn)行分析,不斷進(jìn)行循環(huán),這樣Spark會(huì)很大地提高計(jì)算速度。



Spark在2009年由AMPLab開發(fā),吸取了很多Hadoop發(fā)展的經(jīng)驗(yàn)教訓(xùn),比如Hadoop對(duì)其他語言支持不夠,Spark提供了Java,Scala,Python,R這些廣泛受到DataScientist歡迎的語言


那Spark與Hadoop的區(qū)別有什么?

Spark比Hadoop使用更簡單

Spark對(duì)數(shù)據(jù)科學(xué)家更友好(Interactiveshell)

Spark有更多的API/language支持(Java,python,scala)



以上就是關(guān)于扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)之大數(shù)據(jù)框架從Hadoop到Spark詳解,最后想要了解更多關(guān)于大數(shù)據(jù)發(fā)展前景趨勢,請(qǐng)關(guān)注扣丁學(xué)堂官網(wǎng)、微信等平臺(tái),扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育平臺(tái)為您提供權(quán)威的大數(shù)據(jù)視頻教程系統(tǒng),通過千鋒旗下金牌講師在線錄制的大數(shù)據(jù)視頻教程系統(tǒng),讓你快速掌握大數(shù)據(jù)從入門到精通大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)技能??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。



扣丁學(xué)堂微信公眾號(hào)



關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料



查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊的相關(guān)文章>>

標(biāo)簽: 大數(shù)據(jù)分析 大數(shù)據(jù)培訓(xùn) 大數(shù)據(jù)視頻教程 Hadoop視頻教程 大數(shù)據(jù)開發(fā)工程師

熱門專區(qū)

暫無熱門資訊

課程推薦

微信
微博
15311698296

全國免費(fèi)咨詢熱線

郵箱:codingke@1000phone.com

官方群:148715490

北京千鋒互聯(lián)科技有限公司版權(quán)所有   北京市海淀區(qū)寶盛北里西區(qū)28號(hào)中關(guān)村智誠科創(chuàng)大廈4層
京ICP備2021002079號(hào)-2   Copyright ? 2017 - 2022
返回頂部 返回頂部