扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)解析Hadoop核心知識入門學(xué)習(xí)注意事項(xiàng)
2018-08-06 14:49:47
1150瀏覽
今天扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)講師給我們介紹了新手學(xué)習(xí)hadoop的入門注意事項(xiàng)。這篇來談?wù)刪adoop核心知識學(xué)習(xí)。
首先hadoop分為hadoop1.X和hadoop2.X,并且還有hadoop生態(tài)系統(tǒng),那么下面我們以hadoop2.x為例進(jìn)行詳細(xì)介紹:
Hadoop的核心是mapreduce和hdfs。
Mapreduce:mapreduce是很多人都需要邁過去的檻,它比較難以理解,我們有時(shí)候即使寫出了mapreduce程序,但是還是摸不著頭腦。我們都知道m(xù)apreduce是一種編程模型,那么它能干什么,對我有什么用。它的原理是什么,為什么我們編寫了map函數(shù),reduce函數(shù)就可以在多臺機(jī)器上運(yùn)行,這些問題或許都給初學(xué)者帶來了困擾。
那么我們就要了解:
什么是mapreduce?
Mapreduce的工作原理是什么?
Mapreduce的工作流程是什么?
Mapreduce的編程模型是什么?
shuffle是什么?
partition是什么?
combiner是什麼?
他們?nèi)咧g的關(guān)系是什么?
map的個(gè)數(shù)由誰來決定,如何計(jì)算?
reduce個(gè)數(shù)由誰來決定,如何計(jì)算?
mapreduce熟悉了,還有一些問題困擾著初學(xué)者,雖然有了Java基礎(chǔ),但是我們需要搭建開發(fā)環(huán)境,該如何搭建開發(fā)環(huán)境?
那么就需要我們學(xué)習(xí)Windows上如何使用Eclipse遠(yuǎn)程連接Hadoop并進(jìn)行程序開發(fā)
因?yàn)樵诓僮鱩apredcue過程中伴隨著操作hdfs,就像我們傳統(tǒng)開發(fā),編程是離不開數(shù)據(jù)庫一樣。hdfs可以理解為傳統(tǒng)編程的數(shù)據(jù)庫,但是其實(shí)他不是,真正的數(shù)據(jù)庫是hadoopdatabase,也就是hbase。好了下面,我們開始講如何學(xué)習(xí)hdfs:
HDFS:我們至少應(yīng)該學(xué)習(xí)以下內(nèi)容
什么是HDFS及HDFS架構(gòu)設(shè)計(jì)?
HDFS體系結(jié)構(gòu)簡介及優(yōu)缺點(diǎn)?
Hdfs如何存儲數(shù)據(jù)?
Hdfs如何讀取數(shù)據(jù)?
Hdfs如何寫入文件?
Hdfs的副本存放策略?
如何訪問hdfs?
Hdfs數(shù)據(jù)如何復(fù)制?
Namenode的熱備?
hadoop生態(tài)系統(tǒng)內(nèi)容還是比較多的,但是最常用的是hive,hbase。
Hive是初學(xué)者進(jìn)入大數(shù)據(jù)(hadoop)行業(yè)最好的選擇入口,因?yàn)樗峁┝撕唵蔚念恠ql語句,使得不懂得mapreduce程序編寫的學(xué)員也能夠很輕松的進(jìn)入大數(shù)據(jù)行業(yè)。所以建議大家(尤其是零基礎(chǔ)的學(xué)員)在學(xué)習(xí)hadoop的過程中,可以著重加強(qiáng)對hive的學(xué)習(xí),尤其是hive語句的熟練操作。當(dāng)然對于有數(shù)據(jù)庫基礎(chǔ)的學(xué)員學(xué)習(xí)hive就更容易一些。
Hbase是一種nosql數(shù)據(jù)庫,只有當(dāng)數(shù)據(jù)量非常大時(shí),比如TB、PB級,hbase才能發(fā)揮出很好的效果,所以對于致力于加入大公司的學(xué)員,可以深入學(xué)習(xí)hbase,尤其是hbase表的設(shè)計(jì),rowkey的設(shè)計(jì),hbase性能的調(diào)優(yōu),hbase和hive、impala的結(jié)合等。
Yarn是分布式集群資源管理框架,也是hadoop2.x和hadoop1.x明顯不同的地方,所以我們還是有必要對yarn的原理、框架、組成部分進(jìn)行詳細(xì)的了解的。
對于hadoop其他的組件:比如海量日志收集工具flume,數(shù)據(jù)導(dǎo)入導(dǎo)出工具sqoop,應(yīng)用程序協(xié)調(diào)服務(wù)zookeeper,學(xué)員可以結(jié)合實(shí)戰(zhàn)項(xiàng)目學(xué)習(xí)其原理,如何使用即可。
對于想從事數(shù)據(jù)挖掘的學(xué)員,可以深入學(xué)習(xí)mahout、機(jī)器學(xué)習(xí)、算法等相關(guān)知識,根據(jù)學(xué)員自己的職業(yè)選擇和興趣愛好自主選擇,建議零基礎(chǔ)的學(xué)員最好是先從hive入手。
Storm是一種基于流的計(jì)算框架,spark是基于內(nèi)存的計(jì)算框架,它們是不同于mapreduce的計(jì)算框架,但作用都是對數(shù)據(jù)的處理和分析,建議初學(xué)者在學(xué)習(xí)好mapreduce的前提下,可以對storm和spark進(jìn)行深入的學(xué)習(xí),切記貪多嚼不爛。通而不精。
如果想更加深入的學(xué)習(xí),豐富自己的知識,可以選擇性的學(xué)習(xí)一下shell、python腳本語言,Redis、MongoDB等nosql數(shù)據(jù)庫,如果想做hadoop運(yùn)維的,也可以學(xué)習(xí)ganglia和nagios等監(jiān)控工具。
最后建議大家在學(xué)習(xí)過程中一定要由淺入深、從簡單到復(fù)雜、理論和實(shí)踐相結(jié)合,想要了解更多內(nèi)容的小伙伴可以登錄扣丁學(xué)堂官網(wǎng)咨詢,扣丁學(xué)堂還有與時(shí)俱進(jìn)的課程體系和大量的
大數(shù)據(jù)視頻教程讓學(xué)員免費(fèi)觀看學(xué)習(xí),想要快速學(xué)習(xí)大數(shù)據(jù)就到由專業(yè)老師授課的扣丁學(xué)堂學(xué)習(xí)吧??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號獲取更多學(xué)習(xí)資料】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>>
標(biāo)簽:
大數(shù)據(jù)培訓(xùn)
大數(shù)據(jù)視頻教程
大數(shù)據(jù)分析培訓(xùn)
大數(shù)據(jù)學(xué)習(xí)視頻
Hadoop生態(tài)圈