2018-07-18 17:30:55 1452瀏覽
在我們的文章講解之前,我想問一下喜歡大數(shù)據(jù)或者是從事大數(shù)據(jù)行業(yè)的朋友們,大家知道Hadoop即服務(wù)(Hadoop-as-a-Service)嗎?對(duì)Hadoop即服務(wù)(Hadoop-as-a-Service)又有多少的了解呢?如果了解的不多的話沒有關(guān)系,下面隨扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編一起來看一下什么是Hadoop即服務(wù)(Hadoop-as-a-Service)。
HaaS出現(xiàn)背景:
開源大數(shù)據(jù)框架Apache Hadoop已經(jīng)成了大數(shù)據(jù)處理的事實(shí)標(biāo)準(zhǔn),同時(shí)也幾乎成了大數(shù)據(jù)的代名詞,雖然這多少有些以偏概全。根據(jù)Gartner的估計(jì),目前的Hadoop生態(tài)系統(tǒng)市場規(guī)模在7700萬美元左右。
但是在Hadoop這個(gè)快速擴(kuò)增的藍(lán)海中游泳并非易事,不僅開發(fā)大數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)產(chǎn)品這件事很難,銷售起來也很難,具體到大數(shù)據(jù)基礎(chǔ)設(shè)施工具如Hadoop、NoSQL數(shù)據(jù)庫和流處理系統(tǒng)則更是難上加難。客戶需要大量培訓(xùn)和教育,付費(fèi)用戶需要大量支持和及時(shí)跟進(jìn)的產(chǎn)品開發(fā)工作。而跟企業(yè)級(jí)客戶打交道往往并非創(chuàng)業(yè)公司團(tuán)隊(duì)的強(qiáng)項(xiàng)。此外,大數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)創(chuàng)業(yè)通常對(duì)風(fēng)險(xiǎn)投資規(guī)模也有較高要求。
種種這些就催生了眾多Hadoop作為一種服務(wù)(HaaS)提供商的誕生。HaaS為不堪重負(fù),渴求Hadoop,但又缺乏相應(yīng)的內(nèi)部資源或?qū)I(yè)知識(shí)的數(shù)據(jù)中心管理員們提供了一個(gè)絕佳的機(jī)會(huì)。
HaaS的價(jià)值:
與直接在物理機(jī)上部署Hadoop相比,很明顯HaaS可以做到按需購買、按需使用,并且只為使用時(shí)間付費(fèi)。同時(shí),和其他“…即服務(wù)”的模式一樣,如果你不再需要Hadoop環(huán)境了,現(xiàn)有的資源可以被用于其他的工作負(fù)載。
在物理機(jī)上部署Hadoop通常還需要專項(xiàng)的資金投資、數(shù)據(jù)中心的機(jī)柜空間、精密空調(diào)、電力和其他各種技術(shù)問題。而對(duì)于HaaS,用戶需要考慮的只是管理一些額外的虛擬設(shè)備,或者投入一些資金在設(shè)備群集上。
HaaS標(biāo)準(zhǔn):
用戶需要什么樣的HaaS呢?每家服務(wù)提供商之間的差別是巨大的。HaaS供應(yīng)商們提供一系列的功能和支持,從基本的訪問Hadoop軟件到虛擬機(jī),從“自行運(yùn)行”(RIY)環(huán)境軟件的預(yù)配置到包括工作監(jiān)督和調(diào)整支持的全方位服務(wù)支持。對(duì)于HaaS的任何評(píng)價(jià)都應(yīng)該考慮到如何更好的讓每一項(xiàng)服務(wù)能夠滿足您的業(yè)務(wù)目標(biāo),同時(shí)盡量減少Hadoop和基礎(chǔ)設(shè)施的管理問題。下面我們列舉五個(gè)標(biāo)準(zhǔn),也許可以幫助您區(qū)分不同的HaaS備選方案。
1、HaaS應(yīng)同時(shí)滿足數(shù)據(jù)科學(xué)家和數(shù)據(jù)中心管理員的需求
數(shù)據(jù)科學(xué)家們花費(fèi)了大量時(shí)間進(jìn)行處理數(shù)據(jù),整合數(shù)據(jù)集及應(yīng)用統(tǒng)計(jì)分析。這些類型的數(shù)據(jù)用戶通常會(huì)希望有一個(gè)功能豐富且強(qiáng)大的環(huán)境。理想情況下,數(shù)據(jù)科學(xué)家們應(yīng)該具備通過Hive、Pig、R、Mahout及其他數(shù)據(jù)科學(xué)工具運(yùn)行Hadoop YARN作業(yè)的能力。數(shù)據(jù)科學(xué)家一登錄到服務(wù),相關(guān)的計(jì)算操作就應(yīng)立即可用,并開始工作。集群啟動(dòng)和重新加載數(shù)據(jù)的延遲是低效和不必要的。“永遠(yuǎn)在線”的Hadoop服務(wù),避免了數(shù)據(jù)科學(xué)家必須在開始工作之前從非HDFS的數(shù)據(jù)存儲(chǔ)集群和負(fù)載數(shù)據(jù)部署出現(xiàn)的令人沮喪的延遲。而對(duì)于系統(tǒng)管理員,少即是多。他們的工作就是進(jìn)行一系列的相關(guān)管理工作。管理控制臺(tái)應(yīng)簡化,使他們能夠迅速的通過執(zhí)行數(shù)量最少的步驟就能完成這些任務(wù)。如果管理員必須配置一組參數(shù),那么就應(yīng)該同時(shí)避免這些參數(shù)被暴露,又要避免參數(shù)被HaaS 供應(yīng)商管理。同樣的,低層次的監(jiān)控細(xì)節(jié)應(yīng)由HaaS 供應(yīng)商管理。管理界面應(yīng)該能夠簡單明了的反應(yīng)管理平臺(tái)的整體狀況和是否遵從了SLA。
2、HaaS應(yīng)該在HDFS存儲(chǔ)“靜態(tài)數(shù)據(jù)”
HDFS是存儲(chǔ)在Hadoop的數(shù)據(jù)的原始格式。當(dāng)數(shù)據(jù)需要被持久的以其他格式存儲(chǔ)時(shí),其必須被加載到HDFS中。持久地在HDFS中存儲(chǔ)數(shù)據(jù),避免了延誤,以及將數(shù)據(jù)從另一種格式轉(zhuǎn)換到HDFS的成本。
3、HaaS應(yīng)該提供彈性
當(dāng)企業(yè)用戶在考慮是否選擇某家HaaS供應(yīng)商,并進(jìn)行相關(guān)的評(píng)估時(shí),彈性應(yīng)成為考慮的中心要素。而在考慮是否選擇某家HaaS供應(yīng)商時(shí),需要考慮進(jìn)行評(píng)估的另一個(gè)因素是HaaS供應(yīng)商根據(jù)服務(wù)管理需求提供彈性的難易程度。特別是,必須考慮到服務(wù)處理不斷變化的計(jì)算和存儲(chǔ)資源需求的透明度。
4、HaaS應(yīng)支持不停機(jī)操作
在有固定工作負(fù)載的生產(chǎn)環(huán)境中,系統(tǒng)管理員可以調(diào)整操作系統(tǒng)和應(yīng)用程序來優(yōu)化這些工作負(fù)載的處理。他們可以通過各具特色的配置參數(shù)的最佳設(shè)定和監(jiān)控操作的關(guān)鍵指標(biāo),以確保工作按預(yù)期運(yùn)行,實(shí)現(xiàn)不停機(jī)操作。
5、HaaS應(yīng)該是自配置
使用HaaS的優(yōu)點(diǎn)是,其最大限度地降低對(duì)Hadoop專家的需求。HaaS本身能夠自行配置最佳數(shù)量和類型的節(jié)點(diǎn)。數(shù)據(jù)科學(xué)家們深諳統(tǒng)計(jì)和機(jī)器學(xué)習(xí)何時(shí)可能需要應(yīng)用特定的統(tǒng)計(jì)測試或使用特定的機(jī)器學(xué)習(xí)算法,但對(duì)于一個(gè)Hadoop集群的配置來保持他們的工作流程的運(yùn)行則可能并沒有很深的造詣。
以上就是扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編給大家分享的什么是Hadoop即服務(wù)(Hadoop-as-a-Service),希望對(duì)小伙伴們有所幫助,想要了解更多關(guān)于大數(shù)據(jù)開發(fā)方面內(nèi)容的小伙伴可以登錄扣丁學(xué)堂官網(wǎng)咨詢??鄱W(xué)堂不僅有專業(yè)的大數(shù)據(jù)培訓(xùn)班供大家學(xué)習(xí),還有與時(shí)俱進(jìn)的課程體系和大量的大數(shù)據(jù)在線視頻教程讓學(xué)員免費(fèi)觀看學(xué)習(xí),想要學(xué)好大數(shù)據(jù)的小伙伴快到扣丁學(xué)堂來了解詳情吧??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>>