欧美成人午夜免费全部完,亚洲午夜福利精品久久,а√最新版在线天堂,另类亚洲综合区图片小说区,亚洲欧美日韩精品色xxx

扣丁學(xué)堂帶你解讀大數(shù)據(jù)與Hadoop之間的關(guān)系

2018-08-03 13:46:17 1216瀏覽

大數(shù)據(jù),一種新興的數(shù)據(jù)挖掘技術(shù),它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。隨著它的重要性,越來(lái)越多的人開始學(xué)習(xí)大數(shù)據(jù)或者進(jìn)行相關(guān)培訓(xùn)。大數(shù)據(jù)技術(shù)一旦進(jìn)入超級(jí)計(jì)算時(shí)代,很快便可應(yīng)用于普通企業(yè),在遍地開花的過(guò)程中,它將改變?cè)S多行業(yè)業(yè)務(wù)經(jīng)營(yíng)的模式。但是很多人對(duì)大數(shù)據(jù)存在誤解,下面就跟著小編來(lái)縷一縷大數(shù)據(jù)與Hadoop之間的關(guān)系。

我們都聽過(guò)這個(gè)預(yù)測(cè):到2020年,電子數(shù)據(jù)存儲(chǔ)量將在2009年的基礎(chǔ)上增加44倍,達(dá)到35萬(wàn)億GB。根據(jù)IDC數(shù)據(jù)顯示,截止到2010年,這個(gè)數(shù)字已經(jīng)達(dá)到了120萬(wàn)PB,或1.2ZB。如果把所有這些數(shù)據(jù)都存入DVD光盤,光盤高度將等同于從地球到月球的一個(gè)來(lái)回也就是大約480,000英里。

對(duì)于那些喜歡杞人憂天的人來(lái)說(shuō),這是數(shù)據(jù)存儲(chǔ)的末日即將到來(lái)的不祥預(yù)兆。而對(duì)于機(jī)會(huì)主義者們而言,這就好比是個(gè)信息金礦,隨著技術(shù)的進(jìn)步,金礦開采會(huì)變得越來(lái)越容易。

走進(jìn)大數(shù)據(jù),一種新興的數(shù)據(jù)挖掘技術(shù),它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進(jìn)入超級(jí)計(jì)算時(shí)代,很快便可應(yīng)用于普通企業(yè),在遍地開花的過(guò)程中,它將改變?cè)S多行業(yè)業(yè)務(wù)經(jīng)營(yíng)的模式。

在計(jì)算機(jī)世界里,大數(shù)據(jù)被定義為一種使用非傳統(tǒng)的數(shù)據(jù)過(guò)濾工具,對(duì)大量有序或無(wú)序數(shù)據(jù)集合進(jìn)行的挖掘過(guò)程,它包括但不僅限于分布式計(jì)算(Hadoop)。

大數(shù)據(jù)已經(jīng)站在了數(shù)據(jù)存儲(chǔ)宣傳的風(fēng)口浪尖,也存在著大量不確定因素,這點(diǎn)上非常像“云”。我們請(qǐng)教了一些分析人士和大數(shù)據(jù)愛(ài)好者,請(qǐng)他們解釋一下大數(shù)據(jù)究竟是什么,以及它對(duì)于未來(lái)數(shù)據(jù)存儲(chǔ)的意義。

大數(shù)據(jù)走進(jìn)歷史舞臺(tái)

適用于企業(yè)的大數(shù)據(jù)已經(jīng)出現(xiàn),這在部分程度上要?dú)w功于計(jì)算能耗的降低以及系統(tǒng)已具備執(zhí)行多重處理的能力這樣一個(gè)事實(shí)。而且隨著主存儲(chǔ)器成本的不斷下降,和過(guò)去相比,公司可以將更多的數(shù)據(jù)存到存儲(chǔ)器中。并且,將多臺(tái)計(jì)算機(jī)連到服務(wù)器集群也變得更容易了。這三個(gè)變化加在一起成就了大數(shù)據(jù),IDC數(shù)據(jù)庫(kù)管理分析師CarlOlofson如是說(shuō)。

“我們不僅要把這些事情做好,還要能承受得起相應(yīng)的開支”,他說(shuō)?!斑^(guò)去的某些超級(jí)計(jì)算機(jī)也具有執(zhí)行系統(tǒng)多重處理的能力,(這些系統(tǒng)緊密相連,形成了一個(gè)集群)但因?yàn)橐褂脤iT的硬件,它的成本高達(dá)幾十萬(wàn)美元甚至更多?!爆F(xiàn)在我們可以使用普通硬件完成相同的配置。正因?yàn)檫@樣,我們能更快更省得處理更多數(shù)據(jù)。"

大數(shù)據(jù)技術(shù)還沒(méi)有在有大型數(shù)據(jù)倉(cāng)庫(kù)的公司中得到廣泛普及。IDC認(rèn)為,想讓大數(shù)據(jù)技術(shù)得到認(rèn)可,首先技術(shù)本身一定要足夠便宜,然后,必須滿足IBM稱之為3V標(biāo)準(zhǔn)中的2V,即:類型(variety),量(volume)和速度(velocity)。

種類要求指的是待存儲(chǔ)數(shù)據(jù)的類型分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。量是指存儲(chǔ)和分析的數(shù)據(jù)量可以很龐大?!皵?shù)據(jù)量不只是幾百TB,”

Olofson說(shuō):“要視具體情況而定,因?yàn)樗俣群蜁r(shí)間的關(guān)系,有時(shí)幾百GB可能就算很多了。如果我現(xiàn)在一秒能完成過(guò)去要花一小時(shí)才能完成的300GB的數(shù)據(jù)分析,那結(jié)果將大為不同。大數(shù)據(jù)就是這樣一種技術(shù),它可以滿足這三個(gè)要求中的至少兩個(gè),并且普通企業(yè)也能夠部署?!?br />
關(guān)于大數(shù)據(jù)的三大誤解

對(duì)于大數(shù)據(jù)是什么以及大數(shù)據(jù)能干什么存在很多誤會(huì)。下面就是有關(guān)大數(shù)據(jù)的三個(gè)誤解:

1、關(guān)系數(shù)據(jù)庫(kù)無(wú)法大幅增容,因此不能被認(rèn)為是大數(shù)據(jù)技術(shù)(不對(duì))

2、無(wú)需考慮工作負(fù)載或具體使用情況,Hadoop或以此類推的任何MapReduce都是大數(shù)據(jù)的最佳選擇。(也不對(duì))

3、圖解式管理系統(tǒng)時(shí)代已經(jīng)結(jié)束。圖解的發(fā)展只會(huì)成為大數(shù)據(jù)應(yīng)用的攔路虎。(可笑的錯(cuò)誤)

大數(shù)據(jù)與開源的關(guān)系

“很多人認(rèn)為Hadoop和大數(shù)據(jù)基本上是一個(gè)意思。這是錯(cuò)誤的,”O(jiān)lofson說(shuō)。并解釋道:Teradata,MySQL和“智能聚合技術(shù)”的某些安裝啟用都用不到Hadoop,但它們也可以被認(rèn)為是大數(shù)據(jù)。

Hadoop是一種用于大數(shù)據(jù)的應(yīng)用程序,因?yàn)樗墙⒃贛apReduce基礎(chǔ)上的,所以引起了極大的關(guān)注。(MapReduce是一種用于超級(jí)計(jì)算的普通方法,之后經(jīng)過(guò)了主要由Google資助的一個(gè)項(xiàng)目的優(yōu)化,因此被簡(jiǎn)化并變得考究了。)Hadoop是幾個(gè)緊密關(guān)聯(lián)的Apache項(xiàng)目組成的混合體的主要安裝啟用程序,其中包括MapReduce環(huán)境中的HBase數(shù)據(jù)庫(kù)。

為了充分利用Hadoop和類似的先進(jìn)技術(shù),軟件開發(fā)商們絞盡腦汁研發(fā)出了各種各樣的技術(shù),其中很多都是在開源社區(qū)里開發(fā)出來(lái)的。

Olofson說(shuō)“他們已經(jīng)開發(fā)出了大量的所謂noSQL數(shù)據(jù)庫(kù),種類之多讓人眼花繚亂,其中大部分都是鍵值配對(duì)數(shù)據(jù)庫(kù),能利用多種技術(shù)對(duì)性能或種類或容量進(jìn)行優(yōu)化?!?br />
開源技術(shù)還沒(méi)有得到商業(yè)支持。“所以在這方面還需要經(jīng)過(guò)一段時(shí)間的發(fā)展完善,這一過(guò)程可能需要幾年?;谶@個(gè)原因,大數(shù)據(jù)可能需要一些時(shí)日才能在市場(chǎng)上走向成熟”他補(bǔ)充道。

據(jù)IDC預(yù)計(jì),年內(nèi)至少有三家商業(yè)公司能以某種方式給予Hadoop支持。同時(shí),包括Datameer在內(nèi)的幾家企業(yè)將發(fā)布配有Hadoop組件的分析工具,這種工具能幫助企業(yè)開發(fā)自己的應(yīng)用程序。Cloudera和Tableau公司的產(chǎn)品清單里已經(jīng)出現(xiàn)了Hadoop。

大數(shù)據(jù),一種新興的數(shù)據(jù)挖掘技術(shù),它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進(jìn)入超級(jí)計(jì)算時(shí)代,很快便可應(yīng)用于普通企業(yè),在遍地開花的過(guò)程中,它將改變?cè)S多行業(yè)業(yè)務(wù)經(jīng)營(yíng)的模式。但是很多人對(duì)大數(shù)據(jù)存在誤解,下面就來(lái)縷一縷大數(shù)據(jù)與Hadoop之間的關(guān)系。

我們都聽過(guò)這個(gè)預(yù)測(cè):到2020年,電子數(shù)據(jù)存儲(chǔ)量將在2009年的基礎(chǔ)上增加44倍,達(dá)到35萬(wàn)億GB。根據(jù)IDC數(shù)據(jù)顯示,截止到2010年,這個(gè)數(shù)字已經(jīng)達(dá)到了120萬(wàn)PB,或1.2ZB。如果把所有這些數(shù)據(jù)都存入DVD光盤,光盤高度將等同于從地球到月球的一個(gè)來(lái)回也就是大約480,000英里。

對(duì)于那些喜歡杞人憂天的人來(lái)說(shuō),這是數(shù)據(jù)存儲(chǔ)的末日即將到來(lái)的不祥預(yù)兆。而對(duì)于機(jī)會(huì)主義者們而言,這就好比是個(gè)信息金礦,隨著技術(shù)的進(jìn)步,金礦開采會(huì)變得越來(lái)越容易。

走進(jìn)大數(shù)據(jù),一種新興的數(shù)據(jù)挖掘技術(shù),它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進(jìn)入超級(jí)計(jì)算時(shí)代,很快便可應(yīng)用于普通企業(yè),在遍地開花的過(guò)程中,它將改變?cè)S多行業(yè)業(yè)務(wù)經(jīng)營(yíng)的模式。

在計(jì)算機(jī)世界里,大數(shù)據(jù)被定義為一種使用非傳統(tǒng)的數(shù)據(jù)過(guò)濾工具,對(duì)大量有序或無(wú)序數(shù)據(jù)集合進(jìn)行的挖掘過(guò)程,它包括但不僅限于分布式計(jì)算(Hadoop)。

大數(shù)據(jù)已經(jīng)站在了數(shù)據(jù)存儲(chǔ)宣傳的風(fēng)口浪尖,也存在著大量不確定因素,這點(diǎn)上非常像“云”。我們請(qǐng)教了一些分析人士和大數(shù)據(jù)愛(ài)好者,請(qǐng)他們解釋一下大數(shù)據(jù)究竟是什么,以及它對(duì)于未來(lái)數(shù)據(jù)存儲(chǔ)的意義。

大數(shù)據(jù)走進(jìn)歷史舞臺(tái)

適用于企業(yè)的大數(shù)據(jù)已經(jīng)出現(xiàn),這在部分程度上要?dú)w功于計(jì)算能耗的降低以及系統(tǒng)已具備執(zhí)行多重處理的能力這樣一個(gè)事實(shí)。而且隨著主存儲(chǔ)器成本的不斷下降,和過(guò)去相比,公司可以將更多的數(shù)據(jù)存到存儲(chǔ)器中。并且,將多臺(tái)計(jì)算機(jī)連到服務(wù)器集群也變得更容易了。這三個(gè)變化加在一起成就了大數(shù)據(jù),IDC數(shù)據(jù)庫(kù)管理分析師CarlOlofson如是說(shuō)。

“我們不僅要把這些事情做好,還要能承受得起相應(yīng)的開支”,他說(shuō)。“過(guò)去的某些超級(jí)計(jì)算機(jī)也具有執(zhí)行系統(tǒng)多重處理的能力,(這些系統(tǒng)緊密相連,形成了一個(gè)集群)但因?yàn)橐褂脤iT的硬件,它的成本高達(dá)幾十萬(wàn)美元甚至更多?!爆F(xiàn)在我們可以使用普通硬件完成相同的配置。正因?yàn)檫@樣,我們能更快更省得處理更多數(shù)據(jù)。"

大數(shù)據(jù)技術(shù)還沒(méi)有在有大型數(shù)據(jù)倉(cāng)庫(kù)的公司中得到廣泛普及。IDC認(rèn)為,想讓大數(shù)據(jù)技術(shù)得到認(rèn)可,首先技術(shù)本身一定要足夠便宜,然后,必須滿足IBM稱之為3V標(biāo)準(zhǔn)中的2V,即:類型(variety),量(volume)和速度(velocity)。

種類要求指的是待存儲(chǔ)數(shù)據(jù)的類型分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。量是指存儲(chǔ)和分析的數(shù)據(jù)量可以很龐大?!皵?shù)據(jù)量不只是幾百TB,”

Olofson說(shuō):“要視具體情況而定,因?yàn)樗俣群蜁r(shí)間的關(guān)系,有時(shí)幾百GB可能就算很多了。如果我現(xiàn)在一秒能完成過(guò)去要花一小時(shí)才能完成的300GB的數(shù)據(jù)分析,那結(jié)果將大為不同。大數(shù)據(jù)就是這樣一種技術(shù),它可以滿足這三個(gè)要求中的至少兩個(gè),并且普通企業(yè)也能夠部署?!?br />
關(guān)于大數(shù)據(jù)的三大誤解

對(duì)于大數(shù)據(jù)是什么以及大數(shù)據(jù)能干什么存在很多誤會(huì)。下面就是有關(guān)大數(shù)據(jù)的三個(gè)誤解:

1、關(guān)系數(shù)據(jù)庫(kù)無(wú)法大幅增容,因此不能被認(rèn)為是大數(shù)據(jù)技術(shù)(不對(duì))

2、無(wú)需考慮工作負(fù)載或具體使用情況,Hadoop或以此類推的任何MapReduce都是大數(shù)據(jù)的最佳選擇。(也不對(duì))

3、圖解式管理系統(tǒng)時(shí)代已經(jīng)結(jié)束。圖解的發(fā)展只會(huì)成為大數(shù)據(jù)應(yīng)用的攔路虎。(可笑的錯(cuò)誤)

大數(shù)據(jù)與開源的關(guān)系

“很多人認(rèn)為Hadoop和大數(shù)據(jù)基本上是一個(gè)意思。這是錯(cuò)誤的,”O(jiān)lofson說(shuō)。并解釋道:Teradata,MySQL和“智能聚合技術(shù)”的某些安裝啟用都用不到Hadoop,但它們也可以被認(rèn)為是大數(shù)據(jù)。

Hadoop是一種用于大數(shù)據(jù)的應(yīng)用程序,因?yàn)樗墙⒃贛apReduce基礎(chǔ)上的,所以引起了極大的關(guān)注。(MapReduce是一種用于超級(jí)計(jì)算的普通方法,之后經(jīng)過(guò)了主要由Google資助的一個(gè)項(xiàng)目的優(yōu)化,因此被簡(jiǎn)化并變得考究了。)Hadoop是幾個(gè)緊密關(guān)聯(lián)的Apache項(xiàng)目組成的混合體的主要安裝啟用程序,其中包括MapReduce環(huán)境中的HBase數(shù)據(jù)庫(kù)。

為了充分利用Hadoop和類似的先進(jìn)技術(shù),軟件開發(fā)商們絞盡腦汁研發(fā)出了各種各樣的技術(shù),其中很多都是在開源社區(qū)里開發(fā)出來(lái)的。

Olofson說(shuō)“他們已經(jīng)開發(fā)出了大量的所謂noSQL數(shù)據(jù)庫(kù),種類之多讓人眼花繚亂,其中大部分都是鍵值配對(duì)數(shù)據(jù)庫(kù),能利用多種技術(shù)對(duì)性能或種類或容量進(jìn)行優(yōu)化?!?br />
開源技術(shù)還沒(méi)有得到商業(yè)支持?!八栽谶@方面還需要經(jīng)過(guò)一段時(shí)間的發(fā)展完善,這一過(guò)程可能需要幾年。基于這個(gè)原因,大數(shù)據(jù)可能需要一些時(shí)日才能在市場(chǎng)上走向成熟”他補(bǔ)充道。

據(jù)IDC預(yù)計(jì),年內(nèi)至少有三家商業(yè)公司能以某種方式給予Hadoop支持。同時(shí),包括Datameer在內(nèi)的幾家企業(yè)將發(fā)布配有Hadoop組件的分析工具,這種工具能幫助企業(yè)開發(fā)自己的應(yīng)用程序。Cloudera和Tableau公司的產(chǎn)品清單里已經(jīng)出現(xiàn)了Hadoop。


今天的分享就到這里啦,同學(xué)們也可以看看我們的大數(shù)據(jù)視頻課哦~

關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料


查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>>




標(biāo)簽: 大數(shù)據(jù)發(fā)展

熱門專區(qū)

暫無(wú)熱門資訊

課程推薦

微信
微博
15311698296

全國(guó)免費(fèi)咨詢熱線

郵箱:codingke@1000phone.com

官方群:148715490

北京千鋒互聯(lián)科技有限公司版權(quán)所有   北京市海淀區(qū)寶盛北里西區(qū)28號(hào)中關(guān)村智誠(chéng)科創(chuàng)大廈4層
京ICP備2021002079號(hào)-2   Copyright ? 2017 - 2022
返回頂部 返回頂部