2019-05-09 11:21:27 3626瀏覽
企業(yè)數(shù)據(jù)如今呈現(xiàn)指數(shù)型暴漲,如今的用戶企業(yè)公司越來(lái)越多的意識(shí)到數(shù)據(jù)的重要價(jià)值,于是,數(shù)據(jù)分析成為了一個(gè)快速發(fā)展的行業(yè),數(shù)據(jù)分析技術(shù)也是快速發(fā)展,成為了企業(yè)業(yè)務(wù)快速增長(zhǎng)的一個(gè)強(qiáng)大助力。那么內(nèi)存分析技術(shù)哪家強(qiáng)呢?Spark有幾成勝算?本篇文章扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編給讀者們分享一下,感興趣的小伙伴就隨小編來(lái)了解一下吧。
內(nèi)存分析的好處就是企業(yè)用戶可以“實(shí)時(shí)”執(zhí)行復(fù)雜的分析,并允許用戶大型數(shù)據(jù)集切片和切塊的那種通常與桌面電子表格軟件的靈活性。
隨著內(nèi)存計(jì)算的發(fā)展,越來(lái)越多的廠商開(kāi)始發(fā)現(xiàn)內(nèi)存分析的強(qiáng)大優(yōu)勢(shì),越來(lái)越多的廠商開(kāi)始推出一系列的產(chǎn)品,如SAP HANA,當(dāng)然,除此之外,我們還不能忘了這個(gè)在開(kāi)源領(lǐng)域可以和Hadoop、openstrack相提并論的Apache Spark。那么下面就讓我們來(lái)看一下用戶該如何選擇這些不同產(chǎn)品呢?
說(shuō)到內(nèi)存分析,相信更多的人都聽(tīng)說(shuō)過(guò)SAP HANA這個(gè)平臺(tái),其是一個(gè)軟硬件的結(jié)合體,SAP提供分析平臺(tái),同時(shí)與多個(gè)產(chǎn)生過(guò)合作生產(chǎn)支持HANA的高性能服務(wù)器,包括戴爾、HP、富士通、以及中國(guó)的華為和收購(gòu)IBM的聯(lián)想如今都能夠支持。簡(jiǎn)單的說(shuō),這些高性能的服務(wù)器大多具有較高的內(nèi)存支持,來(lái)為HANA提供支持。
華為FusionCube HANA一體機(jī)
用戶采用HANA可以直接對(duì)量實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)進(jìn)行查詢(xún)和分析,而不需要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行建模、聚合等。用戶拿到的是一個(gè)裝有預(yù)配置軟件的設(shè)備。至于HANA的云服務(wù),只是對(duì)用戶而言可以在不購(gòu)買(mǎi)相關(guān)硬件的情況下享受HANA的高性能,而HANA云服務(wù)的背后其實(shí)還是需要更高性能的硬件支撐的。
除了SAP HANA,甲骨文也推出了類(lèi)似的軟硬件結(jié)合體Exadata,Exadata由Exadata數(shù)據(jù)庫(kù)機(jī)器、Exadata數(shù)據(jù)庫(kù)服務(wù)器、Exadata存儲(chǔ)服務(wù)器以及高速網(wǎng)絡(luò)接口等組成。InfiniBand端口的傳輸速度可以達(dá)到40Gb/秒。
與HANA不同的是,Exadata的快在于把大部分?jǐn)?shù)據(jù)庫(kù)操作push到硬件,通過(guò)高性能硬件提高數(shù)據(jù)查詢(xún)速度,通過(guò)采用列式結(jié)構(gòu)減少需要在存儲(chǔ)和內(nèi)存間移動(dòng)的數(shù)據(jù)量,通過(guò)高速網(wǎng)絡(luò)接口提供數(shù)據(jù)傳輸?shù)男省?/span>
Oracle Exalytics內(nèi)存分析一體機(jī)是面向分析的集成設(shè)計(jì)系統(tǒng),可以無(wú)限制提供最佳可視化分析和更智能的分析應(yīng)用程序。內(nèi)存分析硬件部分是一臺(tái)為基于內(nèi)存計(jì)算的商務(wù)智能而特別優(yōu)化的服務(wù)器,具有提供 強(qiáng)勁計(jì)算能力的40核中央處理器,高達(dá)1TB的內(nèi)存以及快速的網(wǎng)絡(luò)。
開(kāi)源SPark的優(yōu)勢(shì)及發(fā)展前景
IBM solidDB是一個(gè)專(zhuān)為用戶獲取極高的速度和可用性的內(nèi)存數(shù)據(jù)庫(kù),用戶既可以單獨(dú)部署作為獨(dú)立的數(shù)據(jù)庫(kù)支持應(yīng)用程序,也可以部署為其它關(guān)系型數(shù)據(jù)庫(kù)的加速緩存以提高應(yīng)用程序性能。
IBM solidDB
其中,IBM solidDB Universal Cache功能將這些數(shù)據(jù)庫(kù)中存儲(chǔ)的性能關(guān)鍵型數(shù)據(jù)緩存到solidDB Universal Cache中,加快領(lǐng)先關(guān)系數(shù)據(jù)庫(kù)的速度。solidDB Universal Cache 功能使用檢查點(diǎn)和事務(wù)日志將數(shù)據(jù)持久保存在磁盤(pán)上,從而保持?jǐn)?shù)據(jù)耐久性。
除了SAP、IBM和甲骨文等IT巨頭推出的軟硬件的部署內(nèi)存分析平臺(tái),在開(kāi)源市場(chǎng),Spark也越來(lái)越多的得到用戶的關(guān)注,這個(gè)在開(kāi)源領(lǐng)域可以說(shuō)能夠跟OpenStack相提并論。
Spark的核心機(jī)制方面主要由兩個(gè)層面構(gòu)成,首先是RDD(Resilient Distributed Datasets),RDD是Spark的最基本抽象,是對(duì)分布式內(nèi)存的抽象使用,實(shí)現(xiàn)了以操作本地集合的方式來(lái)操作分布式數(shù)據(jù)集的抽象實(shí)現(xiàn),它表示已被分區(qū),不可變的并能夠被并行操作的數(shù)據(jù)集合,并且通常緩存到內(nèi)存中,并且每次對(duì)RDD數(shù)據(jù)集的操作之后的結(jié)果,都可以存放到內(nèi)存中,下一個(gè)操作可以直接從內(nèi)存中輸入,省去了Map Reduce框架中由于Shuffle操作所引發(fā)的大量磁盤(pán)IO。
其次,在RDD上面執(zhí)行的算子(Operator),在Spark的支持算子方面,主要有轉(zhuǎn)換(Transformation)和操作(Action)這兩大類(lèi)。在轉(zhuǎn)換方面支持算子有map,filter,groupBy和join等,而在操作方面支持算子有count,collect和save等。
Spark常見(jiàn)存儲(chǔ)數(shù)據(jù)的格式是Key-Value,也就是Hadoop標(biāo)準(zhǔn)的Sequence File,但同時(shí)也聽(tīng)說(shuō)支持類(lèi)似Parquet這樣的列存格式。Key-Value格式的優(yōu)點(diǎn)在于靈活,上至數(shù)據(jù)挖掘算法,明細(xì)數(shù)據(jù)查詢(xún),下至復(fù)雜SQL處理都能承載,缺點(diǎn)也很明顯就是存儲(chǔ)空間比較浪費(fèi),和類(lèi)似Parquet列存格式相比更是如此,key-Value格式數(shù)據(jù)一般是原始數(shù)據(jù)大小的2倍左右,而列存一般是原始數(shù)據(jù)的1/3到1/4。
當(dāng)下Spark已不止步于實(shí)時(shí)計(jì)算,目標(biāo)直指通用大數(shù)據(jù)處理平臺(tái),而終止Shark,開(kāi)啟SparkSQL或許已經(jīng)初見(jiàn)端倪。
因此,盡管它今天看起來(lái)可能仍是昂貴的,但內(nèi)存計(jì)算最終的總擁有成本更低將會(huì)被證明,因?yàn)樗阅芨鼜?qiáng)。在內(nèi)存計(jì)算方面,SAP、甲骨文、IBM以及開(kāi)源Spark都快速發(fā)展,隨著新一輪的至強(qiáng)E7 v3處理器的發(fā)布,相信會(huì)給內(nèi)存分析帶來(lái)新的動(dòng)力。
想要了解更多關(guān)于大數(shù)據(jù)方面內(nèi)容的小伙伴,請(qǐng)關(guān)注扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)官網(wǎng)、微信等平臺(tái),扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育有專(zhuān)業(yè)的大數(shù)據(jù)講師為您指導(dǎo),此外扣丁學(xué)堂老師精心推出的大數(shù)據(jù)視頻教程定能讓你快速掌握大數(shù)據(jù)從入門(mén)到精通開(kāi)發(fā)實(shí)戰(zhàn)技能??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料】 【掃碼進(jìn)入HTML5前端開(kāi)發(fā)VIP免費(fèi)公開(kāi)課】