2018-12-25 14:58:19 1547瀏覽
今天扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)老師給大家分享一篇關(guān)于Hive實(shí)踐分享之存儲(chǔ)和壓縮的坑詳解,首先大多數(shù)同學(xué)在學(xué)習(xí)大數(shù)據(jù)技術(shù)的過(guò)程中,Hive是非常重要的技術(shù)之一,但我們?cè)陧?xiàng)目上經(jīng)常會(huì)遇到一些存儲(chǔ)和壓縮的坑,本文通過(guò)科多大數(shù)據(jù)的武老師整理,分享給大家。
CREATE TABLE CRM.DEMO(A INT) STORED AS PARQUET ;
desc formatted crm.demo;
# Storage Information SerDe Library: org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe InputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat OutputFormat: org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
ALTER TABLE crm.demo SET TBLPROPERTIES ('parquet.compression'='SNAPPY') ;
SET parquet.compression=SNAPPY ;
insert overwrite local directory '/home/etl/tmp/data' select * from crm.demo
hive> set mapred.map.output.compression.codec; mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
hive> set mapred.output.compression.codec; mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
-rw-r--r-- 1 etl etl 342094 May 10 11:13 000000_0.gz
最后,我們直接下載到電腦本地,直接解壓就可以通過(guò)Excel分析用戶行為路徑數(shù)據(jù)了。從Hive應(yīng)用層的角度來(lái)說(shuō),關(guān)于數(shù)據(jù)文件的「存儲(chǔ)結(jié)構(gòu)」和「壓縮形式」,這兩個(gè)點(diǎn)我們不需要關(guān)心,只是在導(dǎo)出數(shù)據(jù)的時(shí)候需要結(jié)合文件大小,以及數(shù)據(jù)類型去設(shè)置合適的壓縮格式。不過(guò)從Hive底層維護(hù)的角度來(lái)說(shuō),涉及到各種各樣的「存儲(chǔ)結(jié)構(gòu)」和「壓縮形式」,都需要開發(fā)者去研究和調(diào)整,這樣才能保證集群上的文件在「時(shí)間」和「空間」上相對(duì)平衡。
以上就是關(guān)于扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)之Hive實(shí)踐分享之存儲(chǔ)和壓縮問(wèn)題的詳解,希望對(duì)同學(xué)們學(xué)習(xí)大數(shù)據(jù)開發(fā)有所幫助,想要了解更多內(nèi)容的小伙伴可以登錄扣丁學(xué)堂官網(wǎng)咨詢。想要學(xué)好大數(shù)據(jù)開發(fā)小編給大家推薦口碑良好的扣丁學(xué)堂,扣丁學(xué)堂有專業(yè)老師制定的大數(shù)據(jù)學(xué)習(xí)路線圖輔助學(xué)員學(xué)習(xí),此外還有與時(shí)俱進(jìn)的大數(shù)據(jù)視頻直播課供大家學(xué)習(xí),想要學(xué)好大數(shù)據(jù)開發(fā)技術(shù)的小伙伴快快行動(dòng)吧??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>