2019-04-23 14:56:48 5464瀏覽
Hadoop在國內(nèi)的應(yīng)用主要以互聯(lián)網(wǎng)公司為主,在海量數(shù)據(jù)處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、科學(xué)計算等領(lǐng)域都越來越受到青睞,本篇文章扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編給讀者們介紹一下國內(nèi)Hadoop的應(yīng)用,我們來看看國內(nèi)有哪些大規(guī)模使用Hadoop或研究Hadoop的公司吧。
1、百度
百度在2006年就開始關(guān)注Hadoop并開始調(diào)研和使用,在2012年其總的集群規(guī)模達(dá)到近十個,單集群超過2800臺機(jī)器節(jié)點,Hadoop機(jī)器總數(shù)有上萬臺機(jī)器,總的存儲容量超過100PB,已經(jīng)使用的超過74PB,每天提交的作業(yè)數(shù)目有數(shù)千個之多,每天的輸入數(shù)據(jù)量已經(jīng)超過7500TB,輸出超過 1700TB。
百度的Hadoop集群為整個公司的數(shù)據(jù)團(tuán)隊、大搜索團(tuán)隊、社區(qū)產(chǎn)品團(tuán)隊、廣告團(tuán)隊,以及LBS團(tuán)體提供統(tǒng)一的計算和存儲服務(wù),主要應(yīng)用包括:
數(shù)據(jù)挖掘與分析。
日志分析平臺。
數(shù)據(jù)倉庫系統(tǒng)。
推薦引擎系統(tǒng)。
用戶行為分析系統(tǒng)。
同時百度在Hadoop的基礎(chǔ)上還開發(fā)了自己的日志分析平臺、數(shù)據(jù)倉庫系統(tǒng),以及統(tǒng)一的C++編程接口,并對Hadoop進(jìn)行深度改造,開發(fā)了HadoopC++擴(kuò)展HCE系統(tǒng)。
2、阿里巴巴
阿里巴巴的Hadoop集群截至2012年大約有3200臺服務(wù)器,大約30?000物理CPU核心,總內(nèi)存100TB,總的存儲容量超過60PB,每天的作業(yè)數(shù)目超過150?000個,每天hivequery查詢大于6000個,每天掃描數(shù)據(jù)量約為7.5PB,每天掃描文件數(shù)約為4億,存儲利用率大約為 80%,CPU利用率平均為65%,峰值可以達(dá)到80%。阿里巴巴的Hadoop集群擁有150個用戶組、4500個集群用戶,為淘寶、天貓、一淘、聚劃算、CBU、支付寶提供底層的基礎(chǔ)計算和存儲服務(wù),主要應(yīng)用包括:
數(shù)據(jù)平臺系統(tǒng)。
搜索支撐。
廣告系統(tǒng)。
數(shù)據(jù)魔方。
量子統(tǒng)計。
淘數(shù)據(jù)。
推薦引擎系統(tǒng)。
搜索排行榜。
為了便于開發(fā),其還開發(fā)了WebIDE繼承開發(fā)環(huán)境,使用的相關(guān)系統(tǒng)包括:Hive、Pig、Mahout、Hbase等。
3、騰訊
騰訊也是使用Hadoop最早的中國互聯(lián)網(wǎng)公司之一,截至2012年年底,騰訊的Hadoop集群機(jī)器總量超過5000臺,最大單集群約為2000個節(jié)點,并利用Hadoop-Hive構(gòu)建了自己的數(shù)據(jù)倉庫系統(tǒng)TDW,同時還開發(fā)了自己的TDW-IDE基礎(chǔ)開發(fā)環(huán)境。騰訊的Hadoop為騰訊各個產(chǎn)品線提供基礎(chǔ)云計算和云存儲服務(wù),其支持以下產(chǎn)品:
騰訊社交廣告平臺。
搜搜(SOSO)。
拍拍網(wǎng)。
騰訊微博。
騰訊羅盤。
QQ會員。
騰訊游戲支撐。
QQ空間。
朋友網(wǎng)。
騰訊開放平臺。
財付通。
手機(jī)QQ。
QQ音樂。
4、奇虎360
奇虎360主要使用Hadoop-HBase作為其搜索引擎so.com的底層網(wǎng)頁存儲架構(gòu)系統(tǒng),360搜索的網(wǎng)頁可到千億記錄,數(shù)據(jù)量在PB級別。截至2012年年底,其HBase集群規(guī)模超過300節(jié)點,region個數(shù)大于10萬個,使用的平臺版本如下。
HBase版本:facebook0.89-fb。
HDFS版本:facebookHadoop-20。
奇虎360在Hadoop-HBase方面的工作主要為了優(yōu)化減少HBase集群的啟停時間,并優(yōu)化減少RS異常退出后的恢復(fù)時間。
5、華為
華為公司也是Hadoop主要做出貢獻(xiàn)的公司之一,排在Google和Cisco的前面,華為對Hadoop的HA方案,以及HBase領(lǐng)域有深入研究,并已經(jīng)向業(yè)界推出了自己的基于Hadoop的大數(shù)據(jù)解決方案。
6、中國移動
中國移動于2010年5月正式推出大云BigCloud1.0,集群節(jié)點達(dá)到了1024。中國移動的大云基于Hadoop的MapReduce實現(xiàn)了分布式計算,并利用了HDFS來實現(xiàn)分布式存儲,并開發(fā)了基于Hadoop的數(shù)據(jù)倉庫系統(tǒng)HugeTable,并行數(shù)據(jù)挖掘工具集BC-PDM,以及并行數(shù)據(jù)抽取轉(zhuǎn)化BC-ETL,對象存儲系統(tǒng)BC-ONestd等系統(tǒng),并開源了自己的BC-Hadoop版本。
中國移動主要在電信領(lǐng)域應(yīng)用Hadoop,其規(guī)劃的應(yīng)用領(lǐng)域包括:
經(jīng)分KPI集中運算。
經(jīng)分系統(tǒng)ETL/DM。
結(jié)算系統(tǒng)。
信令系統(tǒng)。
云計算資源池系統(tǒng)。
物聯(lián)網(wǎng)應(yīng)用系統(tǒng)。
E-mail。
IDC服務(wù)等。
7、盤古搜索
盤古搜索(目前已和即刻搜索合并為中國搜索)主要使用Hadoop集群作為搜索引擎的基礎(chǔ)架構(gòu)支撐系統(tǒng),截至2013年年初,集群中機(jī)器數(shù)量總計超過380臺,存儲總量總計3.66PB,主要包括的應(yīng)用如下。
網(wǎng)頁存儲。
網(wǎng)頁解析。
建索引。
Pagerank計算。
日志統(tǒng)計分析。
推薦引擎等。
即刻搜索(人民搜索)
以上就是扣丁學(xué)堂大數(shù)據(jù)在線學(xué)習(xí)小編給大家分享的國內(nèi)Hadoop的應(yīng)用,希望對小伙伴們有所幫助,想要了解更多內(nèi)容的小伙伴可以登錄扣丁學(xué)堂官網(wǎng)咨詢。
想要學(xué)好大數(shù)據(jù)開發(fā)小編給大家推薦口碑良好的扣丁學(xué)堂,扣丁學(xué)堂有專業(yè)老師制定的大數(shù)據(jù)學(xué)習(xí)路線圖輔助學(xué)員學(xué)習(xí),此外還有與時俱進(jìn)的大數(shù)據(jù)課程體系和大數(shù)據(jù)視頻教程供大家學(xué)習(xí),想要學(xué)好大數(shù)據(jù)開發(fā)技術(shù)的小伙伴快快行動吧。扣丁學(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號獲取更多學(xué)習(xí)資料】 【掃碼進(jìn)入HTML5前端開發(fā)VIP免費公開課】