2019-05-20 11:22:44 4190瀏覽
關(guān)于Hadoop,很多朋友都想知道到底它是如何被應(yīng)用的,那么下面扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編就給讀者們分享一下當前國內(nèi)Hadoop的使用,對大數(shù)據(jù)開發(fā)感興趣的小伙伴就隨小編來了解一下吧。
1、百度
百度在2006年就開始關(guān)注Hadoop并開始調(diào)研和使用,在2012年其總的集群規(guī)模達到近十個,單集群超過2800臺機器節(jié)點,Hadoop機器總數(shù)有上萬臺機器,總的存儲容量超過100PB,已經(jīng)使用的超過74PB,每天提交的作業(yè)數(shù)目有數(shù)千個之多,每天的輸入數(shù)據(jù)量已經(jīng)超過7500TB,輸出超過1700TB。
百度的Hadoop集群為整個公司的數(shù)據(jù)團隊、大搜索團隊、社區(qū)產(chǎn)品團隊、廣告團隊,以及LBS團體提供統(tǒng)一的計算和存儲服務(wù),主要應(yīng)用包括:
數(shù)據(jù)挖掘與分析。
日志分析平臺。
數(shù)據(jù)倉庫系統(tǒng)。
推薦引擎系統(tǒng)。
用戶行為分析系統(tǒng)。
同時百度在Hadoop的基礎(chǔ)上還開發(fā)了自己的日志分析平臺、數(shù)據(jù)倉庫系統(tǒng),以及統(tǒng)一的C++編程接口,并對Hadoop進行深度改造,開發(fā)了HadoopC++擴展HCE系統(tǒng)。
2、阿里巴巴
阿里巴巴的Hadoop集群截至2012年大約有3200臺服務(wù)器,大約30?000物理CPU核心,總內(nèi)存100TB,總的存儲容量超過60PB,每天的作業(yè)數(shù)目超過150?000個,每天hivequery查詢大于6000個,每天掃描數(shù)據(jù)量約為7.5PB,每天掃描文件數(shù)約為4億,存儲利用率大約為80%,CPU利用率平均為65%,峰值可以達到80%。阿里巴巴的Hadoop集群擁有150個用戶組、4500個集群用戶,為淘寶、天貓、一淘、聚劃算、CBU、支付寶提供底層的基礎(chǔ)計算和存儲服務(wù),主要應(yīng)用包括:
數(shù)據(jù)平臺系統(tǒng)。
搜索支撐。
廣告系統(tǒng)。
數(shù)據(jù)魔方。
量子統(tǒng)計。
淘數(shù)據(jù)。
推薦引擎系統(tǒng)。
搜索排行榜。
為了便于開發(fā),其還開發(fā)了WebIDE繼承開發(fā)環(huán)境,使用的相關(guān)系統(tǒng)包括:Hive、Pig、Mahout、Hbase等。
3、騰訊
騰訊也是使用Hadoop最早的中國互聯(lián)網(wǎng)公司之一,截至2012年年底,騰訊的Hadoop集群機器總量超過5000臺,最大單集群約為2000個節(jié)點,并利用Hadoop-Hive構(gòu)建了自己的數(shù)據(jù)倉庫系統(tǒng)TDW,同時還開發(fā)了自己的TDW-IDE基礎(chǔ)開發(fā)環(huán)境。騰訊的Hadoop為騰訊各個產(chǎn)品線提供基礎(chǔ)云計算和云存儲服務(wù),其支持以下產(chǎn)品:
騰訊社交廣告平臺。
搜搜(SOSO)。
拍拍網(wǎng)。
騰訊微博。
騰訊羅盤。
QQ會員。
騰訊游戲支撐。
QQ空間。
朋友網(wǎng)。
騰訊開放平臺。
財付通。
手機QQ。
QQ音樂。
4、奇虎360
奇虎360主要使用Hadoop-HBase作為其搜索引擎so.com的底層網(wǎng)頁存儲架構(gòu)系統(tǒng),360搜索的網(wǎng)頁可到千億記錄,數(shù)據(jù)量在PB級別。截至2012年年底,其HBase集群規(guī)模超過300節(jié)點,region個數(shù)大于10萬個,使用的平臺版本如下。
HBase版本:facebook0.89-fb。
HDFS版本:facebookHadoop-20。
奇虎360在Hadoop-HBase方面的工作主要為了優(yōu)化減少HBase集群的啟停時間,并優(yōu)化減少RS異常退出后的恢復(fù)時間。
5、華為
華為公司也是Hadoop主要做出貢獻的公司之一,排在Google和Cisco的前面,華為對Hadoop的HA方案,以及HBase領(lǐng)域有深入研究,并已經(jīng)向業(yè)界推出了自己的基于Hadoop的大數(shù)據(jù)解決方案。
6、中國移動
中國移動于2010年5月正式推出大云BigCloud1.0,集群節(jié)點達到了1024。中國移動的大云基于Hadoop的MapReduce實現(xiàn)了分布式計算,并利用了HDFS來實現(xiàn)分布式存儲,并開發(fā)了基于Hadoop的數(shù)據(jù)倉庫系統(tǒng)HugeTable,并行數(shù)據(jù)挖掘工具集BC-PDM,以及并行數(shù)據(jù)抽取轉(zhuǎn)化BC-ETL,對象存儲系統(tǒng)BC-ONestd等系統(tǒng),并開源了自己的BC-Hadoop版本。
中國移動主要在電信領(lǐng)域應(yīng)用Hadoop,其規(guī)劃的應(yīng)用領(lǐng)域包括:
經(jīng)分KPI集中運算。
經(jīng)分系統(tǒng)ETL/DM。
結(jié)算系統(tǒng)。
信令系統(tǒng)。
云計算資源池系統(tǒng)。
物聯(lián)網(wǎng)應(yīng)用系統(tǒng)。
E-mail。
IDC服務(wù)等。
7、盤古搜索
盤古搜索(目前已和即刻搜索合并為中國搜索)主要使用Hadoop集群作為搜索引擎的基礎(chǔ)架構(gòu)支撐系統(tǒng),截至2013年年初,集群中機器數(shù)量總計超過380臺,存儲總量總計3.66PB,主要包括的應(yīng)用如下。
網(wǎng)頁存儲。
網(wǎng)頁解析。
建索引。
Pagerank計算。
日志統(tǒng)計分析。
推薦引擎等。
最后想要了解更多關(guān)于大數(shù)據(jù)方面內(nèi)容的小伙伴,請關(guān)注扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)官網(wǎng)、微信等平臺,扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育平臺為您提供權(quán)威的大數(shù)據(jù)開發(fā)環(huán)境搭建視頻,大數(shù)據(jù)培訓(xùn)后的前景無限,行業(yè)薪資和未來的發(fā)展會越來越好的,扣丁學(xué)堂老師精心推出的大數(shù)據(jù)視頻教程定能讓你快速掌握大數(shù)據(jù)從入門到精通開發(fā)實戰(zhàn)技能。扣丁學(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號獲取更多學(xué)習(xí)資料】 【掃碼進入HTML5前端開發(fā)VIP免費公開課】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>