2019-03-20 11:05:05 3019瀏覽
數(shù)據(jù)挖掘技術(shù)在企業(yè)中很受歡迎和認(rèn)可,因此參加大數(shù)據(jù)培訓(xùn)的人一直都從未減少,那么對(duì)于想要學(xué)好大數(shù)據(jù)開(kāi)發(fā)技術(shù)的人來(lái)說(shuō)應(yīng)該如何學(xué)習(xí)呢?本篇文章小編就和讀者們分享一下如何系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘,感興趣的小伙伴就隨小編看了解一下吧。
一、目前國(guó)內(nèi)的數(shù)據(jù)挖掘人員工作領(lǐng)域大致可分為三類
1、數(shù)據(jù)分析師:在擁有行業(yè)數(shù)據(jù)的電商、金融、電信、咨詢等行業(yè)里做業(yè)務(wù)咨詢,商務(wù)智能,出分析報(bào)告。
2、數(shù)據(jù)挖掘工程師:在多媒體、電商、搜索、社交等大數(shù)據(jù)相關(guān)行業(yè)里做機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)和分析。
3、科學(xué)研究方向:在高校、科研單位、企業(yè)研究院等高大上科研機(jī)構(gòu)研究新算法效率改進(jìn)及未來(lái)應(yīng)用。
二、說(shuō)說(shuō)各工作領(lǐng)域需要掌握的技能
1、數(shù)據(jù)分析師
需要有深厚的數(shù)理統(tǒng)計(jì)基礎(chǔ),但是對(duì)程序開(kāi)發(fā)能力不做要求。
需要熟練使用主流的數(shù)據(jù)挖掘(或統(tǒng)計(jì)分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
需要對(duì)與所在行業(yè)有關(guān)的一切核心數(shù)據(jù)有深入的理解,以及一定的數(shù)據(jù)敏感性培養(yǎng)。
2、數(shù)據(jù)挖掘工程師
需要理解主流機(jī)器學(xué)習(xí)算法的原理和應(yīng)用。
需要熟悉至少一門(mén)編程語(yǔ)言如(Python、C、C++、Java、Delphi等)。
需要理解數(shù)據(jù)庫(kù)原理,能夠熟練操作至少一種數(shù)據(jù)庫(kù)(Mysql、SQL、DB2、Oracle等),能夠明白MapReduce的原理操作以及熟練使用Hadoop系列工具更好。
3、科學(xué)研究方向
需要深入學(xué)習(xí)數(shù)據(jù)挖掘的理論基礎(chǔ),包括關(guān)聯(lián)規(guī)則挖掘 (Apriori和FPTree)、分類算法(C4.5、KNN、Logistic Regression、SVM等) 、聚類算法 (Kmeans、Spectral Clustering)。目標(biāo)可以先吃透數(shù)據(jù)挖掘10大算法各自的使用情況和優(yōu)缺點(diǎn)。
相對(duì)SAS、SPSS來(lái)說(shuō)R語(yǔ)言更適合科研人員The R Project for Statistical Computing,因?yàn)镽軟件是完全免費(fèi)的,而且開(kāi)放的社區(qū)環(huán)境提供多種附加工具包支持,更適合進(jìn)行統(tǒng)計(jì)計(jì)算分析研究。雖然目前在國(guó)內(nèi)流行度不高,但是強(qiáng)烈推薦。
可以嘗試改進(jìn)一些主流算法使其更加快速高效,例如實(shí)現(xiàn)Hadoop平臺(tái)下的SVM云算法調(diào)用平臺(tái)–web 工程調(diào)用hadoop集群。
三、以下是通信行業(yè)數(shù)據(jù)挖掘工程師的工作感受
真正從數(shù)據(jù)挖掘項(xiàng)目實(shí)踐的角度講,溝通能力對(duì)挖掘的興趣愛(ài)好是最重要的,有了愛(ài)好才可以愿意鉆研,有了不錯(cuò)的溝通能力,才可以正確理解業(yè)務(wù)問(wèn)題,才能正確把業(yè)務(wù)問(wèn)題轉(zhuǎn)化成挖掘問(wèn)題,才可以在相關(guān)不同專業(yè)人才之間清楚表達(dá)你的意圖和想法,取得他們的理解和支持。所以溝通能力和興趣愛(ài)好是個(gè)人的數(shù)據(jù)挖掘的核心競(jìng)爭(zhēng)力,而其他的相關(guān)專業(yè)知識(shí)誰(shuí)都可以學(xué),算不上個(gè)人發(fā)展的核心競(jìng)爭(zhēng)力。
說(shuō)到這里可能很多數(shù)據(jù)倉(cāng)庫(kù)專家、程序員、統(tǒng)計(jì)師等等都要扔磚頭了,你們的專業(yè)對(duì)于數(shù)據(jù)挖掘都很重要,大家本來(lái)就是一個(gè)整體的,但是作為單獨(dú)一個(gè)個(gè)體的人來(lái)說(shuō),精力有限,時(shí)間有限,不可能這些領(lǐng)域都能掌握,在這種情況下,選擇最重要的核心,應(yīng)該是數(shù)據(jù)挖掘技能和相關(guān)業(yè)務(wù)能力吧。
這從另一個(gè)方面也說(shuō)明了為什么溝通能力的重要,這些個(gè)完全不同的專業(yè)領(lǐng)域,想要有效有機(jī)地整合在一起進(jìn)行數(shù)據(jù)挖掘項(xiàng)目實(shí)踐,你說(shuō)沒(méi)有好的溝通能力行嗎?
數(shù)據(jù)挖掘能力只能在項(xiàng)目實(shí)踐的熔爐中提升、升華,所以跟著項(xiàng)目學(xué)挖掘是最有效的捷徑。國(guó)外學(xué)習(xí)挖掘的人都是一開(kāi)始跟著老板做項(xiàng)目,剛開(kāi)始不懂不要緊,越不懂越知道應(yīng)該學(xué)什么,才能學(xué)得越快越有效果。
另外現(xiàn)在國(guó)內(nèi)關(guān)于數(shù)據(jù)挖掘的概念都很混亂,很多BI只是局限在報(bào)表的展示和簡(jiǎn)單的統(tǒng)計(jì)分析,卻也號(hào)稱是數(shù)據(jù)挖掘。另一方面,國(guó)內(nèi)真正規(guī)模化實(shí)施數(shù)據(jù)挖掘的行業(yè)是屈指可數(shù)(銀行、保險(xiǎn)公司、移動(dòng)通訊),其他行業(yè)的應(yīng)用就只能算是小規(guī)模的,比如很多大學(xué)都有些相關(guān)的挖掘課題、挖掘項(xiàng)目,但都比較分散,而且都是處于摸索階段,但是我相信數(shù)據(jù)挖掘在中國(guó)一定是好的前景,因?yàn)檫@是歷史發(fā)展的必然。
想要了解更多關(guān)于大數(shù)據(jù)開(kāi)發(fā)方面內(nèi)容的小伙伴,請(qǐng)關(guān)注扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)官網(wǎng)、微信等平臺(tái),扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育有專業(yè)的大數(shù)據(jù)講師為您指導(dǎo),此外扣丁學(xué)堂老師精心推出的大數(shù)據(jù)視頻教程定能讓你快速掌握大數(shù)據(jù)從入門(mén)到精通開(kāi)發(fā)實(shí)戰(zhàn)技能??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料】 【掃碼進(jìn)入Python全棧開(kāi)發(fā)免費(fèi)公開(kāi)課】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>