2019-03-18 11:19:57 7768瀏覽
喜歡大數(shù)據(jù)的朋友們或多或少應(yīng)該都會(huì)了解一點(diǎn)數(shù)據(jù)挖掘的算法,可能大家對數(shù)據(jù)挖掘算法了解的并不是很深很全面,本篇文章扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編就給大家分享一下常用的數(shù)據(jù)挖掘算法有哪些,希望對小伙伴們有所幫助。
1、C4.5
C4.5算法是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對ID3算法進(jìn)行了改進(jìn):
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;
2) 在樹構(gòu)造過程中進(jìn)行剪枝;
3) 能夠完成對連續(xù)屬性的離散化處理;
4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。
2、The k-means algorithm 即K-Means算法
k-means algorithm算法是一個(gè)聚類算法,把n的對象根據(jù)他們的屬性分為k個(gè)分割,k < n。它與處理混合正態(tài)分布的最大期望算法很相似,因?yàn)樗麄兌荚噲D找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對象屬性來自于空間向量,并且目標(biāo)是使各個(gè)群組內(nèi)部的均 方誤差總和最小。
3、Support vector machines
支持向量機(jī),英文為Support Vector Machine,簡稱SV機(jī)(論文中一般簡稱SVM)。它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)將向量映射到一個(gè)更 高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。
在分開數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面。分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。van der Walt 和 Barnard 將支持向量機(jī)和其他分類器進(jìn)行了比較。
4、The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集。
5、最大期望(EM)算法
在統(tǒng)計(jì)計(jì)算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估 計(jì)的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)集聚(Data Clustering)領(lǐng)域。
想要了解更多關(guān)于大數(shù)據(jù)方面內(nèi)容的小伙伴,請關(guān)注扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)官網(wǎng)、微信等平臺(tái),扣丁學(xué)堂IT職業(yè)在線學(xué)習(xí)教育有專業(yè)的大數(shù)據(jù)講師為您指導(dǎo),此外扣丁學(xué)堂老師精心推出的大數(shù)據(jù)視頻教程定能讓你快速掌握大數(shù)據(jù)從入門到精通開發(fā)實(shí)戰(zhàn)技能??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號獲取更多學(xué)習(xí)資料】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>>