2018-07-13 15:19:21 1337瀏覽
數(shù)據(jù)挖掘?qū)τ趯W(xué)習(xí)大數(shù)據(jù)開(kāi)發(fā)技術(shù)或者是已經(jīng)工作了的大數(shù)據(jù)開(kāi)發(fā)工程師來(lái)說(shuō)并不陌生,但是數(shù)據(jù)挖掘的聚類算法和優(yōu)勢(shì)還有不少的小伙伴不是很清楚,本篇文章扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編就和大家分享一下數(shù)據(jù)挖掘的聚類算法和優(yōu)勢(shì),想要了解的小伙伴就隨小編一起來(lái)看一下吧。
比較分類算法的話,大概考慮這幾個(gè)維度:時(shí)間空間復(fù)雜度,魯棒性,參數(shù)敏感性,處理不規(guī)則形狀,適合的類數(shù)量,類間差異(范圍大小,樣本個(gè)數(shù),形狀差異)。
除了這些聚類方法以外一些傳統(tǒng)的聚類方法,歸屬于系統(tǒng)聚類的范疇,先定義觀測(cè)間的距離和類之間的距離計(jì)算方法,然后按照距離把最接近的兩個(gè)觀測(cè)(類)合并,直到合并成一個(gè)大類為止。
最短距離法:
類間距為兩類中最近觀測(cè)的距離。
不限制類形狀,對(duì)拉長(zhǎng)的分布效果好,會(huì)刪除邊緣的觀測(cè)點(diǎn)
最長(zhǎng)距離法:
類間距為兩類中最遠(yuǎn)觀測(cè)的距離。
傾向于產(chǎn)生直徑相等的類,易受異常值影響。
中間距離法:
類間距為最長(zhǎng)距、最短距、類內(nèi)距離的加權(quán)。
重心法:
類間距為兩類重心之間的距離
對(duì)奇異值穩(wěn)健
類平均法:
類間距為兩類觀測(cè)之間距離的平均值。
傾向于先合并方差小的類,偏向于產(chǎn)生方差相同的類。
離差平方和法:
將合并后類內(nèi)方差最小的兩類合并
傾向于產(chǎn)生數(shù)量相等的兩類,對(duì)異常值敏感
密度估計(jì):
較遠(yuǎn)的距離設(shè)為無(wú)窮。較近的兩個(gè)樣本,距離與局部密度成反比。
適用于不規(guī)則形狀類,不適用樣本數(shù)太少。
兩階段密度估計(jì):
用密度估計(jì)計(jì)算距離,再用最短距離法聚類。
普適性較強(qiáng)
除了以上這些常見(jiàn)方法,值得一提的還有science上的算法 fast search and find of density peaks. 這個(gè)方法克服了DBSCAN中不同類的密度差別大,鄰域范圍難以設(shè)定的問(wèn)題,看起來(lái)棒棒的。
以上就是扣丁學(xué)堂大數(shù)據(jù)在線學(xué)習(xí)小編給大家分享的數(shù)據(jù)挖掘的聚類算法和優(yōu)勢(shì),希望對(duì)小伙伴們能有所幫助,想要了解更多內(nèi)容的小伙伴可以登錄扣丁學(xué)堂官網(wǎng)咨詢。扣丁學(xué)堂是專業(yè)的大數(shù)據(jù)培訓(xùn)機(jī)構(gòu),不僅有專業(yè)老師授課的大數(shù)據(jù)培訓(xùn)班讓大家參加學(xué)習(xí),還有與時(shí)俱進(jìn)的課程體系以及大量的大數(shù)據(jù)在線視頻供學(xué)員免費(fèi)學(xué)習(xí),想要學(xué)好大數(shù)據(jù)高薪就業(yè)的小伙伴不要再猶豫了,抓緊時(shí)間行動(dòng)吧。扣丁學(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>>