2019-03-20 11:45:19 3103瀏覽
本篇文章小編給喜歡大數(shù)據(jù)技術或者是想要參考大數(shù)據(jù)培訓的小伙伴們分享一下數(shù)據(jù)挖掘中需要注意的錯誤,想要加入到大數(shù)據(jù)開發(fā)領域就一定要注意數(shù)據(jù)挖掘中的錯誤,下面小編和大家分享一下數(shù)據(jù)挖掘中需要注意的錯誤都有哪些,感興趣的小伙伴就隨小編一起來了解一下吧。
1、拋棄了不該忽略的案例(Discount Pesky Cases)
IDMer:到底是“寧為雞頭,不為鳳尾”,還是“大隱隱于市,小隱隱于野”?不同的人生態(tài)度可以有同樣精彩的人生,不同的數(shù)據(jù)也可能蘊含同樣重要的價值。
異常值可能會導致錯誤的結果(比如價格中的小數(shù)點標錯了),但也可能是問題的答案(比如臭氧洞)。所以需要仔細檢查這些異常。
研究中最讓激動的話語不是“啊哈!”,而是“這就有點奇怪了……”
數(shù)據(jù)中的不一致性有可能會是解決問題的線索,深挖下去也許可以解決一個大的業(yè)務問題。
例如:
在直郵營銷中,在對家庭地址的合并和清洗過程中發(fā)現(xiàn)的數(shù)據(jù)不一致,反而可能是新的營銷機會。
解決方法:
可視化可以幫助你分析大量的假設是否成立。
2、輕信預測(Extrapolate)
IDMer:依然是辯證法中的觀點,事物都是不斷發(fā)展變化的。
人們常常在經(jīng)驗不多的時候輕易得出一些結論。
即便發(fā)現(xiàn)了一些反例,人們也不太愿意放棄原先的想法。
維度咒語:在低維度上的直覺,放在高維度空間中,常常是毫無意義的。
解決方法:
進化論。沒有正確的結論,只有越來越準確的結論。
3、試圖回答所有問題(Answer Every Inquiry)
IDMer:有點像我爬山時鼓勵自己的一句話“我不知道什么時候能登上山峰,但我知道爬一步就離終點近一步。”
“不知道”是一種有意義的模型結果。
模型也許無法100%準確回答問題,但至少可以幫我們估計出現(xiàn)某種結果的可能性。
4、隨便地進行抽樣(Sample Casually)
(1)降低抽樣水平。例如,MD直郵公司進行響應預測分析,但發(fā)現(xiàn)數(shù)據(jù)集中的不響應客戶占比太高(總共一百萬直郵客戶,其中超過99%的人未對營銷做出響應)。于是建模人員做了如下抽樣:把所有響應者放入樣本集,然后在所有不響應者中進行系統(tǒng)抽樣,即每隔10人抽一個放入樣本集,直到樣本集達到10萬人。但模型居然得出如下規(guī)則:凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都會響應營銷。這顯然是有問題的結論。
解決方法:“喝前搖一搖”先打亂原始數(shù)據(jù)集中的順序,從而保證抽樣的隨機性。
(2)提高抽樣水平。例如,在信用評分中,因為違約客戶的占比一般都非常低,所以在建模時常常會人為調(diào)高違約客戶的占比(比如把這些違約客戶的權重提高5倍)。建模中發(fā)現(xiàn),隨著模型越來越復雜,判別違約客戶的準確率也越來越高,但對正??蛻舻恼`判率也隨之升高。(問題出在數(shù)據(jù)集的劃分上。在把原始數(shù)據(jù)集劃分為訓練集和測試集時,原始數(shù)據(jù)集中違約客戶的權重已經(jīng)被提高過了)
解決方法:先進行數(shù)據(jù)集劃分,然后再提高訓練集中違約客戶的權重。
5、太相信最佳模型(Believe the Best Model)
IDMer:還是那句老話-“沒有最好,只有更好!”
可解釋性并不一定總是必要的??雌饋聿⒉煌耆_或者可以解釋的模型,有時也會有用。
“最佳”模型中使用的一些變量,會分散人們太多的注意力。
一般來說,很多變量看起來彼此都很相似,而最佳模型的結構看上去也千差萬別,無跡可循。但需注意的是,結構上相似并不意味著功能上也相似。
解決方法:把多個模型集裝起來可能會帶來更好更穩(wěn)定的結果。
想要了解更多關于大數(shù)據(jù)開發(fā)方面內(nèi)容的小伙伴,請關注扣丁學堂大數(shù)據(jù)培訓官網(wǎng)、微信等平臺,扣丁學堂IT職業(yè)在線學習教育有專業(yè)的大數(shù)據(jù)講師為您指導,此外扣丁學堂老師精心推出的大數(shù)據(jù)視頻教程定能讓你快速掌握大數(shù)據(jù)從入門到精通開發(fā)實戰(zhàn)技能??鄱W堂大數(shù)據(jù)學習群:209080834。
【關注微信公眾號獲取更多學習資料】 【掃碼進入HTML5前端架構師進階免費公開課】
查看更多關于“大數(shù)據(jù)培訓資訊”的相關文章>