2018-05-08 15:28:11 1652瀏覽
有不少喜歡大數(shù)據(jù)或者正在參加大數(shù)據(jù)培訓(xùn)學(xué)習(xí)的小伙伴對(duì)用文本挖掘和機(jī)器學(xué)習(xí)洞悉數(shù)據(jù)不是很了解,本篇文章扣丁學(xué)堂大數(shù)據(jù)在線學(xué)習(xí)小編就給大家分享一下該內(nèi)容,下面我們一塊來(lái)看一下吧。
文本挖掘是對(duì)包含于自然語(yǔ)言文本中數(shù)據(jù)的分析。它可以幫組一個(gè)組織從基于文本的內(nèi)容中獲得潛在的有價(jià)值的業(yè)務(wù)洞察力,比如Word文檔,郵件和社交媒體流中發(fā)布的帖子,如Facebook,Twitter,和LinkedIn。對(duì)于機(jī)器學(xué)習(xí)技術(shù)中信息檢索和自然語(yǔ)言處理的應(yīng)用而言,文本挖掘已經(jīng)成為一個(gè)重要的研究領(lǐng)域。
文本挖掘是一個(gè)包含幾個(gè)步驟的過(guò)程:
第一步:適合應(yīng)用的文檔一般是確定的大量文本數(shù)據(jù)。文檔聚類(lèi)方法經(jīng)常用語(yǔ)解決“大量”這個(gè)問(wèn)題。這些方法是非監(jiān)督的學(xué)習(xí)方法,最受歡迎的文檔聚類(lèi)方法是K-means聚類(lèi)和凝聚層次聚類(lèi)。
第二步:文本是被清洗了的——它從網(wǎng)頁(yè)上的廣告中拆離出來(lái);標(biāo)準(zhǔn)化文本從二進(jìn)制格式轉(zhuǎn)換而來(lái);表、數(shù)字等式都是經(jīng)過(guò)處理的;還有其它的等等。然后,將文本中的詞語(yǔ)與對(duì)應(yīng)的詞類(lèi)標(biāo)記的步驟開(kāi)始進(jìn)行。有兩種方法標(biāo)出詞語(yǔ):一個(gè)是基于規(guī)則方法,依賴(lài)于語(yǔ)法規(guī)則;一個(gè)是基于統(tǒng)計(jì)的方法,它依賴(lài)于不同的詞序概率,并且需要一個(gè)用來(lái)機(jī)器學(xué)習(xí)的手工且有針對(duì)性的語(yǔ)料庫(kù)。之后,一個(gè)詞語(yǔ)在依據(jù)給定的話句子中所含有的擁有的許多不同的含義確定了。最后,語(yǔ)義結(jié)構(gòu)明確下來(lái)。有兩種方式來(lái)確定語(yǔ)義結(jié)構(gòu):完全語(yǔ)法分析,它會(huì)對(duì)一個(gè)句子會(huì)產(chǎn)生一個(gè)分析樹(shù),是部分語(yǔ)法分析的組合,部分語(yǔ)法分析會(huì)產(chǎn)生一個(gè)句子的語(yǔ)法結(jié)構(gòu),比如名詞短語(yǔ)和動(dòng)詞組。產(chǎn)生一個(gè)完整分析樹(shù)經(jīng)常失敗,因?yàn)檎Z(yǔ)法不準(zhǔn)確、異常詞匯、糟糕的符號(hào)化、不正確的句子拆分、詞性的標(biāo)準(zhǔn)錯(cuò)誤和其它等等原因。因此,分塊和部分分析更為常用。
第三步:這些詞語(yǔ)(特征)決定了文本表示。最基本的文檔表示方法有詞袋法和向量空間。這些方法的目標(biāo)在于確定哪些特征可以最好的描述一個(gè)文檔。
第四步:特征的維度被降低。為此,無(wú)關(guān)的屬性將被移除。
第五步:文本挖掘過(guò)程與傳統(tǒng)的數(shù)據(jù)挖掘過(guò)程結(jié)合。經(jīng)典的數(shù)據(jù)挖掘技術(shù)如聚類(lèi),分類(lèi),決策樹(shù),回歸分析,神經(jīng)網(wǎng)絡(luò)和近鄰取樣將被用在之前的階段所得到的結(jié)構(gòu)化數(shù)據(jù)庫(kù)上。
在最后的步驟中,如果結(jié)果不令人滿意,它們將會(huì)用做文本挖掘一個(gè)或多個(gè)早期階段所投入的一部分。
機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)的一個(gè)分支,它來(lái)源于模式識(shí)別研究好人工智能中計(jì)算學(xué)習(xí)理論。它探索了算法的研究和建立,認(rèn)為可以從數(shù)據(jù)中進(jìn)行學(xué)習(xí)并對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。這樣的算法運(yùn)行是通過(guò)樣例的輸入來(lái)建立模型,從它成為以數(shù)據(jù)作為驅(qū)動(dòng)的預(yù)測(cè)或者決策,而不是遵循嚴(yán)格的靜態(tài)程序指令。
機(jī)器學(xué)習(xí)與計(jì)算統(tǒng)計(jì)學(xué)非常相關(guān),并且經(jīng)常有所重疊——也是一個(gè)專(zhuān)門(mén)研究預(yù)測(cè)制定的學(xué)科。它和數(shù)學(xué)最優(yōu)化法有很強(qiáng)的關(guān)系,提供了方法、理論和應(yīng)用領(lǐng)域。它是使用一系列的計(jì)算任務(wù),其中顯示算法設(shè)計(jì)和編程都不可用。示例應(yīng)用程序包含垃圾郵件過(guò)濾,光學(xué)字符識(shí)別(OCR),搜索引擎和計(jì)算機(jī)視覺(jué)。文本挖掘利用機(jī)器學(xué)習(xí)在決定功能,降低維數(shù)和刪除不相關(guān)的屬性上的特別優(yōu)勢(shì)。
例如,文本挖掘?qū)C(jī)器學(xué)習(xí)用于情緒分析,它廣泛的應(yīng)用于評(píng)論到社交媒體,涵蓋了從營(yíng)銷(xiāo)到客戶服務(wù)各種不同的而應(yīng)用程序。它的目的是確定一個(gè)說(shuō)話者或?qū)懽髡邔?duì)一些話題的態(tài)度,或者是一個(gè)文檔整體語(yǔ)境的極性判定。這個(gè)態(tài)度可能是他或者她的判斷或評(píng)價(jià),情感狀態(tài)或情感交流。文本挖掘中機(jī)器學(xué)習(xí)算法包括決策樹(shù)學(xué)習(xí),關(guān)聯(lián)規(guī)則學(xué)習(xí),人工神經(jīng)學(xué)習(xí),歸納邏輯編程,支持向量機(jī),貝葉斯網(wǎng)絡(luò)、遺傳算法和稀疏字典的學(xué)習(xí)。
以上就是扣丁學(xué)堂大數(shù)據(jù)培訓(xùn)小編簡(jiǎn)述的用文本挖掘和機(jī)器學(xué)習(xí)洞悉數(shù)據(jù),想要了解更多內(nèi)容的小伙伴可以登錄扣丁學(xué)堂進(jìn)行咨詢(xún),扣丁學(xué)堂不僅有專(zhuān)業(yè)的老師和與時(shí)俱進(jìn)的課程體系,還有大量的大數(shù)據(jù)視頻教程供學(xué)員觀看學(xué)習(xí)哦??鄱W(xué)堂大數(shù)據(jù)學(xué)習(xí)群:209080834。
【關(guān)注微信公眾號(hào)獲取更多學(xué)習(xí)資料】
查看更多關(guān)于“大數(shù)據(jù)培訓(xùn)資訊”的相關(guān)文章>>