文本分類中的幾個(gè)關(guān)鍵問題研究

簡(jiǎn)介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
本書基于數(shù)據(jù)挖掘的相關(guān)技術(shù)做了如下幾個(gè)方面的工作:①針對(duì)標(biāo)準(zhǔn)互信息和tf.idf特征權(quán)重公式的缺點(diǎn)提出了改進(jìn)方法,改進(jìn)的方法明顯提高了宏觀準(zhǔn)確率、宏觀召回率和宏觀F1值;②針對(duì)標(biāo)準(zhǔn)tf.idf方法估算特征權(quán)重的盲目性,提出了基于實(shí)數(shù)域粗糙集理論的特征頻率重要度加權(quán)方法,該方法改善了樣本空間的分布狀態(tài),明顯提高了文本分類的效果;③提出了一種基于互信息和信息熵對(duì)的特征選擇方法,利用該方法進(jìn)行特征選擇的分類效果接近代表分類水平的支持向量機(jī);④提出了基于粗糙集的多知識(shí)粒度的啟發(fā)式屬性約簡(jiǎn)方法,通過(guò)引入悲觀和樂觀多粒度函數(shù),有效提高了分類的效率和準(zhǔn)確率;⑤研究了基于深度學(xué)習(xí)的主要模型,并選擇其中的Autoencoder進(jìn)行文本分類研究,在語(yǔ)料庫(kù)20NG上進(jìn)行了驗(yàn)證,證明了方法的有效性。
近幾十年來(lái),隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,極大地方便了人們的交流與溝通,但是技術(shù)的進(jìn)步和發(fā)展也使得互聯(lián)網(wǎng)上出現(xiàn)了海量的文本資源,而對(duì)于互聯(lián)網(wǎng)用戶來(lái)說(shuō),出現(xiàn)了擁有海量信息但知識(shí)相對(duì)貧乏的現(xiàn)象,從而導(dǎo)致人們從海量的信息中獲取有意義的、相關(guān)性強(qiáng)的知識(shí)變得困難,因此將文本信息按照某些主題分類是一個(gè)迫切需要解決的問題。
文本分類(Text Classification)是指依據(jù)文本的內(nèi)容,由計(jì)算機(jī)根據(jù)某種分類算法,把文本判分為預(yù)先定義好的一個(gè)或多個(gè)類別的過(guò)程。文本分類作為信息處理的一個(gè)重要環(huán)節(jié),已經(jīng)成為信息技術(shù)領(lǐng)域的一個(gè)主要研究方向。文本分類技術(shù)的出現(xiàn),使文檔可以自動(dòng)地按照類別組織和處理,符合人類組織和處理信息的方式,方便了人們準(zhǔn)確地定位所需的信息。同時(shí),作為信息過(guò)濾、信息檢索、搜索引擎等領(lǐng)域的技術(shù)基礎(chǔ),文本分類技術(shù)有著廣泛的應(yīng)用前景。
20世紀(jì)50年代末開始,H.P.Lunhn等人對(duì)文本分類的工作進(jìn)行了開創(chuàng)性的研究。1961年,第一篇關(guān)于自動(dòng)文本分類的文章《Automatic indexing: an experimental inquiry》(Maron)發(fā)表,隨后很多學(xué)者進(jìn)入了這一領(lǐng)域的研究。20世紀(jì)80年代末之前,知識(shí)工程專家規(guī)則仍是自動(dòng)文本分類的主要方法。到了90年代,隨著可用文本數(shù)據(jù)量的不斷增長(zhǎng),機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法被引入自動(dòng)文本分類技術(shù)中,分類結(jié)果比基于知識(shí)工程專家規(guī)則的自動(dòng)文本分類方法取得了長(zhǎng)足的發(fā)展,并成為了主流研究方向。
基于機(jī)器學(xué)習(xí)的文本分類方法中主要采用向量空間模型VSM(Vector Space Model),這個(gè)模型的關(guān)鍵技術(shù)有三個(gè)方面:特征選擇、特征權(quán)重估算、文本分類器設(shè)計(jì)。目前的相關(guān)研究工作主要是針對(duì)以上三個(gè)方面的關(guān)鍵技術(shù)進(jìn)行討論的。文本分類是一個(gè)系統(tǒng)工程,其中最重要的一個(gè)環(huán)節(jié)是特征選擇。特征選擇是指從高維的文本特征空間中選擇出最能代表文本內(nèi)容的特征詞,特征選擇技術(shù)一方面能夠降低文本特征空間的維數(shù),大大提高文本分類的效率;另一方面通過(guò)消除無(wú)效的特征詞,提高文本分類的精度。在實(shí)際的語(yǔ)料庫(kù)中,我們通常選取一個(gè)詞作為一個(gè)特征,將文本抽象成向量空間中的一個(gè)點(diǎn)是對(duì)文本進(jìn)行結(jié)構(gòu)化表示的一個(gè)重要步驟,由于文本中的詞語(yǔ)很多,就會(huì)造成特征空間的維數(shù)災(zāi)難,面對(duì)如此高維的特征空間,如果不進(jìn)行特征空間的優(yōu)化處理,那么任何分類算法都是無(wú)法承受的,所以尋找優(yōu)秀的特征選擇方法就是必要和有用的。
近幾十年來(lái),伴隨著信息技術(shù)的發(fā)展,人們產(chǎn)生和收集數(shù)據(jù)的能力迅速提高,數(shù)據(jù)的規(guī)模急劇增加,傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)由于其自身的局限性,以及海量數(shù)據(jù)的復(fù)雜性、異構(gòu)性、動(dòng)態(tài)性,使得隱藏在數(shù)據(jù)中間的、有用的知識(shí)難以被發(fā)現(xiàn),因此出現(xiàn)了“數(shù)據(jù)豐富而信息缺乏”的現(xiàn)象。人們希望能夠有新的工具自動(dòng)地分析和整理如此龐大和復(fù)雜的數(shù)據(jù),從中發(fā)現(xiàn)有價(jià)值的信息,為決策提供必要的支持。面對(duì)這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生了。
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從海量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中抽取出潛在的、有效的、新穎的、有用的和最終可以理解和運(yùn)用的知識(shí)的過(guò)程。數(shù)據(jù)挖掘是一門涉及面很廣的交叉學(xué)科,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、人工智能、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、模式識(shí)別、粗糙集和模糊數(shù)學(xué)等相關(guān)技術(shù),它的主要任務(wù)是對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析、分類、聚類、預(yù)測(cè)、孤立點(diǎn)分析、演變分析等。盡管數(shù)據(jù)挖掘技術(shù)還有許多懸而未決的問題,但它廣泛的應(yīng)用前景和巨大的商業(yè)魅力,吸引了眾多學(xué)者極大的研究熱情和產(chǎn)業(yè)界人士的廣泛關(guān)注。
很多數(shù)據(jù)挖掘技術(shù)在自動(dòng)文本分類中得到了廣泛的應(yīng)用。文本分類中的核心問題是構(gòu)造分類器,分類器需要通過(guò)某種算法進(jìn)行學(xué)習(xí)獲得。在文本分類中,幾乎存在著和一般分類同樣多的方法,主要的方法有:Rocchio算法、樸素貝葉斯算法(Naive Bayesian,NB)、K-近鄰算法(K-nearest neighbor,KNN)、DT算法、ANN算法和SVM等算法。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在很大程度上解決信息的雜亂問題,對(duì)于信息的高效管理和有效利用都具有極其重要的意義,并且已成為數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的研究方向。因此,文本分類與數(shù)據(jù)挖掘相結(jié)合也就成了必然。
基于機(jī)器學(xué)習(xí)的文本分類技術(shù)經(jīng)過(guò)幾十年的發(fā)展,已能較好地解決了大部分具有數(shù)據(jù)量相對(duì)較小、標(biāo)注比較完整及數(shù)據(jù)分布相對(duì)均勻等特點(diǎn)的問題和應(yīng)用。但是,自動(dòng)文本分類技術(shù)的大規(guī)模應(yīng)用仍有很多關(guān)鍵問題沒有得到很好的解決,這些問題的解決不僅可以使文本分類技術(shù)盡快進(jìn)入應(yīng)用階段,同時(shí)也為很多學(xué)者提供了明確的研究方向。
在上述背景下,有必要利用數(shù)據(jù)挖掘方法在文本分類領(lǐng)域做一些有益的嘗試工作。本書受到國(guó)家自然科學(xué)基金項(xiàng)目(61163034,61373067)資助,鑒于作者水平有限,書中難免存在錯(cuò)誤之處,敬請(qǐng)讀者批評(píng)、指正。
作者
2014年12月28日
于內(nèi)蒙古民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
1.1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介 1
1.1.1 數(shù)據(jù)挖掘的背景介紹 1
1.1.2 數(shù)據(jù)挖掘的研究現(xiàn)狀 1
1.1.3 數(shù)據(jù)挖掘的相關(guān)知識(shí) 3
1.1.4 數(shù)據(jù)挖掘的應(yīng)用和研究方向 7
1.2 數(shù)據(jù)挖掘技術(shù)在文本分類中的應(yīng)用 8
1.2.1 數(shù)據(jù)挖掘技術(shù)在文本分類中的應(yīng)用 8
1.2.2 文本分類的應(yīng)用和展望 9
1.3 本書工作 11
第2章 基于改進(jìn)互信息和特征權(quán)重的文本分類方法 13
2.1 背景介紹 13
2.2 特征選擇前的低頻特征預(yù)處理 15
2.3 改進(jìn)互信息的特征選擇方法 16
2.3.1 互信息方法 16
2.3.2 互信息公式的改進(jìn) 17
2.4 改進(jìn)的特征權(quán)重的估計(jì)方法 19
2.4.1 tf.idf方法 19
2.4.2 改進(jìn)的tf.idf方法 19
2.5 模擬實(shí)驗(yàn) 21
2.5.1 評(píng)價(jià)方法 21
2.5.2 實(shí)驗(yàn)結(jié)果 22
2.6 本章小結(jié) 25
第3章 基于互信息和信息熵對(duì)的特征選擇方法 26
3.1 背景介紹 26
3.2 特征選擇方法 27
3.2.1 互信息方法 27
3.2.2 信息熵和信息熵對(duì) 27
3.2.3 基于互信息和信息熵對(duì)的特征選擇方法 28
3.3 仿真實(shí)驗(yàn) 29
3.3.1 數(shù)據(jù)集 29
3.3.2 評(píng)價(jià)方法 30
3.3.3 實(shí)驗(yàn)結(jié)果 30
3.4 本章小結(jié) 34
第4章 基于實(shí)數(shù)域粗糙集特征加權(quán)的文本分類方法 35
4.1 引言 35
4.2 基于實(shí)數(shù)域粗糙集理論的幾個(gè)定義 35
4.3 基于實(shí)數(shù)域粗糙集理論的改進(jìn)特征加權(quán)公式 37
4.3.1 tf.idf方法 37
4.3.2 改進(jìn)的tf.idf方法 37
4.4 實(shí)驗(yàn)結(jié)果和分析 40
4.5 本章小結(jié) 43
第5章 基于多粒度粗糙集的啟發(fā)式屬性約簡(jiǎn) 44
5.1 引言 44
5.2 粗糙集基本概念 45
5.2.1 上近似集和下近似集 45
5.2.2 不可區(qū)分關(guān)系 45
5.2.3 信息系統(tǒng)和決策信息系統(tǒng) 45
5.2.4 屬性約簡(jiǎn) 45
5.3 多粒度粗糙集模型 46
5.3.1 悲觀多粒度下近似和上近似 46
5.3.2 樂觀多粒度下近似和上近似 46
5.4 基于多粒度粗糙集模型構(gòu)造新的知識(shí)粒度函數(shù) 46
5.4.1 基于多粒度屬性重要度的屬性約簡(jiǎn) 46
5.4.2 基于多知識(shí)粒度的啟發(fā)式屬性約簡(jiǎn)算法 48
5.5 實(shí)驗(yàn)結(jié)果與分析 48
5.5.1 選取語(yǔ)料集 48
5.5.2 語(yǔ)料預(yù)處理 49
5.5.3 評(píng)價(jià)指標(biāo) 49
5.6 本章小結(jié) 50
第6章 基于深度學(xué)習(xí)的文本分類 51
6.1 背景介紹 51
6.1.1 研究背景及意義 51
6.1.2 研究現(xiàn)狀 52
6.1.3 本章的研究?jī)?nèi)容 53
6.2 文本分類技術(shù)及深度學(xué)習(xí)相關(guān)技術(shù) 54
6.2.1 文本預(yù)處理過(guò)程 54
6.2.2 文本的數(shù)學(xué)表示模型 55
6.2.3 常用的文本分類算法 57
6.2.4 深度學(xué)習(xí)的相關(guān)技術(shù) 60
6.3 基于單個(gè)自動(dòng)編碼器的文本分類 61
6.3.1 自動(dòng)編碼器結(jié)構(gòu) 63
6.3.2 實(shí)驗(yàn)數(shù)據(jù)分析 65
6.4 基于多個(gè)自動(dòng)編碼器的文本研究 70
6.4.1 基于多個(gè)自編碼器分類的理論研究 70
6.4.2 實(shí)驗(yàn)結(jié)果分析 71
6.5 本章小結(jié) 75
第7章 結(jié)論和展望 76
參考文獻(xiàn) 78
- 信息技術(shù)基礎(chǔ)(麒麟操作系統(tǒng)+WPS Office) [主編 芮雪 蔣莉 王亮亮]
- Office高級(jí)應(yīng)用項(xiàng)目式教程(第2版) [主編 李觀金 張倩文 黎夏克 ]
- 巧用翻譯學(xué)英語(yǔ):英漢互譯500例 [王學(xué)文 著]
- 高等教育多維評(píng)價(jià)體系構(gòu)建與高質(zhì)量發(fā)展研究 [張妍 著]
- 系統(tǒng)規(guī)劃與管理師章節(jié)習(xí)題與考點(diǎn)特訓(xùn)(第二版) [主編 薛大龍]
- 計(jì)算機(jī)操作系統(tǒng)實(shí)踐指導(dǎo)(openEuler版) [主編 秦光 曾陳萍 岳付強(qiáng)]
- 信息系統(tǒng)管理工程師真題及模考卷精析(適用機(jī)考) [主 編 薛大龍 程 剛 上官緒]
- 航海類院校體育教育教學(xué)研究 [張利超 李寧 著]
- 新時(shí)代背景下我國(guó)職業(yè)教育產(chǎn)教融合長(zhǎng)效機(jī)制建設(shè)研究 [王玉賢 著]
- 電路分析 [主編 李飛 毛先柏]
- 信息系統(tǒng)管理工程師(適用第2版大綱)一站通關(guān) [指尖瘋 編著]
- 傳統(tǒng)山水畫論解讀與實(shí)踐 [陳鈉 著]
- 網(wǎng)絡(luò)工程師備考一本通(適配第6版考綱) [夏杰 編著]
- 陳孝云的職教理想與情懷 [祝吉太 江傳瑞 張義廷 著]
- 地方本科院校電子信息學(xué)科課程思政案例集 [王甫]
- Excel數(shù)據(jù)處理與分析(第二版) [主編 張志明 鄒 蕾]
- 網(wǎng)絡(luò)工程師5天修煉(適配第6版考綱) [主編 朱小平 施游]
- 倉(cāng)儲(chǔ)管理實(shí)務(wù)(第二版) [周寧武 編著]
- 基于AE與C#的地理信息系統(tǒng)二次開發(fā) [李小根 賈艷昌 喬翠平 姜彤 ]
- 2023年長(zhǎng)沙市文化和旅游業(yè)發(fā)展報(bào)告 [主編 陳莉]
- 舞臺(tái)化妝造型設(shè)計(jì) [主編 劉思彤 張 濤 張憶雨]
- 產(chǎn)教融合視角高校體育專業(yè)實(shí)踐教學(xué)體系構(gòu)建研究 [楊柳青 葉華兵 著]
- 知識(shí)圖譜及應(yīng)用案例 [張善文 黃文準(zhǔn) 于長(zhǎng)青 陳明淑]
- Python程序設(shè)計(jì)案例教程(微課版) [主編 石利平 田輝平 余以勝]
- 皓月繁星:青少年兒童心理成長(zhǎng)手冊(cè) [主 編 林贊歌 副主編 杜志南]
- 材料力學(xué) [章寶華 趙新勝 徐斌]
- 系統(tǒng)集成項(xiàng)目管理工程師考試32小時(shí)通關(guān)(第3版) [主編 薛大龍 副主編 上官緒陽(yáng)]
- 軟考論文高分特訓(xùn)與范文10篇——系統(tǒng)分析師(第二版) [薛大龍 鄒月平 施游]
- 黃河海勃灣水利樞紐防凌安全運(yùn)行 [王戰(zhàn)領(lǐng) 王叢發(fā) 范瑜彬 著]
- 大學(xué)生心理健康教育 [方雄 著]