一a一片一级一片啪啪-一a一级片-一a级毛片-一一级黄色片-国产免费福利片-国产免费福利网站

熱門關(guān)鍵字:  聽力密碼  聽力密碼  新概念美語(yǔ)  單詞密碼  巧用聽寫練聽力
圖書信息
當(dāng)前位置 : 萬(wàn)水書苑>圖書展示>專著類>

文本分類中的幾個(gè)關(guān)鍵問題研究

中國(guó)水利水電出版社
    【作 者】裴志利 【I S B N 】978-7-5170-3115-4 【責(zé)任編輯】張玉玲 【適用讀者群】本專通用 【出版時(shí)間】2015-05-19 【開 本】16開 【裝幀信息】平裝(光膜) 【版 次】第1版第1次印刷 【頁(yè) 數(shù)】96 【千字?jǐn)?shù)】105 【印 張】6 【定 價(jià)】25 【叢 書】 【備注信息】
圖書詳情

    本書基于數(shù)據(jù)挖掘的相關(guān)技術(shù)做了如下幾個(gè)方面的工作:①針對(duì)標(biāo)準(zhǔn)互信息和tf.idf特征權(quán)重公式的缺點(diǎn)提出了改進(jìn)方法,改進(jìn)的方法明顯提高了宏觀準(zhǔn)確率、宏觀召回率和宏觀F1值;②針對(duì)標(biāo)準(zhǔn)tf.idf方法估算特征權(quán)重的盲目性,提出了基于實(shí)數(shù)域粗糙集理論的特征頻率重要度加權(quán)方法,該方法改善了樣本空間的分布狀態(tài),明顯提高了文本分類的效果;③提出了一種基于互信息和信息熵對(duì)的特征選擇方法,利用該方法進(jìn)行特征選擇的分類效果接近代表分類水平的支持向量機(jī);④提出了基于粗糙集的多知識(shí)粒度的啟發(fā)式屬性約簡(jiǎn)方法,通過(guò)引入悲觀和樂觀多粒度函數(shù),有效提高了分類的效率和準(zhǔn)確率;⑤研究了基于深度學(xué)習(xí)的主要模型,并選擇其中的Autoencoder進(jìn)行文本分類研究,在語(yǔ)料庫(kù)20NG上進(jìn)行了驗(yàn)證,證明了方法的有效性。

    近幾十年來(lái),隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,極大地方便了人們的交流與溝通,但是技術(shù)的進(jìn)步和發(fā)展也使得互聯(lián)網(wǎng)上出現(xiàn)了海量的文本資源,而對(duì)于互聯(lián)網(wǎng)用戶來(lái)說(shuō),出現(xiàn)了擁有海量信息但知識(shí)相對(duì)貧乏的現(xiàn)象,從而導(dǎo)致人們從海量的信息中獲取有意義的、相關(guān)性強(qiáng)的知識(shí)變得困難,因此將文本信息按照某些主題分類是一個(gè)迫切需要解決的問題。

    文本分類(Text Classification)是指依據(jù)文本的內(nèi)容,由計(jì)算機(jī)根據(jù)某種分類算法,把文本判分為預(yù)先定義好的一個(gè)或多個(gè)類別的過(guò)程。文本分類作為信息處理的一個(gè)重要環(huán)節(jié),已經(jīng)成為信息技術(shù)領(lǐng)域的一個(gè)主要研究方向。文本分類技術(shù)的出現(xiàn),使文檔可以自動(dòng)地按照類別組織和處理,符合人類組織和處理信息的方式,方便了人們準(zhǔn)確地定位所需的信息。同時(shí),作為信息過(guò)濾、信息檢索、搜索引擎等領(lǐng)域的技術(shù)基礎(chǔ),文本分類技術(shù)有著廣泛的應(yīng)用前景。

    20世紀(jì)50年代末開始,H.P.Lunhn等人對(duì)文本分類的工作進(jìn)行了開創(chuàng)性的研究。1961年,第一篇關(guān)于自動(dòng)文本分類的文章《Automatic indexing: an experimental inquiry》(Maron)發(fā)表,隨后很多學(xué)者進(jìn)入了這一領(lǐng)域的研究。20世紀(jì)80年代末之前,知識(shí)工程專家規(guī)則仍是自動(dòng)文本分類的主要方法。到了90年代,隨著可用文本數(shù)據(jù)量的不斷增長(zhǎng),機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法被引入自動(dòng)文本分類技術(shù)中,分類結(jié)果比基于知識(shí)工程專家規(guī)則的自動(dòng)文本分類方法取得了長(zhǎng)足的發(fā)展,并成為了主流研究方向。

    基于機(jī)器學(xué)習(xí)的文本分類方法中主要采用向量空間模型VSM(Vector Space Model),這個(gè)模型的關(guān)鍵技術(shù)有三個(gè)方面:特征選擇、特征權(quán)重估算、文本分類器設(shè)計(jì)。目前的相關(guān)研究工作主要是針對(duì)以上三個(gè)方面的關(guān)鍵技術(shù)進(jìn)行討論的。文本分類是一個(gè)系統(tǒng)工程,其中最重要的一個(gè)環(huán)節(jié)是特征選擇。特征選擇是指從高維的文本特征空間中選擇出最能代表文本內(nèi)容的特征詞,特征選擇技術(shù)一方面能夠降低文本特征空間的維數(shù),大大提高文本分類的效率;另一方面通過(guò)消除無(wú)效的特征詞,提高文本分類的精度。在實(shí)際的語(yǔ)料庫(kù)中,我們通常選取一個(gè)詞作為一個(gè)特征,將文本抽象成向量空間中的一個(gè)點(diǎn)是對(duì)文本進(jìn)行結(jié)構(gòu)化表示的一個(gè)重要步驟,由于文本中的詞語(yǔ)很多,就會(huì)造成特征空間的維數(shù)災(zāi)難,面對(duì)如此高維的特征空間,如果不進(jìn)行特征空間的優(yōu)化處理,那么任何分類算法都是無(wú)法承受的,所以尋找優(yōu)秀的特征選擇方法就是必要和有用的。

    近幾十年來(lái),伴隨著信息技術(shù)的發(fā)展,人們產(chǎn)生和收集數(shù)據(jù)的能力迅速提高,數(shù)據(jù)的規(guī)模急劇增加,傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)由于其自身的局限性,以及海量數(shù)據(jù)的復(fù)雜性、異構(gòu)性、動(dòng)態(tài)性,使得隱藏在數(shù)據(jù)中間的、有用的知識(shí)難以被發(fā)現(xiàn),因此出現(xiàn)了“數(shù)據(jù)豐富而信息缺乏”的現(xiàn)象。人們希望能夠有新的工具自動(dòng)地分析和整理如此龐大和復(fù)雜的數(shù)據(jù),從中發(fā)現(xiàn)有價(jià)值的信息,為決策提供必要的支持。面對(duì)這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生了。

    數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從海量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中抽取出潛在的、有效的、新穎的、有用的和最終可以理解和運(yùn)用的知識(shí)的過(guò)程。數(shù)據(jù)挖掘是一門涉及面很廣的交叉學(xué)科,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、人工智能、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、模式識(shí)別、粗糙集和模糊數(shù)學(xué)等相關(guān)技術(shù),它的主要任務(wù)是對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析、分類、聚類、預(yù)測(cè)、孤立點(diǎn)分析、演變分析等。盡管數(shù)據(jù)挖掘技術(shù)還有許多懸而未決的問題,但它廣泛的應(yīng)用前景和巨大的商業(yè)魅力,吸引了眾多學(xué)者極大的研究熱情和產(chǎn)業(yè)界人士的廣泛關(guān)注。

    很多數(shù)據(jù)挖掘技術(shù)在自動(dòng)文本分類中得到了廣泛的應(yīng)用。文本分類中的核心問題是構(gòu)造分類器,分類器需要通過(guò)某種算法進(jìn)行學(xué)習(xí)獲得。在文本分類中,幾乎存在著和一般分類同樣多的方法,主要的方法有:Rocchio算法、樸素貝葉斯算法(Naive Bayesian,NB)、K-近鄰算法(K-nearest neighbor,KNN)、DT算法、ANN算法和SVM等算法。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以在很大程度上解決信息的雜亂問題,對(duì)于信息的高效管理和有效利用都具有極其重要的意義,并且已成為數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的研究方向。因此,文本分類與數(shù)據(jù)挖掘相結(jié)合也就成了必然。

    基于機(jī)器學(xué)習(xí)的文本分類技術(shù)經(jīng)過(guò)幾十年的發(fā)展,已能較好地解決了大部分具有數(shù)據(jù)量相對(duì)較小、標(biāo)注比較完整及數(shù)據(jù)分布相對(duì)均勻等特點(diǎn)的問題和應(yīng)用。但是,自動(dòng)文本分類技術(shù)的大規(guī)模應(yīng)用仍有很多關(guān)鍵問題沒有得到很好的解決,這些問題的解決不僅可以使文本分類技術(shù)盡快進(jìn)入應(yīng)用階段,同時(shí)也為很多學(xué)者提供了明確的研究方向。

    在上述背景下,有必要利用數(shù)據(jù)挖掘方法在文本分類領(lǐng)域做一些有益的嘗試工作。本書受到國(guó)家自然科學(xué)基金項(xiàng)目(61163034,61373067)資助,鑒于作者水平有限,書中難免存在錯(cuò)誤之處,敬請(qǐng)讀者批評(píng)、指正。

    作者

    2014年12月28日

    于內(nèi)蒙古民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院

    第1章 緒論 1
    1.1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介 1
    1.1.1 數(shù)據(jù)挖掘的背景介紹 1
    1.1.2 數(shù)據(jù)挖掘的研究現(xiàn)狀 1
    1.1.3 數(shù)據(jù)挖掘的相關(guān)知識(shí) 3
    1.1.4 數(shù)據(jù)挖掘的應(yīng)用和研究方向 7
    1.2 數(shù)據(jù)挖掘技術(shù)在文本分類中的應(yīng)用 8
    1.2.1 數(shù)據(jù)挖掘技術(shù)在文本分類中的應(yīng)用 8
    1.2.2 文本分類的應(yīng)用和展望 9
    1.3 本書工作 11
    第2章 基于改進(jìn)互信息和特征權(quán)重的文本分類方法 13
    2.1 背景介紹 13
    2.2 特征選擇前的低頻特征預(yù)處理 15
    2.3 改進(jìn)互信息的特征選擇方法 16
    2.3.1 互信息方法 16
    2.3.2 互信息公式的改進(jìn) 17
    2.4 改進(jìn)的特征權(quán)重的估計(jì)方法 19
    2.4.1 tf.idf方法 19
    2.4.2 改進(jìn)的tf.idf方法 19
    2.5 模擬實(shí)驗(yàn) 21
    2.5.1 評(píng)價(jià)方法 21
    2.5.2 實(shí)驗(yàn)結(jié)果 22
    2.6 本章小結(jié) 25
    第3章 基于互信息和信息熵對(duì)的特征選擇方法 26
    3.1 背景介紹 26
    3.2 特征選擇方法 27
    3.2.1 互信息方法 27
    3.2.2 信息熵和信息熵對(duì) 27
    3.2.3 基于互信息和信息熵對(duì)的特征選擇方法 28
    3.3 仿真實(shí)驗(yàn) 29
    3.3.1 數(shù)據(jù)集 29
    3.3.2 評(píng)價(jià)方法 30
    3.3.3 實(shí)驗(yàn)結(jié)果 30
    3.4 本章小結(jié) 34
    第4章 基于實(shí)數(shù)域粗糙集特征加權(quán)的文本分類方法 35
    4.1 引言 35
    4.2 基于實(shí)數(shù)域粗糙集理論的幾個(gè)定義 35
    4.3 基于實(shí)數(shù)域粗糙集理論的改進(jìn)特征加權(quán)公式 37
    4.3.1 tf.idf方法 37
    4.3.2 改進(jìn)的tf.idf方法 37
    4.4 實(shí)驗(yàn)結(jié)果和分析 40
    4.5 本章小結(jié) 43
    第5章 基于多粒度粗糙集的啟發(fā)式屬性約簡(jiǎn) 44
    5.1 引言 44
    5.2 粗糙集基本概念 45
    5.2.1 上近似集和下近似集 45
    5.2.2 不可區(qū)分關(guān)系 45
    5.2.3 信息系統(tǒng)和決策信息系統(tǒng) 45
    5.2.4 屬性約簡(jiǎn) 45
    5.3 多粒度粗糙集模型 46
    5.3.1 悲觀多粒度下近似和上近似 46
    5.3.2 樂觀多粒度下近似和上近似 46
    5.4 基于多粒度粗糙集模型構(gòu)造新的知識(shí)粒度函數(shù) 46
    5.4.1 基于多粒度屬性重要度的屬性約簡(jiǎn) 46
    5.4.2 基于多知識(shí)粒度的啟發(fā)式屬性約簡(jiǎn)算法 48
    5.5 實(shí)驗(yàn)結(jié)果與分析 48
    5.5.1 選取語(yǔ)料集 48
    5.5.2 語(yǔ)料預(yù)處理 49
    5.5.3 評(píng)價(jià)指標(biāo) 49
    5.6 本章小結(jié) 50
    第6章 基于深度學(xué)習(xí)的文本分類 51
    6.1 背景介紹 51
    6.1.1 研究背景及意義 51
    6.1.2 研究現(xiàn)狀 52
    6.1.3 本章的研究?jī)?nèi)容 53
    6.2 文本分類技術(shù)及深度學(xué)習(xí)相關(guān)技術(shù) 54
    6.2.1 文本預(yù)處理過(guò)程 54
    6.2.2 文本的數(shù)學(xué)表示模型 55
    6.2.3 常用的文本分類算法 57
    6.2.4 深度學(xué)習(xí)的相關(guān)技術(shù) 60
    6.3 基于單個(gè)自動(dòng)編碼器的文本分類 61
    6.3.1 自動(dòng)編碼器結(jié)構(gòu) 63
    6.3.2 實(shí)驗(yàn)數(shù)據(jù)分析 65
    6.4 基于多個(gè)自動(dòng)編碼器的文本研究 70
    6.4.1 基于多個(gè)自編碼器分類的理論研究 70
    6.4.2 實(shí)驗(yàn)結(jié)果分析 71
    6.5 本章小結(jié) 75
    第7章 結(jié)論和展望 76
    參考文獻(xiàn) 78





最新評(píng)論共有 0 位網(wǎng)友發(fā)表了評(píng)論
發(fā)表評(píng)論
評(píng)論內(nèi)容:不能超過(guò)250字,需審核,請(qǐng)自覺遵守互聯(lián)網(wǎng)相關(guān)政策法規(guī)。
用戶名: 密碼:
匿名?
注冊(cè)
主站蜘蛛池模板: 国产永久高清免费动作片www | 欧美 在线 成 人怡红院 | 午夜成年女人毛片免费观看 | 亚洲韩精品欧美一区二区三区 | 欧美一区二区三区四区在线观看 | 日韩一级片 韩国 | 久久无码精品一区二区三区 | 国产在线视频一区二区三区 | 精品综合久久久久久98 | 欧美亚洲在线观看 | 91国内在线 | 免费看三级毛片 | 久久国产精品国产精品 | 91探花福利精品国产自产在线 | 老少配性xxxxxx| 国产成人综合手机在线播放 | 99久久精品免费观看国产 | 国产成人女人在线视频观看 | 中文字幕视频在线 | 国产在线视频一区二区三区 | 免费的a级毛片 | 亚洲欧美精品 | 国内自拍在线 | 国产一区二区在线观看视频 | 亚洲人成a在线网站 | 美女视频免费看视频网站 | 手机看片日韩日韩 | 日本一级特黄特色大片免费视频 | 久草福利资源网站免费 | 69精品免费视频 | 国产精品私人玩物在线观看 | 亚洲成av人影片在线观看 | 亚洲欧美日韩精品在线 | 亚洲看片 | 亚洲综合欧美综合 | 成年人午夜影院 | 久久久黄色大片 | 精品久久久久久久久久久久久久久 | 黄网免费 | 国产精品成人免费综合 | 国产欧美日韩视频免费61794 |