版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)以及電子數(shù)據(jù)急劇增長(zhǎng)。為了有效地組織和管理互聯(lián)網(wǎng)上的海量文本信息,通常按照樹型或者有向無環(huán)圖結(jié)構(gòu)的主題類別層次對(duì)互聯(lián)網(wǎng)文本進(jìn)行分類,將其組織為一個(gè)包含數(shù)千、甚至數(shù)萬個(gè)類別的分類目錄。通過建立全面、精確的互聯(lián)網(wǎng)分類目錄,可以實(shí)現(xiàn)快速、精細(xì)的網(wǎng)絡(luò)訪問控制。在這個(gè)過程中,大規(guī)模層次分類問題研究如何將互聯(lián)網(wǎng)文本準(zhǔn)確地分到類別層次中的各個(gè)類別。面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)是構(gòu)建互聯(lián)網(wǎng)分類目錄的基礎(chǔ),是構(gòu)建健康、
2、和諧的互聯(lián)網(wǎng)環(huán)境的重要技術(shù)手段,同時(shí)也是信息檢索、綠色上網(wǎng)、網(wǎng)絡(luò)信譽(yù)管理、安全過濾等網(wǎng)絡(luò)應(yīng)用的基礎(chǔ)。
與傳統(tǒng)文本分類不同,大規(guī)模層次分類的分類體系規(guī)模巨大,缺少足夠有效的訓(xùn)練語料,其分類對(duì)象以web文本為主,同時(shí)正向社會(huì)化文本演進(jìn)。這些特征使其與傳統(tǒng)的文本分類問題有很大差別,在技術(shù)上也帶來了更大的挑戰(zhàn)。本文在分析了相關(guān)工作的基礎(chǔ)上,主要針對(duì)大規(guī)模層次分類的分類體系規(guī)模巨大、稀有類別普遍、分類學(xué)習(xí)缺少標(biāo)注樣本、分類對(duì)象向社會(huì)化文
3、本演進(jìn)等四個(gè)特性進(jìn)行了研究,主要研究?jī)?nèi)容和成果包括:
1)對(duì)大規(guī)模層次分類問題進(jìn)行了綜述。給出了大規(guī)模層次分類問題的定義,分析了大規(guī)模層次分類問題的求解策略;對(duì)大規(guī)模層次分類問題的求解方法加以分類,在分類的基礎(chǔ)上,介紹了各種典型的求解方法并進(jìn)行對(duì)比;最后總結(jié)了大規(guī)模層次分類問題求解方法并指出了各種分類方法的適用性。
2)針對(duì)類別層次規(guī)模巨大的特性,研究了基于候選類別搜索的兩階段分類方法,通過搜索類別層次中與待分類文檔
4、相關(guān)的候選類別,將大規(guī)模分類問題降低為一個(gè)規(guī)模較小的分類問題,然后根據(jù)候選類別的樣本訓(xùn)練分類器,對(duì)文檔進(jìn)行分類。首先對(duì)候選搜索相關(guān)概念進(jìn)行定義并提出了候選搜索的量化評(píng)價(jià)指標(biāo);然后分析了候選搜索問題的計(jì)算復(fù)雜度,通過將集合覆蓋問題規(guī)約到候選搜索問題,證明了候選搜索問題是NP難的;進(jìn)一步提出了一個(gè)基于貪心策略的啟發(fā)式候選搜索算法,證明了該算法采用的貪心策略是一個(gè)局部最優(yōu)選擇,并且該算法是多項(xiàng)式時(shí)間復(fù)雜度;在分類階段,根據(jù)候選類別在類別樹中的
5、上下文信息,利用祖先類別區(qū)分不同候選類別。最后,結(jié)合該候選搜索方法和祖先輔助策略實(shí)現(xiàn)了一個(gè)兩階段分類方法,綜合判斷文檔類別。我們采用ODP簡(jiǎn)體中文目錄中的網(wǎng)頁數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)論證,實(shí)驗(yàn)結(jié)果顯示,相比已有算法,本文提出的候選類別搜索算法在候選類別搜索的準(zhǔn)確率上提高了大約7.5%,在此基礎(chǔ)上,結(jié)合類別層次的兩階段分類方法取得了更好的分類效果。
3)針對(duì)稀有類別實(shí)例稀少的特性,利用LDA主題模型挖掘文檔的主題特征,研究基于LDA特征抽
6、取的層次式分類方法。在主題類別層次中,一個(gè)主題類別通常包含一系列的子話題類別,文檔中的主題特征能夠很好地反映其所屬的類別,對(duì)此我們采用LDA模型進(jìn)行主題特征抽取,將文檔從詞特征空間轉(zhuǎn)化到主題特征空間,通過特征降維以減小文本數(shù)據(jù)的高維稀疏問題。另外,結(jié)合類別層次進(jìn)行樣本數(shù)據(jù)分組,以增加稀有類別的訓(xùn)練樣本。由于LDA主題抽取的時(shí)間開銷比較大,我們采用了層次式分類模型,以降低分類學(xué)習(xí)和預(yù)測(cè)的時(shí)間開銷。最后,結(jié)合網(wǎng)頁數(shù)據(jù)的特點(diǎn),采用適合處理小樣
7、本、高維模式問題的支持向量機(jī)模型訓(xùn)練兩類分類器,提出了一個(gè)top-down分類框架進(jìn)行分類的訓(xùn)練和預(yù)測(cè)。我們?cè)贠DP簡(jiǎn)體中文目錄上進(jìn)行實(shí)驗(yàn)測(cè)試,同基于特征詞的top-down分類方法相比,本文提出的方法能夠有效提高web主題目錄中稀有類別的分類性能。
4)針對(duì)專家編制的分類體系缺少語料的問題,研究了無標(biāo)記數(shù)據(jù)分類方法。傳統(tǒng)的文本分類方法需要標(biāo)注好的語料來訓(xùn)練分類器,但是人工標(biāo)記語料代價(jià)昂貴。對(duì)此,本文結(jié)合類別知識(shí)和主題層次信息
8、來構(gòu)造web查詢,從多種web數(shù)據(jù)中搜索相關(guān)文檔并抽取學(xué)習(xí)樣本,為監(jiān)督學(xué)習(xí)找到分類依據(jù),并結(jié)合層次式支持向量機(jī)進(jìn)行分類器的學(xué)習(xí)。針對(duì)web搜索結(jié)果中含有噪聲數(shù)據(jù)的問題,采用以下三個(gè)手段來提高分類學(xué)習(xí)效果:1)利用類別知識(shí)和類別層次信息構(gòu)造web查詢,采用節(jié)點(diǎn)的標(biāo)簽路徑生成查詢關(guān)鍵詞;2)利用多數(shù)據(jù)源產(chǎn)生樣本,同時(shí)從谷歌搜索引擎、維基百科這兩個(gè)數(shù)據(jù)源搜索相關(guān)頁面和文檔,獲取全面的樣本數(shù)據(jù);3)結(jié)合類別層次對(duì)樣本數(shù)據(jù)分組,為每個(gè)類別獲得更加
9、完整的特征源,利用主題類別層次學(xué)習(xí)分類模型。最后實(shí)現(xiàn)了一種基于無標(biāo)記web數(shù)據(jù)的層次式文本分類方法。我們?cè)贠DP簡(jiǎn)體中文目錄數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試,本文提出的方法在分類精度上接近于有標(biāo)注訓(xùn)練樣本的監(jiān)督分類方法,但是避免了人工標(biāo)注樣本的工作。
5)針對(duì)社會(huì)化文本分類對(duì)象,提出了一個(gè)用戶主題模型UTM,根據(jù)微博的不同生成方式,將用戶興趣分為原創(chuàng)興趣和轉(zhuǎn)發(fā)興趣進(jìn)行分析;采用吉布斯抽樣法對(duì)模型進(jìn)行推導(dǎo),分別發(fā)現(xiàn)用戶的原創(chuàng)主題偏好和轉(zhuǎn)發(fā)主
10、題偏好,然后以此計(jì)算用戶興趣詞。根據(jù)UTM模型發(fā)現(xiàn)的用戶興趣詞,可以實(shí)現(xiàn)微博用戶的關(guān)鍵詞標(biāo)記和標(biāo)簽推薦。我們?cè)谛吕宋⒉?shù)據(jù)集上驗(yàn)證了UTM模型的性能表現(xiàn),實(shí)驗(yàn)結(jié)果表明在微博用戶興趣詞標(biāo)記上,其準(zhǔn)確率高于已有方法。針對(duì)用戶興趣詞粒度太細(xì),不能有效實(shí)現(xiàn)用戶分類的不足,隨后提出了一個(gè)有監(jiān)督的產(chǎn)生式模型uLTM,該模型將用戶偏好表示為標(biāo)簽和主題,對(duì)用戶標(biāo)簽進(jìn)行主題建模。uLTM將用戶標(biāo)簽類別作為一個(gè)觀察變量,將其引入產(chǎn)生式模型,利用主題模型的無
11、監(jiān)督學(xué)習(xí)機(jī)制發(fā)現(xiàn)微博中的隱含主題模式,利用有監(jiān)督學(xué)習(xí)發(fā)現(xiàn)用戶標(biāo)簽的主題特征分布,然后推導(dǎo)微博用戶的主題類別,最終實(shí)現(xiàn)微博用戶的準(zhǔn)確分類。我們?cè)赥witter數(shù)據(jù)集上驗(yàn)證了uLTM模型在微博用戶分類上的性能表現(xiàn),實(shí)驗(yàn)結(jié)果表明該模型適合對(duì)主題含義明確的類別標(biāo)簽進(jìn)行建模與分類。
綜上所述,本文針對(duì)大規(guī)模層次分類的分類體系規(guī)模巨大、稀有類別普遍、分類學(xué)習(xí)缺少標(biāo)注樣本、分類對(duì)象向社會(huì)化文本演進(jìn)等四個(gè)特征,研究了大規(guī)模層次分類的候選類別搜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- mba論文面向互聯(lián)網(wǎng)文本的大規(guī)模層次分類技術(shù)研究pdf
- 互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究.pdf
- 互聯(lián)網(wǎng)文本視頻過濾技術(shù)研究與應(yīng)用.pdf
- 面向大規(guī)模短文本的分類技術(shù)研究.pdf
- 互聯(lián)網(wǎng)文本自動(dòng)文摘技術(shù)的研究.pdf
- 互聯(lián)網(wǎng)文本信息協(xié)助下的圖像分類.pdf
- 面向互聯(lián)網(wǎng)的中文問題分類技術(shù)研究.pdf
- 大規(guī)?;ヂ?lián)網(wǎng)圖像自動(dòng)識(shí)別技術(shù)研究.pdf
- 面向移動(dòng)互聯(lián)網(wǎng)的文本分類技術(shù)應(yīng)用研究.pdf
- 互聯(lián)網(wǎng)短文本信息分類關(guān)鍵技術(shù)研究.pdf
- mba論文面向比較語義的互聯(lián)網(wǎng)文本挖掘關(guān)鍵問題研究pdf
- 面向互聯(lián)網(wǎng)應(yīng)用的不平衡數(shù)據(jù)分類技術(shù)研究.pdf
- 大規(guī)模層次文本分類解決方案
- 關(guān)于互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘的一些關(guān)鍵技術(shù)研究.pdf
- 范例推理與互聯(lián)網(wǎng)文本信息處理研究.pdf
- 面向互聯(lián)網(wǎng)的構(gòu)件獲取技術(shù)研究.pdf
- 面向互聯(lián)網(wǎng)的信息過濾技術(shù)研究.pdf
- 大規(guī)模層次文本分類的解決方案.pdf
- 大規(guī)模Web文本快速分類關(guān)鍵技術(shù)研究.pdf
- 大規(guī)模戰(zhàn)術(shù)互聯(lián)網(wǎng)移動(dòng)自組織路由協(xié)議優(yōu)化技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論