2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1基于多數(shù)據(jù)源的知識圖譜構建方法研究基于多數(shù)據(jù)源的知識圖譜構建方法研究摘要:摘要:針對多數(shù)據(jù)源的融合應用,構建了基于多數(shù)據(jù)源的知識圖譜。首先,對不同領域內的數(shù)據(jù)源構建相應本體庫,并將不同本體庫通過數(shù)據(jù)融合映射到全局本體庫,然后,利用實體對齊和實體鏈接方法進行知識獲取和融合,最后,搭建知識圖譜應用平臺,提供查詢和統(tǒng)計等操作。在實體對齊方面,利用傳統(tǒng)的基于相似性傳播實體對齊方法,獲得良好的實體對齊效果;在實體鏈接方面,提出了基于約束嵌入轉換

2、的預測推理方法,實驗結果表明,在預測準確率上取得較好的結果。0引言引言在大數(shù)據(jù)時代背景下,隨著海量數(shù)據(jù)的出現(xiàn)以及多數(shù)據(jù)源融合交叉應用,傳統(tǒng)的數(shù)據(jù)管理模式以及查詢方式受到一定的制約。近年來,知識圖譜(KnowledgeGraph)[1]作為一種新的知識表示方法和數(shù)據(jù)管理模式,在自然語言處理、問題回答、信息檢索等領域有著重要的應用。知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系;其基本組成單位是“實體關系實體”

3、三元組,以及實體及其相關屬性值對,實體間通過關系相互聯(lián)結,構成網(wǎng)狀的知識結構[2]。隨著谷歌知識圖譜的發(fā)布,知識圖譜的構建與應用研究引起了學術界和工業(yè)界的廣泛關注。在國內,知識圖譜的構建與研究已經(jīng)起步,相應取得許多重要的研究成果。如:搜狗的知立方、百度知心;復旦大學GDM實驗室設計了一種面向圖書閱讀領域的中文知識圖譜[3];金貴陽等[4]利用知識圖譜和語義網(wǎng)技術,提出構建企業(yè)知識圖譜的方法,并應用于鋼鐵企業(yè)信息集成,提高了企業(yè)信息查詢的

4、效率;胡芳槐[5]在博士論文中研究了基于多數(shù)據(jù)源的中文知識圖譜構建方法,涉及到本體層構建、實體層的學習等,同時構建行業(yè)領域知識圖譜的應用平臺;王巍巍等[6]構建了雙語影視知識圖譜,包括影視本體庫的構建、實體的鏈接、實體匹配等,并搭建了應用平臺與開放數(shù)據(jù)訪問接口;鄂世嘉等[7]提出了一種端到端基于中文百科數(shù)據(jù)的中文知識圖譜自動化構建方案,并開發(fā)面向用戶的中文知識圖譜系統(tǒng)?,F(xiàn)有的行業(yè)領域知識圖譜通常采用手工構建方式,缺乏統(tǒng)一的構建方法,且這

5、類知識庫目標是特定行業(yè)領域,因此,其描述范圍極為有限。針對這些問題,提出了將不同領域知識庫進行融合成一個知識圖譜,旨在構建語義一致、結構一致的多數(shù)據(jù)融合知識圖譜,實現(xiàn)對不同領域內的知識進行查詢和展示,從而提高了數(shù)據(jù)查詢效率。本文提出一個多數(shù)據(jù)源融合的知識圖譜構建流程,并對關鍵技術進行研究,包括數(shù)據(jù)源的獲取、領域本體庫的構建、全局本體庫的構建、實體對齊、實體鏈接以及應用平臺的搭建。文中利用某地區(qū)的醫(yī)院醫(yī)療保健數(shù)據(jù)、空氣污染監(jiān)測數(shù)據(jù)和環(huán)境監(jiān)

6、測數(shù)據(jù),構建了多數(shù)據(jù)融合的知識圖譜。1知識圖譜構建過程知識圖譜構建過程知識圖譜構建是知識圖譜得以應用發(fā)展的前提,涉及實體抽取和實體及實體之間關系的建立,同時還需要很好地組織和存儲抽取的實體與關系信息,使其能夠被迅速的訪問和操作[8]。知識圖譜構建過程通常可以分成兩步:知識圖譜本體層構建和實體層的學習[5]。本體層構建通常包含術語抽取、同義詞抽取、概念抽取、分類關系抽取、公理和規(guī)則學習;實體層學習則包含實體學習、實體數(shù)據(jù)填充、實體對齊和實

7、體鏈接等。知識圖譜的構建方法通常有自頂向下和自底向上兩種[2]。所謂自頂向下的方法是指先構建知識圖譜的本體,即從行業(yè)領域、百科類網(wǎng)站及其它等高質量的數(shù)據(jù)源中,提取本體和模式信息,添加到知識庫中;而自底向上的方法是指從實體層開始,借助于一定的技術手段,對實體進行歸納組織、實體對齊和實體鏈接等,并提取出具有較高置信度的新模式,經(jīng)人工審核后,加入到知識圖譜中。然而,在實際的構建過程中,并不是兩種方法孤立單獨進行著,而是兩種方法交替結合的過程。

8、本文在構建多數(shù)據(jù)源的知識圖譜時采用兩種方法的結合,首先采用自頂向下的方式來構建本體庫,然后采用自底向上的方式進行提取知識來擴展知識圖譜。3概念之間的關系、概念與屬性間的聯(lián)系。因此,要利用一定的規(guī)則將關系模式映射為本體模型。本文設計了一系列轉換規(guī)則,如:將關系模式中的表名轉換為本體中的概念名;表與表間的關系轉換為本體中的概念與概念的關系;將關系模式中的字段名轉換為本體的屬性名等。通過上述的轉換規(guī)則,可以獲得領域本體模型。最后,對領域本體模

9、型進行評估和校驗。該部分重點是對所構造的領域本體模型進行檢驗,查看是否滿足本體庫的構建原則,本體模型中的術語是否正確,本體模型中的概念及其關系是否完整等。通過對本體模型評估后,可以建立領域內的本體庫。關系數(shù)據(jù)庫可具有完整的數(shù)據(jù)模式,包含完整的表結構和完整性約束條件。因此可以將數(shù)據(jù)庫中的關系名轉換為本體中的概念,部分字段名轉換為本體中的屬性,示例如下:另外,為了擴充和完善領域本體庫,需要對非關系型的數(shù)據(jù)進行采集和填充。本文對行業(yè)領域內的半

10、結構化數(shù)據(jù)進行結構化處理,對相應百科網(wǎng)站通過網(wǎng)頁爬蟲技術獲取相應的知識,并將半結構化數(shù)據(jù)轉換成結構化數(shù)據(jù),最后利用上述關系數(shù)據(jù)轉換成本體的規(guī)則進行轉換。2)全局本體庫構建為了能便于構建多數(shù)據(jù)融合的知識圖譜,需要將多個領域內的本體庫進行融合,構建全局本體庫。其過程如圖3所示。在上述構建的領域本體庫基礎上,通過相似性檢測和沖突解決等規(guī)則,將多個領域的本體庫融合在一起組成了全局本體庫。其步驟如下:首先,由于不同領域內的本體庫進行知識融合,對存

11、在著一些相同或相似的概念和屬性等,采用了相似性檢測規(guī)則對這些不同領域內的本體進行檢測。如:語義相似性檢測、概念相似性檢測、屬性相似性檢測、數(shù)據(jù)格式相似性檢測等。通過這些相似性檢測后,能將不同領域內的相同或相似本體進行統(tǒng)一,但并不能解決它們之間的沖突。抽取關系模式關系模式映射成本體的一些轉換規(guī)則獲取領域本體模型評估與校驗領域內的本體庫領域內的關系數(shù)據(jù)庫領域本體庫1領域本體庫n全局本體庫根據(jù)相似性檢測規(guī)則將相似概念進行統(tǒng)一根據(jù)沖突解決規(guī)則對

12、相似或相近的概念進行消除歧義、冗余和錯誤將不同領域本體進行知識融合對剩余的領域本體進行沖突解決及實體消岐等其次,采用沖突解決規(guī)則對上面存在著相似概念或屬性等進行解決。通過沖突解決規(guī)則可以消除概念的歧義,剔除冗余和錯誤概念,從而保證全局本體庫的質量。主要是對上述中存在著相近或相似的概念或屬性進行消除,使其達到統(tǒng)一,并合并為全局本體。將關系名轉換為本體概念的OWL語言:…….將字段名轉換為屬性名的OWL語言:…….圖3全局本體庫構建過程Fi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論