知識圖譜
知識圖譜(英語:Knowledge Graph),是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係。其基本組成單位是「實體-關係-實體」三元組,以及實體及其相關屬性-值對,實體間通過關係相互聯結,構成網狀的知識結構。知識圖譜可以實現Web從網頁鏈接向概念鏈接轉變,支持用戶按主題而不是字符串檢索,真正實現語義檢索。基於知識圖譜的搜索引擎,能夠以圖形方式向用戶反饋結構化的知識,用戶不必瀏覽大量網頁即能準確定位和深度獲取知識。[1]
在知識表示中,知識圖譜是一種知識庫,其中的數據通過圖結構的數據模型或拓撲整合而成。知識圖譜通常被用來存儲彼此之間具有相互聯繫的實體。[2]1980年代後期,格羅寧根大學和特文特大學聯合啟動了一個名為知識圖譜的項目。Google、Bing和Yahoo等搜索引擎均已引入知識圖譜並在搜索界面的右側顯示。
發展歷史
知識圖譜的概念最早由谷歌2012年5月17日提出,其將知識圖譜定義為用於增強搜索引擎功能的輔助知識庫。但在知識圖譜概念問世之前,語義網絡技術的研究領域早已開始。2006年,Berners-Lee提出數據鏈接(linked data)的思想,推廣和完善URI (uniform resource identifier) , RDF (resource description framework) , OWL (Web ontology language) 等技術標準,為知識圖譜提供了技術基礎條件。[3]
技術架構
表達方式
三元組是知識圖譜的一種通用表示方式,即 G =(E, R, S),其中 E 是知識庫中的實體,R 是知識庫中的關係,S 代表知識庫中的三元組。三元組的基本形式主要包括實體1、關係、實體2和概念、屬性、屬性值等。實體是知識圖譜中的最基本元素,不同的實體間存在不同的關係。概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等;屬性主要指對象可能具有的屬性、特徵、特性、特點以及參數,例如國籍、生日等;屬性值主要指對象指定屬性的值,例如中國、1988-09-08等。每個實體(概念的外延)可用一個全局唯一確定的ID來標識,每個屬性-屬性值對(attribute-value pair, AVP) 可用來刻畫實體的內在特性,而關係可用來連接兩個實體,刻畫它們之間的關聯。[4]
邏輯結構
知識圖譜在邏輯架構上分為兩個層次:數據層和模式層。數據層是以事實(fact)為存儲單位的圖數據庫,其事實的基礎表達方式就是「實體-關係-實體」或者「實體-屬性-屬性值」。模式層存儲的是經過提煉的知識,藉助本體庫來規範實體、關係以及實體類型和屬性等之間的關係。[1]
體系架構
知識圖譜的體系架構分為3個部分,分別獲取源數據、知識融合和知識計算與知識應用。[5] 知識圖譜有兩種構建方式,自頂向下和自底向上。在知識圖譜發展初期,知識圖譜主要藉助百科類網站等結構化數據源,提取本體和模式信息,加入到知識庫的自頂向下方式構建數據庫。現階段知識圖譜大多為公開採集數據並自動抽取資源,經過人工審核後加入到知識庫中,這種則是自底向上的構建方式。
關鍵技術
知識抽取
知識抽取(information extraction)是構建知識圖譜的第一步,為了從異構數據源中獲取候選知識單元,知識抽取技術將自動從半結構化和無結構數據中抽取實體、關係以及實體屬性等結構化信息。[6]
實體抽取
實體抽取,也稱為命名實體識別(named entity recognition,�NER),指從源數據中自動識別命名實體,這一步是信息抽取中最基礎和關鍵的部分,因為實體抽取的準確率和召回率對後續知識獲取效率和質量影響很大。
早期實體抽取的准召率不夠理想,但在2004年,Lin等採用字典輔助下的最大熵算法,基於Medline論文摘要的GENIA數據集使得實體抽取的准召率均超過70%。[7]2008年,Whitelaw等提出根據已知實體實例進行特徵建模,利用模型從海量數據集中得到新的命名實體列表,然後再針對新實體建模,迭代地生成實體標註語料庫。[8]2010年,Jain等提出一種面向開放域的無監督學習算法,事先不給實體分類,而是基於實體的語義特徵從搜索日誌中識別命名實體,然後採用聚類算法對識別出的實體對象進行聚類。[9]
關係抽取
經過實體抽取, 知識庫目前得到的僅是一系列離散的命名實體,。為了得到更準確的語義信息, 還需要從文本語料中提取出實體之間的關聯關係, 以此形成網狀的知識結構,這種技術則為關係抽取技術。[1]
屬性抽取
屬性抽取是從不同信息源中採集特定實體的屬性信息。例如針對某個公眾人物, 可以從網絡公開信息中得到其暱稱、生日、國籍、教育背景等信息。屬性抽取技術能夠從各個數據源中匯集屬性信息,更完整地表述實體屬性。[1]
知識融合
通過知識抽取的結果可能存在大量冗餘和錯誤信息,形成的結構化信息也會缺乏層次性和邏輯性,因此需要對抽取來的信息做知識融合,消除歧義概念、剔除冗餘和錯誤概念,提升知識質量。
知識融合分為實體鏈接和知識合併兩部分。實體鏈接(entity linking)指將在文本中抽取出來的實體鏈接到知識庫中正確實體。[10]知識合併指從第三方知識庫產品或已有數據化數據中獲取知識輸入,包括合併外部知識庫和合併關係數據庫。
知識加工
通過知識抽取、知識融合得到一系列的基本事實表達,離結構化、網絡化的知識體系仍有一段距離。因此還需要針對這些事實表達進行知識加工,包括本體構建、知識推理和質量評估。
本體構建(ontology)指對概念建模的規範,以形式化方式明確定義概念之間的聯繫。在知識圖譜中,本體位於模式層,用於描述概念層次體系的知識概念模版。[11]
知識推理指從知識庫中已有的實體關係數據經過計算建立新實體關聯,從現有知識中發現新知識,拓展和豐富知識網絡。例如已知 (乾隆, 父親, 雍正) 和 (雍正, 父親, 康熙) , 可以得到 (乾隆, 祖父, 康熙) 或 (康熙, 孫子, 乾隆) 。知識推理的對象除了實體關係,還包括實體的屬性值、本體概念層次關係等。例如已知 (老虎, 科, 貓科) 和 (貓科, 目, 食肉目) , 可以推出 (老虎, 目, 食肉目) 。[1]
因為知識推理的信息基礎來源於開放域的信息抽取,可能存在實體識別錯誤、關係抽取錯誤等問題,因此知識推理的質量也可能存在對應問題,需要在入知識庫之前,將推理得來的知識進行質量評估。2011年,Fader採用人工標註方式對1000個句子中的實體關係三元組進行標註,並作為訓練集得到邏輯斯蒂回歸模型,用於對REVERB系統的信息抽取結果計算置信度。[12]另外,谷歌的Knowledge Vault從全網範圍內抽取結構化的數據信息, 並根據某一數據信息在整個抽取過程中抽取頻率對該數據信息的可信度進行評分, 然後利用從可信知識庫Freebase中的先驗知識對已評分的可信度信息進行修正, 這一方法有效降低對數據信息正誤判斷的不確定性, 提高知識圖譜中知識的質量。[13]
行業典型應用
知識庫 | 產品 | 數據源 |
---|---|---|
Knowledge Vault | Google Search Engine
Google Now |
Wikipedia, Freebase,
Web Open Data |
Wolfram Alpha | Apple Siri | Mathematica |
Satori / Probase | Bing Search Engine
Microsoft Cortana |
Wikipedia,
Web Open Data |
Watson KB | IBM Watson System | Web Dictionaries
The World Book Encyclopedia |
DBpedia KB
YAGO KB NELL KB |
DBpedia KB
YAGO KB NELL KB |
Wikipedia
Wikipedia Web Open Data |
Facebook KB | Shopycat | Social Network Data |
Zhilifang KB | Sougou Search Engine | Web Open Data |
Zhixin KB | Baidu Zhixin Platform | User Generated Content |
Cross-Lingual KB | XLORE | Chinese / English Encyclopedia,
Wikipedia |
Zhishi.me KB | Zhishi.me | Chinese Encyclopedia |
問題與挑戰
知識抽取不夠準確
受到算法准召率低、限制條件多、擴展性不好等問題,針對開放域的信息抽取仍面對很大挑戰。
知識融合實體鏈接不夠準確
實體消歧、合併外部數據庫和關係數據庫的應用效果仍有很大提升空間。
知識加工技術難
本體構建中的聚類問題、質量評估的標準和指標的建立和知識推理的技術思維限制,都是知識加工的重要難點。
參考文獻
- ^ 1.0 1.1 1.2 1.3 1.4 1.5 劉嶠,李楊,段宏,劉瑤,秦志光.知識圖譜構建技術綜述[J].計算機研究與發展,2016,53(03):582-600.
- ^ What is a Knowledge Graph?. 2018 [2021-10-28]. (原始內容存檔於2020-11-13).
- ^ 程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國傑.大數據系統和分析技術綜述[J].軟件學報,2014,25(09):1889-1908.DOI:10.13328/j.cnki.jos.004674.
- ^ 徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016,45(04):589-606.
- ^ 張吉祥; 張祥森; 武長旭; 趙增順. 知识图谱构建技术综述. 計算機工程. 2022, 48 (3): 23–37 [2023-03-17]. doi:10.19678/j.issn.1000-3428.0061803. (原始內容存檔於2023-03-17).
- ^ Cowie, Jim; Lehnert, Wendy. Information extraction. Communications of the ACM. 1996-01, 39 (1): 80–91. ISSN 0001-0782. doi:10.1145/234173.234209.
- ^ Tsai, Richard Tzong-Han; Wu, Shih-Hung; Chou, Wen-Chi; Lin, Yu-Chun; He, Ding; Hsiang, Jieh; Sung, Ting-Yi; Hsu, Wen-Lian. Various criteria in the evaluation of biomedical named entity recognition. BMC Bioinformatics. 2006-02-24, 7 (1). ISSN 1471-2105. doi:10.1186/1471-2105-7-92.
- ^ Whitelaw, Casey; Kehlenbeck, Alex; Petrovic, Nemanja; Ungar, Lyle. Web-scale named entity recognition. Proceeding of the 17th ACM conference on Information and knowledge mining - CIKM '08 (New York, New York, USA: ACM Press). 2008. doi:10.1145/1458082.1458102.
- ^ Jain, Alpa; Pennacchiotti, Marco. Domain-independent entity extraction from web search query logs. Proceedings of the 20th international conference companion on World wide web - WWW '11 (New York, New York, USA: ACM Press). 2011. doi:10.1145/1963192.1963225.
- ^ Li, Yang; Wang, Chi; Han, Fangqiu; Han, Jiawei; Roth, Dan; Yan, Xifeng. Mining evidences for named entity disambiguation. Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA: ACM). 2013-08-11. doi:10.1145/2487575.2487681.
- ^ Wong, Wilson; Liu, Wei; Bennamoun, Mohammed. Ontology learning from text. ACM Computing Surveys. 2012-08, 44 (4): 1–36. ISSN 0360-0300. doi:10.1145/2333112.2333115.
- ^ Cafarella, Michael J.; Downey, Doug; Soderland, Stephen; Etzioni, Oren. KnowItNow. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing - HLT '05 (Morristown, NJ, USA: Association for Computational Linguistics). 2005. doi:10.3115/1220575.1220646.
- ^ Dong, Xin; Gabrilovich, Evgeniy; Heitz, Geremy; Horn, Wilko; Lao, Ni; Murphy, Kevin; Strohmann, Thomas; Sun, Shaohua; Zhang, Wei. Knowledge vault. Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (New York, NY, USA: ACM). 2014-08-24. doi:10.1145/2623330.2623623.