潛在語義學
潛在語義分析(Latent Semantic Analysis),是語義學的一個新的分支。傳統的語義學通常研究字、詞的含義以及詞與詞之間的關係,如同義,近義,反義等等。潛在語義分析探討的是隱藏在字詞背後的某種關係,這種關係不是以詞典上的定義為基礎,而是以字詞的使用環境作為最基本的參考。這種思想來自於心理語言學家。他們認為,世界上數以百計的語言都應該有一種共同的簡單的機制,使得任何人只要是在某種特定的語言環境下長大都能掌握那種語言。在這種思想的指導下,人們找到了一種簡單的數學模型,這種模型的輸入是由任何一種語言書寫的文獻構成的文庫,輸出是該語言的字、詞的一種數學表達(向量)。字、詞之間的關係乃至任何文章片斷之間的含義的比較就由這種向量之間的運算產生。
潛在語義學的觀念也被應用在資訊檢索上,所以有時潛在語義學也被稱為隱含語義索引(Latent Semantic Indexing,LSI)。
概述
隱含語義索引是一種以向量空間模型為基底的資訊檢索技術,常以字詞-文件矩陣表示字詞與文件之間的關聯;而其多以行代表字詞〈term〉,列代表文件〈document〉。
而在矩陣中每個元素的權重值以TF-IDF計算後得到。該字詞在某個文件中的重要性,與該字詞在該文件中出現的次數成正比,與其在所有文件中出現的次數成反比。
而這個字詞-文件矩陣本身也代表着一個標準的語義模組,因為數學矩陣的格式並不是經常的被使用,所以不會太特別的註明其為一個矩陣的型態。
應用
關於隱含語義索引的其他應用:
同義詞和多義性是自然語言處理中最基本的問題。
同義現象是指不同的詞語表示相同的的意思。因此,在搜尋引擎不會返回一個文檔,即使它與該查詢是相關的,只是由於它不包含查詢關鍵詞中的詞語。例如,查詢「doctors」(醫生)時,不會返回包含「physicians」(內科醫生)的文檔,即使它們的意思相同。
多義現象是指一個詞語含有多種意思。因此,查詢的結果可能返回許多不相關的文檔,只是由於它們包含了查詢關鍵詞中的詞語。例如,植物學家和計算機專家在查詢同一個關鍵詞「樹」的時候,它們希望得到的結果是完全不同的。
降維
當生成了詞彙-文檔矩陣後,LSA提供了一種對它的低維近似(可以通過對字詞—文檔矩陣的奇異值分解(SVD)來實現)。做這種近似有以下幾種原因:
- 對原始的詞彙-文檔矩陣進行計算時,計算量太大。而低維矩陣提供了一種近似(儘量少但卻不可避免地有一些信息丟失)。
- 原始的矩陣一般包含噪聲(垃圾信息)。在這種意義上,近似的低維矩陣是一種去噪矩陣(比原始矩陣更好)。
- 原始的詞彙-文檔矩陣過度地稀疏。它羅列了每篇文檔中的實際出現的詞彙,而由於同義詞的存在,我們關心的是所有地與文檔有關係的詞彙集合,這個集合一般要比實際出現的詞彙集合要大得多。
實現
奇異值分解(svd)是一種典型的使用大型矩陣的運算方法,會佔用較大的存儲空間,可以通過一種類似神經網絡的計算方法來大大降低這一計算對內存的佔用。現在已經有一種快速的,佔用內存較低的,計算大型矩陣的svd算法,見應用文獻【3】.可以使用MATLAB和Python來實現這一算法。
另見
參考文獻
- Handbook of Latent Semantic Analysis, Edited by Thomas K Landauer, Danielle S. McNamara, Simon Dennis and Walter Kintsch, Lawrence Erlbaum Associates, Inc., 2007.
- 科羅拉多大學的潛在語義學網上工具 (頁面存檔備份,存於互聯網檔案館)
- Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition" (PDF). Linear Algebra and Its Applications 415: 20–30. doi:10.1016/j.laa.2005.07.021