潜在语义索引

潜在语义索引是一种搜索方法，也是一种索引。通过奇异值分解来识别非结构化的文本集合中的具有联系关系的模式。一般认为，在同样的语境中使用的词语一般具有相似的含义，LSI就是基于这一规则的搜索方法。LSI的一个重要特征就是，通过建立那些出现在相同语境中的词语之间的联系，它能够提取出一个文本的具体内容是什么，而不像以前的搜索方法只是检索具体的关键词。之所以叫潜在语义索引是因为它能够把一组文档中具有隐含的语义联系的词语联系起来。

LSI通俗解释

所谓隐性语义索引指的是，怎样通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在同一个文档中时，这些词之间就可以被认为是语义相关。机器并不知道某个词究竟代表什么，不知道某个词是什么意思。比如：

电脑和计算机这两个词在人们写文章时经常混用，这两个词在大量的网页中同时出现，搜索引擎就会认为这两个词是极为语义相关的。
SEO和搜索引擎优化（虽然一个是英语，一个是中文）这两个词大量出现在相同的网页中，虽然搜索引擎还不能知道搜索引擎优化或SEO指的是什么，但是却可以从语义上把“SEO”，“搜索引擎优化”，“search engine optimization”，“SEM”等词紧紧的连在一起。可见潜在语义索引并不依赖于语言。
如苹果和橘子这两个词，也是大量出现在相同文档中，不过紧密度低于同义词。所以搜索引擎不会认为它们是语义相关的。

LSI的实现

单纯从理论上看，Latent semantic indexing (隐性语义索引)的实现机制并不复杂，它只不过是在正常的网页收录与索引过程中增添了一个步骤：

先统计、分析网页及链接中的关键词；
将该网页与索引数据库中其他包含相同关键词或部分相同关键词的网页进行比对，以确定不同网页间的语义相关性以及网页与特定关键词间的相关性，
同时将该网页与具有高语义相关性的网页进行比对分析，从中找出特定网页中存在关键词的相关项，即找出特定网页中虽然并不存在但与其内容相关的关键词。

可以看出，虽然搜索引擎本身并不知道某个词究竟代表什么，不知道某个词是什么意思，但通过Latent Semantic Indexing算法，与单纯的关键词匹配相比，搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性，从而给出用户要寻找的内容，甚至从某种角度上看，更接近于“人”分析、查找内容时的判断方式。

LSI的好处

搜索引擎是使用机器算法来替代过去人工搜索的工作。但机器算法和人的工作有一个很不同的地方就是人可以直接理解词的意思，文章的意思，机器和算法却无法理解——人看到苹果这两个字就知道指的是那个圆圆的，有水的挺好吃的东西，搜索引擎却不能从感性上理解。其原因和自然语言的特点有关。从自然语言的角度，大部分词具有一词多义的特点，机器算法无法确定在何环境下使用何种词义，这就导致了搜索结果与用户的理想值便存在很大的距离：

一词多义将导致基于精确匹配的搜索算法在给出的结果中包含很多并非用户真正要查找的内容；
一义多词则使得基于精确匹配的搜索算法在给出的结果中遗漏很多用户真正要查找的内容。

Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解，以大样本数量的统计分析找出不同的词(词组、短语)间的相关性，以使搜索结果进一步接近于用户真正要查找的内容，同时，也能够保证搜索的效率。

LSI其他关注点

对Latent Semantic Indexing，可能大多数人注意的是其中的Semantic (语义有关的)，但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的)，而非简单意义的语义相关。比如说对“水”一词而言，与其语义相关的可能是“热水”、“凉水”之类，但潜在相关的则可以是“蒸汽”、“冰”等，这里有很大区别。需要强调的是，Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充（排名算法会为不同的影响因素赋予不同的权重，Latent Semantic Indexing的权重值已经慢慢加大），但绝不是取代现有的关键词匹配算法。

参见

万能翻译机（英语：universal translator）
电脑语言学
受限自然语言
信息抽取
资讯检索
自然语言理解
潜在语义索引
潜在语义学
随机文法（英语：Stochastic grammar）
机器记者
写作自动评分（英语：Automated essay scoring）
生物医学文件探勘系统（英语：Biomedical text mining）
复合词处理（英语：Compound term processing）
计算语言学
电脑辅助审查（英语：Computer-assisted reviewing）
深度学习
深度语言处理（英语：Deep linguistic processing）
辅助外文阅读（英语：Foreign language reading aid）
辅助外文写作（英语：Foreign language writing aid）
语言科技（英语：Language technology）
隐含狄利克雷分布（LDA）
母语识别（英语：Native-language identification）
自然语言编程（英语：Natural language programming）
自然语言使用者界面（英语：Natural language user interface）
扩展查询
具体化 (语言学)（英语：Reification (linguistics)）
语义折叠（英语：Semantic folding）
语音处理
口语对话系统（英语：Spoken dialogue system）
校对
文字简化（英语：Text simplification）
Thought vector（英语：Thought vector）
Truecasing（英语：Truecasing）
问答系统
Word2vec

查论编计算机科学的主要领域
注：该模板大致遵循ACM 电脑分类系统。
计算机硬件	印刷电路板外部设备集成电路超大规模集成电路绿色计算电子设计自动化
系统架构组织	电脑系统架构嵌入式系统实时计算
网络	网络传输协议路由网络拓扑网络服务
软件组织	直译器中间件虚拟机器操作系统软件质量
软件符号和工具	编程范型编程语言编译器领域特定语言软件框架集成开发环境软件配置管理函式库
软件开发	软件开发过程需求分析软件设计软件部署软件维护开源模式
计算理论	自动机可计算性理论计算复杂性理论量子计算数值计算方法计算机逻辑形式语义学
算法	算法分析算法设计算法效率随机化算法计算几何
计算数学	离散数学信息与计算科学统计学数学软件数理逻辑集合论数论图论类型论范畴论信息论数值分析数学分析
信息系统	数据库管理系统电脑数据企业信息系统社会性软件地理信息系统决策支持系统过程控制数据挖掘数位图书馆系统平台数位行销万维网信息检索
安全	密码学形式化方法入侵检测系统网络安全信息安全
人机交互	计算机辅助功能用户界面可穿戴计算机普适计算虚拟现实聊天机器人
并发性	并发计算并行计算分布式计算多线程多元处理
人工智能	自动推理计算语言学计算机视觉进化计算专家系统自然语言处理机器人学
机器学习	监督式学习无监督学习强化学习交叉验证
计算机图形学	计算机动画可视化渲染修饰照片图形处理器混合现实虚拟现实图像处理图像压缩实体造型
应用计算	电子商务企业级软件计算数学计算物理学计算化学计算生物学计算社会科学医学信息学数字艺术电子出版网络战电子游戏文字处理器运筹学教育技术学生物信息学认知科学文件管理系统（英语：Document management system）
分类主题专题维基共享