【摘 要】
:
传统的文本信息检索方法的基本思路为,用户提出提问式,系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。但是大量事实表明,这种通过词汇简
论文部分内容阅读
传统的文本信息检索方法的基本思路为,用户提出提问式,系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。但是大量事实表明,这种通过词汇简单匹配检索出的结果并不是最优的,原因在于词汇间的同义性和单个词汇的歧义性。本文分析了一种智能型信息检索方式—潜在语义分析法(Latent Semantic Analysis, LSA),它不同于传统的基于词汇匹配的检索方法,将计算机科学、数学、情报学的思想、技术和手段融合起来,对文本的潜在含义进行挖掘,根据词汇、文本、提问式三者在语义上的关联产生检索结果,达到优化检索结果的目的。基于LSA的信息检索方法以一个词汇与文档相联系的大规模矩阵开始,自动地建造了一个语义空间,使得使用者能够发现相关信息,即使提问式中没有任何词与之相关,只要在概念上与该文档的主体思想联系相一致,在语意空间中它们仍然紧靠在该文档附近。因此词汇和文档在语意空间的位置可以用来作为一种语意指引,提取信息的过程就是利用提问式中的关键词来识别空间的一个点,在这个点附近的文档按词汇向量与文档向量之间点乘的余弦值的大小排列,即按关键词与文档相关程度排列返回给使用者。文章在简述潜在语义分析法产生的背景与研究概况、基本原理与思路的基础上,进一步对LSA 关键技术—奇异值分解进行推导,并对一个中文样本进行潜在语义分析测试和结果分析,最后,介绍了潜在语义分析法在其它方面的特殊应用。
其他文献
中部地区作为全国腹心地带,在全国经济社会发展中占有十分重要的位置,党中央、国务院高瞻远瞩,提出了“中部崛起战略”。近年来,随着经济全球化进程的加快,随着全球经济贸易
NBA吸引了世界球迷的关注,球迷也通过各种媒体关注NBA。本文对互联网体育新闻中语码转换现象进行了分析探讨。
[目的]分析2008年—2017年我国急性非创伤性胸痛病人急诊分诊研究现状。[方法]利用中国期刊全文数据库、万方数据知识服务平台高级检索功能,系统检索2008年1月—2017年12月我
目的探讨社区护理干预在产后抑郁症护理中的应用。方法将100例产后抑郁症患者分成干预组和对照组两组,对照组按常规的产科服务进行护理,干预组针对产后抑郁症的发病因素给予
当前中外某些媒体对日本舆情的分析与报道,混淆了民意与民粹的界限,勾勒出迷离诡异的日本舆情幻影。日本右翼舆论是一种众意,不能与民意混为一谈,而这种众意处处闪动民粹主义
目前在临床上,免疫组化已经在肿瘤病理诊断中得到了广泛应用,涉及领域包括肿瘤组织起源的鉴别、未分化恶性肿瘤性质的判定、各种形态系统肿瘤鉴别、确定肿瘤原发部位等。近几
有关朝鲜农业发展情况的数据和资料较少。本文根据笔者实际考察,并结合朝鲜有关部门提供的资料,简要介绍了朝鲜粮食生产的现状和问题,并从中朝贸易特别是农业贸易的问题和症
应用信息技术支持税务稽查是金税工程的核心组成部分。本文首先基于逐步判别分析方法建立增值税稽查选案的指标选择模型;然后,采用自组织映射神经网络(SOM)技术,建立了增值税
<正>辛格总理就印度对转基因作物、核工业发展,以及对中国的关注等话题谈了自己的看法。左为《科学》杂志主编布鲁斯·艾伯茨印度总理曼莫汉·辛格在不久前召开的印度科学大
美国农业信贷系统的形成和发展南京农业大学经贸学院夏恩君美国农业现代化的成功得益于高效率的农业信贷系统的运转。它使全国的农民以及与农业有关的业务部门能够获得更多的