基于潜在语义分析的中文概念检索研究

被引量 : 0次 | 上传用户:ej17255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上绝大多数的信息是以文本的形式保存的,互联网上文本信息的爆炸式增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到相关信息。由于自然语言中多词同义、一词多义等不确定性因素存在,相同概念可以有多种不同的表述方式,被称为“知识的非常态”。传统的基于关键词字符匹配的信息检索中,参与匹配的只有外在的表现形式,而非它们所表达的全部概念,用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。把信息检索从关键词匹配的层面提高到概念(语义)的层面,从概念意义上来认知和处理检索用户的请求成为当前信息检索技术的研究热点。潜在语义分析(LSA)是一种自然语言统计模型,被认为是一种获取、归纳和表述知识的方法。基于LSA 的检索模型与其它基于概念词典或概念网络的检索模型相比,具有可计算性强、需要人的参与少等优点。LSA 通过截断的奇异值分解建立潜在语义空间,潜在语义空间中词语和文档被投影在代表潜概念的维度上,进而可以提取词语间的语义关系,呈现出自然语言中的语义结构。当前LSA 尚存在一些理论基础有待扩充和进一步的解释,以中文LSA 作为研究的主题,以中文概念检索作为研究背景,对相关的一些难点问题,比如权重计算、潜在语义空间维度特性等进行系统地研究。权重计算是LSA 中的重要优化过程,传统的LSA 权重定义方法继承于向量空间模型(VSM),而忽视了LSA 与VSM 的本质差别。定义词语全局权重后生成的潜在语义空间的维度突出了权重较大的词语间的语义关系。文档语义是由词语构成的,而词语要放到文档当中去理解。为了突出那些与重要词语间的互信息量较大的文档对建立词语间语义关系的作用,提出文档全局权重的定义作为LSA 权重计算的修正扩展。通过实验检验各种词语全局权重和加入文档全局权重后的检索效果,结果表明熵权重定义优于其它词语全局权重,加入文档全局权重后,能够在更少的维度上获得更高的查准率。潜在语义空间中的维度代表着“潜概念”,由于没有显式的概念与之对应,人们一直不能深入理解潜在语义空间中的维度,LSA 的应用和发展受到限制。随潜在语义空间被剔除维度的增多,词语间相关度发生有规律的变化。认为文档(词语)间“泛”意义上的相关性主要体现在对应大奇异值的维度上,同时“局部”意义上的相关性主要体现在对应小奇异值的维度上。进而推测潜在语义空间维度和概念粒度之间存在某种近似的、隐含的对应关系。采用多层次文档聚类来验证这一结论,发
其他文献
中国英语是中国人在其特定环境下进行语言交际所使用的一种英语变体。中国英语在语言各个层面均表现出其独有的特征。本文试就在语音、词汇、句式及语篇层面上对中国英语所表
强劲有力的现代农业技术支撑体系、相对健全的现代农业组织管理体系、因地制宜的现代农业区域分工体系、尊重女性的现代农业生产用工体系和相对完善的现代农业接班人培养体系
第一部分脑部微环境与Micro RNA-107的关系阿尔兹海默病(Alzheimer′s Disease,AD)是一种神经退行性疾病,是老年人中最常见的痴呆病症。阿尔兹海默病已经成为继心脏病、肿瘤
目前在全球范围内的汽车工业中,唯独马自达的部分车型在使用转子发动机,马自达也成为了唯一一个将转子发动机应用于量产车型的厂商品牌。在马自达车系中,目前应用转子发动机
万历初,以首辅张居正为代表的改革集团在平定西南少数民族叛乱之时,又审时度势,及时推行了调处民族矛盾、调适进贡制度、招抚叛乱"降夷"等一系列的民族政策。这些民族政策在
德国法兰克福学派的代表人物哈贝马斯提出“公共领域”的概念。媒体作为信息传播的载体和意见表达的平台,在西方自由主义传统看来,是民主社会的组成部分,在公共领域中承担着
生态损害公益诉讼是生态损害法律救济的程序需求,但在实践中却遭遇困境,难以通过对现行诉讼制度的改良而形成稳定系统的制度。对此,可以借鉴澳大利亚环境司法专门化模式的主
<正>手臂是减肥的一大死角,很多JM都苦恼于这里的肉肉太难减,报名"瘦臂体验团"的会员更是数量众多,《瘦佳人》本期打出瘦臂王牌——刮痧法,快来看看JM们的成果如何吧——
认知效果是指认知主体认知目的的实现程度。在认知过程中,认知频率是影响认知效果的重要因素。纵向的认知频率是指单位时间内的认知次数,横向的认知频率是指认知主体某一时刻
现代歌词作为抒情文类之一种,其文体特征总体上类同于"书写—阅读"式的诗歌,但其艺术生成却是通过谱曲并以人声为传播媒介,以听觉为接受方式。音乐、人声等的介入,又使歌词呈