基于潜在语义分析的文本检索算法研究

被引量 : 0次 | 上传用户:mysunmoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息检索技术的研究目标是从大量文本信息集合中识别和获取所需要的文本信息。在互联网普及的当今社会,文本信息检索技术已经成为人们有效利用信息资源,快捷、全面地吸收和获取文本信息的一条重要途径。这种技术越来越被人们所迫切需要,对人们的学习和科学研究有着重大意义。本学位论文研究在文本集中高效、高质量地检索定位语义上与查询文本相似的段落的文本检索策略和算法。本文采用的文本表示基础模型是向量空间模型(SVM),语义表现手段基础是潜在语义索引(LSI)模型,搜索算法的基础是遗传算法(GA)。本文的主要工作如下:(1)分析潜在语义空间的构造方法。利用奇异值分解方法处理词项-文本矩阵,并根据奇异值分布特征对该矩阵进行最小平方误差意义下的最佳近似,由此构造出潜在语义空间的投影矩阵。任意文本向量通过该投影矩阵可表示在潜在语义空间中,一方面可以有效消除词项之间的相关性,另一方面可以抑制噪声的干扰。(2)提出查询文本与大容量文本之间非相关性的有效判定方法。查询文本向量表示为潜在语义空间分量和零语义空间分量,而当其潜在语义空间分量小于给定阈值时,即可判定该查询文本与大容量文本中的所有段落都不相似,在检索策略中可以放弃进一步的细节匹配。(3)设计利用遗传算法的段落检索算法。当查询文本的潜在语义空间分量足够大时,把该空间中的所有段落(子文档)作为匹配对象,与查询文本的潜在语义空间分量进行余弦相似度匹配。由于采用遗传算法,高效地定位近似最优的段落;同时,由于检索是在潜在语义空间进行的,因此定位的段落在语义上与查询文本相似。实验结果表明,本文提出的基于潜在语义的文本检索策略和基于遗传算法的文本检索方法与传统算法相比,在检索的准确率、召回率以及F-指标等方面都有较大的提高,而且所提出算法在检索效率方面也优越于传统的文本信息检索方法。因此本文提出的基于潜在语义的文本检索策略和基于遗传算法的文本检索方法可用于大容量文本信息检索中。
其他文献
跨专业毕业设计是毕业设计的一种形式。本文结合跨专业联合毕业设计的实践,介绍了跨专业联合毕业设计的实践意义、选题、指导、教学资源的整合与共享,及网络在跨专业联合毕业
社会公平是人类的崇高理想和永恒的价值追求,教育是一个民族振兴的基石。在新的历史时期,作为肩负建设人力资源强国重任的高等教育,逐步实现高等教育公平对于我国和谐社会的
目的明确重症监护病房老年患者呼吸机相关肺炎(VAP)的危险因素和病原学特点,为实施针对性的干预提供参考。方法选取气管切开或气管插管而在该院重症监护病房行呼吸机机械通气
我国减刑、假释法律监督的传统模式下,存在检察机关的功能性缺失、检察监督滞后和效力不足的弊端。近年来,部分地区进行了以听证和开庭两种模式为主的减刑、假释法律监督诉讼
高光谱图像是由成像光谱仪记录地物对电磁波的反射值而获取,包含从可见光到近红外范围内的数十上百个连续且狭窄的波段。高光谱图像光谱分辨率高,可辨识细微差异的地物,目前
于2010年在醴陵市首次发现湿地松粉蚧危害,经线路踏查和样地调查相结合的方法调查,调查结果为:其主要分布在醴陵市的南部乡镇,国外松有虫株率达66.4%,严重的平均虫口密度(头/梢)达29.2
为了阐明桔梗水提取物的安全性,本试验用昆明小白鼠对桔梗水提取物进行了较系统的毒理学试验。本试验包括急性毒性试验、蓄积毒性试验、亚慢性毒性试验、致畸试验、致突变试
中国加入WTO以及全球化市场的形成,使得国内的各行业面临着巨大的挑战,特别是现在金融危机的爆发,使得全球的市场都开始转向中国。为了能在日趋激烈的竞争环境中,有自己的立
想要管理好企业内部,就必须对现有的行政管理进行改善,以适应企业转机建制和市场经济,对企业快速的发展经济以及提高企业活力有十分重要的影响。一个企业是否能长久的向前迈
这篇文章主要探讨了小说《红字》中的字母A的象征意义。以往的大多学者认红字A象征着"通奸","能力"或者是"天使",而本文认为红字A代表着力量和欲望,这种力量和欲望深深地影响