基于关键词查询扩展的文本检索技术的研究与实现

被引量 : 0次 | 上传用户:icekingfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今社会计算机技术和网络技术的快速发展,我们已然已经进入了一个新的信息时代。面对当前如此巨大的信息资源,如何准确地获取并加以有效地应用,已经成为信息检索领域里一个亟需解决的问题。本文研究的主要内容是,在特定的文本库集合中找出与用户给定的一篇文本内容相关的文本。在多数情况下,用户的检索需求是简单的一个或几个关键词,而本文用户的检索需求是一篇文本,所含信息量大幅增加。本文通过使用一个TFIWF权重计算方法来提高测试文本关键词提取精确率。考虑到语义在文本中的作用,本文通过分析概念之间的语义相似度从知网中获取关键词的扩展词,使用所得到的关键词扩展集合进行检索,有效地改善了检索性能。具体工作如下:(1)提出一种新的词语语义相似度计算方法。提出了一种新的义原分类方法,针对不同类义原特点采取有区别的义原计算方法。同时本文强调了第一基本义原在词语语义相似度计算中的重要作用,通过第一基本义原的比较筛选出参与计算的义项,从而降低了运算的复杂度,效率也有很大提高。此外,用参与计算的义项相似度的算术平均值取代最大值,使得词语语义相似度计算的客观性明显提高。(2)文本中词语权重的计算使用TFIWF方法,在此基础上进行关键词提取。实验表明,该方法能够有效地抑制了同类语料库对测试文本的影响。(3)对查询文本所提取的关键词在语义层面上进行查询扩展,在向量空间模型中,通过查询文本和文本库文本之间的向量计算来比较文本之间的相似程度,输出满足阈值要求的文本检索结果。对实验系统的结果进行分析,检索结果与人们的期望比较相符,最终证明了本文提出的方法的可行性和有效性。实验结果表明,本文介绍的全文文本检索的技术和方法,在特定样本库的试验中,达到查询预期,具有一定的实用价值。在保持查全率在一个适当值时,本文具有较高的查准率。
其他文献
作为亚欧大陆桥新通道桥头堡和河北省"东出西联"发展战略重要出海口,沧州渤海新区面临巨大的发展机遇,也存在很多问题与挑战。认清优势,准确定位,制定发展策略,是当前新区建
<正>华娱卫视《CEO实话实干》主持人:陶杰先生"香江第一才子"香港专栏作家及资深出版人,同时为《茶杯》杂志出版顾问,曾主持香港亚视节目《斑马在线》、电台节目《光明顶》等
采用室内土柱模拟试验的方法,研究了中水灌溉下6种绿地植物根际土壤微生物数量的季节动态变化。结果表明,与清水灌溉相比,中水灌溉下土壤细菌、放线菌和真菌数量分布有增加的
洛阳是我国历史文化名城,历史上多次作为都城出现。建国后,随着经济的发展和城市建设的不断推进,尤其是城市总体规划的历次编制和实施,使得洛阳市的城市建设取得了丰富的成果,城市
随着经济的发展,各国间交流的加强,不同语言之间的翻译已经成为一个不可忽视的问题。翻译已经成为一种专业和一门技术。然而语篇分析在翻译中的地位是举足轻重的。而功能语言学
天然草地放牧场作为草地的利用终端之一,其管理水平决定着草地健康和牧场生产水平。随着信息技术的发展和生态学研究的定量化、微观化,草地放牧系统模型的研究及其如何指导生
本文详细解读了恩格斯的《法德农民问题》,讨论了近代中国农民合作社的实践,联系当前家庭联产承包责任制的实施和家庭农场的提出,指出深化农村经济体制改革的必要性。
随着林业信息化建设的推进,越来越多的新技术、新方法在林业上得到了应用。要对森林领域进行深入的研究,森林资源监测数据的获取是必不可少的。现在,我国森林资源监测对像多(
摘要:1型糖尿病是一种器官特异性的自身免疫性疾病,其主要特征为T淋巴细胞介导的逐渐慢性破坏的胰岛β细胞,导致胰岛素分泌绝对不足,糖调节失控。在这一过程中,T淋巴细胞介导
元朝上承两宋,下起明清,在大约一百年的时间里,无论是在文化的接受上,还是在对于社会的治理上,都在与汉文化慢慢的融合;元朝时期,自然灾害的发生,无论是北方还是南方,都面临着