基于文档查询信息的检索系统研究与实现

来源 :扬州大学 | 被引量 : 0次 | 上传用户:wdongjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的飞速发展,人们越来越多地依赖网络这个巨大的知识平台。作为用户利用网络信息的重要接口,搜索引擎的发展自Web诞生之日起就一直没有停息。同时,计算机的日益普及和人们运用电脑阅读要求的提高使得数字图书馆及相关技术得以兴起和成长。人们从文档中获得查询并提交给搜索引擎成为现代检索信息、获取知识的一种常见模式。目前这两种获取信息的方式基本是被分离开来使用的。如果能够将文本浏览器和搜索引擎有效结合起来,对于用户及时而有效地获取信息,具有极其重要的意义。 然而,目前的搜索引擎无法很好地满足用户的信息需求。主要原因是用户提交的查询信息不足,降低了查询精度。查询扩展优化是解决查询词歧义性的一个有效办法。本文总结和分析了国内外查询扩展优化技术的相关理论和技术,根据用户进行检索的情境,提出了基于文档上下文查询信息抽取算法,并在此基础上实现了一个有效的基于单文档上下文的交互式查询扩展系统。本文的主要贡献如下: (1)在文本浏览器中嵌入一个信息检索系统。通过VisuH C++中的动态连接库(DLL),在Word浏览器中嵌入基于单文档上下文的交互式查询扩展系统的功能插件。 (2)提出了基于文档上下文查询信息抽取算法。该算法将全局分析和局部分析结合起来从单文档中抽取用户选定查询的上下文信息。通过全局分析提取用户一定的查询兴趣,利用局部分析消除查询词的歧义性。 (3)交互式查询扩展用户界面的设计。设计出一个便于用户选择和更正查询扩展词的交互式友好界面,以提高检索的精度。 (4)为了利用网络上其他形式的数据库信息,运用了多线程式的并行元搜索引擎方法,并对其中涉及的难点问题进行了探讨和实现。 本文基于不同知识领域内的英文电子文档对系统进行了测试,试验结果表明,利用上述的处理技术后,系统在信息检索的用户操作环境、查准率、查全率等方面均有很大程度的提高。
其他文献
随着信息产业和集成电路技术的进步,嵌入式应用领域得到了蓬勃和快速的发展.嵌入式应用开发的重要特点是满足应用环境多样化的需求,多样化的需求导致嵌入式开发面临多样化的
随着航空电子系统在军事领域的广泛应用,飞机座舱显示系统的重要性与日俱增,其开发难度和成本也在成倍增加。直到ARINC661规范的诞生,航电领域座舱显示系统的开发现状才得到改善
随着机器学习、数据挖掘等人工智能技术的发展,在线学习系统在个性化、智能化方面有着越来越大的提升空间。现有的个性化学习系统,大都致力于获取学生用户学习兴趣这一个性,
在LTE移动网络系统中,由于移动终端存在进行数据业务时数据传输速率相对较低,且传输时不稳定,不能满足广大用户对于终端上数据应用的需要,针对这个问题,需要采取一定的策略来优化
数据挖掘是从存放数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段,其中关联规则挖掘是一种
电子选举指的是通过现代网络技术和密码学技术来实现现实生活中的选举行为,是对密码学领域内各种密码学知识的一种综合应用。它综合运用了公钥密码体制、数字签名、匿名信道、
随着Internet的迅猛发展,全球面临着数据库爆炸的挑战,人们常会感到被数据淹没却仍觉得知识饥饿的困惑。数据挖掘技术是解决上述问题的一种方法。数据挖掘是数据库中知识发现过
随着制造业规模的不断发展,信息化在工业生产中的地位越来越重要。制造执行系统的出现有效的解决了制造业信息化实施过程中出现的问题。它有效的将生产计划层和设备自动化系
煤矿监控系统的集成化、网络化是目前煤矿安全领域的一个重要发展方向。是一种综合集成技术,涉及现场总线技术、计算机技术、通信技术和网络技术等。 本课题主要研究了煤矿
当前,工作流技术已经成为企业信息化的一个热点,针对企业业务应用的开发离不开工作流技术的支持。文中深入讨论了工作流模型、工作流建模理论和方法以及工作流引擎层次结构,