Web文本信息检索的方法研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:caory
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的飞速发展使得对高质量的Web文本信息检索的需求变得空前迫切。在大多数信息检索任务中,用户的需求描述模糊而简短,而已知文档信息的描述空间则非常大且内容复杂。因此信息检索中的最大问题就是用户查询空间描述的信息与已知文档空间信息表示的不匹配。这也是本文重点要解决的问题。主要工作包括以下方面:第一,从文档空间的角度入手,研究文档中主要特征的抽取、表示和检索策略。根据Web文档的结构信息,提出主特征空间的概念,在此基础上提出一种不同于传统IDF思想的基于DF因子的主特征词权值计算方法,改进现有相似度计算模型。在大规模测试数据集上的实验结果表明,检索性能得到了大幅度的稳定提高。 第二,从查询空间的角度入手解决信息不匹配问题。通过总结人类信息检索的思维模式,提出一种基于查询扩展的文档重构方法。与传统查询扩展思想相反的,将文档中散布且独立的表示相同信息的词语聚集起来,替换为与查询信息一致的概念。进一步地,给出一种有效的文档重构实时检索策略,从而解决了该方法在实际应用中的可行性问题。比较实验表明文档重构方法能够对系统性能带来10%到24%的提高。 第三,针对用户检索需求的发展趋势,研究相关新信息的抽取问题。不同于传统方法中对称的文档“相似性”衡量,提出了非对称的信息“覆盖度”衡量方法,以及基于词项扩展和覆盖的改进信息匹配计算方法。实验证明,基于扩展和覆盖的新信息抽取能够实现系统的性能改善和提高。 第四,研究如何使用有效的检索策略进行信息匹配性计算。针对传统上依据经验值设定检索模型参数泛化能力弱的问题,提出一种使用遗传算法进行无指导参数学习的方法。在多个大规模测试集上均取得很好的效果,学习到的参数总能得到接近甚至达到检索的最优性能。 第五,对检索结果信息集成问题进行了研究。针对分布数据集的检索结果提出按位加权插入合并算法,改变了以前研究中对数据在不同子集中“平衡分布”的要求,并突破了传统方法中分布数据结果合并后的性能总是差于集中数据集检索性能的局限;针对相同数据集上的不同检索结果集成,分别提出基于排序倒数和基于过滤增强的结果合并方法,经过大规模比较实验验证了两种方法的有效性。 综合运用论文中研究的方法,设计并实现了一个文本信息检索实验系统,并参加了2002年度文本信息检索国际标准评测会议(TREC2002),在Web信息检索和新信息抽取两个项目上均领先于国际上所有其他参加研究机构,取得了两个第一名,从而验证了论文中提出的各种方法的有效性和可行性。
其他文献
该学位论文着重讨论基于Sprite技术的视频编码和分割算法.首先,该文提出了一种快速鲁棒的Sprite生成算法,并以离线背景Sprite生成为例进行描述.尽管MPEG-4标准包含了静态Spri
随着IPv6的兴起,研究如何从IPv4渐进地,无缝地过渡到IPv6成了一个热门话题.目前,对于从IPv4向IPv6过渡技术主要有双协议栈、隧道技术和NAT-PT技术.当IPv4节点在NAT后,如何接
随着Web服务的迅速发展,Web服务的服务质量(QoS)成了判定Web服务是否成功的重要因素.然而,由于Web服务还是个新生事物,许多方面的技术还不成熟.该文提出了利用简单对象访问协
数据仓库和数据挖掘是数据库研究、开发和应用最活跃的分支之一。所谓数据仓库,就是把一个单位的历史数据收集到一个中央仓库中以便于处理,它是支持决策过程的,面向主题的、集成
随着虚拟现实技术的发展,虚拟现实平台已不仅仅作为一个仿真模拟的交互平台,虚拟现实平台也可以作为搜集、组织和呈现现实社会信息的工具。如何在虚拟现实平台的基础上采集、组
软件不仅仅是程序,软件的构造应该遵循工程的方法.着眼于软件系统整体结构的软件体系结构成为软件工程研究的中心问题.软件体系结构的基本组成元素及其配置,基本元素的行为及
在音乐信息检索领域中,基于内容的音乐识别和基于内容的音乐推荐是极具市场价值的两个应用。在本文中,这两个问题将在一个统一的、基于音频音乐字模型的音乐表示框架下被讨论。
当前时态地理信息系统TGIS(Temporal GIS)的研究已经成为GIS理论界和数据库团体关注的前沿研究热点之一,而TGIS的核心是时空数据模型.目前学术界提出的时空数据模型存在许多
近些年,在辅助教学领域,平板电脑和手机等手持智能设备越来越流行。利用触摸输入,这些设备为交互式图形查询提供了新的机遇,同时也为复杂图形识别带来了新的挑战。在平面几何教学
图像增强技术在计算机视觉上有着重要的应用价值。通常,对于智能监控、户外对象识别、海洋工程等任务,都假设获得的图像是足够清晰的,具有理想的能见度和亮度的图像。然而,由于极