中文文本信息检索相关技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lylingyunsnd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网的快速普及,通过网络共享的中文信息资源以接近指数级的速度递增。要从这么多的网页中找到我们需要的信息,无疑像大海捞针一样困难,而信息检索技术就是为了帮助人们快速地找到所需的信息。 中文作为一种典型的以表意为基础的象形文字,与西方的拼音文字有很大的不同,适用于西方拼音文字中的检索方法并不能直接应用于中文。本文对中文信息检索中的几个重要问题进行了研究。主要的工作包括以下几个方面: 第一,使用基于查询手工词切分的方法对中文文本的各种特征表示方法进行了比较研究。本文的试验结果为将来中文文本信息检索研究提供一个重要的参考,对于研究者探索新的索引策略是一个很重要的依据,对于为了改进索引策略或检索模型而进行的在同等条件下不同策略的比较研究也具有重要的指导意义。 第二,通过研究考察已有的查询扩展技术在中文信息检索中的有效性,并根据人类进行信息检索的思维模式,提出了一种新的基于相关术语群的查询扩展技术。在NTCIR-4和NTCIR-5中文信息检索测试集上进行的实验表明,相对于传统的查询扩展,利用机器自动构建的相关术语群的查询扩展方法在检索效果上取得了较大的提高。不同于传统的查询扩展方法的是:本文同时利用了检索语料外部和内部的,以及检索文档局部和全局的各种不同的相关性信息,从而克服了使用单一某种相关性信息的缺点,提高了查询扩展的性能。 第三,设计并实现了一种中文信息检索系统。本系统具备良好的可扩展性,可以适应从个人资料库到大型数字图书馆的不同规模的应用。 第四,综合运用本论文中研究方法和检索软件系统,我们参加了2005年度在日本举行的文本信息检索国际标准评测会议(NTCIR-5),在中文单语检索项目中取得了第五名的成绩,从而验证了论文中方法的有效性和可行性。
其他文献
多生理参数远程监测系统可对心血管疾病患者、慢性病患者以及老年人进行不间断实时检测,在人体健康在线监护以及疾病预警方面发挥了重要作用。随着智能手机终端的普及和穿戴式
随着视频压缩、网络通信及大规模高速集成电路的发展,模拟系统或以PC机插入视频采集卡构成的网络监控系统难以满足实时处理的要求。超大规模集成电路和嵌入式网络视频监控技
随着移动终端的用途多样化及与移动业务的紧密结合。在带给用户便利,丰富用户生活的同时,移动终端也给移动通信的发展带来了巨大的挑战。移动终端管理这个课题就在上述的背景下
随着网络技术和网络应用的飞速发展,网络设备和网络资源变得越来越繁杂,网络应用需求日益朝着高性能、大规模的方向发展,网格技术就是将地理上分布的、异构的各种网络资源、存储
网络在我们的生活中扮演着重要角色,网络连接起来的设备和应用程序越来越多,不仅仅包括各种服务器、台式计算机、笔记本电脑,还包括我们的手机、掌上电脑和各式各样的嵌入式
图书馆拥有丰富的文献信息资源,是社会信息系统的重要组成部分,在信息社会化中作用愈来愈重要。本文正是基于这个出发点,依据信息管理系统的先进思想理论和我国图书馆具体特
随着互联网的飞速发展,网络电台、视频点播、IPTV等流媒体应用的需求品质在不断提高。从音/视频压缩编码、流媒体服务器的传输服务性能到客户端的播放质量,使得流媒体技术的
网格是当前并行和分布处理技术的一个发展方向,其目标是实现对地理上广泛分布的大量异构资源进行共享,其中复制管理是网格中一个重要的组成部分。创建的数据副本可以降低远程
近年来,随着网上电子文档的数量以指数级的速度增长,文本分类技术在信息检索、信息过滤以及内容管理等各项应用中变得越来越重要,已经成为信息检索和机器学习中的前沿研究领域。
随着互联网的发展,数字产品的信息安全和版权保护问题日益严重。数字水印在解决此类问题方面起到了重要作用。当前数字水印的研究热点主要是灰色图像的数字水印算法,但实际生活