中文信息检索索引单元的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:zbbankcomm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet在全世界的迅猛发展,各种信息资源越来越丰富。信息检索作为互联网的核心技术具有极大的商业价值;信息检索还直接影响到提供给用户什么样的信息;同时信息检索也是情报处理的重要环节。从这个意义来看,研究并掌握信息检索的核心技术,无疑具有十分重要的经济意义、社会意义和军事意义。 本文对中文信息检索中的索引策略进行了研究。由于中文文本没有用于切分单词的空格,这使得索引单元的研究成为中文信息检索的特有问题。本文比较的索引策略包括基于字的索引、基于词的索引和基于字的n元文法的索引。本文包括以下几个方面的内容: 1、汉语自动分词。汉语分词是以词为索引单元的信息检索不可缺少的一步。本文分析了汉语自动分词中的歧义现象,然后介绍了用于处理自然语言的歧义问题的语言模型,最后介绍了应用于语言模型的平滑算法。综合使用这些技术,使汉语自动分词获得了很高的准确率,满足了信息检索的需要。 2、信息检索系统实现问题,即信息检索系统的数据组织方式。对信息检索系统待处理的数据进行高效的组织是进行信息检索的必要前提。数据组织方式影响系统的检索速度和存储空间。这部分首先介绍了索引的组织方法,包括正向索引和倒排索引;然后在关键字的组织查找方式中介绍了两种常用的查找方法B-树和哈希表;随后是信息检索中的数据压缩方法;最后是信息检索系统数据组织的具体实现。本文根据实验数据的特点,恰当地选择了数据组织方法,满足了实验的要求。 3、中文信息检索中的索引策略。本文应用概率模型在TREC公开数据(TREC Mandarin)上比较了不同索引策略对中文信息检索的影响。本文首先介绍了信息检索中的概率模型,随后给出了待比较的检索策略:基于字索引、基于词的索引和字的二元文法索引。实验结果表明,以信息检索常用的平均精确率和R-精确率为评价指标,基于字的二元文法索引性能最优。以召回率与精确率对应表和文件数与精确率对应表为评价指标,基于字的二元文法性能最优或与最好的结果可比。
其他文献
为了应对日益激烈的商业竞争,企业需要在应用环境中使用更加高效的技术来整合已有的信息化资产和灵活地融合新的服务。面向服务体系结构的编程模型和方法学,以及集成企业服务的
近些年随着移动终端的逐渐普及,人们越来越喜欢使用无线网络来观看视频。在这种情况下,目前存在的无线通信技术和无线视频编码器已经无法满足日益增多的用户量的需求。无线通
随着信息技术的迅速发展, 计算机在考试系统中有了深入的应用。但现有的考试系统都只能对选择、判断等客观题进行自动批改,主观题的批改还是要由人工完成。因为文字类主观题的
本文来源于国家自然科学基金项目“基于流态复杂性测度的流量软测量模型及虚拟动态流量计”(项目编号60374042)。 近年来,随着流体传动及控制技术的快速发展,动态流量的测
线性判别分析(Linear Discriminant Analysis, LDA)是一种重要的子空间表示算法,并被广泛的应用于模式识别等众多领域。LDA旨在寻求一个最优子空间,使得投影至该空间的不同类别数
网络的发展和普及为人们的工作和生活提供了便利,但同时也带来了更多的安全隐患。蠕虫、病毒、间谍软件、DDoS攻击、垃圾邮件等,极大地困扰着人们,给我们的信息网络造成严重的破
在信息不断膨胀的今天,人们需要从大量数据中获取有效的知识,这使得智能信息处理成为了众多学者所面临的课题。在处理现实问题时,很难得到完全确定的数据,因此对不确定性条件下的
门禁系统主要用来实现对出/入口的安全控制,它属于身份认证系统的范畴。传统的门禁系统基本上属于单模式结构,使用者对钥匙模式没有任何选择,另外单模式门禁系统受到很多的限制,
干啥别干服务这一行餐馆服务生苦思冥想找出路王美娟,河北承德人,18岁的她。从学校毕业后,经人介绍去了一家餐馆,做起了服务生。俗话说得好,干啥也别干服务这一行,事儿多,难
无线局域网由于其在网络构建及用户移动性等方面比有线网络更加方便、灵活和快捷,因此被广泛应用于经济、生活和科研等领域。然而无线局域网具有空间上的开放性,这就使它在安全