基于向量空间的中文科技文献信息检索系统研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:shashuang0126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际信息检索系统中,信息检索系统的查全率和查准率都不是很高,针对不同的文献集,信息检索系统的性能也不一样,很多系统尽量适应各种文献的检索,这样性能就更加低效,与其说使检索系统适应各种文献类型不如退而求其次,针对不同的文献类型设计不同的检索系统,本文对使用最多的科技文献的结构进行了分析,针对科技文献的特点,对中文科技文献信息检索系统的各个方面进行了改进。在讨论科技文献的自动分词之前首先分析了用来标引文献的关键词,根据文献标引中使用的关键词的特点,改进了分词词典和停用词表,使其更加适用于中文科技文献的标引需要。针对文献的五个部分使用了不同的分词算法,对篇名、摘要和参考文献使用双向最大分词算法,可以从中识别出歧义词。对于正文由于词语的重复率比较高,不对正文出现的少量歧义进行处理,也不会对词频产生大的影响。正文就只采用正向最大分词方法。信息检索系统选用向量空间模型作为检索模型。在基于向量空间的信息检索系统中加入了位置空间,位置空间中篇名、摘要、关键词、正文和参考文献分别作为一个位置来处理,从中提取的关键词单独计算权值,构成位置向量,然后用位置向量来构造文献向量。文献向量构成整个文献空间矩阵。为了减小文献矩阵的摄动和长文献对词频的影响,本文把文献矩阵规范成了概率阵,并用矩阵的条件数证明了概率阵的摄动明显减小。由于信息检索系统的评价方法一直用查全率和查准率,这两种方法都是二值的评价方法,本文提出了一种偏移距离的方法来评价检索系统。
其他文献
VoIP又称为IP电话,它突破了传统电话的范畴,是一种技术创新的通信服务业务。它通过语音编码和包交换的方式实现在IP互联网的上语音通信。它促进了网络资源利用,降低语音业务成本
随着信息技术的快速发展,数据在医疗、商业、民生、科研与军事等领域都呈现出爆炸式增长,数据密集型计算环境下数据挖掘算法的研究已被越来越多的人所关注。数据密集型计算环境
数字图像处理、分析与机器视觉是认知科学与计算机科学中的一个令人兴奋和活跃的分支,在人的感知、识别和理解中,形状是一个非常重要的参数,而链编码就是以此概念延伸的一种形状
随着彩铃业务的成熟和发展,如何有效地存储和管理大容量的铃音数据成为了一个重要的技术问题。本文提出新增铃音服务器网元作为集中式铃音数据存储方案,利用高效的磁盘缓存算法
流媒体正在成为推动未来宽带应用的主动力。但目前来讲流媒体的质量还不能令人满意。在传统的C/S模式下服务器很容易成为系统瓶颈,如何在Internet网络上提供大规模的流媒体内
学位
近年来,以关键词、短语、概念等特征项为基础的信息检索、搜索引擎、文本挖掘、信息抽取等信息获取技术得到广泛研究和应用。信息获取可从海量的、良莠不齐的数据中获取粗信息
本文主要介绍了一种多CCD专业扫描仪驱动软件的系统结构设计及其实现方案。因为特殊的需求,与普通家用和办公扫描仪相比,专业扫描仪在硬件和驱动软件上都存在着很大的不同,比
随着电子、计算机、信号处理等技术的发展,超声焊缝检测已逐步从传统的手工检测方式进入了自动检测与计算机辅助识别的时代。本文主要针对中小模数齿轮环焊缝超声自动检测系
信息隐藏是一门涉及感知科学、信息论、密码学等多个学科领域的交叉学科。信息隐藏的分类方法繁多,按照嵌入域可以分为空间域方法以及变换域方法,其中常用的变换域方法包括离散
图像显著性检测是很多图像处理领域的重要步骤,它是图像分析,特征提取和探索人类视觉特性的综合过程。显著区域检测对各种基于图像分析和图像理解的应用,比如基于内容的图像