基于互关联后继树模型的词索引方法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:weiwei05516
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,人们越来越希望能够在庞大的网页库中快速准确地找到自己想要的信息,全文检索技术应运而生。它对文档的全部文本数据都建立索引并提供检索,目前已逐渐成为Web信息检索的主流技术。索引建库策略和索引模型是全文检索技术的核心内容,如何将两者合理结合以提高全文检索系统的性能具有重要的研究意义。介绍了全文检索技术的知识体系,对现有的索引建库策略进行了研究和比较,选择了基于词表的建库策略作为研究内容。通过对词索引方法中的中文自动分词技术的研究,选择了基于PATRICIA树词典结构的分词方法,可以很方便的增加新词条,并且采用正向加字匹配法进行分词操作,提高了切分的效率。分析了主流的索引模型及其优缺点,在现有的索引模型中,互关联后继树模型具有较快的创建和查询速度、查询方式多样化等优点,因此深入研究了该模型的结构以及算法。目前对该模型的研究中,大都使用字索引方法,普遍存在检索精度低、索引膨胀比高等问题,因此将基于分词的建库策略应用在以互关联后继树模型为索引模型的全文检索系统中,对全文本分词后建立互关联后继树索引,既能保证较高的查准率,又能降低索引的膨胀比。另外将分词词典的树结构与互关联后继树索引文件进行关联,在检索过程中对查询字符串分词时可以直接查找索引文件,大大提高了检索的效率。最后,通过实验对这种新型的索引方法进行验证与分析,实验结果表明,该方法提高了查准率,并有效降低了索引的膨胀比。
其他文献
近年来软件开发呈现出了突飞猛进的发展,软件开发技术也从早期的结构化编程,发展到后来的面向对象技术,直至现在的软件构件技术。基于构件的软件工程(Component-Based Software E
计算机安全一直受到大家的关注。网络安全问题是研究人员探讨的重点,许多成熟的技术随之而诞生,网络侦听、数据包过滤等等。然而网络安全威胁的目标依然是计算机系统本身,计
在现代社会中移动通信已经成为非常重要的通信手段,而移动基站是移动通信的核心设备,为了提高移动通信的覆盖面积和通信质量,城市中分布成千上万的基站,如何维护这些基站以确
近年来,随着计算机技术的发展,特别是计算机硬件设备以及网络连接技术的不断成熟,一种新的计算模式-普适计算(PervasiveComputing)越来越引起计算机科学界的关注和重视。普适
随着磁共振成像(Magnetic Resonance Imaging,简称MRI)技术在世界上的高速发展,MRI在临床医学上已得到了普遍的应用。谱仪是MRI系统的核心设备,射频发生电路是谱仪中的一个重要模块,在序列运行过程中输出频率、相位、幅度、波形及脉宽可控的射频脉冲,以产生磁共振成像所需的B1场。随着高场磁共振系统(1.5T及以上系统)的普及,射频信号的波长已接近人体组织的尺寸,因此射频脉冲对
虚拟现实技术通过对虚拟世界的创建模拟真实世界的体验,是由计算机建立的一种多源信息融合的交互式仿真系统,广泛的应用于医疗事业,军事航天,工业设计,教育培训,地理交通和游
如今,大量流媒体应用出现在网络之中,如网络球赛直播、网络视频点播和在线音乐等。而流媒体的占用高带宽、持续性长、QoS要求高的特点使得传统的C/S模式或者CDN架构难于支撑大
计算机化学是应用计算机技术进行化学研究的学科,计算机化学深受当今计算机与网络通讯技术飞速发展的影响,处在不断发展和演变之中。随着计算机化学所研究问题的复杂性越来越高
视频跟踪主要包含目标表示和目标定位两部分。比较常用的目标表示方法是颜色核直方图,它采用核密度估计(Kernel Density Estimate)方法估计目标的颜色概率密度分布函数。以颜色
高光谱图像技术的不断发展,使我们能够轻松获得丰富的地物信息。而图像分类作为高光谱图像处理之中重要的一环,受到了极大的关注。最小正则子空间分类算法,一种基于线性表达的模