OpenBASE中文全文检索设计与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:Stephanie1121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索 (Full-Text Retrieval) 是基于内容而不仅是外在特征的检索方式,是信息检索的发展。在全文检索的研究上,取得了不小的进展,有很多成型的理论和工具。关系型数据库对于类似文本这类非结构化的数据处理起来没有优势,因此有必要把全文检索技术与数据库结合起来,增强数据库对文本的处理能力。 国家信息产业部的电子信息产业基金招标项目是本文的一个重要课题背景。数据库的全文检索要解决体系结构、分词、索引、存储以及展现等问题,并且对性能要求比较严格。 本文先介绍和分析了全文检索的关键技术,结合 OpenBASE 设计了一个全文检索架构,增加了文本转换、分类器和向量构造器。基于词典的分词方法具有快速、易于实现的特点,本文采用的正是基于词典的并且根据编码特性设计的一种新的分词算法,同时结合了基于规则的消歧、未登录词识别算法,提高分词的准确率。在 OpenBASE 数据库中增加了对全文检索操作的语句,并实现了全文索引的重建和增量更新两种索引更新方式。 测试表明,设计的全文检索系统能够完成中西文的全文检索。应用本系统提高了文本检索的效率,改善了 OpenBASE 的全文检索性能。
其他文献
摘要:云计算是伴随着互联网技术的进步而产生的一种以服务的方式提供动态可伸缩的虚拟资源的新型的计算模式。随着云计算的发展,科学工作流将逐渐在云计算中得到应用,目前越来
时间序列分类是时间序列研究的关键部分,为了高分类的准确率以及算法执行的效率,本文出了基于特征采样的时间序列分类方法。时间序列数据往往具有不等长的特性,常规的机器学
随着信息网络技术的飞速发展,传统图书馆的服务已远不能满足人们对知识的需要,特别是在信息服务和知识服务方面。图书馆数字化的逐步推进,让人们能更加快速、准确的获取所需
组推荐算法弥补了传统推荐算法无法给多个人进行推荐的缺点,已经引起了越来越多的研究者的关注。目前的组推荐算法主要分为两种,一种是使用组偏好模型进行推荐,另一种是融合组员
公钥基础设施PKI以非对称加密技术为基础,为网络信息安全提供有力保障。PKI以数字证书为密钥管理工具,终端实体之间进行通信之前必须要验证数字证书的可信性。验证数字证书是否
随着多媒体技术和计算机网络的飞速发展,数字媒体的制作和传播变得更加方便和快捷,同时,盗版和侵权的问题也日益严重。数字水印技术作为一种数字媒体版权保护的有效方法,近年
人脸检测是指通过对输入图像进行分析,确定其中人脸的数目、大小、位置、姿态等信息的过程。人脸检测作为人脸识别的先期工作,是计算机模式识别领域研究热点,涉及模式识别、图像
推荐系统的目的是向用户推荐用户感兴趣的信息和商品。推荐系统工具和技术是现有商业和研究团体的主要研究课题之一,推荐系统通过滤信息后台预言用户是否会对一个特定项目感兴
在社会网络中,团队的形成是一个一直研究的主题。为了提高成功率以及效率,已经形成了很多研究方法和研究方案。论文中基于一个由专业个体形成的较大规模的社会网络子集来完成相
随着计算机技术和Internet技术的迅猛发展,科研、工业和商业领域所产生的数据正以惊人的速度增加,这些数据集物理上大多分布在不同的地点,但是它们在逻辑上却是一致的。传统的数