基于国产数据库的全文检索技术研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:ranranwenwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库管理系统(DBMS)软件是信息系统的核心,是国家战略必争的高新技术。实现信息化带动工业化需要自主产权DBMS,提高我国企业创新能力和市场竞争力需要自主产权DBMS,国家信息安全离不开自己的DBMS,我国民族IT产业的发展更需要DBMS的支撑,业界对这些观点已经逐步达成了共识。 多年来,信息检索界一直在关注文档的存储和按关键字高效检索的问题。随着WWW的出现以及在线保存所有的文档成为可能,基于关键字的文档检索已成为数据库管理系统的重要组成部分。本文在国产数据库GBase项目的基础上,研究了中文全文检索的相关技术,并完成了一个实验系统。 中文分词是基于中文的全文检索研究中一项重要的研究内容,用于从连续的字符流中切分出有意思的词。对于基于词的搜索引擎的全文系统,分词速度要求较高。本文在对中文编码体系和中文分词算法进行研究的基础上,设计了一种高效的中文电子词表的数据结构,它全程支持词的Hash查找。同时提出了一种改进的Hash高速分词算法,理论分析和实验表明,优于目前的同类算法。在引入错误率的基础上,进一步提出了一种字符匹配次数为零的分词算法,它的分词速度更快,占用的内存更少。 全文检索的索引是全文检索的核心内容,它关系到索引的创建代价和检索的速度与精度。目前最流行的索引类型是倒排文档。本文介绍了倒排文档的基本结构,索引创建流程,相关度的计算。并对于倒排文档的压缩进行研究和实现,取得了良好的效果。 最后,本文实现了一个国产数据库的全文检索试验系统,该系统有三个核心模块:分词模块、查询模块、索引模块。在分词模块使用改进后的分词算法,并且实现对布尔查询的支持。
其他文献
在智能多摄像机协作监控系统中,目标匹配是一个重要且研究难度较大的问题。对于大型的多摄像机网络,难以对摄像机进行标定,因而缺少可用的时空关联信息,在目标匹配的时候往往只能
网络与多媒体技术的高速发展带来了对信息的巨大需求。如何将文献信息输入计算机进行加工、处理已成为信息化建设的重要问题。目前主流OCR (Optical Characters Recognition,
基于IEEE 802.11标准的无线局域网接入技术已经成为市场和应用的热点。但无线局域网在带来方便的同时,也带来了很多新的安全隐患。为此,业界提出了一些安全增强机制,包括:802.1x
随着因特网的迅猛发展,在线的可用电子信息也迅速增加,电子邮件作为一种最快捷、最经济的通讯方式,也得到飞速发展。但是同时,许多垃圾邮件也在网络中蔓延,占据了邮件服务器的大量
医学图像存档与传输系统PACS(Picture Archiving and Communication System)将计算机和通信技术相结合应用于医学领域,以“电子化”的方式在通信网络中传输、归档和显示各类医学
因特网的普及为社会带来了巨大的经济效益。然而,网络的安全问题也日益突出,已经成为人们关注的核心问题。各种安全防范技术应运而生,其中防火墙技术以其实用性、安全性获得了广
智能交通是计算机视觉、机器学习、交通运输领域的热门课题,它涉及到多个学科的交叉,具有重要的学术研究价值和极强的实用背景。本论文的研究背景是“混合交通下行人安全状态
由于网络技术和多媒体技术的发展,人们希望手机能够接入互联网,传播人们喜闻乐见的多媒体信息,多媒体短信息(MMS: Multimedia Messaging Service)应运而生。目前,MMS业务发展
以人为本的社会需要以人为本的计算,应运而生的普适计算必将极大的丰富和便利人类的生活。普适计算通过将普适计算设备嵌入到人们的日常生活环境中,使人们每时每刻都能享受到计
随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题日益严重。目前,基于接收端的过滤技术被广泛应用。但是在接收端处理垃圾邮件无法避免垃圾邮件对