论文部分内容阅读
随着互联网的飞速发展,以及人类对有用信息的需求猛烈增长,搜索引擎技术在过去的十年中取得了长足进步。流行的商业引擎如雅虎和谷歌等,其搜索对象仅仅限于超文本,而没有对其他信息资源进行覆盖。众所周知,数据库在信息的存储和检索上都具有至关重要的作用,在近几年,针对数据库的搜索引擎已经成为计算机科学领域极富吸引力的研究方向。本文在本实验室所开发的新一代分布式数据库系统——数字有机体数据库系统的基础上,设计并开发了一种针对数据库的搜索引擎。数字有机体数据库系统的设计目的是在由多个服务器节点构成的广域网络内,进行数据库的分布式存放和数据库检索的分布式调度。基于数字有机体数据库的搜索引擎使用户可以用一系列的关键字在多个数据库中检索同关键字相关的记录。基于分词、文本分类、信息压缩等广泛应用于传统搜索引擎的流行技术,本文提出了一些改进的算法和工程方法来提高数据库搜索引擎的性能表现。本文重点突出了其在理论和工程实现上对数据库搜索引擎所做出的创新和改进。其中主要的工作包括:1大规模中文信息处理是构建中文搜索引擎的基本环节,为了实现大规模中文信息处理,本文提出了一种改进的中文分词算法。基于前缀树和动态规划,该算法提高了中文分词速度,同时保持了相对较高的分词准确性。此外,该算法提供了一种灵活的机制来处理词典未收录的词汇,比如人名、地名、机构名称等。2传统的基于支持向量机的文本分类器需要大量的人工标注的训练文本,既包括正类训练文本也包括负类训练文本。为了解决负类训练文本缺乏的问题,本文提出了一种比较有效的解决方法。该方法将Rocchio算法和K均值文本聚类算法结合起来,从而获得足够的负类训练数据来构造文本分类器。实验证明,这种方法可以提高分类器的准确程度。3提出了一种具有良好定义的软件体系结构——分布式线程池体系,它在本文的分布式任务调度中具有关键作用。最后本文通过严格的实验验证了文中所提出的算法的性能,以及基于数字有机体数据库的搜索引擎的各项功能。