论文部分内容阅读
随着计算机的广泛使用和Internet的迅速发展,我们所拥有的信息规模以几何速度爆炸式增长。对于海量的信息资源的检索,有两个急需解决的问题:其一,如何准确地从海量数据中检索出真正有用的信息,而不需要用户从一大堆反馈结果里人工查找;其二,如何实现一种高效的检索方法,对海量信息进行快速检索。以此为背景的海量信息检索技术引起了人们的极大关注,成为当前信息检索领域的主要研究课题之一。商空间理论借鉴人类多层次多粒度观察和分析问题的方法,将不同粒度世界的结构与数学领域的集合和空间统一起来,建立对象模型,求解实际工程中的复杂问题。从更粗的粒度观察和分析问题,可以使得问题简单化,加快求解速度,特别适合于解决大规模复杂问题。本文以海量信息库为研究对象,商空间理论为工具,研究基于商空间理论的海量信息检索问题。主要研究内容及创新点包括以下几个方面:(1)深入研究商空间理论与方法,提出了分层递阶的信息库结构和相应的层次检索模型,分析了层次检索算法的时间复杂度。将信息库由传统的单层结构拓展为分层递阶的树形结构,并且对每个节点定义属性值,可以从不同层次揭示信息库的类别特征,实现不同信息颗粒之间的快速转换,而且很容易实现节点之间、节点与查询向量之间的比较和计算操作。层次检索算法改变传统的海量信息检索方法单纯依靠增加处理器数量提高检索速度的方式,利用分层逐步求精的方法,获得与查询相关的检索领域,然后在此领域内进行检索。由于相关领域的规模远小于整个信息空间,因而层次检索方法可以有效地解决海量信息检索中由于规模过大而造成的问题。(2)研究信息库层次结构的建立方法,以及文档的多粒度颗粒化算法,从而构造出分层递阶结构的信息库。本文分别利用智能Agent技术和聚类技术,提出了信息库层次结构的构造方法,给出了基于本体的信息库结构的表示与存储方法。然后在本体结构的基础上,给出不同层次上等价关系和等价类的定义,构造出信息的商空间,提出分层递阶结构的信息库的构造算法。由于在构造商空间的过程,文档颗粒化是严格按照等价关系和等价类进行,因此本方法构建的信息库满足商空间理论的“保假原理”,这为层次检索奠定了数据基础。(3)针对海量文档的分类问题,从多分类问题和训练速度问题两个方面,研究基于SVM的海量多类别文档的分类方法。首先,在分析传统的多类SVM的基础上,提出基于遗传算法的ECC-SVM,利用遗传算法解决ECC-SVM的码本问题,实现高效的多类SVM。然后,提出一种在原始样本空间下缩减训练样本规模的算法,以解决大规模样本集下SVM的训练问题。本算法中提出了一种新的距离计算方法,称为k近邻距离(k-DNN),利用k-DNN得到相应的类间距离和类内距离,以及噪声识别和样本重要性评价方法,提出训练样本的减样算法。k-DNN取最近k个样本与其距离的平均值,是传统距离的更一般化形式,可以有效克服传统距离的偶然性强、对噪声敏感、对样本分布敏感的局限,使得样本的类间距离和类内距离更加合理。(4)研究层次检索模型的个性化问题,以及多层次结构下用户兴趣的动态获取方法。提出了个性化层次检索模型,使得本文的层次检索能够根据不同的用户背景给出不同的检索结果。然后,根据网站结构的层次化特征,提出基于蚁群算法的多层次用户兴趣的动态获取算法。本算法易于实现,能够提供更高层次、更多内容的用户兴趣信息,并且能有效克服传统挖掘方法只能获取长期兴趣、不能捕捉用户兴趣变化的局限,适合复杂多变的网络环境。