基于商空间理论的海量信息检索模型的研究

来源 :安徽大学 | 被引量 : 7次 | 上传用户:nrykapnry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的广泛使用和Internet的迅速发展,我们所拥有的信息规模以几何速度爆炸式增长。对于海量的信息资源的检索,有两个急需解决的问题:其一,如何准确地从海量数据中检索出真正有用的信息,而不需要用户从一大堆反馈结果里人工查找;其二,如何实现一种高效的检索方法,对海量信息进行快速检索。以此为背景的海量信息检索技术引起了人们的极大关注,成为当前信息检索领域的主要研究课题之一。商空间理论借鉴人类多层次多粒度观察和分析问题的方法,将不同粒度世界的结构与数学领域的集合和空间统一起来,建立对象模型,求解实际工程中的复杂问题。从更粗的粒度观察和分析问题,可以使得问题简单化,加快求解速度,特别适合于解决大规模复杂问题。本文以海量信息库为研究对象,商空间理论为工具,研究基于商空间理论的海量信息检索问题。主要研究内容及创新点包括以下几个方面:(1)深入研究商空间理论与方法,提出了分层递阶的信息库结构和相应的层次检索模型,分析了层次检索算法的时间复杂度。将信息库由传统的单层结构拓展为分层递阶的树形结构,并且对每个节点定义属性值,可以从不同层次揭示信息库的类别特征,实现不同信息颗粒之间的快速转换,而且很容易实现节点之间、节点与查询向量之间的比较和计算操作。层次检索算法改变传统的海量信息检索方法单纯依靠增加处理器数量提高检索速度的方式,利用分层逐步求精的方法,获得与查询相关的检索领域,然后在此领域内进行检索。由于相关领域的规模远小于整个信息空间,因而层次检索方法可以有效地解决海量信息检索中由于规模过大而造成的问题。(2)研究信息库层次结构的建立方法,以及文档的多粒度颗粒化算法,从而构造出分层递阶结构的信息库。本文分别利用智能Agent技术和聚类技术,提出了信息库层次结构的构造方法,给出了基于本体的信息库结构的表示与存储方法。然后在本体结构的基础上,给出不同层次上等价关系和等价类的定义,构造出信息的商空间,提出分层递阶结构的信息库的构造算法。由于在构造商空间的过程,文档颗粒化是严格按照等价关系和等价类进行,因此本方法构建的信息库满足商空间理论的“保假原理”,这为层次检索奠定了数据基础。(3)针对海量文档的分类问题,从多分类问题和训练速度问题两个方面,研究基于SVM的海量多类别文档的分类方法。首先,在分析传统的多类SVM的基础上,提出基于遗传算法的ECC-SVM,利用遗传算法解决ECC-SVM的码本问题,实现高效的多类SVM。然后,提出一种在原始样本空间下缩减训练样本规模的算法,以解决大规模样本集下SVM的训练问题。本算法中提出了一种新的距离计算方法,称为k近邻距离(k-DNN),利用k-DNN得到相应的类间距离和类内距离,以及噪声识别和样本重要性评价方法,提出训练样本的减样算法。k-DNN取最近k个样本与其距离的平均值,是传统距离的更一般化形式,可以有效克服传统距离的偶然性强、对噪声敏感、对样本分布敏感的局限,使得样本的类间距离和类内距离更加合理。(4)研究层次检索模型的个性化问题,以及多层次结构下用户兴趣的动态获取方法。提出了个性化层次检索模型,使得本文的层次检索能够根据不同的用户背景给出不同的检索结果。然后,根据网站结构的层次化特征,提出基于蚁群算法的多层次用户兴趣的动态获取算法。本算法易于实现,能够提供更高层次、更多内容的用户兴趣信息,并且能有效克服传统挖掘方法只能获取长期兴趣、不能捕捉用户兴趣变化的局限,适合复杂多变的网络环境。
其他文献
本文主要分析了虚拟现实技术在土木建筑工程中的应用研究,阐述了虚拟现实技术的基本内涵,针对虚拟现实技术在土木工程、建筑工工程中的实例应用问题进行了深入的研究。结合本次
对682名在校大学生同时进行"应对方式问卷"和"16PF"测试,并对652份有效答卷进行了数据处理。结果发现,大学生在认知、情感、行为三个方面所表现的积极与消极的应对方式与其所
钢管已广泛应用于建筑工程,但因其特殊的焊接结构和不规则的焊缝形状,使得其检测难度越来越高。这里主要针对薄壁管Y型节点焊缝进行研究,选择合适的超声波仪器,探头,试块和扫
核方法作为一种非线性方法,对于非线性模式分类问题,具有坚实的理论支撑和强大的应用潜力。它具有两个显著的特点:首先是在线性与非线性之间架设起一座桥梁,其次是通过巧妙地引入
模拟电子技术是电气与自动化类专业一门重要的基础必修课程,课程内容复杂、抽象,学习难度大。本文对该门课程教学内容和教学方式的改革和建设进行了思考和探讨,目的在于实现教学
介绍了多路电极式水位计测量水位信号的原理和设计方法,通过分析中水处理系统的特点,提出了一种智能中水处理控制系统的总体设计方案。在设计的计算机监控系统中集成了变频技
目的:研究复方阿嗪米特(CA)联合莫沙必利(MSP)药物对功能性消化不良(FD)患者症状积分、胃排空试验及胃容受性的影响。方法2012年2月至2013年3月于该院确诊为FD患者112例,分成观察组和