基于正负关联规则的Web文档分类研究

来源 :山东轻工业学院 齐鲁工业大学 | 被引量 : 0次 | 上传用户:zzyynn99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘中重要内容之一,旨在发现大量数据中项集之间的关联或相关关系。将关联规则挖掘技术应用于Web文档分类,可以更有效地组织和管理海量的Web信息,更快地查找网络上的信息。然而,目前大多研究者在Web文档分类中仅仅涉及到了正关联规则挖掘,而较少涉及负关联规则。负关联规则可以发现项集之间的负关联关系,是对正关联规则挖掘技术的补充,将负关联规则挖掘技术应用于Web文档分类,就可以发现那些负相关的Web文档,从而提高Web文档分类的正确度。然而,如何把负关联规则应用于Web文档分类还是一个新问题,为此,本文对这一问题进行了讨论,并提出了一种基于正负关联规则的Web文档分类方法。本文介绍了目前Web文档分类所涉及的分类方法,并对国内外正负关联规则的研究现状进行了总结,提出了一种基于正负关联规则的Web文档分类方法。该方法中首先对Web文档进行预处理,将非结构化的数据变成结构化数据,从而建立起新的事务集合;然后利用Apriori算法求出频繁2-项集后,用修改后的PNARC模型进行规则选择,删除矛盾的关联规则,得到正确的正负关联规则,从而区分出文档之间的相关性,以此来确定文档是否真正属于同一类别,并通过实验对这个方法进行验证,证明该算法可以对Web文档进行正确的分类。
其他文献
随着下一代网络技术的发展,传统的通信方式逐渐转移到IP网络上。VoIP技术为基于IP网络的语音通信提供了一个强有力的手段,而随着嵌入式技术和无线局域网技术的不断发展进步,IP电
经过近十年的研究,功能CT已经在颅脑、心脏、肝脏及肾脏等多种脏器中验证了其能有效地反映这些脏器在血供生理方面的信息,并且对中风、心肌梗死、肝脏移植、肾动脉狭窄等多种疾
随着传感器技术、嵌入式计算技术、分布式信息处理技术和通信技术的迅速发展和日益成熟,推动了具有现代意义的无线传感器网络的产生和发展,其目的是协作地实时监测、感知、采集
纹理合成技术是计算机图形学研究的重要内容之一,也是研究的热点。纹理合成在计算机虚拟现实,计算机动画,影视制作等领域有着广泛的应用。多年来,研究人员对提高纹理合成的质量和
随着计算机技术、网络技术及多媒体技术的飞速发展,基于网络的仿真虚拟实验室的实现成为可能,并以其出色的性价比正在成为研究的热点。目前仿真虚拟实验室多用于教学培训并取得
理论上而言,生物体中的转座行为呈随机性,在基因组中只有小部分区域没有转座子的存在。但据实际观察来看,转座子在基因组中的分布呈现高度的非随机性,并且不同的种群之间分布规律
在全球范围内GSM之所以曾经乃至现在都如此成功,漫游(Roaming)功能和网间互通(Inter-working)是两个核心的要素,而目前都是基于单对单的双向(Bilateral)或单对多的多向(Multila
时空分析方法通过分析时空数据提取目标时域与空域特征,将有意义的数据从总体中分离并应用在后续研究领域中。多视角视频时空分析实现从视频中提取时空数据特征,对目标行为分
数据库技术的发展水平决定着国家信息化程度的高低。随着生活社会化和网络化的不断深入,信息容量的爆炸式增长对数据库技术的发展提出了更高的要求。伴随在网络监控系统、金融
场景是一种分析与验证需求的有效工具,因此基于场景的分析与设计受到广泛关注。场景提供预期系统的行为实例,也就是说场景中的交互行为一定是预期系统要出现的行为。一个场景
学位