基于频繁子树模式的GML文档结构聚类算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:lbfjm78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于频繁子树模式的GML文档结构聚类算法GCFS(GML Clustering based on Frequent Subtree patterns),与其他相关算法不同,该算法首先挖掘GML文档集合中的最大与闭合频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋予不同的权值,采用余弦函数定义相似度,利用K-Means算法对聚类特征进行聚类。实验结果表明算法GCFS是有效的,具有较高的聚类效率,性能优于其他同类算法。
其他文献
采用符号熵分析法,分析和讨论了经典的Lorenz连续混沌系统和Rssler连续混沌系统的类随机性强弱。先将连续混沌系统产生的实数序列转化为二进制序列,然后进行编码,计算其符
针对捷联惯导系统导航精度受系统振荡误差严重影响的问题,提出一种基于双滤波器的捷联惯导外阻尼导航算法.该算法设计了两个串行滤波器,第一个滤波器以外速度为参考输入对外
通过对目前入侵容忍系统模型的改进,构建了具有自恢复和自适应特点的分布式自适应入侵容忍系统模型。通过对入侵容忍系统的数据完整性、保密性和系统响应速度的定量分析,提出
目的:老年性便秘已成为临床常见病、多发、疑难病症,严重影响老年人的生存质量,且目前治疗方法和措施并不理想。方法:采用足三里穴“烧山火”配合腹部推拿手法,治疗2~3个疗程。结果
通过引入随机向量序列对赋值集进行随机化,在逻辑系统G3中提出了公式的D3-随机真度的概念,证明了全体公式的D3-随机真度之集在[0,1]中没有孤立点;提出了D3-相似度和D3-伪距离
【正】 长期以来,在林业经营管理方面缺乏科学的评价方法,只凭借人们主观意识加以评价。国外有人利用欧基里德多维空间E~n多变量的原理,提出了一个综合评价方法和以此方法为
【正】 一、林业体制究竟怎么改革?是发展林业经济面临的首要问题。从建国三十一年来正反两方面的经验教训中,使我们认识到以木材利用为中心的机构设置,已经不能适应以营林为
【正】 三中全会后,农村经济体制的大变革,广大群众林业生产积极性日益高涨,各种经营形式应运而生。当前如何根据林业生产特点,有机聚合各种经营形式的优点,探索一条既适应现
针对并行与分布式系统中的同型机调度问题,提出了一种改进蚁群算法。结合问题具体特点,给出了蚂蚁分配方案的生成策略,设计了一种新颖的基于任务适合度的信息素表示方法,以实现信