InfoSigs:一种面向WEB对象的细粒度聚类算法

来源 :NDBC2009第26届中国数据库学术会议 | 被引量 : 0次 | 上传用户:wryktt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向WEB对象的细粒度聚类已经成为学术界研究的热点。然而现有大多数聚类模型只关注如何对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求。针对上述挑战,本文挖掘WEB文档中词汇间的树状概率层次关系,提出一种以词汇信息分布作为特征标志的聚类算法InfoSigs,实现对WEB对象的细粒度聚类。算法构建一个信息传递有向无环图,根据词汇在图中信息分布的集中度赋予其合理的权重,产生更具代表性的特征向量;同时算法提出了一个自适应的记录合并模型,有效提高记录簇中记录问的相似度,减少噪音对合并过程的影响。实验结果表明,InfoSigs算法比传统聚类算法,如I-Match和Shingling,在F-MEASURE值上平均约有21.3%的提高,可以有效地运用到多领域WEB对象的聚类问题。
其他文献
[摘要]在音乐教学中,要实现新课程标准在教学中的指导与实践,培养学生的创新思维,教师要做到:转换教学角色,树立学生主体地位;淡化教学目标,增强学生学习兴趣;突破教学模式,拓展学生想象空间;弱化教学考核,鼓励学生自主评价。  [关键词]新课程标准 教育主题 教学模式    音乐新课程标准的实施,为中国的音乐教育改革增添了浓重的一笔。新课程代表着新的教育理念,突出一个“新”字,“新”是素质教育的灵魂。
对复杂数据进行图模式建模在近年来越来越流行,因此,在查询执行的优化过程中图索引技术变得至关重要。在本文中,我们研究了图模式的索引问题,并且提出了一种近似的索引方法,称之为
会议
[摘要]掌握多媒体教学手段是对语文教师的要求,也是时代发展的趋势和必然要求。熟练掌握多媒体等现代技术并运用到语文实践教学中,可以提高课堂教学效率,激发学生学习语文学科的兴趣。  [关键词]多媒体 语文教学 应用    当前信息技术飞速发展,一场新的革命正在悄然兴起。新的信息技术影响着人类的教育教学活动,同时也迅速改变着教育者的观念、思路和教学方法。教师在教学过程中能够科学地综合运用各种教学媒体的基
Top-k查询由于其广泛的应用而倍受欢迎。不确定数据库中通常考虑的两条生成规则是:独立和互斥,一个x-tuple是由一些互斥的元组组成的,构成一个x-tuple的各个元组称为该x-tuple的
会议
[摘要]发散思维是一种创造性的思维。把发散思维运用到作文写作立意中去,可以标新立异,突破僵化的固定思维模式,思路才能别开洞天、柳暗花明,才能写出内容丰富、角度新颖、思想深刻的好文章来。  [关键词]发散思维 作文 立意创新    发散思维又称辐射思维、放射思维、扩散思维或求异思维,指大脑在思维时呈现的一种扩散状态的思维模式,表现为思维视野开阔,思维呈现出多维发散状。它能克服人们头脑中某种自己设置的
[摘要]本文主要论述了如何在历史教学中培养学生的创新思维。首先,说明了创新的重要性,引出历史教学中培养创新思维的必要性。然后,从教师和学生两方面论述了如何实现这个目标。  [关键词]历史教学 培养 创新思维    21世纪是知识经济时代,知识经济的核心是创新。笔者认为,每门学科都应在教学实践中努力培养学生的创造思维品质。因此,在中学历史教学中,如何培养学生的创造性思维能力,成为一个重要的课题。  
[摘要]在数学学习中,要重视对圆锥曲线定义深层次地理解和记忆,做到灵活运用。圆锥曲线定义不仅是推导圆锥曲线方程及性质的基础,而且也是解题的重要工具。  [关键词]圆锥曲线 定义 应用    圆锥曲线定义不仅是推导圆锥曲线方程及性质的基础,而且也是解题的重要工具。重视圆锥曲线定义深层次的理解、记忆,做到灵活运用,往往会收到避繁就简、准确快速的解题效果。下面举例谈谈圆锥曲线定义的有关应用。
[摘要]讲授法是最传统的且被广泛使用的一种教学方法,然而,在教法百花齐放的今天,讲授法常常坐冷板凳,不被人们所重视,研究其教学方法的人也寥寥无几。其实,讲授法是各种教学方法之母,各种教学方法均是在讲授法的基础上进行改革的。因此,发掘提高讲授效果的方法是非常必要的,也有很高的应用价值。笔者结合20余年的教学经验论述了提高讲授效果的“三类、九法”,供同仁参考。  [关键词]讲授 “三类” “九法”  
本文分析了进行营销活动的必要性和当前形势下面临的挑战,归纳了具有普遍意义的营销策略,并且提出了一种房地产开发公司营销的理想模式。 This paper analyzes the necessit
XML文档包含有内容和结构,除了可以进行纯内容(CO)检索外,还可以进行内容和结构(CAS)检索。提出了一种新的CAS检索方法,这种方法以内容检索为主,结构匹配为辅,结构约束主要影响结
会议