面向WEB对象的聚类技术研究

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:jinmin511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和web2.0站点的迅猛发展,web对象的细粒度聚类技术已经成为学术界研究的热点。然而已有的绝大多数聚类模型只关注对文本内容或文章主题进行聚类,聚类结果粒度较粗,无法满足大规模网络信息检索的质量要求,并且传统的聚类模型主要应用于结构化数据,无法处理从网络数据源提取的面向web对象的半结构化数据。针对上述挑战,本文提出了基于词汇信息分布的特征提取算法和自适应的记录合并算法,提高聚类结果的细粒度。首先特征提取算法构建一个信息传递有向无环图,通过挖掘web对象数据中特征词汇的树状概率层次关系,利用词汇在图中信息分布的集中度提取特征,过滤噪音词汇,然后利用一阶触发对挖掘半结构化数据中隐含属性间的关联关系,聚集对辨别实体起到关键作用的特征组合,根据分辨web对象的能力,为每个特征词汇赋予合理的权重,使记录的特征向量更具代表性;同时自适应的记录合并模型在产生基本聚类簇的前提下,为重复出现在多个基本聚类簇中的数据记录二次选择最优的目标聚类簇,有效提高目标聚类簇中记录间的相似度,减少噪音对合并过程的影响。通过这两个过程,整个聚类算法很好解决了面向web对象的高细粒度聚类问题。实验结果表明,本文提出的聚类算法可以过滤绝大部分噪音词汇,并且根据特征词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升。算法相比传统聚类算法在F-Measure值上平均约有21.3%的提高,可以有效地运用到多领域web对象的聚类问题。
其他文献
随着IPv4的网络空间的匮乏劣势越发的明显,随着下一代网络IPv6的推出,其中IPsec协议作为必选协议出现其中。上一代网络密钥交换协议IKE存在着消息轮数过多,容易受到攻击等缺
高速发展的DSP技术为语音信号处理提供了强有力的工具,使实时实现各种复杂算法成为可能。针对不同应用,国际标准组织制定了一系列语音压缩编码标准,其中AMR-WB语音编码是3GPP
随着无线通信的飞速发展,无线传感器网络成为了当前计算机网络领域中研究的热点。无线传感器网络具有很多的优点,应用面也很广,但是与此同时存在着能量有限、存储能力有限、
随着Internet技术的飞速发展,人们对Web上的资源共享的要求越来越高。Web服务组合技术为有效地利用分布在Web上的软件资源提供了很好的解决方法,使企业应用集成和动态协作成为
离心机是一种应用广泛的样品分析分离仪器。随着经济的飞速发展,离心机需求市场越发庞大,相关行业对离心机的性能要求也越来越高。传统的“作坊式”、“板凳式”开发模式使得低水平的劳动不断重复,同时也极大的延长了产品的研发周期。为此,构建一个通用离心机开发平台很有必要,他可以简化开发过程,提高开发效率,同时也为开发人员提供有益的选型参考。本文首先综述了离心机研发技术、平台开发模式进展状况以及此模式在各产品开
传统机电产品检索往往是通过二维草图、三维实例作为查询条件进行检索,而这种检索方式对检索者有较高的要求;更多情况下,当检索者需要检索某机电产品时,其脑海中已有信息往往
一个给定字符串的子序列是在该字符串序列中删除0个或者多个元素后得到的序列。给定序列X={x1,X2,…,Xn)和],={y1,y2,…,yn},设它们是定义在字符集∑={σ1,σ2,...,σs}上的两个字
随着信息技术和计算机网络的飞速发展,数字产品的知识产权保护成为一个迫切需要解决的问题。数字视频的版权保护和隐秘通信,成为多媒体技术发展的一个迫切而现实的问题。因此
未经任何处理的数字话音数据量很大,直接传输和存储会占用大量的信道资源和存储空间。在保证一定的编码质量的前提下如何高效率地进行压缩编码,或者在给定信息速率的前提下如
随着安卓系统的迭代更新和发展,运行安卓操作系统的智能手机在智能手机市场中有很高占有率,同时,安卓操作系统也是最受人们喜欢的智能手机操作系统。得益于手机硬件的快速发