【摘 要】
:
随着Internet和搜索引擎技术的发展,Web文档聚类已成为提高Web搜索和个性化服务的一个重要支撑技术,Web文档的表示则是影响Web文档聚类的结果的重要因素之一。目前Web文档聚
论文部分内容阅读
随着Internet和搜索引擎技术的发展,Web文档聚类已成为提高Web搜索和个性化服务的一个重要支撑技术,Web文档的表示则是影响Web文档聚类的结果的重要因素之一。目前Web文档聚类中由于文档表示模型及聚类算法的设计与实现等方面的问题,导致聚类质量不高,因而不能很好地满足用户需求。本文针对Web文档的表示模型及Web文档聚类过程两方面进行研究,提出基于LDA的潜在语义空间分析及Web文档聚类方法。首先应用LDA模型进行文档的潜在语义分析,将语义分布空间划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类。在此基础上,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,本文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,本文提出的基于LDA的潜在语义区划分及Web文档聚类算法在聚类准确率较以词为特征以及采用PLSA表示文档特征的方法具有更大的优势,并且在文档集游离点检测方面可以在聚类前较为精确地定位游离点,基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。
其他文献
网格计算环境下,由于资源的异构性、动态性、自治性以及网格任务的多样性,任务调度一直就是网格计算的重要环节。因此,任务调度算法的效率决定着网格计算的效率,调度算法的设
信息抽取是解决从海量Web页面中提取有价值的信息和知识的重要技术手段,而页面结构特征的挖掘和提取是信息抽取过程的关键步骤。然而,已有的页面结构挖掘方法大多数依赖于启
随着计算机处理能力和存储能力提高,视频数据的采集和存储越来越容易,视频也广泛的应用到了人们生活的各个方面,通过网络分享各种视频使得网络上的视频数据量急剧增加,监控视频作
在经济全球化趋势下,越来越多的企业开始在不同区域内创办分支机构。为了满足办公信息化的需要,企业经常会基于广域网的传输通道建立集中化的数据、信息服务中心。因此,广域
随着互联网的快速发展,随之出现了大量的微博、商品评论信息,这些信息往往带有一定的感情色彩,反应了人们对社会、经济等事件的关注;对这些信息进行分析挖掘对消费者、生产者
中、西医学通过对人眼虹膜的长期研究发现,人眼虹膜组织结构会随着机体疾病的发生、发展而发生改变,并且根据虹膜结构的不同变化特征与机体的不同脏器病变相对应。本文的研究
无线传感器网络操作系统是对无线传感器网络的研究中最重要的部分之一,它与传统的嵌入式实时操作系统有很大的不同。WSNOS对传感器节点的能源、内存资源利用提出了更高的要求
Petri网是对离散并行系统建模的有效工具之一。Petri网的结构有直观的图形表示也有基于数学工具的抽象表述方式。它的理论发展为分析系统行为和计算机科学提供坚实的理论基础
软件定义网络(Software-Defined Networking,简称SDN)架构为未来网络和创新网络应用的研究提供了一种新的思路和解决方法,而构建方便的SDN网络实验平台将会推动SDN架构及其应
企业与服务智能计算建模工具(以下简称ICES-Modeling建模工具)是由哈工大ICES中心自主研发的一款面向企业应用的建模工具,它具有简单直观的特点。它提供了构建平台独立模型和