基于频繁词集和k-Means的Web文本聚类混合算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:kid0226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高雏空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k—means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。
其他文献
欧洲人权法院相关判例对刑事诉讼中证人出庭的案件范围、出庭的作证方式以及出庭的保障措施作出了比较详尽的规定。我国2012年《刑事诉讼法》虽然规定了强制关键证人出庭制度
基于广义特征值的最接近支持向量机GEPSVM是一种新的具有与SVM性能相当的两类分类方法,通过求解广义特征值来获得两个彼此不平行的拟合两类样本的超平面,其决策规则是将测试样
在经济和社会转型背景下,我国公众对待权利的态度呈现出多样性和差异化,反映了社会变迁和时代特征。在代际关系中,权利意识的差异表现得更为明显。研究表明,相较于年长的公众
本文主要分析了现代企业应用的实际,设计了较为灵活的基于SAML协议和RBAC协议原理的单点登录模型。该模型充分考虑了企业的业务实际要求,对RBAC协议进行了一定的改进,以保证权限
我国医疗保险制度改革的不断推进,对人们的生活与社会的稳定带来了极大的影响。在国家医疗改革不断发展的同时,医疗保险制度也得到一定的改进,医疗保险市场也随之不断增大,各类医
本文论述了网络服务器进程动态迁移(NSPDM)的实现技术,其主要工作是提取进程状态并在另一节点上再生该进程。使用NSPDM技术能够为用户提供不中断服务,是增强网络服务生存能力的重
图像分割是多相流高速视频分析的前提和基础。本文基于改进的Canny算子给出一种泡状气液两相流的图像分割方法。该方法充分考虑原始图像的灰度分布信息,利用高斯Sigma平滑滤波器有效地保持了边缘及消除了噪声,通过梯度的非极大值抑制和滞后阈值化处理后,获得了清晰的气液两相流泡状流图像边缘,为泡状流流动特性分析奠定了分析基础。