结合seeds集和LDA的半监督文本聚类算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:heephy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了降低半监督聚类算法的数据稀疏度,借鉴seeds集思想,提出了2种基于潜在狄利克雷分配(LDA)的半监督文本聚类算法,Seeded-LDA和Constrained-LDA.Seeded-LDA算法将已知的少量文本标签转化为seeds集信息,根据seeds集信息初始化模型参数;Constrained-LDA在此基础上在聚类过程中限制有标签文本的主题分布,使其与标签相一致.在真实数据集上的实验结果表明,该算法比基于K均值聚类算法衍生的半监督文本聚类算法具有更好的聚类结果和更低的数据稀疏度.
其他文献
期刊
南昌大学材料加工工程博士点含金属塑性加工、铸造、焊接、高分子材料成形和大变形力学等学科方向;是国家“211工程”重点学科和“九五”、“十五”江西省重点学科;有院士1人,博
三维人体扫描测量技术由于设备昂贵,难以大范围普及,RGB照相人体测量技术容易受到环境因素的影响,实际应用时准确性不高、适应性不广。针对这些问题,提出一种基于Kinect深度数据进行人体骨骼信息计算的人体测量技术。实验结果表明,该方法可以较准确得对人体胸围尺寸进行估计测量,较传统测量方法效率高,不易受环境因素影响,适用性较广,可应用于快速获取人体表面尺寸信息。
为实现高校教务管理系统中对学生成绩的数字签名,将基于环Zn上的圆锥曲线ElGamal型数字签名方案应用于XML数字签名领域,设计和实现了一个学生成绩XML数字签名系统。介绍了系
建立一支与时俱进的高素质的领导人才队伍已成为时代发展的一项紧迫任务。近年来,领导干部队伍的文化层次、知识结构发生了可喜的变化,绝大多数领导干部通过组织培……
北京世纪奥科生物技术有限公司成立于2007年11月,于同年创建国家标准物质网站,依托该网站平台,专业从事标准物质产品销售和技术服务,是国内较大的标准物质提供商之一.
针对遥感图像的细节信息丰富、对比度低、清晰度差等特点,提出基于剪切波变换和反锐化掩膜相结合的遥感图像增强算法。直方图均衡化遥感图像,剪切波分解遥感图像,得到低频子
为降低软件工程领域传统进行系统化调研(SLR)所需要的大量的人力和时间花费,提出了自动化辅助SLR过程的方法。通过使用语法和句法分析方法对软件估算文献的摘要部分进行结构化划
我是一名从事新闻宣传工作的人武干部.
针对无线传感器节点系统设计中,异质多核架构使得系统功耗优化越来越复杂的问题,提出了利用仿真器对系统功耗模拟建模,建立了利用SystemC搭建的一个异质多核传感节点SoC仿真器。