【摘 要】
:
半监督聚类能利用少量标记数据来提高聚类算法性能,但大部分文本聚类算法无法直接应用成对约束等先验信息。针对文本数据高维稀疏的特点,提出了一种半监督文本聚类算法。将成对
【机 构】
:
中国人民大学统计学院,中国石油规划总院计算机信息中心
论文部分内容阅读
半监督聚类能利用少量标记数据来提高聚类算法性能,但大部分文本聚类算法无法直接应用成对约束等先验信息。针对文本数据高维稀疏的特点,提出了一种半监督文本聚类算法。将成对约束信息扩展后嵌入文档相似度矩阵,在此基础上根据已划分与未划分文档之间的统计信息逐步找出剩余未划分文本集合中密集的且与已划分聚类中心集合相似度较小的K个初始聚类中心集合,然后将剩余的相对较难区分的文档结合成对约束限制信息划分到K个初始聚类中心集合,最后通过融合成对约束违反惩罚的收敛准则函数对聚类结果进行进一步优化。算法在聚类过程中自动确定初始聚
其他文献
分析了绝缘子金属附件在热镀锌时出现漏镀、灰暗、皱纹、厚度不均匀、锌瘤,及热镀锌后的机加工、修整工序中出现脱锌皮、变色、"白锈"等缺陷的主要原因,包括表面预处理状况不
信息技术的飞速发展使得地图与我们的生活联系更加紧密,这就要求当今的地理教师注重教会学生如何读图。通过对新野县23所初中进行听课及问卷调查,结果显示:地理教师对信息技
针对复杂工况下滚动轴承受机械噪声等因素影响轴承故障类型区分难的问题,提出了一种基于自适应广义形态滤波和GG聚类的轴承故障诊断方法。采用自适应广义形态滤波对轴承振动
在初中化学全一册第114页和高中化学第一册第130页都有磷跟氯气反应的实验,过去作过多次实验,总不够理想,我们经过反复试验,设计出一套演示实验的简便装置。下面是我们的作法
阐述了卡尔曼滤波器在实时动态(RTK)定位处理中应用特点。合载波相位整周模糊度求,建立了附加模糊度参数状态向量扩展卡尔曼滤波模型。通过处理RINEX格式数据,给出了单频滤波
目的探讨髋动力加压螺钉(DHS)治疗股骨粗隆骨折中出现各种并发症的原因,并提出相应防治措施。方法1998年1月至2004年1月应用DHS治疗股骨粗隆骨折103例,按E-van’s标准,Ⅰ型21
随着我国城市垃圾状况和城市建设的变化,填埋场气体问题日益突出。探讨环境影响评价中如何合理确定垃圾填埋场周边建设的控制距离,科学设置垃圾填埋场的防护距离,已成为解决恶臭
以某全承载大客车作为研究对象,应用有限元分析理论,建构了客车有限元模型和客车上部结构强度的数值模拟研究环境。根据ECE R66的等效认证方法,进行了整车质心位置计算以及车
随着语言学与翻译研究的不断深入和细化,有很多的学者将具体的语言学理论指导翻译实践。语篇衔接理论作为语篇分析中的重要组成部分,自创建以来就得到了广泛的关注。选取张培基
本文对中药饲料添加剂的开发进行了研究。文章围绕中药饲料添加剂的概念和分类、中药饲料添加剂的作用和特点、中药饲料添加剂的管理等进行了论述。