基于LDA模型和HowNet的多粒度子话题划分方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:fyzqi210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(How Net)语义词典相结合的多粒度子话题划分方法(MGH-LDA)。首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分。通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率。
其他文献
目的探讨高脂血症致肾损害与中医痰瘀的关系。方法喂饲高脂饲料造成大鼠高脂血症致肾脏损害,祛痰除瘀方(大黄、姜黄)干预给药,分别检测血脂、血液流变性及肾组织病理变化。结
现有基于粒子群的云存储任务调度算法不能感知用户的QoS偏好,即对不同QoS要求的用户任务采用的是同样的适应度函数,导致用户满意率低下。通过重定义粒子群算法的适应度函数,
关节软骨是骨表面关节间复杂的活性结缔组织,损伤后基本不能自我修复,目前临床上义缺乏有效的治疗方法。聚N-异丙基丙烯酰胺(PNIPA)水凝胶由于其良好的生物相容性以及接近人体生理温度的最低临界溶解温度(LCST),因此在组织工程等方面都有着广泛的应用,是用作软骨支架的潜在理想材料。然而传统化学交联的PNIPA水凝胶无相变,不具有可注射性;线性PNIPA水凝胶机械强度差、对外界刺激响应速率慢,极大地限
自动编码机作为一种新兴的深层神经网络学习算法,在高维数据的降维和图像重构中取得了很好的效果。针对该方法在文本分类中重构出大量的对学习没有帮助的含噪数据,提出一种利
<正>2010年8月10日~11日,中石油在兰州召开代储代销工作研讨会,在听取了油田组、炼化组和装备制造组的研讨汇报后,中石油物资采购管理部主任李遵义作了重要讲话,指出代储代销
为了解决分数阶微分应用于图像处理中难以确定分数阶微分阶次的问题,首先分析了图像的分数阶微分增强效果在一定范围内随着分数阶微分阶次的增大而增大以及图像的平均亮度越
从案件与人员数量增长动态数据得出的“案多人少”与从人均结案数静态指标得出的“人多案少”均是现实问题,两者的矛盾表面上是描述视角的差异,实质上隐藏着对“法官应该做什么
报纸
目的探讨加速康复外科理念指导下的护理干预措施在预防全膝关节置换术(TKA)后下肢深静脉血栓(DVT)形成的疗效。方法将200例行全膝关节置换术后的患者随机分为实验干预组100例
<正>此次仓储工作交流会上,中国石油物资系统内10家典型经验单位就仓储管理工作经验进行了发言,27家单位进行了书面交流。这些来自一线的实践经验是本次经验交流会的重要成果
以上证综合指数为研究对象,采用GARCH模型族对2000—2006年中国上海股票市场的波动情况进行了实证分析。研究表明,上海股市具有明显的ARCH效应,股指收益率具有显著的“尖峰厚