【摘 要】
:
针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用的文本聚类技术:基于划分的K—means和基于主题模型的LDA。在分析各自缺
【基金项目】
:
国家自然科学基金资助项目(61105064,61203311,61373116);陕西省教育专项科研计划(14JK1667);西安邮电大学研究生创新基金项目(CXL2014-23)
论文部分内容阅读
针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用的文本聚类技术:基于划分的K—means和基于主题模型的LDA。在分析各自缺陷的基础上,提出一种基于TextRank的文本二次聚类算法。该算法借鉴主题模型的思想,在传统的聚类过程中引入词聚类,并在关键词提取阶段融合词语的位置与跨度特征,减少了由局部关键词作为全局关键词带来的误差。实验结果表明,改进后的算法在聚类效果上要优于传统的VSM聚类和基于主题模型的LDA算法。
其他文献
2006年,以《一个馒头引发的血案》为导火索而兴起的"网络恶搞"在中国迅速流行,随后"恶搞电影"、"恶搞足球"、"恶搞春晚"、"恶搞名人"、"恶搞新闻"等一系列"恶搞之风"迅速兴起。分析"网络恶搞
为探索醚化2D树脂对纯棉织物抗皱整理的可行性和最佳工艺设置,设计正交试验探究醚化2D树脂、催化剂、保护剂、柔软剂在成衣免烫技术中的应用工艺,确定最佳工艺为醚化2D树脂F-
由于中国人名形式复杂多样,且存在简称、别名等不规范形式,针对传统的中国人名识别方法对诸如人名简称或别名这类非完整形式中国人名识别尚不完善的问题,提出了一种基于扩展
目的:比较互联网的感视知觉训练系统与同视机训练对斜视术后双眼单视功能恢复的临床疗效。方法:选取2016-01/10于我院行斜视手术后进行双眼单视功能训练的斜视患者100例,根据
"十三五"以来,我国在扶贫领域投入了大量资金,为全力打赢脱贫攻坚战,实现全国人民同步全面进入小康社会提供了坚强的物质保障,但在扶贫项目资金管理中也存在一些资金使用管理
目的分析佛山市顺德区龙江镇手足口病患病危险因素。方法选取2014-01—2015-12间龙江医院收治的1833例手足口病患儿为研究对象,纳入观察组,将同期入院就诊的120例非手足口病
事件回放<<<< 如今,當你打开一些网站,扑面而来的弹窗广告似乎总能击中你的内心:刚搜索了一件衬衫,服装店铺的链接就立刻弹出;只是随便收藏了几件商品,它们“降价促销”的推送就纷纷到来。有网友对此感慨道:“世界上最了解你的,也许不是家人,而是弹窗广告。” 时事鲜评 弹窗广告,一个老生常谈的话题。它的治理难点在于,弹窗广告本质上是一种行业内通用的市场营销行为,类似营销电话,有其合法性,因此不宜“
文章运用文献资料法、问卷调查法、数理统计法等研究方法,对竞技健美操三人操成套动作编排依据及成套动作编排的方法进行阐述,并对我国现在在编排中出现的问题进行研究。对竞
本文以中设设计集团股份有限公司信息化建设为研究背景,剖析了设计企业在协同设计方面存在的问题和不足,运用项目管理方法论,借助信息技术,实现生产设计协同与企业管理的有效
通用引物PCR是应用与不同序列的保守区互补的通用引物,来进行PCR扩增,它能够高通量地对相关微生物或其亚型进行检测与鉴定分型,是一种简便、快速、灵敏、特异的鉴定分型方法,