基于词云和文章主题的校园综合新闻聚类

来源 :安徽理工大学学报(自然科学版) | 被引量 : 0次 | 上传用户:bueryuyu33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对大量繁杂的新闻数据,为了让人们从大量的数据中了解主要类别信息,将采集到的11456条校园综合新闻作为研究对象,采用了基于词云和top3文章主题的k-means聚类方法.通过词频-反文档频率技术将采集到的11456条校园综合新闻进行主题提取,并用词云结果来估计k值,结果可将采集到的校园综合新闻数据聚为7个类别,与不基于文章主题的k-means聚类方法对比.评估结果表明,当将数据聚为2到10不同的类别数时,基于top3文章主题聚类的戴维森堡丁指数值整体小于不基于文章主题的聚类方法.因此,基于词云和top3文章主题的聚类方法比不基于文章主题的聚类方法稍好.聚类结果能为用户了解或查找想要的类别信息提供一定参考.
其他文献
为降低新能源汽车骨架结构的焊接残余应力,选取奇瑞新能源汽车S61前地板骨架结构为研究对象,基于SYSWELD有限元分析软件,设计5种焊接顺序,模拟并分析不同焊接顺序对前地板骨架焊后残余应力的影响.结果 表明,前地板骨架Z方向残余应力最大,X、Y方向残余应力较小,焊接顺序主要影响Z方向残余应力.采用双焊枪从两侧向内部焊接的顺序可以有效降低前地板骨架的焊接残余应力.