一种短文本主题建模方法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:liyongdede
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网产业的快速发展,主题模型作为近些年来在文本挖掘中出现的一种概率模型逐渐成为了国内外的研究热点,其应用几乎覆盖了文本挖掘和信息处理的所有领域。   短文本可分为一般短文和以论文标题、新闻标题为代表的关键词短文两种形式,在一篇关键词短文中,每个单词都具有相同的权重,故而单词在文本中的出现频率并不重要,针对这一特性,本文提出了关键词短文本数据集中的单词相似度计算方法,并将单词相似度与PLSA主题模型相结合,进而提出了Similarity-based PLSA主题模型,简称SPLSA,该模型引入了两项可以显著提高建模质量和性能的措施:1)首先基于单词相似度提出主题纯度这一概念,用以衡量建模结果中每个主题特征明显的程度,并依据主题纯度对原始主题集合进行筛选,从而得到高质量的建模结果;2)引入单词权威值用以衡量一个单词能够代表一个主题的能力,并据此对概率矩阵进行初始化,从而使得初始化后的每个主题即具备一定主题特征,并且主题之间不会出现特征交叉,同时还可以使用更少的迭代次数使得迭代计算进入稳定状态。   同时为了对主题建模结果进行更好的展示,本文还提出了主题特征单词、主题特征文档、主题代表作者的选取方式以及主题热度演变的计算方法,并通过一个主题展示平台网站对这些主题特征信息进行更加形象化的展示。   在论文标题数据集上的实验结果表明,SPLSA主题模型的建模效果要优于PLSA主题模型。  
其他文献
随着各种交通车辆的增多,以及人们出行增多,使得交通压力日益增大,为了改善高速公路路网的交通性能,一方面需要增加道路、拓宽路面、增添交通设施等硬件投入,另一方面更需要
随着社会的发展以及科技的进步,Web社区的影响力日渐增大,社区强大的用户网使得重要信息能迅速得到社会关注,用户针对产品、话题、政策等发表的观点和建议也为企业营销、政府网
随着计算机技术的快速发展,传统的人机交互方式已经无法满足日趋复杂的交互需求,笔式交互等新型人机交互方式逐渐成为研究的热点。在移动互联网的时代,智能手机、家庭娱乐系统等
随着多媒体业务和实时业务的快速普及,在无线Mesh网络中提供更好的服务质量(QoS,Quality of Service)保障变得越来越重要。无线Mesh网络QoS路由实质上是满足多约束的优化问题,已
近年来,随着ERP、电子商务的迅速发展,越来越多的企业开始重视数据仓库的建设,以从大量数据中获得有用的信息,为企业带来经济效益。相对于数据库管理系统,数据仓库系统具有面
图像去噪技术的研究目前还是一个热点难点问题。近年来学者已经提出很多复杂巧妙的去噪算法,但大部分都只能局限于一定的适用范围。也就是说,只有当图像模型符合算法的假设时,才
面对人类社会的快速发展,为社会提供服务的软件系统也一同更新换代,而不规范的软件开发流程和系统长期的演化使得软件更新更加困难。这些投入使用多年但又极其重要的遗留系统,拥
三维建模与变形技术在模具生产、动画制作、地球科学、物理科学等领域越来越受到关注。众多学者将草绘作为三维几何建模和变形的首选交互工具,他们设计了多种算法和系统。 
软件是充满错误的,而修复错误最重要的前提,就是如何快速地定位错误,这往往也是在软件开发周期里花费人力物力最多的一步。因而任何可以降低错误定位代价的技术都是非常有吸
在高校中,现代信息技术综合应用的重要领域之一就是基于WEB的教学管理系统,这种系统也是实现教育管理信息化的丰要方式。随着教育事业的改革不断深化,面对更多更快的要求,教