基于主题模型的短文本分类方法研究与实现

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:daqizzq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随互联网的快速发展以及生活节奏的加快,人们越来越习惯于从互联网平台中获取和分享信息,这也导致网络中产生了大量的短文本信息。一些内容分发、信息检索、社交网络平台,均是产生短文本信息的来源。如果我们能从海量的信息中提取相关主题并将其分门别类,可以从一定程度上减轻信息过载对我们的影响。因此,如何有效提取信息的主题并进行快速分类日益受到研究者的关注。短文本分类目前面临的主要困难在于文本自身长度太短,导致提取的特征过于稀少、上下文信息量偏少等问题。由于通过外部语料和知识库对短文本进行特征扩展时,不仅扩展所需的时间过长,还容易引入噪声数据。此外,传统的向量空间模型和机器学习分类算法直接应用到短文本分类上效果不甚理想。针对短文本特征过于稀疏,使用外部语料进行特征扩展时容易引入噪声数据的问题,采用了一种基于主题模型的特征扩展方式,该方式利用WTTM模型来获取主题–词分布,并通过该分布来完成对短文本内容上的主题特征扩展。针对扩展特征与原特征的差异,在计算被扩展特征的特征权重时,融入扩展特征与原特征的语义相似性,使两者特征之间的语义联系更加紧密,从而使文本分类的结果更加准确。综上,提出一种词向量与主题模型相融合的短文本分类方法,为了验证该方法的有效性,将该短文本分类算法与其它短文本分类方法进行对比分析。实验结果表明,利用该方法对短文本进行文本分类时,可以使最终的分类效果得到提升。
其他文献
数据缺失问题在实验研究过程中是普遍存在的问题.多协变量存在缺失数据的情况时常出现.如果仅仅忽略存在不完整信息的样本,可能会造成大量的信息丢失,甚至造成偏差.具有非单
目的基于人群资料比较肾部分切除术和肾根治性切除术在T1b-T2N0M0期肾细胞癌中的预后作用。方法从美国SEER(Surveillance,Epidemiology,and End Results)数据库搜集2004年到2015年T1b-T2N0M0肾细胞癌患者的资料。根据筛选标准建立分析数据集,将数据分为肾部分切除术组和肾根治性切除术组,根据术前接受肾部分切除术的倾向性进行倾向评分,肾部分切除术
伴随人工智能兴起的浪潮,机器学习和计算机视觉等领域也掀起了高涨的研究热情。随着人类对新兴领域的深入探索,70%以上的信息获取来自于视觉,那么图像拼接技术作为构成图像处
作为当代大数据背景下的新兴数据分析技术,可视化技术为数据分析的过程和结果提供一种直观明了的展示方式。空间数据可视化是信息可视化的重要组成部分,地图则是空间数据可视
随着时代的发展,世界人口爆炸式增长与人口老龄化所衍生出的一系列问题受到人们的重视,中老年人等特定人群的健康保健问题亟待解决。然而,传统的集中式医疗监控方法在对病患
供需失衡本身是一个中性的经济学概念,供给和需求总是在价格机制调节下不断向均衡状态收敛。然而,对配置效率和动态效率形成严重抑制作用的长期结构性供需失衡现象表明,我国的价格机制、竞争机制和产业进入退出机制仍存在制度性缺失和发展性障碍。当前我国制造业长期结构性供需失衡可以从高新技术产业和传统产业两个维度来分析,其中高新技术产业的供需失衡是发展性障碍造成的,主要表现为技术供给不足、过度进入、市场培养有限等;传统产业的供需失衡是制度性障碍造成的,主要表现为落后产能过剩、品牌效应不足等。为解决制造业长期结构性供需失衡
慢性阻塞性肺病、肺气肿、肺癌等肺部疾病严重威胁人类的健康和生命安全。肺功能定量评估对于肺部疾病诊断和治疗具有重要意义。基于肺部组织分割的肺功能评估系统能够对全肺
由于现代网络环境的复杂性以及多媒体数字产品的透明和易操作性,各种盗版、非法篡改、恶意传播越来越容易操作,严重危害了多媒体信息的安全。数字水印技术因其能解决以上问题,成为研究的热点。经奇异值分解得到的奇异矩阵,因稳定性强而被广泛应用到数字水印算法中。但目前,大多数的基于奇异值分解的数字水印算法存在一定的虚警率问题,且固定的嵌入因子不能同时兼顾不可见性和抵抗多种外界攻击。本文针对奇异值分解存在的虚警率
缓冲区溢出是一种非常普遍并且危险的漏洞,在各种操作系统和应用软件中广泛存在。利用缓冲区溢出攻击,可以导致程序运行失败、系统宕机、重新启动等后果。更为严重的情况可以
随着互联网及社交网络的快速发展,微博信息更新速度爆炸增长,用户需要通过平台获取自己感兴趣的内容,然而庞大的信息流使用户面临“信息过载”的问题。基于这样的场景,分析挖掘用户的兴趣倾向,从而实现精准提供高质量、用户感兴趣的个性化信息及商业广告推送服务,对平台及用户都是行之有效的方法。在微博平台中,用户既存在长期的兴趣点,也会根据时间和当下流行事物的变化,产生短期的新生兴趣,而且随着互联网的发展,博文数