一种社会文本流的分类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:szocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和移动客户端技术的不断完善和发展,人们每时每刻都在产生、共享和传递数据,其中很大一部分是以文本形式存在的。如何从文本数据中高效的提炼有用的信息和模式已经成为数据挖掘应用中一个亟待解决的问题。由于文本数据自身的变化和文本语义分析的不断深入,以隐含狄里克雷分配(LDA)为代表的主题模型逐渐成为在文本分析领域应用最广泛的算法族之一。本文的主要研究对象是社会文本流,社会文本流是一种用于交流的非正式的依赖于时间的短文本数据集,它的特点是:语言环境相对自由,用词不规范,噪声信息多;单篇文本篇幅短但是数据量大;对上下文本语言环境依赖性高;具有例如时间、作者等附加信息。直接将传统的主题模型应用在这类文本上,学习效果往往不尽人意。本文将以LDA模型及其扩展模型为研究基础,结合社会文本流的特点,主要解决LDA主题模型及其扩展模型在社会文本流建模中存在的两个问题:传统的LDA模型直接应用于短文本分析适应度不高;传统的LDA模型及其扩展模型对动态文本话题转换的捕捉和解释能力不强。首先本文从LDA模型对短文本适应能力不高的特点入手。其原因在于:LDA模型关注的词共现信息往往局限于单篇文本内,因此对于篇幅短信息匮乏的短文本来说LDA模型的学习效果往往不理想。本文提出了文本重组模型,该模型显式的将文本中词同现信息提供给LDA模型,以克服文本信息不足的问题。其次,社会文本流对上下文语言环境依赖度高,文本的话题转换往往随时间变化。本文提出了时序的附加标签的隐含狄里克雷分配模型(TL-LDA),该模型通过标签转换矩阵捕捉文本的话题间的相互影响,以提高模型对话题的捕捉能力。模型通过先验概率分布模拟时间的变化,得到有更加丰富涵义的后验主题信息,同时在建模过程中加入了有监督的学习技术,提高了模型对话题解释能力。通过对比分析实验结果得出结论:本文提出的重组文本模型和TL-LDA模型相比于其他传统模型,能够更好的适应社会文本流的学习和分析。
其他文献
随着人们对于电子、生物、医学等方面微观领域的研究深入,操作对象的微小化迫切要求进行微操作研究。基于生物操作的细胞融合、染色体移植、转基因研究、微细手术、DNA注射等
目前,国外发达国家都已经使用了信息化系统来管理通信设备,并且可以对相关的数据进行统计分析,我国在这方面的研究进展较为缓慢。本文使用ASP.NET技术开发了一个适合于通信企
学位
目前基于IBM刀片集群的解决方案,功耗体积较大,效率较低,不适应星载以及小型化应用的发展。基于Tilera众核平台的开发周期较长,成本较高。JPEG2000标准是在原有的JPEG标准的
电子背散射衍射(EBSD)已成为扫描电子显微镜(SEM)的标准配置附件。借助EBSD技术获得的菊池花样,SEM可以进行相鉴定、晶体取向以及织构分析。现有的这些应用在技术上是成熟的,其算法主要是基于Hough变换识别EBSD花样的菊池带。由于Hough变换不能直接识别双曲线,由传统的Hough变换获得的菊池带信息是不准确的,这给EBSD花样解析未知晶体的Bravais点阵造成致命影响。为此本论文主要
马腺疫作为一种急性接触性传染病,可引起马属动物颌下淋巴结肿胀,严重时可致死,该病给世界各地养马产业造成严重的经济损失。马腺疫主要由马链球菌马亚种(Streptococcus equi
在互联网技术广泛应用于各行各业的今天,我们迎来了云计算的迅速发展。它提供了一种新型的商业计算模型和服务模式,可以将计算、存储、网络和应用等等汇集到一起,用户只要按
目的:观察枳术丸合双合汤加减治疗脾虚瘀阻型糖尿病周围神经病变的临床疗效。方法:本研究采取随机对照的研究方法,将符合诊断标准的60例DPN患者,随机分为对照组和治疗组,每组30例。在糖尿病教育、饮食指导、调控血糖、血脂、血压等基础上,对照组给予甲钴胺片口服,治疗组予以枳术丸合双合汤加减进行治疗。两组服药疗程均为8周。疗程结束后,观察治疗前后两组患者在中医证候积分、神经传导速度、Toronto评分等有
伴随着社会需求的增加以及视频处理等技术的发展,新一代视频监控系统能够实现网络高清视频的实时传输,并在现实中得到越来越广泛的应用;而目标跟踪算法作为计算机视觉领域的
Android操作系统在当今的市场上有着很高的占有率,用户对于Android手机的使用量已经越来越大。但是,Android手机上的恶意App的数量也在逐渐增加,对于使用Android设备的用户造