面向舆情分析的海量短文本分类关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ayin2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舆情分析可以更清晰化社会各个阶层民众对各种社会现象和社会问题的关注度、看法以及意见和行为倾向,从而为政府相关部门提供更广泛更深入更及时的信息参考和决策支持。随着互联网的普及,来自于互联网的信息与日剧增,这些信息中蕴含着真实客观的社会舆情,因此,有必要对这些互联网信息进行深入分析和挖掘,洞察民众的意愿,掌握网络舆情动态。尤其是在以互动交流为主要特点的Web2.0模式下,微博、BBS、新闻评论等成为了网络舆情的主要贡献者,然而,来自于这些信息源的信息纷繁复杂、实时海量,如何对这些信息进行有效地组织和分类以满足舆情分析的应用需求跃升为一个迫切需要解决的重要课题。又因为这些信息最显著的一个特点是大都以短文本的形式存在,短文本中所包含的有效特征很少,这使得传统的文本自动分类技术不再完全适用,必须深入研究适用于海量短文本自动分类的关键技术。  微博以其开放性、互动性、共享性和传播迅速性等特点,成为了民众参与度最高的公共舆论平台,是影响社会舆论的一支重要力量,因此,本文主要针对微博短文本信息展开研究,在深入分析微博信息特点的基础上,确定了本课题需要重点解决的三个问题,即文本内容短小造成的文本特征的高维稀疏性,以及微博数据天然的类别分布不均衡性导致的训练数据集呈现的偏斜性,还有微博数据的实时变化所带来的增量学习问题。本文针对微博短文本分类的这三个重要问题,展开了深入研究,主要贡献和创新点如下:  1)构建了挖掘微博短文本“隐含特征”的用户-超链主题模型  针对微博短文本特征的高维稀疏性,本文将微博信息中与主体文本内容有着紧密联系的结构化信息,即用户信息、用户行为信息和文本链接信息,引入到主题模型中,用于辅助挖掘微博短文本中的“隐含特征”,从语义角度对短文本进行特征扩展。本文所构建的新的用户-超链主题模型(User-Hyperlink Topic Model,UHTM)通过微博用户信息这一“纽带”将微博的文本信息、用户信息、用户行为信息和文本链接信息有机地结合在一起,实现了统一建模。UHTM模型将博文按照用户划分,明确博文中各部分文本的作者,并且基于该用户文本中的超级链接将外部链接文档合并进来,即以用户信息为桥梁来将当前微博文档和外部链接文档连接在一起(而已有的考虑了链接信息的主题模型都是基于文本信息将当前文档和外部链接文档连接在一起的),从而可以更深度地理解微博短文本信息。  2)提出了一个融入了类别信息的UHTM模型的参数估计方法  微博的实际数据分布具有天然的不均衡性,即某个或某些类的数据很多,而另外某个或某些类的数据很少,这必然会导致分类所用的训练样本集是偏斜的。在偏斜数据集上学习训练UHTM模型,必须要考虑类别信息对参数估计的影响,否则会导致主题模型所挖掘出的主题偏重于大类的词项,而忽视来自于小类的词项,最终会影响整体的分类效果。因此,本文提出了一个融入了类别信息的UHTM模型的参数估计方法,该方法的核心思想是首先使用一个新的融入了类别信息的词项权重计算方法来计算词项的权重,该权重计算方法涵盖了“词项的类别分布”、“词项的类别文档频率差异”和“词项的类别相关度”三个重要的类别影响因子,然后将词项的权重引入到UHTM模型的参数估计中,从而将体现数据偏斜性的词项的类别信息通过词项权重融入到了UHTM模型中,这样就保证了UHTM模型在挖掘主题的同时兼顾了数据的偏斜性。  3)构建了一个基于隐主题的SVM增量学习模型  随着时间的推移,微博数据分布会有变化,文本特征也会有变化,对于基于历史数据学习训练而成的分类模型,在一段时间之后可能就无法正确分类某些新数据了。本文构建了一个基于隐主题的SVM增量学习模型,此模型通过隐主题实现了样本的增量学习和文本特征的增量学习的有机结合。该模型中文本特征的增量学习是通过对之前样本的学习所得到的“主题-词项”概率分布作为学习新样本的先验概率来实现的,并通过一个新的“主题继承度”的定量计算方法且利用词项的权重来量化所有的先验知识;而样本的增量学习的核心思想则是充分利用了SVM支持向量的特性,将支持向量集作为历史分类模型的代表,并使用一个新的“有指导的单连接凝聚式层次聚类算法”来发现支持向量集中的高相似项,之后对这些高相似项的大“簇”,进行修剪,获得精简的支持向量子集,再与新增数据集中违反KKT(Karush-Kuhn-Tucker)条件的数据子集合并,来学习训练分类模型。此方案的学习方式是轻量级的,可以更灵活地应对短文本数据的实时变化给分类带来的困扰。  全文以扩展的UHTM主题模型为主线,将针对短文本特征的高维稀疏性,数据的偏斜性和数据的实时变化给短文本分类造成三大困扰的研究有机地贯穿在一起,不仅实现了从语义角度对短文本的特征扩展,还兼顾了数据的偏斜性,且对数据的实时变化也能灵活应对。本文的研究方向是当今学术界的研究热点,研究成果具有相当高的学术价值和理论意义,可以直接集成应用于实际的舆情分析系统,使得舆情分析系统在信息处理的自动化程度,精度和效率等方面得到全面显著的提升,具有很高的应用价值和实际意义。
其他文献
伴随着移动互联网技术的飞速发展,为人们的学习和生活带来了极大的便利,越来越多的人开始接触并使用移动互联网提供的业务。移动互联网的数据业务流量不断增加,对移动通信技
学位
随着各方面技术的成熟发展,深度学习成为了当今工业界和学术界的研究热点之一。尤其是深度学习在图像领域的重大突破为图像识别与搜索的发展带来了巨大的促进作用。然而目前主
随着互联网的发展,数字资源的数量和种类都呈现了爆炸性增长。数字图书馆作为数字资源的集结地,拥有数量庞大的数字资源和丰富的数字资源类型,这对数字资源的组织和存储提出
IP多媒体子系统(IP Multimedia Subsystem, IMS)是一个基于IP网络的通信业务控制系统。伴随着IMS系统的商用部署,其安全问题也受到越来越多的关注。IMS系统的安全问题一方面
在当今以服务为导向的业务环境下,保证业务的持续运行已经成为了现代企业提高市场竞争力的关键。IT技术是实现企业业务的核心组件,因此IT服务的持续性和高可用性成为了决定企
面向服务体系架构的广泛使用,使得Web服务被越来越多的用来管理资源和接口,服务组合产生的增值服务能够提供更加强大和灵活的功能。随着服务的积累,如何高效的管理服务为用户
IMS(IPMultimediaSubsystem)是叠加于PS(PacketSwitch)域上的业务控制系统,能灵活地提供各种多媒体业务。随着IMS的部署规模逐渐增大,原有的电路域核心网的容量会出现冗余,这造
随着计算机软件日益的庞大和复杂,软件存在的缺陷和问题越来越难以发现,软件测试在软件生存期中的地位越来越重要。软件测试是对软件需求分析、设计规格说明和编码的最终复审
适量运动是保障身体健康的关键因素之一,运动不足或者运动过量都会对身体健康造成不良影响,严重者会导致死亡。不同运动方式(步行、跑步、上下楼梯)的运动强度不同,因此有必要识别