短文本分类技术研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:jifengrgj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,社交网络也逐渐成为人们交流和获取信息的重要渠道。其中,国外最具有代表性的社交网络是Facebook和Twitter,而国内最具代表性的则是新浪微博和腾讯微博等。由于这些数据大多数是以文本形式来存在的,且通常都会有字数限制,因此有关短文本的研究势在必行,而如何通过相关文本挖掘技术有效及时地获取其中的有用信息显得尤为重要。文本挖掘通常包括文本分类、文本聚类、文档摘要等。近年来,随着文本分类技术的广泛使用,它已成为一个热门的研究领域。本文首先对短文本的主要特点以及研究领域进行了概述,并对有关的短文本的研究现状和其中涉及到的关键技术进行了简明扼要的介绍。接着,针对短文本具有的数据量大、数据稀疏的特点,我们引入了LDA(Latent Dirichlet Allocation)主题模型和信息增益(Information gain, IG)特征选择算法来提高短文本分类的效率。传统的文本表示模型是向量空间模型(Vector Space Model,VSM),它通常是以词或短语为特征的,文档集被表示成文档一词汇矩阵。但是对于短文本来讲,同一个词出现在不同短文本的概率会远远小于长文本,这种数据的稀疏性,使得传统的长文本表示模型以及机器学习的方法无法直接应用到短文本上;其次,由于短文本的数据多,计算量大,因此需要通过特征降维来提高它的效率。LDA模型是一个三级分层贝叶斯无监督学习模型,它能够直接获取隐藏在文本中的语义信息,而不需要通过搜索引擎等外部文本来扩展短文本。从信息增益特征选择公式来看,它不仅前半部分考虑了特征出现的情况,同时后半部分也考虑了特征不出现的情况,因而在去除“无用词”时效果显著。针对以上问题和基于LDA模型和信息增益的特点,本文的第3部分采用信息增益来进行特征降维,然后再用LDA进行主题建模,最后以主题作为特征,建立文本类模型。经过对比实验的micro_F1值显示,短文本的分类性能有了显著提升。传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。所以本文的第4部分主要针对改进后的信息增益算法结合LDA模型来进行文本分类。具体执行步骤为:首先是对类内类内特征进行降维处理,主要利用的是特征分布均匀度和特征关联树模型。然后,使用类间加权离散度对信息增益公式进行改进,进一步提高类间特征IG的精确度,获得更优的特征子集。最后,再结合LDA主题建模来进行文本分类。通过对比实验表明,短文本的分类性能有了更进一步的提升。
其他文献
随着互联网络硬件、软件的飞速发展,由于实际生活和工作的需要,实时控制系统越来越受到人们的关注,关于实时控制系统的研究和讨论也越来越热烈。实时控制系统带给我们分布式
社交网络是近几年来迅速崛起的一类新型Web服务。Twitter和新浪微博是第二代社交网络,即微博服务的代表。随着移动互联网的发展,微博已经成为最为流行的信息传播平台,拥有巨
随着网络技术的发展和各种网络应用的涌现,使网络服务质量受到了前所未有的关注,研究人员也发现单纯增加带宽并不能完全解决服务质量问题。鉴于此,目前涌现出了多种服务质量
计算机犯罪的高技术特性使取证科学产生了一个新的分支即计算机取证。与传统取证不同的是,计算机取证收集、分析的数据是计算机运行过程中所产生的数据。事件重建是计算机取证
近年来,随着网络技术的迅速发展和J2EE平台的广泛采用,基于B/S的多层Web体系结构逐渐发展成熟起来。MVC设计模式分离了数据的控制和数据的表现,在实现多层Web应用系统中具有明显
计算机和互联网技术的快速发展和推广,给人们的生活带来了极大的便利,但是随之而来的负面影响也是人们所始料不及的,以计算机系统为对象或工具、通过网络进行的新型犯罪活动——
近年来,随着移动通信技术的迅猛发展,移动通信已经走进3G时代。基于位置的服务LBS是随着移动通信技术的进步而发展起来的增值业务,无线定位技术对于3G网络的重要性已得到广泛认
组合拍卖是解决各种资源分配问题的有效机制,随着电子商务的发展,组合拍卖机制发展成为一种新的多方交互与决策的电子谈判模式,是当前电子商务的一个重要应用领域。组合拍卖问题
相变是指材料在一定温度和压力等条件下发生的物相的转变。相变前后,材料的微观结构发生变化,从而引起宏观性质的显著改变。对相变现象的研究具有理论意义和工程价值。在核工业中,锆因其高熔点、高硬度、低热中子吸收截面等优良的材料特性得到了广泛应用。常温下,锆晶体处于密排六方结构。升温时发生固态相变,转变为体心立方结构。继续升温则会熔化。本文使用分子动力学方法,对温度引起的单晶锆的固态相变和熔化这两类典型相变
由于XML数据具有不同于传统数据形式的特点,使得传统的数据库技术不能有效地发挥作用,因此需要针对其特点研究新的处理方法。作为XML数据处理中最重要问题之一的查询操作已经