基于互信息的短文本分类技术

来源 :东北大学 | 被引量 : 0次 | 上传用户：wangzhy1

【摘要】

：

处于信息大爆炸时代的现代信息社会,大量的短文本正以迅猛的势头闯进了人们的生活中。短文本的形式有很多,比如,email,微博,手机短信,新闻标题摘要,书评及影评,产品介绍及评

【作者】

：

王月

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2012年01期

【关键词】

：

短文本分类互信息主题词抽取 SVM 短文本相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

处于信息大爆炸时代的现代信息社会,大量的短文本正以迅猛的势头闯进了人们的生活中。短文本的形式有很多,比如,email,微博,手机短信,新闻标题摘要,书评及影评,产品介绍及评语,企业中的业务流通信息等等。由于这些短文本呈现爆炸式增长,并且含有的信息量非常大,而且传播迅速影响广泛,已经越来越引发研究人员关注。如何准确有效的从中获取所需的资料和信息,从而更好的辅助人们的工作和学习,文本分类技术在其中发挥着举足轻重的作用。所谓的短文本,指的是长度比较短,字符数通常在百个字符以内的文本,内容简洁精练概括。文本相似度计算是文本处理的一项基础而又重要的工作,它是实现文本分类的关键技术。目前有很多文本相似度的度量方法,比如TF-IDF权值方法,基于语义理解的相似度计算,基于隐形语义标引LSI的相似度计算等等。但是这些技术没有将统计信息和语义信息合理的相结合并进行有效的分析,因此,缺乏对短文本相似度度量的有效支持。传统文本分类处理技术主要针对的是普通文本即长文本,相应的技术也有很多,比如,k-NN(k最近邻方法),朴素贝叶斯网络,最大熵方法和SVM(支持向量机)等。这些技术性能稳定,效率高,对于长文本分类十分有效。但短文本具有一些独有的特征,比如,长度短,包含信息比较单一,文本特征向量稀疏等。所以,传统的文本处理方法不能满足对短文本处理的要求,短文本对文本处理提出了更高的要求和挑战。基于上述的分析,本文提出一种基于互信息的文本相似度度量函数。它不但考虑了文本间的相互语义关系,而且还通过概率统计保证了相似度的准确性。它将文本间的语义关系通过统计信息的计算得以表示,从而实现文本间的语义关系的衡量。对于面向短文本分类来说,同其它分类技术相比较,VSM的适应性最好,但它仍然不能有效的支持短文本分类的要求。通过对短文本的分析,发现主题词往往对短文本的分类起着关键作用,故而本文考虑引入主题词来辅助VSM进行分类。进而,通过对训练集进行统计分析,抽取出部分主题词和类别的二元映射关系。利用这种映射关系辅助VSM进行分类,能提高短文本分类的准确性,并且能减少文本分类的时间。最后,在实际的数据集上进行了一系列的实验来验证基于互信息的短文本相似度函数的性能,以及评判主题词和SVM分类器相结合短文本分类算法的各项性能指标。各项数据表明基于互信息的短文本相似度和基于主题词的SVM分类器性能优良,效果稳定,实现了高效快速的短文本处理。

其他文献

基于泛化的隐式马尔可夫模型的基因发现系统设计与实现

该文以高等真核生物的基因发现技术为研究对象,首先,讨论了基于隐式马尔可夫模型(HMM)的基因发现系统及其不足.随后设计了我们的基因发现系统.我们在HMM的扩展形式-泛化的隐

学位

基因发现HMMGHMM隐式马尔可夫模型

面向对象的公安线索多媒体数据库系统的研究与应用

文章通过对扩充关系模型、面向对象模型和超媒体模型三种多媒体数据库的数据模型实现方式进行比较总结,并结合公安线索系统的实际情况,提出了面向对象多媒体数据库的数据模型

学位

面向对象多媒体数据库数据模型UML

面向领域的B2Bi Web服务和数据交换中心系统研究与实现

该文将在理解B2Bi电子商务概念及We6服务和数据交换技术的基础上,以构建面向纺织服装领域的B28iWeb服务和数据交换中心系统为目标,从系统的体系结构、系统建模、设计方法和关

学位

B2BiWeb服务数据交换UDDIXML电子商务

MPLS多播系统链路修复研究

论文首先介绍了与链路中断修复机制相关的各种交换方式,描这了电路交换,数据报交换以及虚电路交换三者的基本特性.概述MPLS网络体系结构,MPLS技术的体系结构、技术优势、典型

学位

MPLS多播交换技术LSR链路中断

基于移动代理的适应性配置管理系统

近年来，人们对大规模分布式应用系统的要求不断提高，系统性能和可用性均已成为用户所追求的实现目标。为此，许多分布式应用采用了冗余服务技术：一方面，通过增加数据和计算的冗余度

学位

冗余服务配置管理层次结构权衡模型移动代理

电梯系统预防性维修策略数据挖掘方法研究

该论文结合概率论及关联规则数据挖掘方法,针对电梯维护工程特点,提出了一种新的基于维护种类选择及故障关联分析的数据分析方法,从而可以得到合理的故障维护安排策略.该文首

学位

维护策略数据挖掘关联规则概率论电梯工程

基于RTOS的离子迁移谱毒品侦查仪嵌入式软件的设计研究与实现

嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可剪裁的专用计算机系统。近十几年来，嵌入式系统的发展异常迅速，而嵌入式操作系统作为嵌入式系统的核心，其应用也越来越广泛

学位

嵌入式实时多任务操作系统迁移时间控制

基于改进型遗传算法的配电网谐波畸变分析与研究

早在19世纪末，当交流电以一种新兴的动力形式出现时，人们就发现了系统中电压、电流存在畸变的问题。随着近代工业的不断发展，电力系统中各种负荷不断增加，特别是非线性负荷的增加，使得电网中谐波的畸变越来越严重，甚至已经达到了危害电力系统本身及其各种用电设备安全运行的程度，谐波的研究和治理已经成为一项的重要研究课题。目前此课题包含的内容主要有：电力系统谐波潮流计算、非正弦电量的测量方法和测量装置的研究、无

学位

谐波畸变率潮流计算遗传算法自适应

企业ERP&DSS系统中遗传算法的研究与应用

在制造业的生产管理方面,按照单项目无能力约束的批量生产计划制定的计划方案在实际执行过程中效果不是很理想,其中主要的原因是所作的批量计划方案超出了正常生产能力.有限

学位

ERP决策支持CLSP遗传算法罚函数

保险行业应用系统集成解决方案的研究与应用

企业在信息化过程中开发了许多面向特定功能，基于不同技术的应用系统。如何将这些应用系统进行集成，从而在企业中实现资源共享、业务自动化、提高效率和降低成本，对于企业有着特

学位

应用系统集成数据集成业务过程集成XML消息中间件JLEE

基于互信息的短文本分类技术

与本文相关的学术论文