改进的互信息与LDA结合的特征降维方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:p54188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘中的一个热门研究领域。分类的流程包含关键的几个环节,每个环节处理的合适与否都对文本分类的结果有一定的影响,其中文本特征降维是分类过程中最重要的环节之一。如何将文本的特征有效的选择出来是目前一个较热门的研究课题。本文主要以文本特征选择中的互信息方法为研究对象,通过分析互信息特征选择方法存在的不足,提出了一种互信息特征选择改进的方法。由于传统方法进行特征选择时都是以数理统计为基础的,忽视了词项间的语义关系。结合LDA主题模型在分类领域中的应用,通过将传统的特征选择方法与LDA结合的思路来对文本进行特征降维,以便提高分类的效果。本文的主要工作如下:1、研究文献资料,在分析中文文本分类研究的发展现状,重点以文本分类中互信息特征选择为例进行研究。分析互信息方法在做特征选择时表现的不足,提出了一种互信息特征选择的改进方法。2、由于互信息特征选择方法没有将特征词的词频信息以及文本类别之间的信息考虑进来,而只是考虑了特征词在文本集中的文本频率。针对这个问题在基于文本词频互信息改进的基础上,引入类间离散度和类内分散度两个概念,提出了一种特征词词频与类别区分词相结合的互信息特征选择方法,实验分析表明本文提出的改进方法能够使文本分类的效果得到一定程度的提高。3、针对传统方法在做特征选择时都是以数理统计为基础的,并未考虑词项间的语义信息,将本文改进的互信息与LDA相结合来对文本进行特征降维,在Linux环境下对LDA进行建模学习,并通过实验选取合适的参数,然后采用数据挖掘工具WEKA中提供的KNN分类算法来对文本进行分类判定,与本文提出的互信息方法进行对比,得出将本文改进的互信息与LDA结合的方法能达到更好的分类效果。
其他文献
光纤传感技术是伴随着光纤制造技术和光通讯技术的发展而逐步形成的。分布式光纤温度传感系统是专门为大范围多点温度测量的应用而设计的。它可以测量长达数公里的传感光纤沿
学位
嵌入式内存数据库(Embedded Main-Memory Database,EMMDB)是一种能够构建及应用于嵌入式系统或者设备之上的,采用内存数据库(Main-Memory Database,MMDB)结构组织形式的小型
在现实社会网络中存在着许多关系数据,这些数据集合由不同类型的实体构成,实体之间广泛地存在着复杂的链接关系,对这些链接信息的挖掘可以为我们提供关于这个社会网络更丰富更准
学位
Web服务作为一种新兴的Web应用模式,是一种崭新的分布式计算模型,同时也是Web上数据和信息集成的有效机制,目的是要解决异构平台上的数据和应用的整合与共享问题。因为传统的基
近年来,无线Mesh网络(Wireless Mesh Network,WMN)在无线通信领域备受瞩目,它是一种多跳无中心结构的不需要固定网络基础设施的网络,具有自配置、自组织、自管理、自愈、高容量、
无向双环网络是计算机互连网络的一类重要拓扑结构,广泛应用于计算机局域网和各种并行处理结构.本文第2章给出了一些带参数的紧优、次紧优无向双环网络无限族.对给定的正整数n
随着互联网的高速发展,各类社交网络产品正不断改变着人们的生活方式。微博作为这些产品中的佼佼者,进一步促进了个人与世界的交互。然而微博产品的无门槛准入机制也招致了大
随着Internet的发展,以Web服务及面向服务架构SOA(Service-Oriented Architecture)为代表的新兴分布式计算技术得到了迅猛的发展。通过动态组合多个原子服务形成复杂的大粒度业
随着嵌入式技术、通信技术、传感器技术和编码技术的进步,多媒体传感器网络(wireless multimedia sensor networks, WMSNs)取得了很大发展。由于其可广泛应用于生物医学监测
随着移动通信技术和移动业务种类的迅速发展,用户迫切希望一些互联网上的业务能够在手机中得到应用。即时通讯就是对用户具有强大吸引力的移动网络服务之一。J2ME作为SUN公司
学位