基于文本类别关联度和LSA的特征选择方法研究

来源 :东北师范大学 | 被引量 : 3次 | 上传用户:dong0003060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前文本信息作为最重要的信息载体之一,正在以超乎人们想象的速度不断增长。为了能够有效地处理这类的信息,自动文本分类技术成为了海量文本数据分类的有效手段。但在文本类数据的处理过程中,通常是把文档中的词或词组都看作是独立的特征,由此就导致了特征空间中的向量可能达到成千上万维,同时高维的数据中可能含有很多不相关的信息,即我们常说的“维数灾难”,其已成为了文本分类领域中必须要面对的一个问题。利用特征选择方法来删去原始特征集中那些与分类无关的特征后,生成一个新的减少的特征子集。目的是为了对高维的特征空间进行降维,同时减少数据噪声的干扰,从而提高后续文本分类任务的分类性能。因此,本文重点研究了文本分类过程中的特征选择这个关键的部分。本文的主要研究工作如下:1.本文在深入研究了目前常用的特征选择方法后,针对现有的方法大多数只单方面考虑文档频率或词频,而并没有全面考虑到特征在各个类别的内部和类别之间的分布情况对特征重要性的影响。因此针对这方面的不足,本文提出了一种新的基于类别关联度的特征选择方法,综合考虑了特征在类内和类间的分布情况,同时结合了文档频率,词频和逆类别频率来构建新的评价函数,度量特征对文本分类的重要性。在复旦大学数据集和20Newsgroups数据集上采用支持向量机和朴素贝叶斯分类器,将本文所提出的特征选择方法与文档频率、信息增益、卡方统计以及基于词频度量特征重要性的四种经典特征选择方法进行对比实验。实验结果表明了本文提出的方法在提高文本分类的性能方面要优于其他四种方法。2.通过将本文提出的基于类别关联度的方法和潜在语义分析方法(latent semantic analysis,LSA)相结合,提出了一种新的两阶段的特征选择方法。第一阶段,利用基于类别关联度的特征选择方法来选取原始特征集合中最具代表性的特征,从而形成一个新的减少的特征子集。在第二阶段,针对目前大多数的方法都忽略了特征之间重要的关联关系,采用LSA方法,充分考虑到特征之间的语义关系以及降低了特征空间的维度,从而构建了一个新的语义空间。将文档频率、信息增益、卡方统计以及基于词频度量特征重要性这四种经典的特征选择方法分别与LSA方法相结合,形成了四种经典的两阶段特征选择方法。在复旦大学和20Newsgroups数据集上使用支持向量机分类器对上述五种两阶段特征选择方法进行对比实验,实验结果表明了本文提出的方法能够有效地降低特征空间的维度和提高文本分类的性能。
其他文献
文化的交流必然导致语言的互动。中国文学得益于欧化,中国语言更是如此。“五四”时期,白话文取代文言文为现代汉语构建了一个雏形,发展至今,现代汉语已日臻完善,其中在很大程度上
利用高海拔地区气候冷凉的优势,早春露地栽培西葫芦,5月上旬播种,7月上旬开始上市,此时正值新疆西葫芦上市淡季,产量5 000~8 000 kg/666.7m~2,产值2 500~4 000元/666.7m~2。
经济活动是社会活动的主体,因此经济规则亦是构筑社会规则乃至社会观念的内核和基础。三十年来市场经济的变革和发展,正是中国社会文化观念重构的催化剂和源泉。 Economic a
采用涂膜法和冷藏法研究鲜蛋在保藏过程中新鲜度的变化趋势,比较不同保藏条件下鲜蛋保鲜的优劣,实验研究了不同涂膜剂以及不同冷藏温度下新鲜鸡蛋在贮藏期的失重率、相对密度
黄花岗起义纪念日最终被国民党制作成"革命先烈纪念日",由一党之纪念日建构为"国定纪念日",纪念仪式亦被固定下来。随着纪念日的确定和纪念仪式的程式化,国民党与国民政府根
推行绩效工资是美国近来教师教育改革一系列重要举措中的重要组成部分,它旨在通过工资和奖励制度的改革,形成与美国近年来注重质量和效率优先的教育改革政策相匹配的扶优罚劣
本研究对1600次自然情景下的师幼互动事件,采用逐步多元回归分析法,筛选出集体学习活动中积极有效师幼互动模式的7个变量:互动形式是教师与集体和小组幼儿互动、互动内容产生
讨论了非连通图2C4 m∪G的优美性,给出了非连通图2C4 m∪G是优美图的5个充分条件。
教师文化的类型与教师的专业化程度存在着密切的内在联系。二者在教师职业发展历程中相互促进、相互制约共同发展着。其关系在动态上表现为适应中的共同发展,在静态上表现为
针对CFRP加固铝合金脱粘的缺陷检测,构建了红外热成像检测实验系统,对含不同类型内部脱粘缺陷的试件进行实验研究。采用瞬态热激励方法,获得了不同类型缺陷下试件表面的热像