中文文本分类和聚类中的特征选择研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:boaijuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文就中文文本分类和聚类中的特征选择问题,从特征选择的评估函数角度出发进行了深入的研究,用大量的实验综合比较了有监督和无监督的特征选择方法在中文文本分类和聚类上的特点。此外,根据基于类别区分词的特征选择方法中缺少类别区分词的不足,提出了改进方案,即用本文中介绍的有监督特征选择方法重新获取类别区分词以弥补这种不足,通过在两个中文语料上进行的实验表明,改进的类别区分词特征选择方法有更好的分类效果。为了研究有监督特征选择和无监督特征选择的结合问题,把原本用于文本聚类的词同现特征选择,加上有监督特征选择中评估函数提供的类信息改进此方法用于文本分类,经过实验表明,两者的结合取得比较好的文本分类结果。
其他文献
随着超大规模集成电路的复杂性按照摩尔定律飞速提高,单个处理器的性能提高已经到达极限,因此无论是性能提升还是节能计算,都离不开对多核体系结构的考虑,多核处理器已经成为计算
在测控领域,信号的传输常受到周围复杂环境的干扰;并常需对多路检测信号同时进行传输。为此本文提出:在测控现场,采用扩频技术实现多路检测信号的传输。利用扩频技术的抗干扰特性
目的 探讨冠心病心律不齐应用胺碘酮联合美托洛尔治疗的效果.方法 择取2018年1月至2019年1月我院冠心病心律不齐50例做对照研究,随机数字表法分组,对照组25例采用胺碘酮治疗,
随着大规模集成电路的快速发展,数字信号处理器(DSP)的各项性能得到了很大的提升。基于图像处理的嵌入式系统也逐渐走向实用,但市场同时需要嵌入式系统具有低功耗,小型化,易
面向作业的云服务要实现大规模商业应用,不仅需要合理的计价策略,还需要利润感知的作业调度策略。过去的作业调度策略仅仅能够实现系统层面的目标,无法直接实现经济效益层面的目
请下载后查看,本文暂不支持在线获取查看简介。 Please download and view, this article does not support online access to view profile.
随着我国经济体制深刻变革,社会结构深刻变动与思想观念深刻变化,高校进一步加强基层党组织建设,是保证党对高等教育坚强领导的重要举措,是坚持社会主义办学方向,培养社会主
澳大利亚国际金矿石磨机公司开发的这种新型磨矿机是一种用于中小型硬岩金矿的理想磨矿设备。这种磨机利用气流使给矿颗粒间产生高速自碰撞。在几秒钟内使物料破碎成粉状产
数据挖掘(Data Mining)是致力于数据分析和理解,揭示数据内部蕴藏规律的技术,它是目前信息技术应用的热点之一。近年来,水利信息化在国内外发展迅速,积累了大量的水文数据。发现
4月份,瑶岗仙钨矿主业生产由于全矿广大干部职工的努力,取得了可喜的成绩,完成采掘总量31185t,其中采矿19432t,掘进1024m,分别为计划的127%、121.5%、138%,与去年同期相比分别提高了27.8