中文文本分类中特征选择方法的研究与实现

被引量 : 0次 | 上传用户:qianjun0412064
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择在整个中文文本分类过程中具有重要作用。国内现有的对于特征选择方法的研究主要关注于各特征选择方法在类分布均匀语料集上的分类效果。本文针对中文文本分类中一些特征选择方法在类分布不均匀语料集上,分类效果大幅下降的问题,在国内现有研究的基础上,分析和研究了影响其分类效果的主要因素,并提出了改进方案。在此基础上设计并实现了一个中文文本分类系统,为本文对中文文本分类的进一步研究提供了平台。主要工作有:1)针对传统信息增益特征选择方法在类分布不均匀语料集上分类效果明显下降的情况,分析并指出了影响信息增益特征选择方法分类效果的因素。结合国内现有研究,在传统信息增益方法的基础上,去除了方法中特征词不出现情况对文本分类的贡献,同时将集中度、分散度等因素加入到特征选择中。为了进一步提高分类效果,又将改进型信息增益方法用于权重调整技术中。2)针对传统CHI统计特征选择方法对低频词倚重大的缺点,深入分析了其对低频词倚重大的原因。在传统CHI特征选择方法的基础上,去除了方法中特征词与类别负相关的情况。为了进一步对改进后的方法进行分析和研究,又将改进后的方法引入到特征词权重调整技术中。与此同时,结合国内现有的关于CHI统计特征选择方法的研究,将集中度、分散度、频度等因素引入到改进后的方法中,提高了该方法的分类效果。3)为了实验和验证上述改进方法的分类效果,同时为进一步对中文文本分类的研究提供平台,设计和开发了一个中文文本分类系统。4)为了进一步发现和探索中文文本分类中特征词权重调整方法中的问题和规律,在已开发的中文文本分类系统上对不同分类器不同语料集上各权重调整方法的分类效果进行了实验和总结。
其他文献
液相色谱-串联质谱法(HPLC-MS-MS)将色谱的高分离性能和质谱的高鉴别特点相结合,组成了较完美的现代分析技术,成为食品和药物安全检测中的重要手段。自2002年瑞典科学家报道
世界家具产业以全球生网络为载体实现在不同国家与地区之间的分工与资源优化。来自于发达国家的家具领导厂商与发展中国家的家具供应商在网络中处于不同的地位。生产网络内的
《蒹葭》诗中“苍苍”一词,众多选本皆注为“茂盛的样子”或释为“青色”,但笔者认为“苍苍”一词作“灰白”讲,更符合植物生长的特性和时令特点,更有利于诗歌意境的创造,也
针对全复合材料机身的某轻型公务机蜂窝夹层结构的增压舱出现鼓包脱粘的问题,从胶膜牌号、胶层厚度、蜂窝厚度、剥离方向等因素分析影响夹层结构胶接强度的原因,通过试验,表
<正>在黑龙江省望奎县,随着"互联网+"科技的应用,望奎县一举成为全省首家发展智慧畜牧业的大县,开启了"智慧畜牧"新时代。在畜牧局的畜牧业网络化综合管理服务系统大屏幕上,
企业要生存、发展就必须立足市场、立足顾客,研究和开发新产品。但高成本和高失败率又带来了新产品开发的风险性。企业必须重视建立和应用正确的新产品开发的流程,实施门径管
目的 通过杆状病毒昆虫细胞系统重组表达抗β淀粉样肽40人单克隆抗体,为全人抗体治疗阿尔茨海默病创造条件.方法 将抗β淀粉样肽40人单链抗体重链可变区和轻链可变区分别克隆
船舶在海面上航行时,由于受到风、浪等因素的影响,不可避免地产生横摇、纵摇和垂荡运动,从而影响船上一些仪器设备的正常工作。船舶稳定平台能够隔离外界因素对船体的影响,使
为了有效推进我国农村改革和解决三农问题,地理标志保护和农产品质量安全意义重大。我国是地理标志农产品资源丰富的国家,但是我国地理标志农产品无论是在国际市场还是国内市
<正>随着2011年版语文新课标的颁布施行和语文课改的不断深化,2013年语文教育的理论研究和实践探索也在不断向纵深发展。综观2011年版课标实施一年多来的语文课程改革,有如下