段落及类别分布的特征选择方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:hrk303968324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是文本分类过程中解决数据高维问题的重要步骤.现有特征选择方法主要是基于特征词的词频或文档频率.虽然这些信息在一定程度上度量了特征词的重要程度,但它们不能刻画特征词在文档中的分布情况.针对这一问题,将文档的自然段落作为统计单元,提出了特征词的段落频率,该度量标准能够描述特征词在文档中的均匀分布程度.然后,将特征词的段落频率与特征词在类内和类间的分布信息相结合提出一种新的特征选择方法FSPC.为了验证方法的有效性,采用支持向量机和朴素贝叶斯作为分类器,在复旦语料库和搜狐新闻语料库上将FSPC与CHI Square,DF,IG和CMFS四种特征选择方法进行对比实验.实验结果表明,就评价指标F1值而言,FSPC方法的性能优于所对比的方法.
其他文献
1前言本研究选用从云南省内引进和文山州农业研究院育成的小麦新品质(系)进行试验,为鉴定新育成的小麦品种(系)适宜文山州种植的高抗锈病,优产、丰产性,抗逆性好,生育期适中
三门县依托现有的数字卫生信息化平台,加强县医院与乡镇卫生院的联系,在提高乡镇卫生院诊断水平的同时,进行医疗资源整合。2011年,台州市选择了三门县作为全市公立医院改革试
随着信息化时代的来临,信息通信已成为这个时代必不可少的基础与关键,然而我国的通信发展又有怎样的历史,现有的通信技术又是如何应用,未来的通信又会怎样发展?带着这些疑问,记者采
用不同的杀菌剂复配后包衣玉米种子进行玉米种子出苗安全性及防治主要病害(玉米丝黑穗病)的田间试验并测定其对产量的影响。结果表明:在接种玉米丝黑穗病菌的地块,不同剂量种
动态符号执行用程序变量的具体值替换动态数据结构及复杂表达式中的符号变量以便简化路径条件,但是该方法面临路径爆炸问题.针对符号执行中路径探索和约束求解耗时问题,提出
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
前不久,一则新闻引发公众关注——从2011年11月底起未来3年内,在北京的西单、王府井、奥运中心区、三大火车站、金融街、燕莎、中关村大街7个区域,市民有望免费上无线网络。据悉,目前北京市公益性无线网络接入服务试点建设已接近尾声,并于2011年11月底向公众开放。在这7个区域中,各运营商的用户都可以使用手机、平板电脑、笔记本实现无线上网,上网服务完全免费。