基于信息增益的文本特征选择方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:aigufeixi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
其他文献
本文以2008—2013年我国民营上市公司为样本,通过构建联立方程模型,探讨政治联系与劳动雇佣的双向关联关系。实证检验结果发现:民营上市公司的政治联系和政治联系层级与劳动
十一届三中全会以来,我国农村的社会结构转型立即驶入了快车道,农业劳动力纷纷流向非农行业,与此同时,在学术界掀起了一浪高过一浪的农业(村)劳动力流动的研究热,取得了许多
慢性阻塞型肺疾病(chronic obstructive pulmonary disease,简称即COPD)是以持续不完全可逆性气流受限为特征,呈缓慢进行性发展,严重影响患者的劳动能力和生活质量的一类疾病
一、本文所研究问题的目的和意义本论文的选题是《对近几年我国货币政策有效性的分析与研究》,主要以西方经济学界货币政策有效性理论为指导,考察我国近几年货币政策操作的实际
文章根据2003~2013年中韩双边贸易数据,运用贸易结合度、贸易互补性指数和引力模型对中国与韩国之间的贸易现状和贸易潜力进行了实证分析。研究表明:虽然中韩贸易结合度和综
随着经济全球化和信息时代的到来,21世纪的社会将比以往任何时代都更开放、更自主、更富有创造性。21世纪的合格公民应该是学习者、创造者和交流者,他们应知识渊博,勇于革新和善
目的探讨手术室护士在工作中造成锐器伤害的因素及防护措施。方法对相关文献资料进行研究并结合临床实际工作情况,对手术室护士在工作中造成锐器伤害的危害因素及所采取的防
宋代是我国封建社会经济高度发展的重要时期。随着全国政治经济重心的南移,以长江流域为中心的南方经济得到了长足的进步,三峡地区的经济地位逐渐上升,经济开发明显加快。 宋
目的 探讨重型脑出血继发脑室出血的有效治疗方法。方法 重型脑出血继发脑室出血患者 6 9例 ,行微创锥颅穿刺术 ,并随机分为两组 ,A组 36例采用单纯血肿微创穿刺尿激酶溶解
与以往的理论分析和个案研究不同,本文以国际代工特征显著的江苏省昆山市为例,利用制造业出口企业的调查数据总结了其转型升级的成就,并从微观层面实证分析了代工企业转型升