文本分类中信息增益特征选择算法的改进

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:fcsleep
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择算法对文本分类系统的精确度有很大影响,传统的信息增益特征选择算法通常会导致在指定类别中很少出现而在其他类别中频繁出现的特征被选择出来。为克服这一缺陷,在对传统算法和相关改进算法深入分析的基础上,引入特征分布差异因子、类内和类间加权因子的改进思路,提出一种基于特征分布加权的信息增益改进算法,并分别采用朴素贝叶斯和支持向量机两种分类算法进行实验。实验结果表明,该算法优于其他改进算法。
其他文献
石油资源是非可再生资源,用一点,少一点.石油资源的分布也不平衡,沙特阿拉伯、俄罗斯、阿联酋、科威特、伊拉克、伊朗是世界主要的石油生产国和石油出口国.石油资源在当今社
随着中国加入WTO,佣金市场化,外资券商的进入,证券行业的竞争日趋激烈。竞争的核心也已从营业部问的角逐,迅速演变为公司级别的高层次对抗。日益严峻的市场环境,迫使广大券商不得
基于“一带一路”社会背景下,开展了我国跨境电商物流的难点与解决措施分析。从跨境电商物流发展的萌芽期、高速期与爆发期,纵观跨境电商物流的发展历程,在相关研究中发现,我
2007年11月24日,北京金融街威斯汀大酒店,堂内灯火辉煌、镁光灯不停闪耀,“21世纪亚洲金融年会暨2007年亚洲银行竞争力报告发布仪式”在这里隆重举行。中国人民银行副行长苏宁、
建设一支政治素质好、政策水平高、业务能力强、勇于开拓创新的领导干部、教师和管理人员队伍是新形势下高校快速发展的关键。高校组织人事工作要拓宽视野,了解国际、国内形势
朴素贝叶斯、KNN、决策树及支持向量机等方法已经应用到文本聚类中,然而专利文献数据有着大规模、不平衡、层次化、多标号的特点,导致传统的方法在解决此类问题中往往性能不佳。鉴于此,通过引进基于双高斯合成函数的最小最大模块化神经网络的监督聚类算法,来有效地修剪训练数据的规模,并将其成功应用到专利数据的聚类中,实验结果证明了并行化及监督聚类的有效性。