文本特征选择算法的研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:df_871
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展,将我们带入了数字化、网络化的信息时代。在海量信息中,如何能快速并有效的提取有用信息成为人们研究的重要领域。文本分类技术是文本信息处理领域重要的核心课题,目的是为了对文本进行类别判定,解决信息杂乱问题。在文本分类中,特征选择方法的研究占主导地位。但现实生活中,我们所要处理的数据往往具有一个明显的自然属性──数据不平衡性,即各类别文本的数量差异很大,或者特征分布不均衡等,这都将导致分类器分类性能的下降。因此,如何改进特征选择方法使其更能适应不平衡数据集的分类问题变得十分重要。随着文本分类方法的进一步完善,它也被应用到很多领域,如垃圾博客、垃圾邮件的检测等。自博客在中国迅速发展以来,很多不法商业者利用博客作为恶意推广平台,这就导致了垃圾博客的产生。由于垃圾博客长时间不被处理,造成了网络和存储资源的浪费,同时也给用户使用搜索引擎带来不便,因此对于垃圾博客过滤的研究非常迫切。本文的研究工作主要包括以下两部分:首先针对传统信息增益特征选择方法的不足,提出了一种基于信息增益特征关联树的文本特征选择算法,以解决其在非平衡数据集上分类性能差的缺点。第一步,对数据集按类进行特征选择,利用特征分布均匀度和特征关联树模型对类内特征进行降维处理,降低特征冗余度,解决类别分布不均衡对特征选择的影响。第二步,使用类间加权离散度作为平衡因子对信息增益公式进行改进,提高特征在类间的信息增益值的精确度,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。其次,本文通过对以往垃圾博客检测技术的研究,结合垃圾博客的网页特征,以及特征选择算法的分析,提出了一种基于改进信息增益的垃圾博客检测算法。第一步,提取测试集中所有博客的URL并建立Abnormal list和Normal list,对博客URL和超链接进行关联特征提取。第二步,根据改进的信息增益算法分别对垃圾博客和正常博客的内容特征进行计算并降序排列,再对每个类别的特征计算互信息值,删除负相关特征。第三步,根据特征比例分别从两个类别特征集中选取特征,组成最优特征子集,进行分类器训练。根据建立的URL表以及博客的关联特征对博客进行首次过滤,然后根据训练的分类器进行再判断,使得垃圾博客过滤的效率大大提高。
其他文献
上海市浦东新区某大型化工品仓储企业每年产生大量脂肪醇聚氧乙烯醚(AEO)废水。本项目通过对现有污水处理站进行改造,在生化处理前段增设水质调节系统,投加消泡剂进行集中消
以不同类型沉积物为研究对象,研究了不同温度、共存重金属离子体系、有机质含量、沉积物粒度各条件下沉积物对磷的吸附释放特征,运用主成分分析法探讨了各因素对沉积物吸附释
素质教育是相对传统教育而提出的,是传统教育的“扬弃”,是社会发展对教育事业的客观要求,是培养跨世纪人才的正确途径。笔者试就学校素质教育应把握的核心与支点淡一下自己
创新是思维的源泉,是一种高层次的知识迁移,是利用已有信息探索新知识的能力.而化学是一门以实验为基础的自然学科,与社会生活联系紧密,以物质的组成、结构、性质以及变化规
期刊
临沂第十一中学是临沂市“问题导向”德育课程的实验学校,主要是通过班主任、辅导员强强联合,角色转换、优势互补、协同推进;以家校践行内化为核心,知行统一,在细、小、实上
建筑业已经成为我国国民经济的支柱产业,我国建筑业的市场规模庞大,企业数量众多,但在我国建筑业的发展过程中,由于体制、培训水平等方面原因,建筑人员素质偏低,使得建筑工程
课堂心理环境是指在课堂教学中对师生心理产生实际影响的学习生活环境。积极、健康、生动活泼的心理环境是进行课堂教学、提高教学质量的重要条件。影响课堂心理环境的因素主
《语文课程标准》的颁布,新课程的实施,为传统语文教学注入了鲜活的生命力.在课程改革取得一些成果的同时,阅读教学不可避免地出现了一些新误区,这不得不引起我们的关注和反
期刊
本文以新疆北部农田土壤为研究对象,利用近红外光谱技术建立了该区农田土壤中铅含量的定量预测模型并对所建立的模型进行优化,以便快速测定土壤中铅含量。结果表明:优化后定
课题:圆的面积目的:1.使学生理解圆面积计算公式的推导过程,掌握并能熟练运用圆面积计算公式.2.培养学生分析、概括能力.3.渗透极限思想,对学生进行辩证唯物主义教育.
期刊