基于SVM的文本分类系统中特征选择与

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:yiyan3002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的飞快发展,人们已经从信息较为缺乏的时代过渡到信息丰富的数字化时代。面对如此庞大的电子信息,如何在较短的时间内获取对用户有用的信息也就成为当前的一个研究热点。文本分类技术是数据挖掘领域中的一项关键技术,它能够帮助用户快速、准确地定位所需要的信息。同时该技术作为信息过滤和搜索引擎的基础,有着广泛的发展前景,能够为社会带来巨大的经济效益。文本分类的任务是将待分类的文本对象根据其具体内容自动划分到事先设置的类别内。它的研究内容主要包括文本预处理、特征选择、特征项权重计算、文本表示、分类器的训练与测试以及分类性能评价六个模块。其中特征选择和权重计算在文本分类技术中有着非常关键的作用。   本研究主要内容包括:⑴特征选择的目的是从原始的高维特征空间中,选取出对分类贡献程度大的特征来表示文本。经典的特征选择算法在统计特征项和类别之间的关联性信息时,仅仅考虑了特征项对文本分类的能力,却没有考虑特征项之间的相关性信息,因此使得具有同义或近义现象的特征项都被选择出来表示文本,降低了分类的准确度。鉴于此缺点,本文提出了一种新的特征选择算法----组合特征选择算法。该算法首先通过文本证据权重方法选择出一些对文本分类贡献程度大的特征项;其次通过互信息方法删减了一些在文本分类方面有冗余信息的特征项。⑵经典的TP-IDF权重计算方法只考虑了特征词频率TF和反比文档频率IDF,没有考虑特征项的类别分布和位置分布对分类的影响。因此本文在经典权重算法TF-IDF的基础上,结合特征词的类别分布与位置分布信息,提出了改进的TF-IDF算法。⑶和其它的机器学习算法相比,SVM方法具备泛化能力强、收敛性好的优点,因此尤其适合于文本分类领域。本文最后构造并实现了一个基于SVM的中文文本分类系统,为研究文本的自动分类与性能评价打下了良好的基础。在分类系统平台基础上,验证了课题提出的组合特征选择算法和改进的权重计算方法在一定程度上提高了文本分类的性能。
其他文献
血压是人体关键的生理参数,是医生诊断病人身体状态的重要根据。血压反映了整个身体循环系统的运转状况,当循环系统的机能发生变化,血压会随着发生变化。在一些重要的医疗场
随着电子商务个性化推荐服务的发展进步,网购模式逐渐从以用户海量检索为主的单一购物方式转变为以系统个性化推荐为代表的多元化个性化购物方式。作为个性化推荐服务核心内容
制造业在先进制造,网络化制造,制造网格等制造模式的影响下,随着信息技术和物联网的发展,云制造的概念被提起。在一切皆服务的云制造环境下,用户按需使用制造资源和能力需要制造云
随着计算机技术和网络技术的发展,传统的二维平面和三维动画已经不能满足现代展示的需求,虚拟现实技术的出现极大地填补了这个缺陷。虚拟漫游是虚拟现实中一个很重要的虚拟技
如今,信息资源已发展成为一种非常重要的国家战略资源。伴随着信息产业的发展,信息系统的安全问题也越来越引起人们的重视。   可信计算是从计算机的硬件体系结构上入手,从根
随着信息技术的发展,以互联网为依托的计算机通信方式备受社会各界青睐,在大部分公司与集团内部,计算机的通信早已成为一种主流的通信方式,因此对计算机通信网络的研究也逐渐
随着全球化的加深,品牌在决定企业竞争力方面起着重要的作用,如何对品牌价值进行合理量化,以达到提高企业竞争力的目的值得思考。传统的品牌评估方法通过调查问卷或者统计品
  随着WWW的迅速发展和Internet的广泛应用, Web已成为用户获取信息的重要来源,XML数据规范已经成为目前Web上信息表示和交换的标准,因此大量的异构数据集成于XML文档之中
任务调度是云计算的关键技术之一。本文研究了云环境下的任务调度策略,目的是充分利用云环境的资源,降低用户任务的执行时间和运行成本,以提高云数据中心的运行效率。本文针对云
随着手机等移动通信设备的普及到现在物联网时代的来临,移动通信技术在过去十几年得到了快速的发展。通信技术不断地发展不仅促进了社会的进步,国民经济的发展,也很大程度地