文本分类特征选取技术研究

来源 :内蒙古大学 | 被引量 : 18次 | 上传用户:supperprecom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。而文本分类作为信息过滤、搜索引擎、文本数据库、数值化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。本文从文本模型的向量模型表示、特征选择、权重公式和分类器训练这个步骤较系统地研究了文本自动分类,同时将粗糙集理论应用到了文本分类中。1.介绍了文本分类的概念和向量空间模型,分类系统的性能评价参数与粗糙集基本理论。2.针对文本分类系统中关键技术问题,讨论了文本表示的整个过程——文本预处理,特征选择,权重计算,生成文本向量空间,提出了基于词性筛选的预处理方法,对互信息特征选择算法进行了扩展,引入了改进的权重公式MTF-IDF。对当前性能较好的三种文本分类算法:朴树贝叶斯、KNN法和支持向量机进行了研究,对现有特征选择方法及权重公式进行了对比实验。3.结合粗糙集的优点,提出了基于粗糙集的特征选择方法,利用粗糙集的约简技术实现了文本的特征选择,通过与其他方特征选择法实验对比,结果表明基于粗糙集的特征选择方法的准确率较高。4.实现了一个文本分类实验系统,利用该系统可以进行特征选择、权重计算研究,也可以直接对不同的语料进行训练与分类。5.对本文进行了总结与展望。
其他文献
道路上的车辆越来越多,交通事故的发生率也越来越高,交通事故的频繁发生给交通部门处理事故带来了一定的压力。传统的收集交通事故信息的方法需要时间较长,不利于迅速疏散交
Web服务作为SOA的核心技术,以其粗粒度、松耦合等特性为异构的、分布式环境下的组合服务应用提供了有力的支持。Web服务的业务执行语言(BPEL4WS)是一种基于XML的、平台无关的
随着计算机技术和通讯技术的发展,用户对信息的安全存储、安全处理和安全传输的需求越来越迫切。在二十一世纪的电子商务和电子政务时代,人们所面临的一个至关重要的问题就是
随着对Web服务的不断深入研究和应用,出于各种服务自动化任务的需要,Web服务计算逐渐成为学术界的研究热点,并且在服务研究各方面取得了许多显著的成果。但是由于目前Web上广
计算机和网络技术的迅速发展,加快了教育现代化进程的发展步伐,促进了教学方法、教学过程和管理手段的变革。本课题是以研究并利用现有的Web技术对Struts框架和Hibernate框架
随着计算机网络通信和电子商务技术的日益成熟,基于网络环境的在线协商支持系统(Online Negotiation Support System,ONSS)已经引起了电子商务企业和服务部门的重视。现有的在
在虚拟现实、机器人领域以及数字文化遗产等方面应用中,室内三维模型是不可或缺的数据来源。但是,由于室内环境具有近距离、易遮挡、光照复杂、缺乏绝对定位等特点,所获取的室内
在现代服务业的多数服务业态中,为了完成一个业务目标,往往需要集成多个单项服务,提供组合服务。北京邮电大学作为牵头单位与五家单位共同承担了国家科技支撑计划重大项目《
我国正在全面建设和谐社会,要求社会和谐稳定健康发展,因此对各类公众场所的安全系数和安全保障越来越高。为了让公众享受一个安全和谐的环境,并让公共场所有一个和谐的安防
虚拟化技术,自1959年由Christopher Strachey于巴黎举行的国际信息处理大会上所做的《Time sharing in large, fast computers》报告中首次提出,到现在已经取得了突飞猛进的