中文文本分类中分词和特征选择方法研究

被引量 : 0次 | 上传用户:rurucaihongru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本分类是指计算机按照某种分类规则构建判别公式和分类算法,将待分类的中文文本分到预先定义好的类别之中。从计算机技术的角度来说,文本自动分类是一个归纳知识并进行应用的过程。20世纪90年代以来,机器学习方法,如支持向量机、K近邻、朴素贝叶斯等,被广泛应用于文本分类。目前,中文文本分类研究已取得了很多研究成果,但还存在一些不足之处,例如,中文分词中单一使用正向最大匹配算法或逆向最大匹配算法,对歧义词的切分不够准确;特征选择中传统TFIDF权值算法对特征项权重计算不够合理,精度偏低,需进一步优化。本文在已有研究工作的基础上,对中文文本自动分类进行了深入研究,提出了一种基于双向匹配存同消歧的中文分词算法和改进TFIDF权重算法。针对目前预处理中文分词切分歧义问题,结合中文文本的特点,本文提出一种基于双向匹配存同消歧的中文分词算法。该算法对同一字串进行扫描时,先用逆向最大匹配法进行切词,再用正向最大匹配法进行切词,把两次切分结果相比较,相同的切分词段为正确切分字段,进行词语保留;不同的切分词段为歧义字段,进行歧义消解处理。通过对比实验,验证了该算法应用在中文分词中比正向与逆向最大匹配分词算法在分准率、分全率上有3%左右的提高,进而证明了该算法在中文分词中的有效性。特征选择阶段,传统的TFIDF权值算法存在如下不足:一方面没有考虑特征项在类别之间分布情况,导致在类别之间分布均匀,对类别区分度不大的特征项赋予了很高的权值;另一方面,没有考虑特征项在每个类别内部文本中的分布情况,导致在一个类别内部只集中在某几个文本的特征项赋予了很高的权值。针对这些问题,引入信息熵计算特征项分布的不确定性,本文提出改进的TFIDF算法,并通过对比实验,验证了该算法在计算特征项权重方面比传统的TFIDF方法更具有合理性、准确性,从而可以进一步提高中文文本分类的精度和效率。基于上述研究,本文将双向匹配存同消歧分词算法和改进的TFIDF方法集成于LIBSVM算法,实现了一个中文文本分类原型系统。在复旦大学李荣陆博士提供的公共语料集上,通过使用混淆矩阵、性能评价指标、对比效果图等对本文实现的中文文本分类原型系统进行了对比实验,结果表明在中文文本分类查准率、查全率、F1测试值上有5%左右的提高。从而进一步证明,本文提出基于双向匹配存同消歧的中文分词算法和改进TFIDF权重算法可有效提高中文文本分类的性能。本文在中文分词算法和特征项权重计算方法方面的研究结果还可应用于数字图书馆、信息过滤以及文本数据库管理等,具有一定的应用价值。
其他文献
<正>在网络化、信息化高速发展的今天,以计算机技术为核心的档案数字化管理受到了越来越多的关注,许多政府机关与企事业单位已投入大量的人力物力,积极推进档案数字化建设。
摘要:轨道交通作为解决城市交通问题的重要方式,越来越受到人们的关注,尤其是城市轨道交通枢纽的出现,不但实现了城市人流的集散与交通换乘,提高了城市公共交通的服务水平,同
本文分析了英汉思维的差异,认为中国人的思维特点在于重视伦理、注重整体,思维方式多形象思维,而英美人的思维同中国人不同,存在线性思维的特征,同时注重实证等。基于上述的
目前,在工业化生产中,对于酯化反应多采用浓硫酸、磷酸等无机酸或金属卤化物,如AlCl3、SnCl4、TiCl4等作为催化剂。而这些传统催化剂存在易腐蚀设备、污染环境、副反应多、产物
肿瘤溶解综合征(TLS)是血液肿瘤科常见的急症,临床表现主要有高尿酸血症、高钾血症、高磷酸血症、低钙血症等,最终导致肾功能衰竭、心律失常、癫痫、神经系统并发症,甚至死亡.
本文探讨了旅游发展对欠发达旅游地社会文化变迁和社会心理变化带来的影响、社会文化变迁与社会心理变化之间的互动以及如何实现社会心理现代化。
目的对比分析细针吸取细胞学和组织学检查对肝脏占位性病变的诊断价值。方法在B超或CT引导下进行定位穿刺,应用细胞学和组织学方法观察了110例肝脏占位性病变患者的针吸标本
本文是围绕《合同法》第四百零二条、第四百零三条为中心,结合《合同法》第一百二十一条、行纪合同有关规定以及以下简称《民法通则》有关代理的规定而展开的。本文在第一部
HBV感染是一个严重的公共卫生问题。慢性乙型肝炎是我国常见的慢性传染病之一,病变主要累及肝脏。由慢性乙型肝炎引起的肝硬化、肝癌给国家和个人造成了沉重的经济负担,医务
高校设备采购工作是一项具体的、涉及多种专业领域的技术经济管理工作。仪器设备是高校从事教育教学、科学研究的重要物质基础条件,是培养高素质、创新型人才的重要保障,同时