中文文本自动分类的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：hnwkn2008

【摘要】

：

文本分类可以为文本提供有序的组织，网络信息的增长使文本分类对于信息处理的意义变得更加重要。本文讨论了基于词典分词和基于n-gram信息提取的两种中文文本特征获取方法，提出

【作者】

：

都云琪

【出处】

：

西安电子科技大学

【发表日期】

：

2002年期

【关键词】

：

文本分类信息检索文本特征向量空间模型支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类可以为文本提供有序的组织，网络信息的增长使文本分类对于信息处理的意义变得更加重要。本文讨论了基于词典分词和基于n-gram信息提取的两种中文文本特征获取方法，提出了将两者相结合的方法，为分类系统提供更多类型的文本特征，从而达到提高分类性能的目的；并进一步研究了冗余特征对于文本分类系统的影响，结果发现，冗余特征对于文本具有良好的表示作用，由此得出结论：基于统计的文本分类的本质是一种对文本字符特征的识别，因此，在提取文本特征时，无需过分追求语义特征的提取；最后，在详细分析了文本学习及支持向量机学习算法的特点之后，提出了一种利用训练集中的拒识样本信息对分类器输出进行改进的方法，提高了系统的分类性能。

其他文献

柴达木盆地成因类型探讨

柴达木盆地是一个多成因的叠合含油气盆地,不同学者对其在不同演化阶段的成因特征和形成机制认识有较大差异;在分析、归纳、总结了4种有代表性的基本观点的基础上,结合区域构

期刊

成因类型形成机制柴达木盆地

基于嵌入式Linux的路由器的开发

计算机技术发展到今天，嵌入式系统的应用越来越广泛：嵌入式计算机在应用数量上远远超过了各种通用计算机，一台通用计算机的外部设备中就包含了5-10个嵌入式微处理器。而随着网络

学位

Linux路由策略通用计算机文件系统硕士学位论文高度模块化网络层协议嵌入式开发转发功能路由技术

城市桥空间

“桥空间”艺术有着悠久的历史，前辈们依靠集体的智慧创造了众多绚丽多彩的“桥空间”环境。现今人们在对城市建设中大量出现的水桥、高架桥、立交桥、街桥等对城市生态环境的

学位

“桥＼“桥空间＼材料、技术、造型、可持续发展

浅谈市政排水工程施工技术控制要点及通病防治

文章对市政排水管道工程施工技术控制要点进行分析,并对常见的通病提出防治措施。

期刊

市政排水工程施工技术控制通病防治

添加剂和粘结材料对镍氢电池负极性能的影响

镍氢电池是第三代实用的可充电电池。以冲孔镀镍钢带为基体的拉浆法制造镍氢电池负极具有成本低、易于实现连续化生产等优点。拉浆负极必需有一定量的添加剂和粘结材料，它们对

学位

镍氢电池负极添加剂粘结材料

基于博弈论的大用户电力市场购电交易策略方法

近年来,随着电力市场不断持续的改革以及深入地完善,需求侧也在不断地开放。为了避免传统电网的垄断,市场中逐渐开放大用户自由选择发电企业的权利。在与可供电的发电企业进

学位

大用户直购电博弈论交易策略方法电力市场

基于DSP的单芯片数字控制UPS电源

不间断电源在一些关键性的负载如：计算机、通信系统、医院等中扮演重要的角色。它们在市电正常或故障情况下均为负载提供可靠、干净的电源。在各种UPS中，在线UPS具有最好的性能

学位

UPSDSP数字控制

中小学教师教育法律意识的现状分析与策略思考

在社会主义市场体制下，随着我国经济体制转轨逐步走向深入，必然会引起社会政治、文化、教育体制的改革。在教育体制的改革中，我国教育法律调整的社会关系发生了重大变化，迫切需要

学位

教育法律意识现状根源危害策略

全球石油资源:稀缺还是充足——兼论近期国际油价上涨的原因

自石油工业发端以来,石油资源稀缺与充足之间的争论经久不衰,影响着业界对石油供应和油价前景的分析判断,甚至影响到国家能源安全政策的制定。20世纪90年代以来,争论再次燃起

期刊

全球石油资源稀缺与充足供求和油价

香烟引燃瓦楞纸包装箱的实验研究

为考查燃着的香烟对瓦楞纸包装箱的引燃能力,以一起仓库火灾的调查认定为线索开展了香烟引燃瓦楞纸包装箱的实验研究。考查烟头放置位置以及烟头长度对引燃能力的影响,得出了

期刊

香烟瓦楞纸包装箱引燃能力

中文文本自动分类的研究与实现

与本文相关的学术论文