文本分类技术的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:judehui01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘的重要分支,在当今的信息时代文本自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段,已经被应用于抽取符号知识、新闻分发、排序电子邮件、学习用户兴趣以及信息过滤等许多方面。 首先,本文着重介绍了自动文本分类技术中常用的基于向量空间模型的特征选取方法和分类模型。基于对这些技术的分析,本文提出了一种基于正负权重的MI分类方法,该方法采用MI特征选取方法以局部特征选取方式进行特征选取,每一个类别得到不同的特征子集,并利用得到的特征互信息值构造特征的正、负权重并形成类别的正、负原型向量。这种方法训练效率高,实验结果也表明该方法也有比较好的分类性能。 另外,利用自动文本分类系统中已经实现了多种分类模型的特点,本文对多分类器的组合问题进行了研究,并实现了利用贝叶斯理论进行组合的多分类器,将之应用于自动文本分类。从实验结果来看,这种多分类器在一定程度上能提高分类的准确率和召回率。 最后,阐述了Ontology对文本分类的重要作用,介绍了Ontology在文本分类中的一些应用。面对当前针对某个特定领域的Ontology缺乏,而且领域Ontology必须依赖领域专家指导靠手动建立的现状,本文对Ontology的自动构建技术进行了研究,并且实现了一个Ontology自动构建系统——OntoAGS。本文对自动构建的完整过程进行了介绍。
其他文献
随着网络技术的迅速发展,网络安全在计算机网络中的应用起着越来越重要的作用。本文的工作主要是围绕着自适应智能防火墙体系结构的设计和仿真展开的,主要包括以下几个内容:
分布式虚拟现实中的虚拟环境是一个可以提供给参与者进行协同,以及共享物体的虚拟现实空间,在这种环境中参与者可以有很强的沉浸感,是目前的研究热点。这种技术已经在游戏,军
计算机网络时代,快捷廉价的数字传输手段为人们获取和交流信息带来了极大便利:然而,全透明的网络信息却又极易为非法分子盗版和篡改。作为数字产品版权保护和信息安全维护的
随着网络的迅速发展和普及,分布式计算的研究在90年代后达到了高潮,目前,在Internet网上分布式计算已非常流行。分布式计算研究主要集中在分布式操作系统研究和分布式计算环境研
基于内容的图像检索是近年来的热门研究内容,涉及图像处理、计算机视觉和数据库系统等方面的学科。其中,有效的高维索引机制是使大规模图像库的检索能够达到实时性要求的关键技
学位
随着企业业务的发展,数据库中慢慢积累了大量的客户历史消费数据,如何从这些海量数据资源中发现对企业有价值的信息,成为企业将来市场决策的一个重要部分。数据挖掘技术因而被逐
企业在Portal上发布与企业相关的信息,使得浏览者迅速找到他所需要的内容。由于Internet的规模与使用的持续增长,大多数的Web结构非常复杂和庞大,导致用户失去查询目标。智能Por
数据仓库是存储供查询和决策分析用的集成化信息仓库。它的数据来源于数据库或其它信息源(如日志文件等)。但是非Agent结构的数据仓库系统还存在着信息集成时网络拥塞、网络
在当前的电子政务中,各种满足不同需求的分布式应用系统不断涌现,但是这些应用系统之间的信息共享却没有同步发展,形成了信息孤岛;虽然部分应用提出了相应的共享需求,但在许多方面