中文文本分类中特征描述及分类器构造方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:mvcexq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来和Internet的日益普及,电子文本迅速膨胀,如何在海量的文本中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息处理的一个重要环节,已经成为信息技术领域的一个主要研究方向。文本分类技术的出现,使文档可以自动地按照类别组织和处理,符合人类组织和处理信息的方式,方便了人们准确地定位所需的信息。同时,作为信息过滤、信息检索、搜索引擎等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类中涉及的两个关键技术(文本特征描述和分类器构造方法)进行了研究,具体内容主要包括以下两个方面:1.提出了基于上下文关系的文本特征描述方法。文本特征描述是文本分类的基础,它的目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立的对待单个词语将丢失文本的内容信息。在实际的语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性,因此不能独立看待。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW,该方法是在提取一个初始特征词语集合的基础上,通过用互信息(MI)来衡量词语在上下文中的依赖度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。2.提出了基于SVM主动学习的文本分类器训练算法。文本分类算法是有监督的学习算法,它需要一个已标识类别的文本数据集来训练分类器,然后用训练好的分类器对未标识类别的文本分类。基于传统机器学习算法训练的分类器,其分类精度随着训练文本的增多而提高,但在实际分类问题中,训练文本数目往往是有限的,而且这些随机取得的训练数据中包含大量冗余数据,这些数据不能提高分类器的精度,因此传统文本分类方法,在训练分类器时遇到了困难。针对这一问题,本文通过分析主动学习(Active Learning)和支持向量机(Support Vector Machine,简记为SVM)各自的优势,提出了一种基于SVM主动学习的文本分类器训练算法,该算法通过在训练过程中,主动选择那些对分类贡献较大的样本,从而形成了一个样本数量较小的训练集,减少了标注样本的工作量,同时又保证了分类精度。
其他文献
随着语音识别技术的不断发展,语种识别作为语音识别的一个方面和它具有的重要意义,也越来越受到人们的广泛重视。语种识别就是用计算机来自动识别一段发音所属语种的一项技术,它
如何持久化对象是面向对象分析和设计中都需要解决的问题。由于面向对象数据库还不成熟,对象/关系数据库虽然有所发展,但是出于应用传统以及方便与遗留系统的集成的因素,关系
作为一种新型的松散耦合的分布式计算模型,Web服务提供了应用软件之间独立于操作平台和编程语言的互操作。但是,Web服务也带来了新的安全风险:XML应用程序层的新威胁、关键应
作为一类特殊的随机过程,Markov过程在实际生活中有着广阔的应用领域。Markov决策过程(MDP)和半Markov决策过程(SMDP)都是描述这类随机系统常见的数学模型。其中,SMDP是一类
随着P2P技术应用的越来越普及,P2P网络中的安全问题得到了人们更多的重视。由于P2P网络中资源和责任分布于网路中各节点,没有中心服务器给认证和授权策略的实施带来了很大困
当今世界信息化已成为世界军事发展的主要方向和潮流,实现飞行教学指挥管理的信息化已经成为空军飞行学院最为紧迫的现实课题之一。针对飞行学院教育训练管理现状(效率低、差
传统的家庭娱乐方式正发生着飞速的改变。随着数字家庭系统的流行,消费者越来越愿意坐在客厅里,通过大屏幕电视和高保真音响来欣赏网络媒体内容。数字媒体适配器(Digital Med
增强现实技术可以把计算机产生的虚拟物体或者其他信息合成到用户看到的真实世界中,而协同增强现实技术可使多个使用者在增强现实环境下协同工作。目前绝大多数协同增强现实系
描述Web服务的标准如WSDL,UDDI等大多基于语法层,存在同名异义和同义异名的问题,会导致基于语法关键字匹配的服务发现机制的低精确性,解决语义异构问题的方法就是为Web服务的
随着计算机网络的不断发展,人们对计算机系统的性能和可靠性的要求也越米越高。分布式系统是一组逻辑和物理上互联的处理单元的集合。将计算任务分布到多个物理主机上处理,可以