中文文本层次分类研究及其在唐诗分类中的应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ZHUTINGFNEG12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为大规模信息处理重要的应用技术之一,文本分类有其不可忽视的重要性。现有大部分的文本分类方法,无论是二类分类还是多类分类,所分类别都处在同一个层次,即处于同一个平面类空间上。在文本类别数量庞大的情况下,平面分类的性能会受到很大制约。可人们发现有些类别在一起比和别的类别更有共性,可以组成一个类别的集合,从而提出了层次型分类的概念。层次型分类是把分类系统构造为层次结构,即把各类按照一定的层次关系组织成树状结构。因此,层次型分类从结构和性能上,对分类方法来说是一个大的改进,是一种有效的分类途径。本文就中文文本的层次型分类方法进行了研究。主要研究结果如下:1.提出了基于向量空间模型的二重特征选择方法(Feature Dual-Selection, FDS)和层次分类算法(Hierarchical Text Classification, HTC)。针对层次分类的结构特点,本文提出了新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC。由于在某一层中对分类贡献大的某些特征在另一层中并不一定重要,为了突显各个特征在不同层次中的重要程度,因此二重特征选择方法对每一层均进行一次特征选择,并设定权重系数δ,逐层改变特征数量和权重计算方法。HTC算法摒弃了一般的层次分类算法即只使用一种分类方法进行分类,把分别对粗分和细分更有效的类中心向量法与支持向量机(Support Vector Machine, SVM)方法相结合,通过在分类时设定的差值阈值α来调节对分类方法的选择,达到了分类方法的优化。2.引入最大熵模型进行文本的层次型分类。最大熵理论是一种在广泛应用于自然语言处理中的概率估计方法,它使未知事件的概率分布总是尽可能均匀,即倾向于得到最大熵。对于文本分类问题,通过建立最大熵模型,把事件集当作类别集,将上下文环境当作文本集,那么就可以使用最大熵模型求任意一篇文档属于任意类别的概率。但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本层次分类的研究尚未见到。把该方法和层次分类相结合,是对中文文本层次型分类的新的探索。最后我们把本文在这两个方面的研究与其他方式进行了比较,用实验验证了本文提出的二重特征选择方法FDS和层次分类算法HTC相对于平面分类和一般的层次分类方法,具有较高的准确率;最大熵方法的效果和主流的分类算法相当,切实可行,是一种值得关注的文本分类方法。并且自己构建了一个唐诗的层次语料库,使用本文研究的方法把唐诗按内容进行层次分类,是层次分类方法在文学领
其他文献
在数据库系统中,查询速度的快慢直接影响到应用系统的生命力,其中连接作为关系数据库模型的一个基本的操作,将在不同的关系上进行,使用频率较高,执行的开销也很大,因此查询优
数据挖掘是目前国际上数据库和信息决策领域最前沿的研究方向之一。由于高维数据日益成为主流,在实际应用中经常会遇到高维数据的情况,对高维数据挖掘的研究有着越来越重要的意
随着互联网的快速发展,扩展标记语言(XML)由于支持半结构化数据,能够自描述、平台无关,已经迅速成为整合异构数据的标准。与此同时,对大量不断涌现的XML数据的有效存储也成为了研
实时数据库中的事务有严格的时间限制,如截止期。传统的数据库系统缺少支持实时事务的机制。为了满足实时数据库系统的要求,必须要有好的并发控制和调度策略。目前对实时数据
缓冲区溢出漏洞是目前软件面临最严重的安全漏洞。产生缓冲区溢出漏洞有两种原因,一是在软件开发过程中,程序员在编写程序时对缓冲区操作没有进行边界检测;二是在程序中调用
面对当前的动态系统、动态环境,需要用动态的安全模型、方法、技术和解决方案来应对当前的网络安全问题。入侵检测和防火墙技术是动态网络安全的重要组成部分,本文研究的入侵
随着数据规模的日益扩大和数据类型的日益复杂,人类已经进入了大数据时代。一方面,各类场景和应用程序的可用数据量在急剧增加,另外一方面,传统的数据处理技术已经难以处理这些规
随着互联网技术的发展,如何在分布式环境下建立高效、安全和健壮的应用系统,成为当前的研究热点之一。分布式计算结构经历了终端/主机结构、以文件服务器为中心的网络结构、
随着本体和语义网的研究不断地发展,构建面向语义网的本体成为了一个引人关注的研究方向。而目前,构建面向语义网的本体仍是一件艰难而耗时的工作。为了解决这个问题,M.C.Rousse
网络化制造是适应网络经济和知识经济的先进制造模式,它强调企业间的协作和全社会范围内的资源共享,并以此达到提高企业的产品设计和创新能力,达到产品设计制造的低成本和高