Web中文文档分类技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:soy_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的Web文本中掌握最有效的信息始终是信息处理的一大目标。而文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。而如何在保证Web文档分类准确性的同时尽可能地减少算法空间占用、提高分类速度,是将自动分类方法用于Web信息处理技术的关键所在。据此,本文对“Web文档分类”,尤其是Web上中文信息资源的有效分类,这个具有重要理论意义和广阔应用前景的课题进行研究和探索。 本文在对现有的Web文本分类技术存在问题进行剖析的基础上,对Web文档内容的预处理、表示、组织、分类算法等技术环节进行了探讨,对其中的部分关键技术进行了研究,分别从词的语义层次、文本词袋表示、层次分类中类别特征表示等多个方面入手,力图为Web信息资源的主题分类提供理论依据和实验参考。 本文的主要研究工作包括如下几个方面: 1、在介绍传统的Web中文文本分类技术的基本原理和存在问题的基础上,提出了本文的研究思路。 本文概述了Web中文文本分类系统的体系结构,分析了Web中文文本分类中各个步骤的作用及其对分类精度与分类速度的影响、以及Web中文文本分类的性能评价标准。其中重点讨论了系统中Web中文文本的语义表示、层次分类算法的处理内容;指出了传统处理方法在理论上和实践中的不足之处,提出了自己探索的方向和本文的基本思路。 2、结合潜在语义分析技术改进了类重心向量的分类处理效果。 LSA通过分析大量的文本集,自动生成关键字-概念语义之间映射,可以消除同义词、多义词的影响。本文从Web文本自动分类的需求出发,针对基于VSM模型的类中心向量的分类处理中,词条无关假设和词条维度过高等问题,提出了基于潜在语义分析的层次分类方法。该方法利用LSA分析中的SVD分解获得Web文档的语义特征向量,并在此基础上进行分类处理,在不损害分类精度的同时提高了分类处理效率。 3、提出了一种结合概念语义的层次分类算法。 在对Web文本进行表示时,文本的“词袋”表示法可以使文本的表示和处理简单化,可以在文本分类中取得较好的效果,但由于丢失了大量语义结构信息,在进行层次分类时上层分类结果不理想。针对这个问题,本文提出了结合概念语义的统计分类技术来提高上层类别的分类精度。本文通过知网中的概念语义层次结构,对类别特征进行概念语义上的归纳,可以得到上层节点更为泛化的语义特征,更精确的模拟人的层次分类过程,提高层次分类中错误最多的上层分类正确率。 4、提出了一种根据类别层次动态选择文本类别特征的技术。 多级层次分类是文本分类降低复杂度和提高分类速度的有效方法。在进行层次训练时,多数算法是在总的词条集上进行类别特征提取和相似度评判,底层层次类别特征被弱化,从而影响了分类精度。本文提出根据类别层次动态选择文本的类别特征,很好地保持了层次类别特征,取得了较好的结果。本文的部分研究成果还应用到了国家863信息检索系统中去,取得了较好的分类结果。
其他文献
当今,随着Internet的快速发展,web技术凭借其实时的信息发布、动态的用户交互以及与后台系统灵活的安全连接等优点得到了广泛应用。与此同时,面向web应用程序开发的技术也得到了
近年来认知心理学和神经生物学的研究表明,人类在识别物体所属的具体类别之前,可以对其进行快速的理解。同时,选择性注意理论也表明视觉系统主要负责处理图像中的部分重要细节,而
网格技术将所有可用于共享的资源(例如,计算机、高性能设备、S贵仪器、存储设备、科学数据、软件、数据库等)通过网络连接起來,并将它们转化成一种随处可得的、可靠的、标准
随着各种网络应用不断涌现,在采用网络应用较多的企业中,出现了安全管理的问题。尤其是当这些应用采用不同的权限分配和控制方式时,整体的安全策略难以制定,各个子系统的管理变得
随着Internet的飞速发展,互联网所面对的和隐藏的安全威胁越来越复杂,越来越严重。作为网络安全的一个重要组件,入侵检测系统将发挥着越来越重要的作用。但是现有的大多数入
函数发现是指从大量看似无规则的数据中挖掘出函数关系并用于进行预测。函数发现属于数据挖掘中知识发现的一个分支,随着数据挖掘的兴起而兴起,不过此方向的研究进展较慢,最初人
数据挖掘是近年来数据库领域中出现的一个新兴研究热点,也是提高管理决策支持能力的一种重要手段和工具。它的任务是从大量数据中提取隐含的、未知的、对决策有潜在价值的知识
医疗监护系统是医院信息系统的一个组成部分,它负责监视和记录临床病人常用的生理、病理参数。一个好的医疗监护系统不仅可以监视、记录临床病人的身体状态,帮助临床医生进行
目前,AutoCAD等软件的出现,已经使建筑设计人员基本抛弃了在图纸上设计的方法,而改在计算机上作图,但是后期的计算、放样等过程还依赖于人工读图,效率低下。 建筑结构图包括柱
本文提出了改进的四叉树分形图像压缩算法。  本文首先介绍了图像压缩技术;其次对分形图像压缩理论的数学基础进行概述,并详细介绍了分形图像压缩的理论基础:迭代函数系统(IFS