模糊知识处理在中文文本自动分类中的应用研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:ww20080808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类(Text Categorization,TC)是指在分析文本内容的基础上按一定的策略把文本归入一个或多个合适的类别的应用技术。根据是否有固定的类别体系可分为有监督(Supervised)的自动归类和无监督(Unsupervised)的自动聚类。随着互联网上在线文本信息的急剧增加,文本分类对于信息处理的意义变得更加重要。文本自动分类广泛应用于文本处理和信息检索的各个领域,成为处理和组织大规模文本信息的关键技术,并推动了信息处理朝着自动化的方向发展。本文所研究的文本自动分类就是指在给定类别体系下的文本自动归类。 由于自然语言的复杂性,以及在描述和理解方面具有高度的不确定性和模糊性,因而文本类别的识别带有一定的模糊性,对这些具有模糊性的模式借助于模糊理论来刻画显得很自然。并且实际经验告诉我们,很多实际分类问题往往不好精确地确定某个对象属于某个类,而只能给出某个对象属于某个类的可能性有多大,因此将模糊知识处理的理论技术应用到文本分类的领域中,利用适当的模糊反而可以达到更精确的分类结果。 本文以科技文献信息处理为背景,从理论和应用的角度对基于模糊知识处理的文本分类技术进行了较为深入的研究,主要工作总结如下: 1.将模糊数学中模糊集合的理论应用到文本分类领域,并对模糊文本分类做了系统的理论和应用研究。 2.结合科技文献的结构特点,将模糊集间的贴近度和模糊语义关联度(Fuzzy Semantic Relationship)两种概念的分类算法分别应用于中文文本分类,测试并对比了这两种算法的分类性能。两个模糊集间的语义关联度,不但依赖于两个模糊集论域的元素间的隶属度,而且与相应论域元素间的语义近似程度有关,而贴近度的方法只考虑了相同元素在不同模糊集中隶属度值的关系,因此模糊语义关联度的方法获得了更好的分类效果,并且更好地解决了文本兼类的问题。 3.在模糊文本分类的基础上,对分类结果进行了分析,将分类错误归结为两种类型,并针对这两种情况提出了隶属度更新算法,结合模糊语义关联度的分类算法提出了运用更新公式不断对分类结果进行校验纠错进而逐渐地构造分类器的算法。实验结果表明这种算法有效利用了训练文本集,提取出了最优的描述训练文本的模糊集表示,提高了文本分类的精度。 4.对我们所提的训练算法进行了迭代改进,在保证分类精度的基础上有效控制了迭代次数和速度。
其他文献
设备状态监测和故障诊断技术近年来迅猛发展,它有效地保证了设备的平稳运行,并在设备预知维修中发挥越来越重要的作用。 本课题应用数据采集、信号处理、故障诊断、数据库
在基于属性的签名系统中,每一个用户都有自己的属性集合,用户签名的能力完全依赖于自己具有的属性。基于属性的签名协议需要具备的第一个性质是不可锻造性,即给定一个消息,只
随着网络的发展,电子文本大量涌现,自动摘要提取以迅速、快捷、客观等手工摘要无可比拟的优势,使得其实用价值得到充分体现。摘要提取越来越受到人们的重视。传统的自动摘要提取
设计模式通过一种可被复用的方式描述了一些软件设计问题的成功解决方案,从而提高软件生产率和可维护性。目前选取模式是依赖用户实践经验的人工方法。自动选取设计模式需要专
网络性能管理是网络管理的基本内容之一,性能管理的目的就是要维护网络服务质量(Quality Of Service,简称QOs)和网络运行效率,其有效性是网络管理的首要问题。 本文首先探讨
该文的主要内容和工作包括:第一,对几何造型的基本概念、原理和相关概念进行讨论;对几种典型的几何造型方法进行分析,重点讨论了实体造型方法的概念及其各种实现方法,引出结
支持IPv6的网络产品日渐增加,网络设备协议实现与协议标准是否能够保持一致已经成为各设备互联、互操作的关键。为此,需要对网络协议实现进行多种测试,以保证协议实现与协议标准
在传统制造业中,围绕产品展开的相关活动是企业的主要活动.目前,我国制造企业面临创新能力低下、设计周期长等问题.产品知识管理系统使用先进的知识管理理论和信息技术,可以
随着Web技术的发展和应用的广泛,Web服务的性能问题日益显得重要。因此高性能、高可用Web服务成为当前Web服务领域的研究热点。Web集群服务器系统是解决当前Web服务性能问题的
在传统电话系统中,一次通话从建立系统连接到拆除连接都需要一定的信令来配合完成。同样,在IP电话中,如何寻找被叫方、如何建立应答、如何按照彼此的数据处理能力发送数据,也