基于相关规则挖掘的中文文本分类

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chenshuae5b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国信息产业的飞速发展,互联网上中文信息的爆炸式增长,传统的文本分类技术已经难以满足中文分类任务的高维度、大数据量以及高可读性的要求,亟需开发适合中文的自动文本分类系统。近些年提出的基于关联规则挖掘的文本分类方法分类效率高,可读性好,应用在中文文本分类中也取得了一定效果,但是由于关联规则挖掘采用置信度-支持度框架,无法挖掘出低支持度的信息项,具有一些无法克服的缺陷。为了挖掘出低支持度的有用信息,研究项之间的相关性,提出了相关规则挖掘算法,能够发现低支持度-高相关度的规则,比传统的关联规则更具有实际意义。并且通过研究相关系数的上下界以及上下界之间的性质,缩小搜索空间,改进挖掘算法以提高挖掘效率。在正负相关项对基础上利用规则可靠度来产生正、负双向规则,并修剪规则。针对中文的语言学特性,提出利用前缀哈希树结构完成中文文本向事务数据的转换。提出了利用相关规则分类中文文本的算法,并设计实现了基于相关规则挖掘的中文文本分类原型系统来验证算法的正确性。在实验设计上,采用人民日报标注语料库,该语料库含有环境、计算机、政治等10个类别2815篇文档,字数达17.7M。在真实数据集上的试验结果表明,该系统能够有效实现中文文本的转化和分类,并能达到良好的分类效率和结果。
其他文献
随着搜索技术的发展,纯粹的web搜索由于受到IE的束缚,因而表现出应用能力偏低,而基于桌面的搜索则相当于一个“客户端+数据库”这样的应用模型,尤其加入了划词搜索的功能,这也使得
学位
随着SoC系统规模的持续扩大,系统验证复杂度也随之增加。传统的验证方法很难进行完备的验证,验证技术已成为制约SoC技术发展的瓶颈。为缩小与设计制造的差距,一系列高级的验
近几年来,无论是国有商业银行,还是股份制商业银行,对银行业务电子化处理都给予了前所未有的重视,电子化集中处理成为各银行建设的重要目标,实现对票据的电子化和自动化处理己成为
在大型复杂系统开发的初期,系统需求的抽取、描述和管理是一件困难而细致的工作,对后期开发的影响也是至关重要的。华中科技大学软件工程实验室研究课题SoftMaker作为生产软
VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现了一个有效且高性能的基于网格进行大规模网
随着计算机技术的发展与普及,许多企事业单位和管理机构都建立了自己的管理信息系统。在信息系统开发设计过程中,安全性能总是被放在首要的位置,成为信息系统生存的关键。构建企
网格技术是一门新兴的技术,有着非常广泛的应用前景和发展空间。在网格强大的功能给科学研究带来极大便利的同时,也不得不担心网格应用的安全性。 本文通过对网格安全的需求
本文针对信息时代“信息爆炸”的问题,即信息极大丰富而知识相对匮乏,进行了基于XML的Web内容挖掘应用研究。文章在介绍了数据挖掘、Web内容挖掘、XML技术等相关理论知识的基
近年来,随着互联网的发展和计算机系统的普及,地理信息系统得到了快速的发展,在导航定位、地图制图、国防、规划建设等等众多领域得到了广泛的应用。空间数据作为地理信息系