基于句子级关联的文本分类和聚类

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wolfzz88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是一种有指导的机器学习,它试图将自然语言文本分配到预先指定的类别中,在这个过程中,需要用到由人工标定了类别标签的文档训练集。相比较而言,文本聚类则是一种无指导的机器学习,它试图将相似或相关的文本聚集在各自的类别中,在这个过程中,没有预先标定的类别标签和文档训练集可用。关联规则挖掘是在数据库中寻找那些满足最小支持度和最小置信度的规则,它最初的目的是通过对超级市场“购物篮数据”的分析,发现顾客购物行为之间的关联。文本分类、文本聚类、关联规则挖掘都是数据挖掘领域中所研究的重要技术,但文本分类和文本聚类是为了处理日常生活中的海量文本数据,对文本数据进行组织和管理,两者可广泛应用于Web数据挖掘、搜索引擎、信息检索等方面。近年来,关联规则挖掘技术被引入到文本分类和文本聚类中,研究如何利用文本中词语之间的关联进行文本分类和聚类。  目前基于词语关联的文本分类和聚类方法都是将整个文本看作一个关联事务,然后从这样的文本事务中挖掘频繁项集来捕捉文本级词语之间的关联。然而句子才是文本中的基本语义单元,出现在同一个句子中的一组词语,往往比它们仅仅出现在同一文本中要带有更多的关联。因此提出将文本的每一个自然句子而不是整个文本看作一条事务,来挖掘句子级的词语关联进行文本分类与聚类。以句子作为关联事务的文档表述模型称之为句子关联事务模型。  基于句子关联事务模型,提出一种新的文本分类方法SAT-FOIL。它采用传统的FOIL增益标准,贪婪地每次选择出一条规则,去除该规则所覆盖的正例,然后重复进行下一条规则的选择。选择规则的方式是进行诱导式的生长,即从一个空规则出发,每次选择一个FOIL增益最大的项来进行延伸,直到增益为零或者负数。  在SAT-FOIL中,分类预测模型解决如何利用分类器进行分类预测的问题。经过对文本匹配分类器的程度以及所匹配规则的情况进行综合,提出了四种得分模型以及相应的分类策略。  在实际数据集上的实验证明,SAT-FOIL可以取得比其它几个著名的关联文本分类算法更好的分类精度,而且,相对于当前精度最高的文本分类算法SVM,尽管在精度上略低,但是其分类器是可读的,并且可以人工修改。  随着电子邮件使用越来越普遍,邮件的分类问题对传统技术提出了新的挑战。其中邮件的动态特性对增量式分类的需求越来越高。增量式分类根据最近参与分类的文档调整分类器以适应新文档。基于SAT-FOIL的一种改进方法SAT-MOD,提出了一种增量式分类方法SAT-Inc,该方法在对分类器更新过程中,利用MODFIT修剪算法来对分类器进行修剪操作。通过在Enron电子邮件数据集上的实验发现,SAT-Inc确实能够比传统的分类方法取得更好的分类精度。随着新的文档加入到训练集中,SAT-Inc能够一直保持较高的分类精度。  另外,基于句子关联事务模型,提出了一种新的文本聚类算法SAT-Cluster,它通过统计文档与簇所共享的频繁项集的数量来衡量它们之间的相似程度,并且利用簇文档集之间的包含关系来构造簇层次。实验表明,SAT-Cluster可以取得与最优秀的传统算法Bisecting k-means媲美的效果,并且具有更好的可读性和可浏览性。
其他文献
该文从词典的建立,分词的过程,系统地提出了一套基于多级内码和ATN网的分词方法.文章重点论述并模拟了分词的算法.该分词方法包括两部分:求解各种分解方式和对各种方式的切分
该论文研究的课题是基于Inter 80287体系结构的数值协处理器的IP研究与系统设计,最终完成的数值协处理器是自主设计和实现的.该论文在对Inter 80287体系结构分析研究的基础上
磁盘阵列技术广泛应用于提高存储系统的性能与可靠性。随着相关技术的进步,RAID基本技术已经不能满足更多的存储应用要求。开发不同存储结构和数据布局的磁盘阵列成为网络存储
该课题来源于邮电部的项目《图象彩色分类方法的研究》.图象彩色分类是地图计算机自动输入的一个瓶颈问题,完善的彩色分类方法,将大大降低这些地图自动输入识别的复杂性.从而
该课题是对计算机网络中压缩解压器的研究,主要用于提高远程计算机网络之间的通信束率.在该课题中提供了两种解决方案,并针对其软硬件的实现作了详细的论述.该课题中的压缩解
该文运用天然气藏工程原理,采用面向对象的程序设计方法,对天然气藏开采的动态预测、合理产量确定及钻井设计进行了系统分析与设计,完成了《天然气藏开发合理产量确定及井数
随着多媒体技术的发展和图象处理、模式识别的广泛应用,研究基于图象内容的检索具有重要的理论和应用意义.该文在分析了数字化图象处理基本理论的基础上,针对数字化图象检索
π-演算是九十年代计算机并行理论领域最重要的并发计算模型.该研究项目旨在用π-演算解释CORBA/IIOP环境下的操作过程.该文记录此项目的初步研究成果,即如何用π-演算来刻划
该文提出了一种基于CORBA的Web数据库发布技术体系结构.该体系结构为三层结构,即Java客户机、网关服务器和数据库服务器.Java客户机、网关服务器来与数据库服务器进行交互.网
神经网络推理是人工智能领域的一种重要推理方法.文中结合"情报侦察数据融合专家系统"为需求,对于产生式规则、模糊逻辑规则、知识表示和推理、神经网络的结构和机理进行了深