基于最长闭频繁序列模式的文本分类方法

来源 :河北师范大学 | 被引量 : 3次 | 上传用户:wangxiaoxiao880523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,文本信息量呈爆炸式增长,想要从中筛选有用类别信息极具挑战。“基于词语”和“基于模式”是文本分类领域两种有效的处理途径。“基于词语”方法以其易操作性,深受广大研究者青睐,但其性能受到同义词、一词多义及噪声问题制约。相比之下,“基于模式”方法凭借自身更多的有用信息,可以有效避免“基于词语”方法面临的问题,挖掘出的特征更具有鉴别力,对分类而言更为高效。论文主要研究基于最长闭频繁序列模式的文本分类方法,解决基于最长闭频繁序列模式的文本处理过程中数据预处理、最长闭频繁序列模式挖掘、特征选择与文本分类问题。主要工作包括:(1)基于词频统计规律的文本数据预处理方法文本挖掘性能被特征的“高维—稀疏”所困扰,在文本挖掘前进行有效数据预处理显得至关重要。提出基于词频统计规律的文本数据预处理方法:首先,基于齐普夫定律和最大值法推导出同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,发现词频为1和2的词语与文档关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行验证,结果表明:各频次词语分布规律是正确的;基于词频统计规律进行文本数据预处理,在保证分类性能的前提下,运行时间明显降低,文本挖掘效率得到显著提高。(2)文本最长闭频繁序列模式挖掘方法“基于模式”方法可以很好地解决“基于词语”所面临的诸多问题,对分类更加有效,执行效率优于“基于词语”方法。但实际应用中,挖掘出的大量频繁模式会降低其有效性。因此,从规模庞大的模式集合中选择最具区别力和代表性的模式尤为重要。提出文本最长闭频繁序列模式挖掘模型:首先,提出剪枝模型,用于去除噪声模式;其次,提出频繁序列模式扩展和频繁序列模式后缀集合提取模型,结合剪枝模型挖掘最长闭频繁序列模式;再次,提出基于包含度原理的冗余文本频繁模式筛选算法,通过冗余模式去噪,提升文本频繁模式挖掘性能;最后,挖掘出非冗余最具类别区分力的最长闭频繁序列模式。在公共数据集上的实验证实,提出的最长闭频繁序列模式挖掘模型是有效的。(3)基于最长闭频繁序列模式的文本特征选择方法对于高维数据处理,文本分类的关键任务是进行特征选择。由于文档中存在规模庞大的词语和模式,想要保证所挖掘特征质量是一项巨大挑战。模式挖掘面临长模式与新文档低匹配度问题,如何高效选择并利用文本中的有用模式仍是难题。提出基于最长闭频繁序列模式的特征选择方法:首先,提出最长闭频繁序列模式特征词语加权模型,将模式转换到词语空间,克服长模式与新文档低匹配度问题,并将词语在模式中的支持度作为其初始权重进行特征选择;然后,提出基于特异度的特征词语分类及权重更新模型,基于词语相对文档的特异度将词语划分为正特异词语和一般词语,并对两类词语进行权重更新。最后,得到基于最长闭频繁序列模式的特征集及对应权重。通过在公共数据集上的验证得知,该方法优于当前普遍应用的文本特征选择方法。(4)基于最长闭频繁序列模式的文本分类方法基于相似性进行文本分类是当前流行的文本处理方法,提出基于最长闭频繁序列模式的文本分类方法:首先,提出基于特征词语“缺失—存在”的文本相似性度量方法,旨在利用特征与文档间的隶属关系度量文档相似性,实现文本分类。该方法根据特征词语与文档间隶属关系,对特征进行全隶属、偏隶属和无隶属词集划分,并以此定义隶属度函数。全隶属词集隶属于两篇文档,隶属度随权差增大而降低;偏隶属词集仅隶属于其中某一篇文档,隶属度为一个定值;无隶属词集与两篇文档无隶属关系,隶属度为零。同类文档间,全隶属特征词语较多,偏隶属特征词语较少,且相似度越高的文档间全隶属词语权重越接近;异类文档间偏隶属特征词语较多,全隶属特征词语较少,且全隶属特征词语权重差异较大。其次,将文档间相似性度量方法,扩展为度量文档与文档集合间相似性;再次,将基于最长闭频繁序列模式的文本特征选择方法所选特征,用于该相似性度量方法;最后,将文档归入相似度最高的类别,实现文本分类。采用公共数据集验证分类性能,结果表明该分类方法优于传统方法和新方法。论文的创新点在于:基于词频统计规律进行数据预处理,可有效降低特征维度;基于包含度原理挖掘非冗余最长闭频繁序列模式,可通过冗余模式去噪提升文本频繁模式挖掘性能;基于最长闭频繁序列模式的特征选择方法所提取的特征充分考虑特征词语所在模式在文中的分布规律和特异性,与文档间关系界定更加清晰;基于特征词语“缺失—存在”的文本相似性度量方法,利用特征词语与两个文档间三种关系定义不同贡献度,特征类别划分更加合理,可明显提升分类精度。将基于最长闭频繁序列模式特征选择方法所选特征,用于基于特征词语“缺失—存在”的文本相似性度量方法,凸显了特征词语与文档间的关联,文档类别界定更加清晰,分类准确率得到显著提升。
其他文献
电子邮件是当前互联网上使用最为广泛的服务之一,随着互联网及应用的不断发展,垃圾邮件大量蔓延,造成社会生产力的极大浪费。因此垃圾邮件过滤非常必要,具有重要的理论意义和社会
多视图的学习在最近十几年引起了众多研究人员的极大兴趣和关注。而传统的模式识别和机器学习的方法多是集中在单视图上进行的。这些单视图方法往往通过独立、交替的方法训练
随着互联网的迅速发展,网络问答系统成为一种具有应用前景的远程教育模式。目前国内多数教育问答系统对用户提出问句的理解仍然局限在关键词匹配的模式,反映了实用性和智能性的
随着人工智能的发展,人们对这个领域的研究不断深入。对类似真人发音的语音生成和获取的控制,是机器人发音系统急需解决的问题。DIVA(Directions Into Velocities ofArtculators
无线传感器网络是一种无基础设施的网络,它由一组传感器节点以自组织的方式构成,其主要目的是协作感知、数据采集和处理网络覆盖区域中的感知对象的信息,最后将经过处理得到详尽
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库中的数据量非常大,并且在逐年增大。因此提高查询速度是数据仓库必须要
互联网的快速发展及电子信息的迅猛膨胀带来了严重的“信息爆炸”问题,用户可以通过网络获取到最新信息,同时,鉴于网络的开放性这一特点,用户就会不可避免的接触到暴力、色情、封
"十一五"以来,在党中央、国务院和地方各级党委、政府领导下,各地、各有关部门认真贯彻落实国务院《关于进一步加强消防工作的意见》,我国消防工作取得了明显进步。但是,随着
人们的生活包含着各式各样的数据,许多数据中都含有很重要的信息。数据挖掘就是从海量数据中提取重要信息的一种技术。作为数据挖掘中的一个重要方法,聚类分析可以有效地将这
随着互联网的飞速发展,“信息过载”的问题使得电子商务推荐系统面临着如何定位用户兴趣及时提供准确产品的瓶颈。而协同过滤算法是在诸多推荐系统中使用最广泛和有效的算法