基于主题挖掘和覆盖的文本分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zxbleng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本中含有大量对分类有贡献的信息,能否综合利用这些信息选取一种合理的文本表示方式,是文本分类的难点和关键。单纯的使用传统的向量空间模型VSM(Vector Space Model)表示文本,由于其是基于统计得到的,缺乏文本语义即主题上的信息。本文通过对词共现原理进行研究,在文本语料中提取文本的词共现信息,将词共现得到的关键词词对组合成短语,以组合后的短语作为文本的主题特征并赋予一定的权重与原始文本语料的基本特征进行合并,得到了基于词共现改进的向量空间模型即Word Co-Occurrence Mode Based On VSM, WCBVSM,能够更好的挖掘出文本的主题信息。由张铃教授和张钹院士提出的构造性学习方法,它利用球形映射将神经元变换成为对有限空间划分的分类器,正是这种方法将神经网络长期未解决的学习问题转换成覆盖问题进行求解,同时大大降低了问题描述的复杂性。本文提出了将交叉覆盖算法和模拟退火理论相结合的基于模拟退火的交叉覆盖覆盖算法(Cross Cover Algorithm Based On Simulated Annealing Algorithm, SACCA)。改进了传统交叉覆盖在覆盖初始点选取时的随机性,并通过增加每个覆盖所包含的样本点来减少覆盖数,从而增强了覆盖的泛化能力。在对传统算法进行了改进之后,本文给出了一种基于WCBVSM和SACCA相结合的文本分类新模型,实验结果表明提出的文本分类新模型在加快识别速度的基础上,提高了分类的精度。纵观全文,主要工作如下:1.介绍了文本分类和覆盖算法的研究背景和意义。主要简述了文本分类的一些相关技术,如预处理,特征选择等;分类算法的几种经典算法,并加以分析了它们的优缺点。2.通过对传统的词共现模型进行研究得到扩展的词共现模型,并据此提出了基于词共现的文本主题挖掘方法WCBVSM。3.对目前分类效果较好的机器学习算法——覆盖算法进行了研究,说明了它的基本思想、构造算法并对传统覆盖算法的特点进行了理论分析。针对不确定海量信息数据分类识别时识别率与泛化能力这一对矛盾,结合模拟退火算法提出了基于模拟退火的交叉覆盖算法SACCA并取得了很好的实验效果。4.提出了主题挖掘和基于模拟退火的交叉覆盖算法相结合的文本分类新模型,并实现了系统:给出了系统设计结构图,系统实现的关键技术和方法,并对系统进行了测试。
其他文献
高校学生成绩档案是高校教育、教学的成果记录,是高校学生在校期间德育、智力、体育等各个方面表现的真实写照,记录着他们大学期间的成长轨迹,其广泛应用于学生就业、出国深造、
Web服务发现是web服务体系架构的重要组成部分,发现满足用户需求的服务是实现服务复用、服务组合的重要前提。随着web服务的发展,特别是在服务的智能发现和组合研究中,有效的
与桌面系统应用开发相比,实时嵌入式系统(RTES)软件还是采用过时的或者晦涩的C/C++或汇编语言等手段进行研发,然而这些开发手段的诸多缺点难以满足嵌入式系统的发展趋势,因此
学位
图像和视频作为计算机科学领域的重要研究对象,近年来一直是研究热点。而随着图像和视频处理技术的迅速发展,对图像和视频质量提出了更高的要求,高分辨率图像和视频包含的细
随着嵌入式系统的发展,嵌入式系统已经广泛的应用到科学研究、工业控制、军事技术以及人们的日常生活等各个方面。尤其在实时领域,基于实时的嵌入式操作系统也得到了更多的应
本文在对数字水印算法研究的过程中,发现水印容量、不可见性、稳健性三者很难达到平衡,顾此失彼,影响数字图像在互联网传播的版权认证,从而需要改进数字水印嵌入、检测算法。
Dennis Gabor在1946年提出的Gabor变换在非平稳信号处理中是非常有用的,它克服了传统Fourier变换不能表示一个信号的频率如何随时间变化的缺点。Gabor变换系数揭示了一个信号
随着互联网技术的迅速发展,人们希望越来越多的业务在互联网上进行。但互联网是一个开放的网络,存在各种安全威胁。为了保障用户数据的安全,各种技术应运而生。作为安全技术
纺织工业是我国传统的支柱产业之一,从纺织原料和化纤生产开始,出现了纺纱、织布等生活中常见的纺织品加工形式。但是由于纺织原料本身信息指标繁多,而且生产过程中,纺织原料