基于语义簇构建隐马尔可夫模型的文本分类方法研究

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:a13315157220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为文本挖掘领域中一个非常重要的研究方向,对文本数据的组织、管理和处理具有重要意义,在信息检索、数字图书馆、搜索引擎、文本信息过滤等领域有着广泛的应用。虽然文本分类的研究已经取得不小的进展,但目前为止仍有一些尚待解决的问题,例如,相关特征词的信息度量,分类器的增量更新和在线更新,以及分类器性能随类别数增加而降低等问题。本文围绕上述问题展开研究,提出了一种基于语义簇构建隐马尔可夫模型的文本自动分类方法,主要工作和创新点包括以下几个方面:(1)特征词分类信息的度量在对比了几种已有的特征词分类信息的度量方法后,借鉴TF-IDF权重,对公式进行了调整,使之可以针对特征词的不同类别度量分类信息的权重,然后利用不同分类信息权重将特征词进行向量表示,实验表明特征词向量可以很好的表达特征词的分类信息。(2)提出建立层次语义簇模型的方法利用层次聚类方法对特征词向量进行聚类,所得层次语义簇簇内相似度大,簇内特征词分类信息相近,能够表征这一类具有相似分类特性的特征词。通过层次语义簇模型提出一种将文本序列化表示方法,文本序列表现出状态转移的特性。然后考察了聚类迭代截止阈值的确定问题和特征词间相似度计算量过大的问题,并给出相应解决方案。实验表明语义簇模型能够达到降维和突出分类信息的目的。(3)文本分类器结构设计针对训练集类别建立相互独立的隐马尔可夫模型,并据此提出了一种文本分类器结构,分类器中文本模型互不耦合,文本模型与分类判决器相互独立。然后讨论了利用所提出的文本分类器结构实现增量更新和在线更新的方法和工作量。实验表明,该方法一方面可以在大文本数据量情况下有效利用文本分类信息,提高分类精度;同时,相比于其他方法,算法性能受到类别数目的影响较小。
其他文献
当今科技日新月异,因特网的发展也是十分的迅速,诸如图片文件、音频文件、视频文件等不同格式的文件,以这类文件作为数字内容的商品充满了整个因特网。由于这些数字内容商品
本文给出了U型钢刚性支架和可缩性支架内力及其位移的计算方法,对于可缩性U型钢支架,本文认为在计算支架内力时除应考虑围岩作用对支架产生的弹性抗力影响,同时还应考虑支架缩动
大型机加工件在生产和加工过程中,由于加工机器自身以及人为装配原因,零件必然会产生一定的形位误差,既工件的实际形状和位置相对于设计所要求的理想形状和位置会产生偏离,其偏离
由于单个的Web服务已经无法满足服务请求者的复杂功能需求,因此如何将已有的、运行在异构平台的Web服务组合起来,提供给用户更为强大和增值的功能,成为Web服务领域研究的一个
随着世界经济一体化进程速度的进一步加快和我国改革开放的不断深化,被称为企业“第三利润源泉”的物流对经济活动的影响日益明显,引起人们越来越高的重视。物流企业能否快速、
随着信息技术的快速发展,人们获取和产生数据的方式越来越先进,越来越多的结构化数据被存储下来,数据量达到了TB级别,甚至PB级别,这些数据具有规模大、处理速度快、蕴含价值高等特
Web服务是一种新型的分布式的计算模型,可以在多种异构平台的基础上构建一个通用的、无关平台的、无关语言的技术层,使得不同平台之上的应用更为方便地进行连接和集成,具有更好
数字图像水印技术是信息隐藏领域的一个重要分支,它是在不影响图像质量的前提下,将具有特定意义的标记水印嵌入到被保护图像之中,以此达到认证内容和保护版权的目的。早期的
随着Intent技术的发展及计算机技术在各个行业中的广泛应用,大量有价值的数据都散乱在Web和Word等半结构化数据中,难于实现数据高效查询、检索和处理。目前,对半结构化数据的抽
自从上世纪70年代Parke建立第一个三维人脸模型以来,三维人脸重建就成为了计算机图形学领域中的研究重点,并取得了一定的突破和进展。目前该技术也已被广泛应用于影视动漫、医