基于潜在义分析的文本分类方法

来源 :云南大学 | 被引量 : 0次 | 上传用户:wodetiantian3321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文件的检索、分类,查找文件的路径选择和文件过滤都能被归结为文本的分类问题,分类是组织大量数据的有效方法.在中文文本的分类问题,中文文本的表示及取词方法是一个难点,如何有效地提取出中文文本中的词是目前中文文本研究中的一个重点,该文实现了中文文本中的两两取词算法.分类问题中信息检索的目标是发现与用户查询信息相关的文件.该文介绍了基于特征值分解的潜在语义方法,提出了基于潜在语义的文本分类方法和样本集的中文取词法,并将它应用于中文文本分类中.我们用新闻网站上下载的文本对基于潜在语义的分类方法时地了测试,实验结果表明基于特征值分解的潜在语义方法是有用和有效的.
其他文献
若某连通图G的任意两个圈之间至多只有一个公共顶点,我们称图G是仙人掌图.以lmn表示匹配数为m的n阶仙人掌图的集合.显见,n≥2m.在文献[32]中,Li和Zhang得到了n=2m时,lmn中具有最
论文包括三章内容.第一章介绍了吴方法的基本概念和基本定理.重点介绍了余式公式和零点分解定理.第二章介绍了吴方法在天体物理学中的一个应用.先介绍了星体的平面中心构型的
信息社会产生的大量数据包含丰富的知识财富,学者们提出大量的机器学习算法来挖掘这些知识财富,促进形成更加便捷智能的社会。然而由于大量算法,特别是距离相关的算法,忽略了数据
该文引言介绍了完全非线性椭圆型和抛物型方程正则性理论的历史和近期结果.第一章首先引入Holder空间,Campanato空间,粘性解和Pucci极端算子,接着给出完全非线性椭圆型方程的
从一个双曲函数出发的pinching序列,它的极限位于双曲分支的边界上,pinching序列限制在Fatou集和临界轨道上也一致逼近。我们证明如果双曲分支的一个边界点被一个双曲函数序列
图和超图可以用来表示事物间的复杂关联,综合了两者特征的超结构可以表达更为丰富的关联信息。图、超图和超结构的划分在并行计算、数据挖掘、大规模电路设计、交通规划等领域
该文给出定义在完备距离空间X上的真下半连续f具有整体误差界的充分必要条件,并且给出了当f是连续凸泛函,X是Banach空间时,f具有整体误差界的一些等价叙述.同时考虑了凸集值
算子理论主要来源于矩阵理论和关于积分方程的研究成果。算子理论中的许多基本概念都来源于矩阵理论。如算子的谱来源于矩阵的特征值。矩阵理论在现代数学的各个分支中都有应
一维非标准逆热传导问题.是一个严重不适定问题,给数值处理带来极大困难,在该文中,我们给出了一种Fourier正则化方法和一种小波-Galerkin正则化方法,恢复了解对数据的连续依