基于流形学习方法的中文文本分类研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:feixingyuan1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息科学高度发达的当今世界,每时每刻都会有大量的数据产生,在我们的周围充斥着各式数据信息,这些数据往往是高维的,高维数据难以被人理解,因而从高维数据集中选择最具代表性的特征,挖掘最有用的信息成为文本处理领域研究的热点。本文把流形学习方法引入到中文文本分类,来解决对高维非线性的文本数据集的处理问题。文本预处理后,经过中文文本分词处理,得到一系列的词条,我们使用特征选择函数对特征词的权重进行计算,从数据集对应的语料库中删除掉噪声数据和冗余信息。而后可以将剩余词项作为特征项用于构建文档-特征空间矩阵。在文本特征空间矩阵的基础上,我们选用流形学习算法用于非线性的高维数据的降维。流形学习算法在非线性数据的降维处理方面比传统的非线性降维技术如:自组织映射算法、主曲线方法、生成拓扑映射方法和基于核主分量分析等有着先天的优势。本文主要研究了等距映射算法和局部线性嵌入算法这两种流形学习方法。等距映射算法作用于整个数据集,它力求保持数据点之间的测地距离;这样能保持整体上数据集的流形结构拓扑不变;局部线性嵌入算法则是在数据集从高维空间到低维的映射过程中保持其每一个局部领域内数据点之间的线性关系不变。这两种方法都是从局部的邻域着手,保持某些性质,进而保持数据集整体几何结构的拓扑性质。但是这两种流形学习算法使用时有共同的问题,即没有对于数据空间的特征维数估计的完备方法。此外,在本文中的特征项权重值的计算方式得到改进。对于一个特征项,我们既要求它能较好的表达文档本身的信息,又能包含类别的信息,以用于文本分类。一般特征权重计算方法不包含文本类别的信息,并因此而不能被用于分类。本文改进了传统的特征项权值计算方法,通过将特征选择函数整合进来,融合了类别的信息,提升了最终的分类效果。
其他文献
随着计算机网络技术和通信技术的进一步发展,人们不仅对家居的自动化和信息化程度要求越来越高,而且对家用设备控制的灵活性以及对外部信息获取的便捷性提出了更高的要求.这
数字水印是一种嵌入到图像、视频或者音频数据中的不可见标志,通过对水印信息的检测可达到保护多媒体数据版权的目的.基于数字水印的图片版权保护具有显式水印和隐式水印两种
论文分为以下七个章节介绍研究的详细过程:第一章简要介绍了"基于角色的访问控制模型的研究"课题的意义和目的,阐述了论文所要研究的主要内容,分析了三种访问控制策略的特点,
该文从理论上研究和探讨了分布式环境下组件化的CNGIS,刚C++语言、COM/DCOM和ASP等技术设计并实现了基于Client/Server与Browser/Server混合方式的CNGIS,最后对CNGIS的进行了
随着全球Internet用户数量的激增,黑客对个人网络用户的攻击次数越来越频繁,攻击的手段也越来越先进,针对个人主机的安全防护技术已经成为当前网络安全研究领域的重点。目前针对
语义web技术使互联网用户可以更好的获取多种信息和相关服务,通过为互联网信息增加语义将使“更多的信息变得更有用”。语义web的远景和目标是实现数据之网(Web of Data),数据
随着中国经济实力不断争强,人民生活富裕,生活水平日益提高;电脑技术的突飞猛进和普及;网络接入技术的日新月异;越来越多的普通中国人拥有了个人电脑,并且联上互联网.中国上
该文提出的非线性RED算法则是在分组丢弃时采用非线性的丢弃 率,通过采用适当的非线性参数可以使网络的性能得到进一步的改善.该论文的创新之处是定量分析了平均队列长度与网
计算机和通信技术的飞速发展,使得我们可以通过各种设备简便快速的访问web资源.但是由于原有的web资源构建方式,导致用户通过非PC设备(如,PDA,手机等)对web资源进行浏览时,效
作者在该文中进行了调频半色调中的优化方法和调频调幅网的研究.传统的调频半色调方法在浅调和中间调存在着蠕虫效果和有害纹理[Eschback,R.,197],该文在变系数的误差扩散方