局部线性嵌入在文本分类中的应用

来源 :河北工业大学 | 被引量 : 4次 | 上传用户:MAGICDHJ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真实世界的数据往往是高维的。因为高维而难于被人理解、表示和处理。其处理面临两个问题:一是维数灾难问题,维数膨胀给高维数据中模式识别和规则发现带来极大挑战;二是维数的增长又带来“维数福音”,高维数据中蕴藏的丰富信息中可产生解决问题的新的可能性。如何将高维数据表示在低维空间中,并由此发现其内在结构是高维信息处理研究的关键问题之一。文本分类也面临着同样的问题,特征空间的维数高达几万,甚至远远超过训练样本的数目。然而,过大的特征空间会导致样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现“过学习”的现象,因此从原始特征集中如何选取最具有代表性的特征是十分必要的。有效的降低维数可以提高分类任务的效率和分类性能。本文重点研究局部线性嵌入算法(LLE)的降维过程,将它应用在文本分类中。文本以向量空间模型的形式表示,经过特征提取后得到较低维的数据集,再利用LLE算法进行降维使之维数进一步减少。用训练文本数据集进行训练,以获得分类器,再用分类器对测试文本进行测试分类,分类器采用支持向量机分类器。局部线性嵌入算法,它不需要进行迭代运算,只有2个参数需要设置,而参数取值的客观算法又常不多见,尤其是数据空间的特征维数估计更是模式识别中的一个待解决问题,所以本文通过多次实验比较了LLE降维过程中当2个参数即邻近点个数k和低维维数d取不同值时分类精度的变化,以获得最佳的降维效果。
其他文献
信息时代的发展促使大数据时代的到来,高性能计算成为当下研究的热点。传统的利用高性能计算机解决高性能计算问题成本高、可扩展性差、能源消耗大,人们急需一种更加低廉、高
随着网络技术的不断发展及信息处理的不断增多,信息安全逐渐成为现代信息系统中的重要组成部分。数据的重要性日益凸现,从而使数据库安全问题变得非常显著。为了保护静态机密
工作流技术是实现企业业务过程建模、仿真分析、管理与集成,从而实现业务过程的自动化的核心技术。工作流技术的实施是企业完善经营过程、提高自身竞争力的一种重要手段。目
基于Web的网络管理模式的研究工作倍受注目,从诞生之日就成为研究者关注的焦点,它为复杂网络环境的管理注入更多更大的活力,提供了更方便的网络管理机制。本系统在借鉴已有网络
随着计算机和互联网的快速发展,很多基于图像中形状的应用已广泛分布于软件市场,对图像形状进行有效的处理已经成为了迫在眉睫的需要。目前对形状进行的操作主要有形状匹配、
DocuWorks是由日本富士施乐株式会社开发的一款基于MicrosoftWin32框架的功能强大的文档管理软件。它通过统一纸质文档和数字文档的文档格式,使企业级用户能够在统一平台上轻
随着计算机技术的发展和普及,Linux作为一种具有开放源代码、高稳定性、免费等优点的操作系统,不仅在服务器和桌面系统中占据一席之地,同时在嵌入式领域也发展迅速。Linux自身的
目前国内外对图像采集系统的研究主要着重于基于PC机的图像采集,这样的系统有局限性,主要就是携带性差,很多特殊场合下采集不方便。在应用需求的牵引和IT技术的推动下,嵌入式系统
随着互联网的飞速发展和社会信息化水平的不断提高,计算机网络技术在教育领域的应用越来越广泛,传统的考试方式正面临着重大的变革,网络考试做为一种先进的考试方式,将成为必
ebXML(electronic business XML)是由UN/CEFACT(联合国贸易简化和电子商务团体)和OASIS(结构化信息标准促进机构)联合制订的电子商务标准。ebMS作为ebXML的最底层,为基于ebXM