统一利用外部语义知识改进文本分类的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wubin811030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类是信息检索领域的基本任务之一。随着互联网上的信息量呈爆炸性增长,人们很难从大量的文本信息中迅速有效地提取出所需信息。为了解决信息迷向的现象,对文本分类的研究显得越来越重要。   传统的文本分类方法是基于词袋模型“bag of words”(BOW),这种方法忽视了文本中词的语义含义。为了解决这种问题,人们提出了隐含语义分析的方法,比如LSA(Latent Semantic Analysis)技术。以及使用外部语义知识的方法,比如通过使用WordNet语义词典的技术。试图通过这些方法达到从语义上理解文本。但是这些方法都未能形成一个统一的利用语义知识的途径。   本文提出了一种新的统一利用外部语义知识,来理解文本的语义,并进而对文件进行分类的方法。该方法综合利用了LSA技术,以及外部的语义知识。它能够统一的利用所有的外部语义知识,不需要事前做整理工作。具体步骤是:首先是构建了一个简单的检索模型,能够从外部知识中找到与训练样本最相关的页面。接着对这些相关知识,使用LSA技术找到它们的潜在语义信息。然后将这些潜在语义信息映射到原始文本上。最后对映射后的文本使用SVM进行训练和分类工作。   最后分别在三组数据集上进行验证。结果表明该方法能够显著地提高文本分类的准确率。
其他文献
随着网络技术和计算机图形学的不断发展,3D游戏已经越来越受到广大青少年的喜爱,各式样的游戏层出不穷。然而,目前我国的网络游戏市场却基本上为国外产品所占领,而且国内大部分游
利用计算机来调度任务,已经广泛运用于信息社会中的各个领域,无论是银行机构、医疗保健、科研教育,还是企事业单位、军事管理,计算机都已经成为不可或缺的角色。信息社会的高科技
随着互联网的普及和电子商务的发展,电子商务系统结构变得越来越复杂,用户经常会迷失在大量的商品信息空间中。电子商务推荐系统能够直接与用户交互,向访问网站的顾客提供商品信
传统的信号处理难以满足智能系统的需求,多模态信息融合技术的出现推动了图像处理的发展,避免了单一模态获得信息的片面性,对多模态不同侧面的互补或冗余信息进行了综合。融合后
无线传感器网络(Wireless Sensor Networks,简称WSNs)集微机电技术、传感器技术、通信技术于一体,可广泛应用于教育、军事、医疗、交通、环境监控等诸多领域,拥有巨大的应用
随着Internet的快速发展,Web资源飞速增长,并朝着多元化、复杂化的方向发展。如何从中提取出潜在的、有价值的信息,进而充分、有效地利用Web信息资源,是当今信息领域重要又极
网络的生存性,表征了网络在遭受自然或者蓄意破坏后,能维持网络性能的能力大小,因此研究网络的生存性具有重要意义。研究网络的生存性的一个重要切入口就是关键链路集问题。
随着人们对网络环境下信息检索研究的不断深入,Deep Web数据集成系统的相关研究越来越多地受到了人们的关注。Deep Web是与Surface Web相对应的概念,它是指那些不能被主流的
自从P2P技术出现以来,文件共享一直是P2P技术应用最广泛、使用人数最多的一个领域。然而随着用户的增多,围绕着P2P共享网络,出现了大量的安全问题。其中文件污染问题已经成为
针对近邻法分类需要大量计算和存储的缺点,本文提出一种基于Reachable和Coverage概念的迭代样本挑选算法(ISSARC:Iterative Sample Selection Algorithm based on Reachable