基于类别概念的中文文本分类研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:kiry250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的发展和Internet的开放性使它逐步成为一个全方位的资源宝库,越来越多的信息通过互联网被传送到世界各地,互联网中也积聚了越来越多的信息,从发展的趋势来看,网络必将成为人们获取信息的主要来源。但互联网的组织杂乱,缺乏必要的条理,多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。 从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为互联网上主要的信息载体,随着互联网的迅速发展,文本挖掘也成为数据挖掘的热点之一。文本分类技术是文本挖掘的基础和核心。 文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的,这种方式缺点很多,如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究开展以来,准确率一直不能达到令人满意的效果。在Internet信息急剧膨胀的今天,为文本分类提供了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。 向量空间模型是文本自动分类应用最广泛的模型之一,以向量空间模型为基础,我们研究发现,对文本的合理向量表示是实现正确分类非常关键的前提,而传统分类方法中,特征选择算法各有优劣,选择出的特征不能很好地代表文本,这在很大程度上制约了文本分类的准确率。我们以此为出发点,分析特征项应当具备的条件,并提出了基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文本词语的外在形式的做法,它以分析词语的语义概念为主,并且考虑特征的类别信息,选取单类别指示意义强的特征项,建立特征空间。
其他文献
近年来随着通信技术及数字信号处理技术的飞速发展,语音端点检测用于区别语音和噪声,在语音处理系统中具有重要意义。本文首先介绍了各种典型的语音端点检测算法,通过理论分析及
细胞内钙(Ca2+)浓度水平的波动将产生细胞内钙信号并且调节不同的细胞过程。在丛枝菌根(AM)形成的相互作用过程中,植物对 Ca2+的应答方面的研究已经较为深入,而 AM真菌在菌根形
现代个人通信的目的是为了实现在任何时间、任何地点为用户提供任何类型的数据传输服务,特别随着3G技术发展而带来的丰富多彩的多媒体业务。因此,必然要求通信系统或平台除了具
非衍射光束,例如贝塞尔光束,马蒂厄光束和Airy光束,不会在它们传播时发生扩散。这种性质在许多应用中特别有用,包括成像,显微操作和光学转染。但是Airy光束还有着更加特殊的性质,即
近几年来,一种最具潜力的新型光电材料—有机-无机金属卤化物钙钛矿材料的出现,使得人们的目光再次聚焦在光伏、发光器件、激光、传感器等多个领域。相比于传统的半导体材料,这种新型的半导体材料具有原料来源广,可溶液处理、合成简单、载流子迁移率高、带隙可调,可实现光谱调控等诸多优点。自2014年,剑桥大学Tan.et al首次实现以甲胺铅溴(MAPbBr3)作为主体发光材料在室温下发光以来,短短的几年时间内