【摘 要】
:
随着计算机技术、通讯技术和网络技术的飞速发展,Internet应用的日益普及,电子文档的数量逐日剧增。为了更好地利用这类非结构化数据资源,人们迫切需要构建高效的文本检索、
论文部分内容阅读
随着计算机技术、通讯技术和网络技术的飞速发展,Internet应用的日益普及,电子文档的数量逐日剧增。为了更好地利用这类非结构化数据资源,人们迫切需要构建高效的文本检索、查询和过滤系统,而文本挖掘正是实现这些系统的关键技术。文本分类作为文本挖掘的一个重要问题,其研究一直受到关注。目前已经有许多方法应用到该领域,如朴素贝叶斯、支持向量机、K近邻、神经网络等。其中,朴素贝叶斯利用先验信息,能够在不确定性的推理中提供一种模式和处理方法,它易于实现、工作效率高,有着广泛的应用。神经网络具有学习能力和容错特性并且无须就概率模型作出假定,是目前较为流行的方法。然而,在应用到文本分类上时,基于朴素贝叶斯的分类算法无法体现语义关系,普通神经网络的准确率不高。针对上述情况,本文主要做了下面的工作:(1)介绍文本分类中常见的几种算法之后,重点研究两种经典的算法——朴素贝叶斯和自组织特征映射网络。通过查阅文献和实验对这两种算法进行详细的分析和比较。(2)本文基于“分而治之”的双层聚类的思想,结合这两种算法各自的特点,提出相对特征和相对阈值的概念,从而进一步提出一种新的文本分类算法——基于相对特征的文本分类算法,详细的介绍了该算法的分析、设计和实现过程。(3)分析并比较汉语语料库和英语语料库各自的特点,以及预处理时需要解决的问题,并且详细的给出英语语料库预处理过程的方法以及预处理的结果,与此同时,对3种算法应用到这两种语料库得到的不同结果,进行了比较与分析。(4)本文在汉语库和英语库上对三种算法进行实验分析,将本文新提出的基于相对特征的文本分类算法与传统的朴素贝叶斯分类算法和自组织特征映射网络分类算法进行了有效的比较。实验证明,基于相对特征的文本分类算法取得了令人满意的效果,是一种高效的文本分类算法。
其他文献
随着Internet技术的高速发展,Web已经成为人们获取信息的一个重要途径,由于Web上的文本信息日益增长,如何有效地检索用户所需的信息成为一个非常重要的研究课题。万维网WWW(W
目的了解昆明市HIV感染者病耻感现状,并分析产生病耻感的原因及影响因素。方法采取系统抽样的方法,从昆明市现存活的HIV感染者中抽取样本进行调查,调查内容包括一般人口学资料、HIV防治相关知识及艾滋病相关的病耻感,其中,HIV感染者的病耻感采用简化艾滋病耻辱量表(BHSS量表)进行调查。结果共调查962例HIV感染者,其中男696例,女266例,BHSS量表平均得分为(11.29±3.35)分,汉族
起源于幼发拉底河和底格里斯河,以现代伊拉克和北叙利亚为中心的古西亚两河流域是人类文明的发祥地之一,从这一地区出土的数以万计的楔形文字文献是目前所知的世界上数量最多
网格就是一个集成的计算与资源环境,网格环境中,资源是分布在不同地理位置上的,由不同的组织或者个人拥有和操作,资源所有者对资源有绝对的权力,网格对其管理必须满足本地的管理策
本文提出了一种在含有带关节模型的数据库中检索三维形状的方法。首先,针对每一个形状都基于谱嵌入的方法求得其相应的谱嵌入表示,这里的谱嵌入是基于以近似测地距离为基础构
目的探讨流感样病例与气象因素、空气质量因素的相关关系,用时间序列分析法构建流感样病例预测模型,对流感预警预测技术进行有效探索。方法收集2014年至2017年呼和浩特市流感样病例监测资料及同期气象资料和空气质量因素资料,分析流感样病例与气象因素和空气质量因素的相关性,建立该地区流感样病例季节性自回归移动平均(seasonal autoregressive integrated moving aver
随着计算机网络的迅速发展,人们希望通过电子设备实现快速、远距离的交易,数字签名应运而生,并开始应用于现实社会中。数字签名已经在信息保密、身份认证、数据完整性、不可
后基因组时代的到来,生物信息学的研究重心日益从基因组测序工作转移到对已测序基因组的功能进行注释。传统的基于同源性的注释方法由于自身存在的缺陷在精确度方面已经不能满
随着网络技术的快速发展, XML类型的数据已成为当前一种主流的数据形式,并成为Internet中进行数据交换和表示事实上的标准。在实际生活中,数据的不确定性是普遍存在的,传统的确