基于两步策略的文本分类方法实验研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:zhangbingkai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
已知一种高性能的两步文本分类方法,第一步使用某种分类器对可靠部分的文本进行分类,第二步使用某种分类器对不可靠部分的文本再进行分类,该方法能够明显地提高分类的效果。而两步分类时第一步和第二步所用分类器的组合有多种方案,现有的研究并没有回答采用哪种组合方案效果最好。本文在中文长文本,中文短文本,英文文本中分别使用三种经典的分类器Rocchio、Bayes、KNN进行了系统地实验研究,提出一种无须穷举式对比而能够较快确定第一步的分类器的方法,通过实验验证得出该方法的正确性。并且将多类别的分类问题转换为多个两类分类问题进行了两步分类的实验研究。研究过程如下:   (1)将Rocchio、Bayes、KNN三种分类器的类别判定公式在二维坐标空间中进行转换。因为进行两步分类时,须将分类器转换成为能够在二维坐标中明确表示文本所属类别测度的形式。   (2)通过实验,分别确定了中文长文本,中文短文本,英文长文本的特征选择算法,并且分别确定了第一步特征空间大小和第二步特征空间大小。   (3)输出Rocchio、Bayes、KNN三种分类器在二维空间的不可靠部分,验证Rocchio、Bayes、KNN三种分类器满足在类别分割直线附近的较小区域内出现较多的被错误分类的文本。   (4)以英文长文本为例,用穷举的方式,实验对比了Rocchio、Bayes、KNN三种分类器共九种组合的两步分类效果,得出最优的组合,并且将最优组合和现有的研究结果进行比较,表明最优组合的效果有所提高。   (5)研究和分析最优组合当中第一步所使用的分类器具有的特点,提出假设:当分类器输出的所有类别错误率之和与所有类别的区域率之和的比值最大时,应该作为第一步分类器,且最优组合存在于以其作为第一步分类器的时候。   (6)分别在中文长文本,中文短文本中验证所提假设的正确性。首先由(3)所得到的实验数据求得Rocchio、Bayes、KNN三种分类器各自的错误率之和与区域率之和的比值,得到该值最大的分类器,然后以其作为第一步分类器进行三组两步实验,并与其余六种组合再进行实验对比,结果表明(5)中所提的假设在中文长文本,中文短文本中是成立的。  
其他文献
网络用户对于信息获取、用户交流和个性表达需求的增加促进了一种新型社会网络的出现和发展,即在线社会网络。在线社会网络的高速发展使用户行为、关系、网络的结构和演化成了
随着无线Mesh网络的不断发展,规模越来越大,应用越来越广泛,提供的服务也越来越丰富,使得无线Mesh网络的路由机制研究随之成为了一个关注热点,而多径路由机制由于稳定性与整体路由
城市道路交通问题已经成为城市管理所面临的最大挑战之一,智能交通系统(ITS)被视为是最有效的解决方法和未来交通的发展方向。交通车流量统计是智能交通系统的关键技术之一,同
标注训练样本是文本自动分类中的基础和关键。大规模的标注训练样本需要人工干预,耗时、费力,难以在有限的时间内完成,而未标注文本却十分丰富。如何利用少量的标注样本和大量的
数字水印技术是利用信号处理的方法将具有特殊意义的标识信息(亦称为水印)嵌入到多媒体数据中,从而起到版权保护的作用。嵌入宿主数据中的水印应具有一定的抗攻击(有意和无意
智能视频监控是计算机视觉领域一个新兴的研究方向,结合了图像处理、模式识别、人工智能等多学科理论,被广泛应用于国防建设、交通管制、安防保卫等需要实时监控的场景。在监控
由于各种癌症在病原上有其自身的特点,为了达到最大疗效和最小毒副作用,需要制定有针对性的治疗方案,因此癌症的分类是治疗的关键。当前临床上的癌症诊断主要依据形态学信息,但有
XML已逐渐成为当前Internet上数据表示和数据交换的事实标准,已经在很多应用领域扮演着重要的角色;同时,它也是Web Service、各种文件处理系统和数据库事实上的互操作标准。然而
为了满足用户的全局QoS(Quality of Services)需求,如何从大量的候选服务中选择出最优的服务组合已经成为Web服务研究领域中的热点问题。然而,现有的服务选择方法较少考虑到服
神经元集群编码和spike train分析是神经信息处理的关键问题。随着多电极同步记录技术的发展,在海量数据中发现神经信息处理的模式和规律,需要多维神经发放的理论模型和计算