基于类别阈值判断的多标记文本分类研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:ljb16591504
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海量数据量的增长,使得人们查找有用信息越来越难,速度也受到挑战,文本自动分类技术的研究也越来越受到人们的重视。文本自动分类方法很多,如:向量空间模型法、基于关联的分类方法、简单向量距离分类法、简单的贝叶斯分类算法、支持向量机(SVM)、k近邻算法(kNN)、词表法分类等。目前对于这些算法的研究,都是在提高分类准确度的基础上,尽量提高其时间效率。由于文本分类的不确定性,存在一个文本属于多个分类的情况,多标记分类算法得到广大学者的重视。目前的多标记文本分类算法主要是以提高文本分类准确度和降低时间复杂度为目的,一方面优化距离算法及将文档聚类以减少时间消耗,另一方面则设计更为合适的分类方法提高分类的准确度。由于文本分类算法需要进行大量的计算,如何提高算法时间效率仍然是文本分类面临的一个问题。如何能够在提高时间效率的基础上提高准确度也是研究重点之一。kNN算法因算法原理简单、易于实现。在此大背景下,本文提出基于类别阈值判断的kNN算法。本文提出的基于类别阈值判断的kNN算法运用FSkNN中的模糊相似度计算算法对文本进行聚类,缩小查找范围,从而达到减小时间效率的目标。多标记阈值判断算法根据训练集中每个类别的隶属度值分别计算其阈值大小,通过kNN算法找到测试文本的k个最近邻。根据这k个最近邻的标记向量,计算出测试文本对于每个类的隶属度。如果隶属度大于该类的判断阈值,则将该类的标记置为1,否则为O。在多标记分类中,存在所有标记都为零的情况,意味着这个文本丢失了,本文针对这个问题,提出零标记修正算法。如果所有标记为零,则运行该算法进行修正。实验结果表明,本文提出的算法具有较高效的时间效率,并获得了较高的准确度。
其他文献
由于点云在虚拟现实、机器视觉、医疗技术、数据可视化等领域中具有更广泛的应用前景,随着点云设备的普及,给基于点云的面绘制方法的研究带来了新的挑战和机遇。为此,本文基于三
随着现代计算机系统的发展以及计算机软件在社会各领域中的广泛应用,软件的规模不断扩大,复杂度越来越高,不免会存在一些缺陷。随着社会生产生活的日益信息化,人们对软件功能
信号发生器广泛应用于电子电路、工业生产和科学工程领域,随着科学技术的发展和测量技术的进步,对信号源的频谱纯度、频率稳定性、带宽范围以及信号波形的种类等提出了越来越
互联网的飞速发展导致了“信息爆炸”这个现象的出现,人们想要获得自己需要的信息的复杂度越来越高。传统搜索引擎的出现给人们的生活和工作带来了很大的便利,但是随着互联网产
随着多媒体信息技术的快速发展和互联网的日益普及,数字图像信息海量增长,图像的存储和管理已经成为一项繁重的工作。如何从庞大的网络图像库中快速而准确地找到用户所要查询
目前,在玻璃生产过程中,配合料的加热、熔融和硅酸盐的分解以及玻璃液的澄清都是在熔窑内进行的,这种生产工艺已成为制约玻璃工业生产的瓶颈,具体表现在两个方面:一方面生产规模受
近年来,随着农业结构调整和居民消费水平的提高,生鲜农产品的产量和流通量逐年增加,全社会对生鲜农产品的安全和品质提出了更高的要求。冷库是生鲜农产品储存的基础设施,目前国内
当今,Hadoop集群在大数据时代下已经广泛使用,互联网公司对数据的处理和分析广泛使用Hadoop集群。一旦Hadoop集群失效,会导致数据的丢失,带来工作上的不便,甚至带来重大的经
随着虚拟仿真技术的不断发展,越来越多的研究者致力于将真实数据引入到虚拟仿真中,以达到更真实的仿真效果。但针对大规模数据以及仿真模型数据的研究仍存在仿真时效性较差、
计算机网络例如点对点(p2p)网络,它的每个节点可以作为网络中其它计算机的客户端或者服务器,允许它们之间相互共享服务或共享文件,这被认为是协商目标。在同意对一个协商目标进