多标签文本分类系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:sisu16113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本信息量呈现出爆炸式增长的趋势。为了有效地管理和利用这些海量文本信息,实现准确地文本信息定位和文本信息过滤,近年来基于机器学习的文本分类受到广泛关注。文本分类根据样本类别标签的个数可分为单标签分类和多标签分类。本文主要研究多标签文本的分类问题。   本文首先分析了多标签文本分类方法的研究背景和现状,介绍了当前比较流行的几种多标签文本分类方法。在此基础上,本文结合话题模型和多分类器组合方法提出了两种对现有多标签分类算法的改进方案,实现了一个多标签文本分类原型系统,并进行了相关实验,对实验结果做了比较和分析。   本文的主要研究内容和成果包括:   (1)深入研究了话题模型的主要理论和关键技术,在此基础上提出并实现了一种基于话题模型的多标签文本分类方法。该方法利用话题中词的重要程度进行特征选择,并通过利用话题-词的构成概率和文档-话题的构成概率,以话题为桥梁实现了对文档的分类。实验表明,该方法能有效提升已有算法的分类效果;   (2)通过学习多分类器组合算法,特别是通过对Bagging算法的自举抽样过程的细致分析,提出并实现了基于改进的Bagging算法的多标签文本分类算法。改进主要体现在对抽样过程和投票收集过程的优化。实验表明,改进的Bagging算法使用了更少的训练数据、花费了更少的训练时间和测试时间,却得到了比原始Bagging算法更好的分类效果;   (3)在上述工作的基础上设计并实现了一个多标签文本分类系统。该系统包含文本预处理、分类器的训练、多标签分类算法的选择、话题模型的构建、多分类器组合的构建、分类器的测试、性能评价等各个模块,为后续的研究和应用提供了一个方便、直观、灵活的测试和展示平台。
其他文献
随着移动通信以及空间定位等技术的融合和发展,移动通信领域中产生并积累了海量的、动态变化的时空数据。这些信息中蕴藏着丰富的用户行为规律。利用数据分析及数据挖掘等技
在嘈杂的室内环境中,听者对特定目标语音的加工会受到周围背景噪声和其他说话人语音的干扰。听觉系统如何从接收到的混合声波中有效地识别和理解目标语音至今尚未得到充分的
图片搜索引擎是以图片作为主要检索对象的搜索引擎。由于图片搜索引擎的结果通过直接引用图片的原始地址来展现内容,如果图片变为无效链接,则在结果中无法展示。无效结果通常为
随着信息技术的高速发展,互联网已经完全融入了人们的学习、工作和生活,成为人们获取信息的一个重要途径。互联网上日益丰富的图片资源,使得图片被越来越多地应用于信息的承载和
计算机科学技术的不断发展,使得计算机在科学研究和工程实践领域得到广泛和深入的应用,科学研究和工程实践领域需要借助于并行计算来解决大规模计算问题,并且随着研究工作的深入
在现今信息时代中,因特网的迅猛发展促使了许多网络信息处理技术的产生,其中应用最为广泛的就是协同计算。一般地,在网络协同计算中,各个计算参与方需要提供各自的秘密信息作为输
伴随着丰富的标注资源的建立以及多次国际评测的开展,语义角色标注任务得到了较全面的研究,其中最主流的研究方向是基于句法成分的、使用机器学习方法将任务转化成分类问题来解
应用程序二进制接口规范定义了一套用以编译程序并确保程序正确运行的系统级接口。目前在MIPS、ARM和PowerPC等体系结构上,均有针对不同处理器或不同应用场景的ABI规范。在这
随着图像“字袋模型”(Bag of Visual Words)的迅速发展及其在物体识别、场景分类、图像检索等计算机视觉领域的广泛应用,如何快速有效地将图像特征映射成视觉词语成为提高系
虚拟现实(Virtual Reality)技术是近年来计算机科学的研究热点之一,随着海量数据处理、多用户远程并发访问和协同操作等应用需求的不断扩大,分布式虚拟现实系统(Distributed