多标签文本分类系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：sisu16113

【摘要】

：

随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本信息量呈现出爆炸式增长的趋势。为了有效地管理和利用这些海量文本信息,实现准确地文本信息定位和文本信息

【作者】

：

沈伟

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2011年期

【关键词】

：

多标签文本分类数据采集技术文本信息过滤机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本信息量呈现出爆炸式增长的趋势。为了有效地管理和利用这些海量文本信息,实现准确地文本信息定位和文本信息过滤,近年来基于机器学习的文本分类受到广泛关注。文本分类根据样本类别标签的个数可分为单标签分类和多标签分类。本文主要研究多标签文本的分类问题。　　本文首先分析了多标签文本分类方法的研究背景和现状,介绍了当前比较流行的几种多标签文本分类方法。在此基础上,本文结合话题模型和多分类器组合方法提出了两种对现有多标签分类算法的改进方案,实现了一个多标签文本分类原型系统,并进行了相关实验,对实验结果做了比较和分析。　　本文的主要研究内容和成果包括:　　 (1)深入研究了话题模型的主要理论和关键技术,在此基础上提出并实现了一种基于话题模型的多标签文本分类方法。该方法利用话题中词的重要程度进行特征选择,并通过利用话题-词的构成概率和文档-话题的构成概率,以话题为桥梁实现了对文档的分类。实验表明,该方法能有效提升已有算法的分类效果;　　 (2)通过学习多分类器组合算法,特别是通过对Bagging算法的自举抽样过程的细致分析,提出并实现了基于改进的Bagging算法的多标签文本分类算法。改进主要体现在对抽样过程和投票收集过程的优化。实验表明,改进的Bagging算法使用了更少的训练数据、花费了更少的训练时间和测试时间,却得到了比原始Bagging算法更好的分类效果;　　 (3)在上述工作的基础上设计并实现了一个多标签文本分类系统。该系统包含文本预处理、分类器的训练、多标签分类算法的选择、话题模型的构建、多分类器组合的构建、分类器的测试、性能评价等各个模块,为后续的研究和应用提供了一个方便、直观、灵活的测试和展示平台。

其他文献

基于云计算平台的群体移动轨迹挖掘方法的设计与实现

随着移动通信以及空间定位等技术的融合和发展,移动通信领域中产生并积累了海量的、动态变化的时空数据。这些信息中蕴藏着丰富的用户行为规律。利用数据分析及数据挖掘等技

学位

群体移动轨迹挖掘协同轨迹聚类Map-Reduce云平台空间定位移动通信

基于听觉理想二值掩模的言语可懂度机理研究

在嘈杂的室内环境中,听者对特定目标语音的加工会受到周围背景噪声和其他说话人语音的干扰。听觉系统如何从接收到的混合声波中有效地识别和理解目标语音至今尚未得到充分的

学位

理想二值掩模可懂度背景噪声时间分辨率听觉理想

降低图片搜索引擎中无效链接率的一种方法的研究与实现

图片搜索引擎是以图片作为主要检索对象的搜索引擎。由于图片搜索引擎的结果通过直接引用图片的原始地址来展现内容，如果图片变为无效链接，则在结果中无法展示。无效结果通常为

学位

图片搜索引擎无效链接识别用户体验服务流程特征判断

网页图片信息提取系统设计与实现

随着信息技术的高速发展，互联网已经完全融入了人们的学习、工作和生活，成为人们获取信息的一个重要途径。互联网上日益丰富的图片资源，使得图片被越来越多地应用于信息的承载和

学位

网页图片信息提取系统描述文本检索性能程序设计

基于Xen多虚拟机的容错并行计算高效通信技术研究

计算机科学技术的不断发展，使得计算机在科学研究和工程实践领域得到广泛和深入的应用，科学研究和工程实践领域需要借助于并行计算来解决大规模计算问题，并且随着研究工作的深入

学位

Xen多虚拟机容错并行计算通信功能动态迁移

几个计算几何问题的安全多方计算研究

在现今信息时代中，因特网的迅猛发展促使了许多网络信息处理技术的产生，其中应用最为广泛的就是协同计算。一般地，在网络协同计算中，各个计算参与方需要提供各自的秘密信息作为输

学位

安全多方计算计算几何圆锥曲线伪随机函数不经意传输集合交并

半指导中文语义角色标注

伴随着丰富的标注资源的建立以及多次国际评测的开展，语义角色标注任务得到了较全面的研究，其中最主流的研究方向是基于句法成分的、使用机器学习方法将任务转化成分类问题来解

学位

半指导中文模型语义角色标注系统选择策略分类效果

基于UniCore平台ABI规范的制定与评估

应用程序二进制接口规范定义了一套用以编译程序并确保程序正确运行的系统级接口。目前在MIPS、ARM和PowerPC等体系结构上,均有针对不同处理器或不同应用场景的ABI规范。在这

学位

UniCore处理器ABI规范二进制接口编译程序

基于空间相关性的视觉词语映射加速算法

随着图像“字袋模型”(Bag of Visual Words)的迅速发展及其在物体识别、场景分类、图像检索等计算机视觉领域的广泛应用,如何快速有效地将图像特征映射成视觉词语成为提高系

学位

空间相关性视觉词语间接映射算法图像特征映射

分布式虚拟现实系统基础开发平台的构建

虚拟现实(Virtual Reality)技术是近年来计算机科学的研究热点之一,随着海量数据处理、多用户远程并发访问和协同操作等应用需求的不断扩大,分布式虚拟现实系统(Distributed

学位

软件平台运动控制分布式虚拟现实系统整体架构人机交互

多标签文本分类系统的研究与实现

与本文相关的学术论文