基于类中心化的快速大规模文本层次分类问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:dragon624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,大规模的文本分类问题是一个十分热门的话题,特别是在针对网络数据的网页分类问题以及层次分类问题。并且,在基于维基百科等大量网络数据的处理中,大规模的样本类数加上多类样本问题使得传统的分类器在此之上难以进行处理,更难以得到较好的结果。本文中,我们提出非常有效的类中心化方法的统计学习方法来解决数据类别非常多的情况。这不仅可以降低训练时间,而且可以在每个类的训练样本较少并且.特征较多的情况下得到较好的训练结果。并且我们使用特征组合等方式来进行统计学习,使得本文方法有了进一步的改善。我们的系统在第一届LSHTC评测数据集上进行实验,证明了我们方法的有效性。在类标签规模很大的情况下,采用一般地线性搜索最优预测的方式会显得效率不佳。基于这点的考虑下,为了提高推理(测试)速度,将文本的层次信息加入最终推理预测中,使得测试速度也有了快速的提高。我们的系统在不使用层次信息时与其他部分参加LSHTC评测单位的系统时间空间消耗比较中已经有了明显优势,而在使用了层次结果后推理速度的再次提升5-6倍。在多类标签问题上,使用单标签分类问题的方法加上类标签扩展以及样本加权优化等方法将这原方法直接应用到多类标签问题上。在使用独特的排序算法后,我们的系统在第二届LSHTC数据集上进行实验,也得到了不错的结果。
其他文献
科技的不断进步使得形形色色的移动机器人进入了人们的日常生活。面对日益激烈的市场竞争,提高移动机器人的开发效率、缩短开发周期是抢占市场的必由之路。本文通过调查研究,
近些年,电子商务作为一种新型的商务活动模式,受到了社会各界的广泛关注。然而随着电子商务市场的扩大,电子商务的信任危机不断显现出来,如:个人信息泄漏、网络欺诈、账户被
带球技术作为球员的基本个人技能之一,是RoboCup2D比赛研究的一个重点问题。球员带球动作设计的细致性和准确性以及带球路径选择的优劣直接影响整支球队比赛水平的高低。本文
随着计算机处理能力、数据库技术和互联网技术的发展,越来越多的信息被搜集起来以数字形式进行存储,运用数据挖掘技术能够有效地对这些数据进行分析和处理,从中发现有价值的
随着集成电路和微处理器体系结构的发展,多核处理器已经成为业界研究、商用的主流。在单芯片上集成多个相对简单、低功耗的单处理器内核,多核技术大大降低了处理器设计、验证
近年来,视频监控系统得到了广泛的应用,在社会生活中扮演着越来越重要的角色。然而,现有视频监控系统在智能化、网络化、价格低廉化和可扩展性等方面还存在一些不足。为此,系
随着高速网络技术和多媒体技术的飞速发展,网络用户快速增长,新业务不断涌现,用户对网络服务质量(Quality of Service,QoS)提出了更高的要求,目前计算机网络的服务质量已经成
IEEE 802.11是无线局域网(WLAN)协议标准。以802.11标准为基础的无线局域网的使用已经深入人们的生活,从个人通信、餐饮服务、室内外会议到军事等领域都有广泛应用。WLAN中的
随着无线网络和移动通信在全球的迅速发展和普及,无线数据广播技术越来越成为一个重要的研究热点。数据广播是无线环境中的一种非常高效的发布信息方式。服务器将热点数据通过
随着恐怖活动的加剧,各式汽车炸弹袭击事件频发,社会公共安全和恐怖主义威胁成为世界上很多国家共同关注的焦点。在我国有些犯罪分子利用车辆底盘藏匿违禁品或爆炸物的情况时常