大规模层次分类中深层类别的分类算法研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:xsxiaomo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网大数据的快速发展,网络上的文本数据和网页数据呈现几何级增长,为了从海量的文本数据中快速准确地获取潜在的信息,需要对文本进行更精确更深层的类别标注和主题理解。因此,文本分类技术就成了重要的研究内容。大规模多层次文本分类研究是近几年的研究热点,自2009年下半年开始,研究人员对大规模多层次文本分类的研究技术非常重视,并且国际上经常进行研究成果的公开测试和分析,在2014年举办的大规模中文新闻分类评测中,综合分析多家参赛单位的分类技术成果,其中最好系统的分类性能都低于50%,这种结果不能满足实际应用的需求。因此,对于大规模多层次文本分类问题,高精度的多层次文本自动分类技术非常有必要继续深入研究。本文首先在学习了大规模多层次分类问题处理策略的基础上,采用扁平化的处理策略和化繁为简的方法。引入搜索、分类两阶段的处理思想,在搜索阶段,结合类别层次树的结构特点和类别间的相关联系等隐含的领域知识,进行了类别层次权重分析和特征项的动态更新,为类别层次树的各个节点构建更具分类判断力的特征项集合;进而,采用深度优先搜索算法并结合设定阈值的剪枝策略缩小搜索范围,搜索得到待分类文本的最优候选类别。最后在候选类别的基础上应用经典的KNN平面分类算法进行分类测试和对比分析。实验结果显示,文中提出的改进算法在分类实验中提高了平均F1值,分类效果比较理想。其次,在学习研究本领域相关算法的基础上,提出了基于中心向量的多级分类KNN分类算法,并应用于大规模多层次文本分类的分类阶段。该算法引入基于密度的思想对全部训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻对待分类文本进行所属类别属性的准确判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类的速度。
其他文献
随着电信企业信息化的浪潮,为终端用户提供满意的服务质量,不同区域运营商的信息互通、数据共享显得尤为重要,而数据集中带来的性能问题日益明显。中国电信OSS应用采用Oracle10g
虚拟装配作为虚拟现实技术在产品设计领域的一种典型应用,其应用价值已经引起了越来越广泛的重视。传统的虚拟装配系统由于多数采用鼠标和键盘作为交互设备,普遍存在交互的沉
Internet问世以来,作为其主流应用的电子邮件也得到了飞速的发展。但随之而来的垃圾邮件,不仅严重占用网络资源,威胁网络安全,更对人们的日常生活造成了严重困扰。当前反垃圾
朴素贝叶斯(Na(I)ve Bayes,NB)是一种经典的机器学习算法,它具有训练时间短,模型简单,泛化正确率高等优点,并且在实际生活中得到了广泛的应用。但它也有先天的不足:不能很好
近年来发生的冰雪灾害及地震灾害,造成大面积道路阻塞和破坏,也造成大面积有线和无线通讯设施的损坏和失效。先进的GPS/GSM车辆定位与通信模式暴露出根本性技术缺陷而失去作
近年来,随着宽带接入技术的日渐普及、互联网技术的快速发展和个人计算机处理能力的不断提高,在互联网上出现了各种各样的新型的服务方式,视频点播业务就是其中一种,并成为主
火灾报警监控系统是城市公路隧道管理运营的重要组成部分,监控隧道内火灾状况,对隧道的安全运营起着重大作用。根据隧道空间窄小、狭长特点和火灾探测器探测方式的不同,出现了各
上世纪90年代中期以来,利用密码算法芯片的物理特性实施泄漏攻击引起了国内外密码学界的极大关注。为应对泄漏攻击,密码学家提出了泄漏弹性密码算法。目前,国内外对IBE体制中自
随着互联网技术的飞速发展,文本数据呈指数级增长。为了获得数据之间的内在关系及隐含信息,文本挖掘技术应运而生。聚类分析作为数据挖掘的一个重要功能,在文本挖掘中有着非
WSNs是一种大多部署在野外无人区,网络节点资源极其有限,网络结构动态拓扑、自组织,网络生命周期也因节点生命周期影响很大的无线网络。这些特性都使得WSNs的路由通信和安全