基于概念漂移的问题分类方法研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:zhuanghaiyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答社区已成为一个受大众欢迎的网聚众人智慧的网络交流方式,现有的网络问答社区有百度知道、Yahoo! Answer、爱问知识人、搜搜问答等等。问答社区已经成为现代网络生活中不可或缺的一部分,它提供让用户提问和回答问题并访问已有的问答对的开放平台,使得广大网民的生活智慧得到集中和传播,补充了传统搜索引擎的信息传播方式的不足。  问题分类(Question Classification)是问题-回答系统的第一步,它分析用户以自然语言提出的问题语义,并据此为该问题指定一个适当的类别。问题分类不仅可以降低问题答案的搜索空间,并且可以让领域专家更方便的找到相关问题,从而提高答案的质量。  概念漂移是指随着时间推动,数据概念的分布发生了变化。考虑到概念漂移对数据分类的影响,当前学者将集成学习方法应用到分类领域。但由于网络社区拥有信息量大、分类标签众多(>1000)并有一定层次、网络热点不断变化、数据倾斜、且易受概念漂移影响等特点,现有的集成平分类器只能够较好的完成分类标签少的分类任务,不能适应问题分类的特点。因此,本文提出了两种漂移粒度下的运用不同时刻的层次数据进行集成学习的方法,在分类精度和效率上都相对相同情况下的平分类器有所提高。由于层次分类器上基分类器漂移的速度和时机可能不同,层次分类器的漂移细化为整体漂移和基分类器的单独漂移两种算法,实验表明细粒度的漂移分类效果更好。  同时,由于问题分类原有分类标签树存在单个非叶结点的孩子结点数目过多(>25),本文在给出了基于混淆矩阵的类标签距离、虚类标签和实类标签的定义的基础上,又提出了通过对分类效果不佳的类标签子树进行聚类处理的算法,减小基分类器中分类标签过多引起的特征集混淆严重的问题,加高类标签树的层次,进一步提高了问题分类的精度和效率。针对动态环境,本文提出对层次分类器类标签树进行聚类之后的更新策略,进一步提高概念漂移流上问题分类的分类精度。此外,类标签聚类方法也可同样适用于本身类标签没有层次结构的数据产生类标签层次,并且可以作为一个增强组件与任何静态或动态分类器配合使用提高其分类效率。
其他文献
TD-SCDMA (Time Division-Synchronous Code Division Multiple Access,时分的同步码分多址技术)网络日趋成熟,为TD-SCDMA用户提供丰富多彩的增值业务成为一个被业界普遍关注
计算机技术和多媒体技术的发展极大地改变了人们的生活和工作方式。视频、音频、图像等媒体形式对人们的生活产生了越来越大的影响。本文所研究的是DirectShow技术在音视频采
在多媒体技术和互联网迅速发展的今天,越来越多的音乐涌现在人们的生活中,随之而来的,面对海量音乐时,人们如何迅速了解音乐的内容,如何迅速从海量音乐中检索音乐,如何高效的管理音
随着计算机网络的飞速发展,网络安全问题日益突出。当前网络安全防护技术大多是静态的安全技术,如路由器过滤、防火墙、漏洞防堵等。静态安全技术对防止系统被非法入侵起到了
随着计算机技术、电子技术的迅速发展,视频监控技术在人们生产生活的各个方面得到了广泛的应用。传统的视频监控技术存在很多局限性,如需要大量的监控人员、报警精确度不高、响
社会的发展使不同业务间的协作越来越重要,互联网的发展和各种标准的应用为业务间的协作提供了物质基础。Web服务作为资源互用、互操作的重要技术,不仅已用于电子商务、电子政
进入21世纪以来,信息化对社会发展的影响日益深刻。随着信息化的快速发展,网络安全的地位也变得越来越重要,一些黑客会以非法的目的攻击、入侵工作网络或在其上搭载着重要的系统
蓬勃发展的Internet给人们带来丰富信息资源的同时也带来了新的问题。由于Web页面的无结构性、Web链接的自由无序和Web规模的急剧膨胀以及Web内容的海量性、多样性与动态性,人
北京大学研发的基于模式的软件过程构造工具集能够利用可复用的过程模式高效的定制适应特定项目需求的过程模型,此模型采用BPEL语言描述,可以在流程引擎的驱动下执行,为软件过程
随着信息技术日益广泛而深入地应用,现在的信息工程越来越庞大复杂,也越来越难以控制,在信息工程建设过程中,合同报表巨多,数据量庞大,并且数据间存在着密切的联系,为了实现监理的“