基于关键词的文本流分类技术研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:maolinzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据流分类技术通常需要大量的全标注训练样本来构建分类器,代价昂贵且比较耗时。但在现实生活中,数据流中的数据大多是未标注的,这使得传统的流分类技术缺乏实用性。针对该问题,近年来,基于半监督的数据流分类技术有了一定的发展,有些研究者提出了采用部分标记的样本或仅标记的少量正例样本以及大量的未标记样本来构建基分类器进行数据流分类。虽然这些方法降低了人工标记样本的代价,但仍需要用户提供一定量的标注样本。针对文本数据流分类问题,为了进一步减轻人工标记样本的负担,本文提出了一种使用与主题类别相关的关键词进行文本流分类的新方法,本方法不需要人工对训练样本进行标记。本研究的主要思想如下:首先通过关键词和大量的未标记文档构建基分类器,然后使用分类器集成算法对文本流中的数据进行分类。在构建分类器阶段,关键词通过语义扩展后用来对初始的正例样本进行标注。在分类阶段,待测样本的类别通过加权多数投票算法来预测。本文还对文本流中的概念漂移进行了学习,研究了因用户兴趣的改变而出现的概念漂移现象,用户提供的关键词决定了当前的用户兴趣和目标概念,用户兴趣发生改变时,概念漂移也随之发生。本研究主要模拟了概念逐渐漂移和概念突变漂移的常见场景,并与无概念漂移的场景做了对比分析。实验结果表明,在不使用人工标记的训练样本条件下,本文提出的基于关键词的分类方法能够构建性能较好的分类器。与基于正例和未标记样本的PU分类器学习方法性能非常接近。本文采用的分类器集成方法能快速检测文本流中的概念漂移,并能很好地适应概念漂移。多次实验结果也显示出基于集成的分类算法的平均F1和Accuracy值要比基于single window的分类算法好。本文提出的文本流分类方法不需要人工标记训练文档,具有很好的现实意义。
其他文献
自从V.Benci和D.Fortunato的首创工作[11]以来,很多学者根据变分法和临界点理论研究Schrodinger-Maxwell方程解的存在性问题.主要包括:非平凡解的存在性、多重性和不存在性;半经典解的存在性;基态解的存在性;变号基态解的存在性以及多重性.本文在已有的文献基础上,弱化非局部项或非线性项的部分限制条件,应用变分法和临界点理论,证明Schrodinger-Maxwell方程
狼尾草属(Penniseum)牧草隶属于被子植物门、禾本科,广泛分布于热带、亚热带地区,是高产、优质、安全的动物饲料。长期以来狼尾草属品种(系)名称混乱,出现许多同种异名、同名
近些年来,越来越多的研究致力于柔性电子器件,并在可穿戴系统领域取得了一定的成果。同时,磁作为一种自然现象在自然现象及人类生活中广泛存在。常用的磁场检测方法多为基于
再生混凝土是实现建筑废弃物资源化的重要手段,符合可持续发展战略,但再生混凝土自身性能存在不足,通过掺入钢纤维,可改善其物理力学性能,进而优化再生混凝土的承载性能与变形能力。为实现再生混凝土在土建行业的进一步推广应用,本文对再生混凝土基本力学性能、钢筋与钢纤维再生混凝土的粘结滑移性能进行了试验研究,并提出了其粘结滑移本构关系模型。主要研究内容如下:(1)钢纤维再生混凝土基本力学性能研究。通过25组再
溶藻弧菌是一类革兰氏阴性短杆菌、无芽孢、可运动,具有极生鞭毛、分布广泛、且主要以海水环境居多。溶藻弧菌会导致大规模弧菌病,给水产养殖业造成严重的经济损失。因此,溶
烤烟湿润育苗在龙岩烟区进行了多年大面积的推广。使用炭化谷壳型育苗基质而不用泥炭,避免了高成本和破坏环境的弊端,但在生产过程中炭化谷壳易碎,颗粒变小,物理性质改变,影
自上世纪九十年代以来,镧系金属所构筑的低核配合物因为其自身特有的结构特点、光学性质和磁学性质而受到了广泛的关注和研究,获得了较多的实验方面和理论知识的研究进展。在
人机交互活动在人类日常生活中变得愈加重要,手势识别一直是人机交互领域的重要研究领域,也是近年来的研究热点。随着人机交互和计算机视觉的发展,手势识别的研究也取得了较
本文从物质空间的边缘地带作为切入点,并引入生态学中的"边缘效应"这一专有名词,对边缘效应在城市规划中的作用进行了三个空间层次的阐述,并抽绎出四种边缘地带的模型范式。
随着信息技术的迅猛发展,在通讯、控制、互联网与物联网等领域中的需求呈现出实时、高并发、大数据分布式存储等特点。在这样的时代背景下,去中心式一致优化算法研究引起了广