【摘 要】
:
以正例和未标识实例集训练分类器的分类方法(PU文本分类)关键在于从未标识实例(U)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出了一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度
【机 构】
:
吉林大学计算机科学与技术学院,吉林长春,130012 沈阳炮兵学院,辽宁沈阳,110162 吉林大
论文部分内容阅读
以正例和未标识实例集训练分类器的分类方法(PU文本分类)关键在于从未标识实例(U)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出了一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度,解决了某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题。实验表明,该方法比目前其他的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。
其他文献
Internet应用需要高性能的网络服务器体系结构。本文提出MEANS结构,这是一种针对Internet应用的网络服务器软件体系结构。通过引入一种新的线程抽象,微线程,MEANS向上层的程序员提供微线程环境,并通过传统线程并发访问下层操作系统的服务,而微线程的管理和调度则使用事件驱动机制,从而综合多线程和事件驱动结构的各自优点。此外,MEANS还具备通用性、扩展性、健壮性和适应性。经初步验证,在并
通过分析多个尺度上的网络行为,并考虑TCP流量的双向传输特性,对TCP流量进行较为完整的建模,即多尺度双向流量模型:基于该流量模型,分析各尺度上共12个网络行为因素对流量多分形特性的影响。对流量多分形性影响较大的指标包括:连接到达间隔,连接大小,数据包大小等。由于响应方向的流量较大,响应方的影响大于请求方的影响;而连接RTT,连接包簇大小,包簇内部数据包OFF时间等指标对流量多分形性影响则较小。
作为一种实现面向服务体系架构(SOA)典型的应用实例,Web服务采用和支持国际公开的开放技术标准规范以保证分布式的端到端的交互。目前虽然Web服务已经在电子商务、金融等许多领域得到广泛应用,但是由于Web服务本身的源码不可知和行为的不可预知等特性使得测试工作面临很大的问题。本文采用一种基于交互行为规约的方法测试Web服务。由于WSDL文档中并未提供Web服务的动态行为信息,服务提供者将额外提供以U
网络带宽的不断增加对报丈捕获技术提出了挑战,传统报文捕获技术已不能满足千兆以太网环境下的性能需求。目前报文捕获系统中广泛采用零拷贝技术来提高报丈捕获的性能,但是在报丈速率过高、中断过于频繁的情况下,零拷贝报文捕获技术同样存在性能瓶颈。本文深入分析了零拷贝报文捕获技术性能瓶颈产生的原因:用户空间释放报文、内核空间接收报文的机制造成系统活锁。为解决该问题提出用户空间报文捕获机制ULPC(uer-lev
随着因特网在规模和复杂性方面的持续增长,目前的网络管理技术面临挑战。本文介绍了现行网络管理标准的局限及其发展现状,随后描述了在基于WSDM的管理体系结构中管理SNMP代理的方法。集成管理SNMP代理必须引入WSDM/SNMP网关,该网关负责在WSDM管理端和SNMP代理间传递和转化消息。文中我们提出了网关的体系结构设计,描述了基于WSDM规范的网关相关服务的封装。
本文就当前人脸检测研究当中“倾斜”和“旋转”的问题,提出了一种基于人脸椭圆区域特征和svM的人脸检测算法。该方法综合了人脸的几何和区域统计两大特征,首先利用肤色模型,分割人脸区域和检测“人眼对”,确定人脸的候选区域;然后根据“人眼对”的坐标以及人脸“三庭五眼”的几何特征构造椭圆,并将区域内的灰度信息在长轴上进行投影,其统计信息作为该区域的人脸特征;最后利用区域特征和SVM(Support Vect
为实现普适计算环境中分布的、异构的资源的有效共享和按需服务,提出了一种普适资源共享模型。按照从具体资源到用户视图自下而上的顺序,将模型划分为有效空间、抽象空间和用户空间三个层次。该模型中,采用了基于社区的管理方法,屏蔽资源的分布性;为了实现资源的透明访问,建立了任务映射机制,为用户透明的使用各种资源提供便利;采用了基于会话的无缝访问机制,为用户提供一个可以移动的并且状态可以持续的统一服务环境。最后
为了解决数字图像处理中的可变数据集合维护问题,本文提出了一种有效的硬件链表设计方案。硬件链表能够自主进行空间回收,而且它的长度可以通过参数进行配置。本文的设计实现了链表的基本功能,但用法有所简化,它已经成功应用到行人跟踪系统中。文章最后给出了不同长度链表的FPGA综合结果。
随着片上系统(SoC)集成度和复杂性的增加,片上网络(NoC)已逐渐替代总线成为SoC设计中的全局通信互连架构。SoC应用的多样性要求片上网络能有效的支持组播。本文提出了一种面向连接的片上网络多路径OoS组播策略。在该策略中,源节点将目标节点集划分成多个子集,并为每个子集建立一条组播路径,组播报文在多条路径上传输,同时通过预留虚通道保证组播的服务质量(QoS)。该策略已在二维Mesh网络中实现并且
粗糙模糊集用于描述近似空间中的模糊概念.基于该理论的规则提取方法通常分为两步:首先利用粗糙模糊集进行属性约简,然后采用提取模糊规则的方法提取规则.在规则提取的预处理阶段通过属性约简某种程度上可以缩短规则提取的时间,但往往由于属性约简算法所固有的不足导致不利于产生良好的规则.在模糊规则产生过程中避开属性约简,可以提高规则提取方法的适用性,降低计算复杂度.本文提出了动态粗糙模糊集的概念,基于此的规则提