基于SVM主动学习技术的PU文本分类

来源 :2007中国计算机大会 | 被引量 : 0次 | 上传用户:LOVE85954709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以正例和未标识实例集训练分类器的分类方法(PU文本分类)关键在于从未标识实例(U)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出了一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度,解决了某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题。实验表明,该方法比目前其他的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。
其他文献
@@综观印刷发展现状,技术与设备的竞争已经不在是企业所面临的主要问题,而人才的竞争才是真正的竞争。企业面临的最大的挑战是如何拥有满足自身运行与发展需要的人才:谁拥有稳定
期刊
本文在“相异因子r”的基础上,进一步的提出了模糊推理中的“最小相异原则”,并利用这一原则,对三I算法进行了改进,使得其在理论上更为合理。并且,通过模糊推理中的“最大支持原则
研究模糊属性信息系统的属性约简方法。传统的差别矩阵的概念与构造方法基于完备属性并且属性值为符号型的信息系统,对于模糊或实值属性信息系统的属性约简传统的差别矩阵难于
属性值等价问题是所有文本分类、信息检索以及数据挖掘的核心和基本问题,本文结合了粗糙集理论对于非精确数据的处理能力和神经网络的分类机制,提出解决Rough属性值语义等价问
会议
语义Web为Web异构信息源的智能访问和处理提供了实现平台。然而在语义Web上分布着海量知识,如何在这些海量知识中按照用户的需求快速准确地定位目标知识便成为语义Web研究中迫
会议