基于SVM主动学习技术的PU文本分类

来源 :2007中国计算机大会 | 被引量 : 0次 | 上传用户：LOVE85954709

【摘要】

：

以正例和未标识实例集训练分类器的分类方法(PU文本分类)关键在于从未标识实例(U)集中提取尽可能多的可靠反例，然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类

【作者】

：

张长利[1]左万利[2]彭涛[2]赫枫龄[2]

【机构】

：

吉林大学计算机科学与技术学院,吉林长春,130012 沈阳炮兵学院,辽宁沈阳,110162

【出处】

：

2007中国计算机大会

【发表日期】

：

2007年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

以正例和未标识实例集训练分类器的分类方法(PU文本分类)关键在于从未标识实例(U)集中提取尽可能多的可靠反例，然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器，而已有的方法可靠反例的数量少或不可靠，同样构造的分类器也精度不高，基于SVM主动学习技术的PU文本分类算法提出了一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法，并通过spy技术来提高SVM分类器的准确度，解决了某些机器学习中训练样本获取代价过大，尤其是反例样本较难获取的实际问题。实验表明，该方法比目前其他的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。

其他文献

共同关注和携手解决印刷业发展中的人才问题

@@综观印刷发展现状，技术与设备的竞争已经不在是企业所面临的主要问题，而人才的竞争才是真正的竞争。企业面临的最大的挑战是如何拥有满足自身运行与发展需要的人才：谁拥有稳定

会议

印刷产业人才问题企业管理

浅谈 900 吨运架设备改造成 900 吨运架一体机的改造利用

期刊

模糊推理中最小相异原则的研究

本文在“相异因子r”的基础上，进一步的提出了模糊推理中的“最小相异原则”，并利用这一原则，对三I算法进行了改进，使得其在理论上更为合理。并且，通过模糊推理中的“最大支持原则

会议