【摘 要】
:
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多
【机 构】
:
吉林大学计算机科学与技术学院,DepartmentofComputerScience,符号计算与知识工程教育部重点实验室(吉林大学)
【基金项目】
:
国家自然科学基金(60903098,60973040)
论文部分内容阅读
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.
其他文献
"十二五"规划提出我国经济增长应由依靠投资、出口拉动向依靠消费、投资、出口协调拉动转变。这就需要发展现代流通业,提高流通效率,引导生产和促进消费。因此,在目前我国消
ICP-MS法是测定痕量和超痕量元素的一种分析手段,我国应用该法测定贵金属已有十多年历史,近年来的研究应用发展较快。论文简单介绍了ICP-MS法的分析性能及其测定贵金属的分析
目的分析16排螺旋CT在急性肠梗阻诊断中的应用价值。方法回顾性分析2009年1月至2013年12月云阳县人民医院收治的65例诊断确诊的急性肠梗阻患者的临床资料及X线片与16排螺旋计
灵魂写作喊了那么多年,但真能抵达灵魂的写作却仍属凤毛麟角。陈仓最难能可贵的地方,就是将人在现实中的际遇,提升到灵魂叙事的层面。$$《地下三尺》内含五篇小说,主人公都叫陈元
802.11无线局域网技术的广泛普及,给无线室内定位系统带来了良好的发展契机.提出了一种基于支持向量回归的802.11无线室内定位方法.该方法主要包括离线训练和在线定位两个阶
亚里士多德作为政治学的开山鼻祖,其政治思想博大精深,给后人留下了极其宝贵的理论遗产。在亚里士多德看来,"中庸之道"是为政者决不应该忽略的至理,他认为最稳定、最能长治久
构建以传统文化为载体的思想政治教育有效机制,有其理论的、实践的和学科发展的需要。同时,传统文化与思想政治教育在内容上、功能上和价值取向上的契合,为思想政治教育以传
为了解决农业物联网系统的供电电源问题,设计了以光伏电池为主、市电为辅、超级电容和蓄电池为混合储能装置的供电系统。首先,对负载功率进行分析,根据负载要求计算超级电容
纵观中国古典诗歌发展史,诗人笔下的"窗"是极其丰富的。本文以唐宋诗词中的"窗"意象为考察对象,分析了四种"窗"——绮丽华美的闺阁之窗、清幽脱俗的高人之窗、凄清孤苦的游子
体育教学的特殊性决定多媒体技术在体育教学中只能起到辅助性作用,但一线教师倘若掌握了多媒体技术, 学会合理制作和使用多媒体课件,切实能够提高体育课教学质量。本文就多媒