基于DW-TCI的半监督文本分类方法研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:yancliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]对只有少量标注的文本进行高效率的分类,提出一种新的半监督文本分类方法.[方法]提出DW-TCI半监督文本分类方法,通过使用双通道的特征提取方式得到基分类器组的两组特征输入向量,并引入基于分歧的半监督分类方法和集成学习的思想,将无监督共识结果样本引入模型训练,最后通过等值加权投票法得到预测文本的分类结果.[结果]在两个不同的数据集下,DW-TCI方法使用20%有标签样本训练时,分类精度分别达到92.32%和87.01%,对比其他半监督分类方法最少分别提升5.54%和5.65%.[局限]使用的数据集数量较少,未在更多的数据集上进行验证.[结论]DW-TCI方法可以大幅减少对训练样本的标注,为服务商进行高效的文本分类提供了有效支持.
其他文献
[摘 要]礼仪是一个人乃至一个民族、一个国家道德水平和文化修养的外在表现。中华民族是礼仪之邦,礼仪教育是社会主义精神文明建设的重要组成部分。参加“第二届全国中小学体育教学观摩展示课”的活动中,看到“礼仪”在课堂中潜移默化,使学生在教学中懂得礼仪、应用礼仪、享受礼仪。本文通过论述礼仪教育的重要性,礼仪教育的内涵,以及结合本人多年的中学体育教学实践,所采取的礼仪教育途径和方法,以及收到的实际效果,说明
本文介绍了中油管道公司的VSAT卫星通信网及其组网特点,对甚小口径卫星地球站(VSAT)在实际应用过程中出现的问题进行了分析,并根据实际工作提出了具体解决对策。 This paper
为了定量地计算形状复杂的钟形橡胶弹簧的刚度,借助阶跃函数建立了钟形橡胶弹簧的轮廓线方程,并利用变分原理和卡氏定理导出其轴向刚度计算公式,可获得较好精度。 In order
[目的]构建基于迁移学习的社交网络图像隐私自动分类器,对用户进行合理的提示,避免用户无意间上传包含隐私信息的内容.[方法]本文构建并标注了微博图像隐私分类数据集,采用深