基于无标记Web数据的层次式文本分类

来源 :智能系统学报 | 被引量 : 0次 | 上传用户:fourseasons2002fox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。
其他文献
现阶段,外资并购国内公司的政策环境明显放松。面对外资的理性和能力.中国企业家的选择将直接关乎中国经济的命运。但客观地说.我们的企业家在很大程度上还处于劣势。
<正> 乳制品加工业在我国有着悠久的历史。随着人们膳食结构的逐步改变和生活水平的不断提高,对乳制品的需求也越来越大。乳制品生产过程将排放大量废水。加工1吨鲜牛奶,需用
动物疫病预防控制机构作为技术部门,应为广大农牧民选择效果较好的驱虫药。本中心与西北农林科技大学合作开展虫力黑威囊和地克珠利威囊驱除山羊体内外寄生虫试验,经过检测用
一月之内,从英国伦敦到埃及沙姆沙伊赫发生恐怖袭击,尽管现在还无法说明这是由一个“中央司令部”策划的一项“庞大计划”,但可以说这是一个由数位首脑组成的一个网络。炸弹在几
道德与法治是小学教育阶段的一门重要课程, 在小学道德与法治课堂上引入信息技术,能够以声音、图画和视频等方式呈现知识,再现教材中描述的情景,吸引学生的注意力,促使学生全身心
坚持科学发展观和构建社会主义和谐社会,是党的十六届三中全会、六中全会确立的关于经济社会发展与社会建设的新理论与新的战略决策;是新时期、新形势下,对马克思主义、邓小平理
前不久因公殉职的杰出公安英模——河南登封市妇女公安局长任长霞,在任期间破获了一起沉冤十余年的强奸案后,老百姓为她刻民块“有为而威邪恶畏,为民得民万民颂”的石碑,并坚持要
在考虑微网、多元负荷与多能互补等因素的基础上,建立适用于配电网规划项目建设前期评价的综合评估模型。该模型主要从配电网运行效率与配电网建设效益两方面共同评价,前者通过
试验随机选择未接种过新城疫、重组禽流感病毒(H5+H7)二价灭活疫苗且经检测体内未含相关抗体的健康鸡40只,随机分成4组:第1组(A组)接种鸡新城疫活疫苗,第2组(明)接种重组禽流感病毒(H5+H7
航空发动机在地面试车过程中,出现低压压气机三级盘裂纹故障。通过对故障件进行尺寸复测、性能测试、组织分析和断口观察,分析故障性质和原因。结果发现:断口为多源疲劳断裂,