基于种子词的无监督文本分类

来源 :武汉大学 | 被引量 : 4次 | 上传用户:hdf1038
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
监督型的分类模型通常需要大量标注好的文本作为训练数据,并且分类精度很大程度上取决于标注文本的数量和质量。然而,标注大量的文本是十分费力和耗时的,而且还涉及人为干预。因此从实践的角度来探讨减少标注文本所带来的代价是很重要的。降低标签获取开销的一个可能的解决方案,就是在文本分类模型中整合人类的领域知识。我们提出一种新的无监督文本分类方法叫作基于种子词的无监督文本分类(Seed Guided Topic Model),以下简称STM。在我们的模型中,不需要标注整篇文本,取而代之的是只需要标注出几个和类别相关的词,又称为"种子词"。相较于标注整篇文本,这在很大程度上减轻了对人工的需求。STM是基于LDA的模型,"话题"推断仍是文本分类的基础,不同于LDA只有一种"话题",我们会假设每篇文本都会包含两种话题:"类别相关话题",即与某一文本类别息息相关的话题;和"一般话题",即话题内容并没有明显的类别方向。每个"类别相关话题"关联到一个特定的文本类别,代表这个文本类别的具体谈语义。"一般话题"则致力于捕捉整个文本集的全局潜在语义信息。通过在两个一直为文本分类领域广泛使用的数据集上进行的实验,STM被证明始终优于现有的无监督文本分类器。对于几个词频重叠度较高的类别,STM甚至表现出比SVM这样监督型算法更优秀的分类精度,这也间接证明了无监督分类模型的良好潜力。进一步的实验表明,STM对调优参数不敏感,可以在比较广泛参数设置上都保持一个稳定的性能,这些优点使之成为一种可以被用于实际环境中的模型。
其他文献
把握年底好时机年末将至,公司年度总结会,客户拜访,"团体"聚会,陆陆续续出现在男人们的日程表上。而无论是公司里的铁面无私老板,还是温柔贴心的居家好男人,抑或是兄弟圈中的
期刊
现在,越来越多的洗衣机增加了可以洗涤羊毛羊绒织物的功能。为了能客观评价羊毛洗涤性能质量,北京博天亚认证有限公司(以下简称"博天亚")推出家用洗
期刊
近日,日本NTT公司展示了以氢气为燃料的手机用固体高分子型燃料电池(PEFC)。
一、中小企业信息化绩效评价研究现状我国中小企业信息化仍处在初级阶段,对于中小企业信息化投资绩效评价的研究尚落后于中小企业信息化技术的研究。怎样对中小企业信息化绩效
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
和NP系列的其他产品一样,新产品按照AEC-Q101流程制造,额定温度为175℃,纯锡电镀管脚完全符合RoHS要求。雪崩能量从19mJ至550mJ,因芯片不同而有所差异。
随着市场经济的发展,超市连锁企业面临的市场竞争环境愈发激烈,这对企业的预算管理提出了更高的要求。全面预算管理作为企业内部控制的一种重要手段,有力地推动了现代企业的
如今的电视节目中,新闻评论类节目占有很重要的地位。新闻评论类节目一方面报道了新闻事实,同时也对新闻事实进行了更为深刻、系统的分析和评论,在社会监督和舆论引导方面发
二胡作为一件民族乐器经历了近千年的自身变革,这种变革是自身内部的循环发展。然而,在科技软件发达、产业技术升级、创新产业蓬勃发展的今天,越来越多的民族乐器开始尝试与
目的分析终末期癌症患者的创伤后应激障碍(post-traumatic stress disorder,PTSD)水平及其与社会支持的关系,探索希望和乐观在社会支持与PTSD症状关系间的中介作用。方法通过