面向文本分类任务的主题强化词句嵌入模型研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:feng861013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习在自然语言处理领域受到了更多的重视,基于深度学习的神经语言模型和词句嵌入模型相继被提出,这类模型以其高准确率、低复杂度的优点被学术界和工业界广泛研究和应用。然而,将原本依赖语言模型分布假设的词句嵌入模型直接用于文本分类等任务,显然是不合适的,因为文本分类任务所需要的是高极性的主题特征,而原词句嵌入模型只是单纯的捕捉语言规律,没有重视主题信息的挖掘。为了使基于深度学习的词句嵌入模型更加适合应用到文本分类任务中,本文对原模型进行主题强化,提出了主题强化的词句嵌入模型,期望获得更高的文本分类性能。由于语义极性相反的单词可能拥有相似的局部上下文,而原模型只利用局部上下文训练该单词的分布式嵌入表示,是无法捕捉到具有相反极性的语义的。因此,本文提出用高阶纯依赖建模词句嵌入模型中的长程上下文,从而加强词句分布式嵌入表示的情感或者主题信息,进而提高情感分析和主题挖掘任务的性能。高阶纯依赖方法有严格的理论依据保证长程上下文单词间的依赖是“纯”的,即单词依赖是一个完整的语义实体,并且单词的联合概率分布不能够被条件分解(当然也不能被非条件分解)。这样保证了高阶的单词依赖不能够分解成几个低阶依赖的随机共现,从而高阶纯依赖可以有效地建模出语义丰富的、非歧义的主题信息。本文将主题强化的词句嵌入模型应用到基于标准数据集的情感分析和主题挖掘任务中,均超过了所有现有模型的性能。在中文新闻语料的分类项目中,与词袋模型、LDA主题模型特征作对比,分别应用了线性和非线性分类器,从多角度调研了其分类结果,证明了主题强化的词句嵌入模型完全可以与现有主流文本特征提取方法相竞争。
其他文献
H.264/AVC是国际电信联合会(ITU-T)和国际标准化组织(ISO/IEC)共同研究并发布的下一代视频压缩标准。该标准为了使视频压缩编码在比特率受限条件下,得到最优化的压缩效率,其
本体是一种重要的知识表示形式,它是共享概念模型的明确的形式化规范说明,并在语义Web、知识工程、软件工程、生物医学信息学和社会化网络等领域中得到广泛应用。然而,本体创建
随着网络技术的迅速发展,网络安全问题已经成为当今网络技术的研究重点。通常黑客和病毒是通过系统中存在的漏洞对目标主机进行系统攻击的。漏洞扫描技术就是对系统中存在的
构件技术已成为软件产业发展的关键技术之一,推行基于构件的软件开发是当前软件生产的世界潮流。构件的描述和检索是充分发挥构件技术优势、实现软件复用、构筑高质量软件产品
随着互联网技术的快速发展,使得Web技术得到了广泛的应用,并且获得了巨大的成功。Web技术有着良好的通用性、平台独立性和交互性。信息化的不断发展,促使Web技术应用到不同的
随着语义Web的快速发展,行业应用数据越来越多地选用RDF格式进行发布,RDF语义数据规模呈现爆炸性增长趋势,三元组条数已经远远超过百亿。RDF数据规模的急剧增大加深了语义数
传统的网络入侵检测技术使用手工分析和编码的方式已经不能适应网络新攻击层出不穷和数据量日益增大的趋势,知识发现能从数据集中识别出有效的、新颖的、潜在有用的模式,数据
Android的广泛应用使得Android系统缺陷越来越受到关注。由于Android平台存在一些安全机制问题,使得简单的权限机制不足以用来保证手机端软件行为的安全。而传统的Android框
随着监控系统在工业、城市建设等各个行业发挥越来越重要的作用,用户对监控系统也提出了更多的需求。然而目前市场上的监控系统组态软件尚不能满足市场需求,在监控系统软件的
大力发展公共交通作为解决城市交通问题的方法已成为社会共识。但是单纯增加公交车数量或公交线路并不能从根本上解决问题,单纯的数量增加反而会加大城市交通的压力。因此只有