论文部分内容阅读
舆论环境的好坏关乎国家稳定和经济发展,近年来我国互联网新媒体技术高速发展,舆论传播的途径也发生了重大变化,从传统新闻等长文本转向以社交短文本为主。有研究显示,新浪微博是当前我国舆情发源与传播的主要平台,而微博上的文本信息具有内容简短、传播速度快、内容多元化、时效性高等几乎所有社交短文本的特点,精准把控以新浪微博为代表的社交平台上的海量信息可以说是我国舆论治理的重要组成部分。
新浪微博目前每日更新已经能够高达上亿条新微博,人工监测的方式只能作为辅助,主要还是需要提高计算机科学领域的自然语言处理水平,而词的语义表示在自然语言处理中属于基础性的工作。当前主流的词义表示方法是词嵌入技术,即将词表示为低维实值向量,目前大多数中文词嵌入技术直接沿用了英文的解决思路,忽略了两者在结构、语义、语法等方面的差别,且多局限于目标词的上下文词信息。本文在传统的词嵌入模型的基础上,引入外部组成上下文词的汉字信息,再结合适用于中文短文本的主题模型,提出了一个新的基于中文词结构与主题模型联合的词表示模型CTWE。考虑到不同上下文词对于目标词的语义贡献的差异,CTWE模型利用中英互译对组成中文词的汉字的不同语义进行归纳处理,以汉字和词语间的语义相似度为权重构建词向量,并结合主题模型为每个词赋予基于全局统计的信息,联合这两部分信息来训练词嵌入模型可以更精准的利用词结构内部的汉字语义信息和文档的全局信息,提升词嵌入的效果。
本文用真实的新浪微博文本数据训练模型,并在语义相似度、类比推理、文本分类三个任务上比较了模型的有效性,结果显示相比于CBOW、Skip-gram、CWE、TWE模型,CTWE模型得到的词嵌入的效果均有所提升。
新浪微博目前每日更新已经能够高达上亿条新微博,人工监测的方式只能作为辅助,主要还是需要提高计算机科学领域的自然语言处理水平,而词的语义表示在自然语言处理中属于基础性的工作。当前主流的词义表示方法是词嵌入技术,即将词表示为低维实值向量,目前大多数中文词嵌入技术直接沿用了英文的解决思路,忽略了两者在结构、语义、语法等方面的差别,且多局限于目标词的上下文词信息。本文在传统的词嵌入模型的基础上,引入外部组成上下文词的汉字信息,再结合适用于中文短文本的主题模型,提出了一个新的基于中文词结构与主题模型联合的词表示模型CTWE。考虑到不同上下文词对于目标词的语义贡献的差异,CTWE模型利用中英互译对组成中文词的汉字的不同语义进行归纳处理,以汉字和词语间的语义相似度为权重构建词向量,并结合主题模型为每个词赋予基于全局统计的信息,联合这两部分信息来训练词嵌入模型可以更精准的利用词结构内部的汉字语义信息和文档的全局信息,提升词嵌入的效果。
本文用真实的新浪微博文本数据训练模型,并在语义相似度、类比推理、文本分类三个任务上比较了模型的有效性,结果显示相比于CBOW、Skip-gram、CWE、TWE模型,CTWE模型得到的词嵌入的效果均有所提升。