论文部分内容阅读
随着互联网的快速发展以及社交媒体的崛起,用户生成的大量文本等数据日积月累,其中,包含篇幅较长的新闻文本、篇幅不一的评论文本以及篇幅较短的社交媒体文本,例如,微博、推特文本。新闻文本之类的文本一般描述重大事件、科学发现等内容,虽然单一文档中包含信息量大,但是文档涉及话题比较固定。评论文本中包含大量用户对评价对象的主观评价,虽然文本长度不一,但是包含的信息相对丰富。不同于新闻之类的文本和评论数据,虽然单条微博文本长度较短且信息量少,但是更新速度快,数据规模大,涉及领域广。这些海量的文本数据中包含大量有实用价值的信息。但是如何挖掘这些文本中隐藏的语义结构信息是目前自然语言处理和文本检索领域的一大研究难点。主题模型是一种比较热门且有效的方法,该方法通过词语之间在文档中的高阶共现模式挖掘文本中的语义结构信息。主题模型的技术已经应用到各个研究领域并且取得了不错的成果。本文以新闻文本、评论文本、微博文本三种不同的文本为实际应用背景,对于话题建模以及情感相关的话题建模展开了研究。因为新闻文本中一般包含客观的话题信息,而评论文本和微博文本中包含大量的情感信息,因此,本文针对新闻文本只建模话题信息(不考虑文本的情感信息),而针对评论数据和微博文本则建模话题和情感两种信息。本文的工作主要基于生成式主题模型,用改进的生成主题模型抽取文本的话题或者情感相关的话题。其中,现有的针对新闻文本的主题模型和针对评论文本的情感主题模型,并没有合理地考虑文本中词语或者实体之间包含的语义知识。同时,现有的工作并没有针对短文本的情感和话题建模提出有效的模型。为了解决上述的问题,本文重点研究话题建模或者情感相关的话题建模中的三个重要的问题:融合知识库中的语义知识建模新闻文本的话题,融合词语之间的语义知识建模评论数据中的情感和话题以及融合用户和时间信息建模微博短文本的情感和话题。具体研究内容如下:(1)本文分析现有的话题建模方法在新闻文本中的不足,即单纯依靠语料中词语之间的高阶共现模式建模话题。当语料中的有些词语没有充分的共现模式,主题模型不能很好地挖掘它们的语义信息。为了克服这一问题,本文研究一种融合维基百科知识到新闻文本中的主题模型,也就是利用外界知识库中的概念和分类知识弥补文本中词语共现模式不足的问题。本文提出一种维基百科知识主题模型(WCM-LDA)。WCM-LDA模型同时建模文本中的词语和实体,并且引入了实体在知识库中对应的概念和分类知识,因此WCM-LDA模型可以缓解建模话题时词语共现模式不足的问题。另外,WCM-LDA模型输出每个话题的词语、概念和分类,可以更加直观地展示每个话题。(2)在评论数据中词语之间的先验语义关系对于情感相关的话题建模同样尤为重要,但是现有的情感主题模型只能通过共现模式挖掘词语之间的语义关系,有些词语在小规模的数据集中没有充分的共现模式同样会导致情感和话题建模的质量不佳。不同于前面的新闻文本中包含了大量实体,可以引入实体对应的知识。评论数据中更多的是评论对象的属性词或者评价词,建模评论文本的情感和话题时,更需要引入的知识是属性词或者评论词语之间的语义关系。因此,本文研究一种引入外界的词向量,来构建词语之间的先验语义关系,这样缓解有些词语共现模式不足的问题从而有效地提升情感和话题建模的质量。本文提出的基于语义聚类和词语的混合情感主题模型(HST-SCW),该模型可以使词向量语义空间中语义相近的词语选择相同的聚类,从而使得语义相近的词语可以分配到相同的话题和情感。(3)为了提升微博短文中的情感和话题建模的质量,本文分析传统的情感主题模型在短文本的建模上的不足,主要问题就是这些模型单纯地利用词语之间的共现模式,而短文本的上下文稀疏,很难挖掘到充分的共现模式。而微博之类的短文本与新闻文本和评论数据不同,微博数据中的噪声较大很难有效地引入类似于知识库或者词向量之类的外界知识。因此,本文研究微博等社交媒体的特点,发现微博的内容发布的时间和用户有很强的关系,跟用户相关的微博一般都是跟个人兴趣相关,跟时间相关的微博一般都跟实时事件或者话题相关。通过引入这些社交媒体中的时间和用户等结构知识,本文提出一种面向短文本的情感和话题建模的方法,利用用户和时间聚合微博以弥补上下文不足的问题。基于这个思想,本文提出时间-用户的情感主题模型(TUS-LDA),该模型中将微博分配到对应的用户或者时间下,并且限制同一条微博属于相同的话题,但是一条微博可以表达不同的情感。