基于主题模型的文本情感和话题建模的研究

来源 :东南大学 | 被引量 : 10次 | 上传用户:fakejay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展以及社交媒体的崛起,用户生成的大量文本等数据日积月累,其中,包含篇幅较长的新闻文本、篇幅不一的评论文本以及篇幅较短的社交媒体文本,例如,微博、推特文本。新闻文本之类的文本一般描述重大事件、科学发现等内容,虽然单一文档中包含信息量大,但是文档涉及话题比较固定。评论文本中包含大量用户对评价对象的主观评价,虽然文本长度不一,但是包含的信息相对丰富。不同于新闻之类的文本和评论数据,虽然单条微博文本长度较短且信息量少,但是更新速度快,数据规模大,涉及领域广。这些海量的文本数据中包含大量有实用价值的信息。但是如何挖掘这些文本中隐藏的语义结构信息是目前自然语言处理和文本检索领域的一大研究难点。主题模型是一种比较热门且有效的方法,该方法通过词语之间在文档中的高阶共现模式挖掘文本中的语义结构信息。主题模型的技术已经应用到各个研究领域并且取得了不错的成果。本文以新闻文本、评论文本、微博文本三种不同的文本为实际应用背景,对于话题建模以及情感相关的话题建模展开了研究。因为新闻文本中一般包含客观的话题信息,而评论文本和微博文本中包含大量的情感信息,因此,本文针对新闻文本只建模话题信息(不考虑文本的情感信息),而针对评论数据和微博文本则建模话题和情感两种信息。本文的工作主要基于生成式主题模型,用改进的生成主题模型抽取文本的话题或者情感相关的话题。其中,现有的针对新闻文本的主题模型和针对评论文本的情感主题模型,并没有合理地考虑文本中词语或者实体之间包含的语义知识。同时,现有的工作并没有针对短文本的情感和话题建模提出有效的模型。为了解决上述的问题,本文重点研究话题建模或者情感相关的话题建模中的三个重要的问题:融合知识库中的语义知识建模新闻文本的话题,融合词语之间的语义知识建模评论数据中的情感和话题以及融合用户和时间信息建模微博短文本的情感和话题。具体研究内容如下:(1)本文分析现有的话题建模方法在新闻文本中的不足,即单纯依靠语料中词语之间的高阶共现模式建模话题。当语料中的有些词语没有充分的共现模式,主题模型不能很好地挖掘它们的语义信息。为了克服这一问题,本文研究一种融合维基百科知识到新闻文本中的主题模型,也就是利用外界知识库中的概念和分类知识弥补文本中词语共现模式不足的问题。本文提出一种维基百科知识主题模型(WCM-LDA)。WCM-LDA模型同时建模文本中的词语和实体,并且引入了实体在知识库中对应的概念和分类知识,因此WCM-LDA模型可以缓解建模话题时词语共现模式不足的问题。另外,WCM-LDA模型输出每个话题的词语、概念和分类,可以更加直观地展示每个话题。(2)在评论数据中词语之间的先验语义关系对于情感相关的话题建模同样尤为重要,但是现有的情感主题模型只能通过共现模式挖掘词语之间的语义关系,有些词语在小规模的数据集中没有充分的共现模式同样会导致情感和话题建模的质量不佳。不同于前面的新闻文本中包含了大量实体,可以引入实体对应的知识。评论数据中更多的是评论对象的属性词或者评价词,建模评论文本的情感和话题时,更需要引入的知识是属性词或者评论词语之间的语义关系。因此,本文研究一种引入外界的词向量,来构建词语之间的先验语义关系,这样缓解有些词语共现模式不足的问题从而有效地提升情感和话题建模的质量。本文提出的基于语义聚类和词语的混合情感主题模型(HST-SCW),该模型可以使词向量语义空间中语义相近的词语选择相同的聚类,从而使得语义相近的词语可以分配到相同的话题和情感。(3)为了提升微博短文中的情感和话题建模的质量,本文分析传统的情感主题模型在短文本的建模上的不足,主要问题就是这些模型单纯地利用词语之间的共现模式,而短文本的上下文稀疏,很难挖掘到充分的共现模式。而微博之类的短文本与新闻文本和评论数据不同,微博数据中的噪声较大很难有效地引入类似于知识库或者词向量之类的外界知识。因此,本文研究微博等社交媒体的特点,发现微博的内容发布的时间和用户有很强的关系,跟用户相关的微博一般都是跟个人兴趣相关,跟时间相关的微博一般都跟实时事件或者话题相关。通过引入这些社交媒体中的时间和用户等结构知识,本文提出一种面向短文本的情感和话题建模的方法,利用用户和时间聚合微博以弥补上下文不足的问题。基于这个思想,本文提出时间-用户的情感主题模型(TUS-LDA),该模型中将微博分配到对应的用户或者时间下,并且限制同一条微博属于相同的话题,但是一条微博可以表达不同的情感。
其他文献
本文通过对隧道锚喷支护的实施和应用,初步探讨了锚喷支护结构的施工质量控制,并详细论述了锚喷支护结构体系的锚杆施工、喷射混凝土施工、钢筋网施工、格栅拱架和钢拱架施工的
运用拉格朗日动力学方法建立了具有冗余驱动的二自由度平面并联机器人的数学模型.采用鲁棒轨迹跟踪控制器,使得对于存在初始误差以及模型误差有界的情况跟踪误差一致终值有界
在股票市场繁荣的2006年到2007年,证券投资基金规模在不断壮大,其对股票市场的影响是本文的研究重点。在静态分析方面,分析基金规模变化;在动态分析方面,选取股票的基金持股
《脚注》是以色列导演约瑟夫·思达的作品,影片以一对父子之间的矛盾展开,深刻批判了学术界的迂腐和故弄玄虚,也揭示了学者在学术研究竞争中的黑暗与可怕。这是一部不同于其
<正>2014年9月20日,中国科协主办的2014年全国科普日活动在北京拉开帷幕。中央政治局常委刘云山,中央政治局委员、中央书记处书记、中宣部部长刘奇葆,中央政治局委员、国家副
氯代环己烷是重要的有机合成原料,有环己醇氯化氢取代法、环己烯氯化氢加成法和环己烷氯化法3种合成工艺。加大新生产工艺和下游产品开发力度、提升产业化力度可推动氯代环己
从肺及其相关结构、肺的生理功能、子午流注理论等方面探讨了“肺朝百脉”的概念 ,认为“肺朝百脉”不仅是指“肺受百脉之朝会”的传统意义 ,也应包含肺推动血液运行及肺使气
<正>3月下旬,地区文联组织协会会员开展"寻找新疆第一春"游园采风赏杏花活动。杏花迎着春日的温暖阳光灿烂绽放,大家齐聚在交河故城河畔,叙情、赏花、踏春、写生或在小河叮咚
越来越多的地理品牌面临如何突破原区域市场范围的问题,以往的地理品牌研究更多集中于企业个体的行为趋同效应。以低介入、加工型食品地理品牌为研究对象,通过结构方程建模分析
随着医疗信息化的不断发展和医疗体制改革的不断深入,采用信息化的方式来解决信息系统之间的数据孤岛和烟囱数据问题,已成为最有效的方式和方法之一;而通过建立医疗信息平台