论文部分内容阅读
潜语义模型已经被应用到跨语言信息检索、图像标注与检索以及文本情感分析等多个领域。本文提出了Multitype-LDA模型和CTS-LDA模型,Multitype-LDA模型可实现跨语言、跨媒体的信息检索,而CTS-LDA模型可以对网络评论做深入的情感分析。本文的主要工作和贡献有:
①提出Multitype-LDA模型来处理包含多种类型的“词”的文档集,这些词可以是不同语种的词,或者是不同的媒体特征(如图像中的SIFT特征、color-patch特征等),也可以是媒体特征与文本词。通过计算不同种类型的“词”之间的共现关系,Multitype-LDA模型可以确定不同语言或媒体之间的语义联系,从而实现跨语言、跨媒体的文档标注和检索。
②提出了基于Multitype-LDA模型的图像标注和图像检索方法。Multitype-LDA模型可以实现文本对图像的自动标注。线性地联结文档模型和Multitype-LDA模型,可以实现一种基于语义的图像检索的方法。实验证明了Multitype-LDA模型在图像标注和图像检索中的有效性。
③提出了Multitype-LDA跨语言信息检索模型,根据不同语种的词之间的共现关系,确定不同语种之间的语义关系,并根据不同语种的语义联系实现跨语言的信息检索。实验表明,Multitype-LDA跨语言信息检索模型具有较好的跨语言信息检索性能。Multitype-LDA跨语言信息检索模型可以处理大规模的数据集。
④提出了TS-LDA模型来进行话题情感分析,TS-LDA模型能够同时确定评论所涉及的话题及每一话题的情感倾向。
⑤为了有效利用评论集中的专家观点和一般用户观点,在TS-LDA模型的基础上提出了CTS-LDA模型,即概念话题-情感LDA模型。CTS-LDA模型将专家观点看作是概念,而将一般户观点看作是话题,能够很好地结合专家观点和一般用户观点,可以同时确定评论所涉及的概念或话题以及这些概念或话题的情感倾向。实验表明,CTS-LDA模型很适合做网络评论情感分析。
⑥本文还开发了一个产品评论在线分析的雏形系统CTS。CTS系统用CTS-LDA模型来做评论集的情感分析,用语义网技术建立知识库来储存和查询模型计算结果,并以图形界面显示分析结果。
总的说来,本文针对潜语义模型在跨媒体信息检索与情感分析的应用研究中作了有益的探索。