论文部分内容阅读
近年来,随着社交媒体(微博、Twitter、Facebook等)深入发展和普及,人们越来越依赖于社交媒体分享个人经历、发表观点、表达意愿,并由此产生了海量用户生成内容。其中,交互意图广泛存在于社交媒体的用户讨论中,对社交媒体中用户交互行为的意图进行挖掘和分析可以有效支持舆情监控和辅助决策,在诸多领域具有十分重要的研究意义和应用价值。本论文工作聚焦社交媒体中的用户交互意图挖掘问题,利用智能分析技术手段,研究基于言语行为理论的用户交互意图分类及其识别方法,并以新浪微博数据为例,对所提出的交互意图识别方法进行有效性验证。论文工作包括三个方面: 1.用户交互意图分类体系构建与基于行为标记语词典的意图识别方法。针对现有用户意图类别定义分散、依赖特定领域的问题,参考言语行为分类框架,提出社交媒体中的用户交互意图分类体系;在此基础上,提出了一种基于行为标记语词典、结合外部信息源的用户交互意图识别方法,通过为每个意图类别构建其行为标记语词典,基于词典对用户交互意图进行分类。实验表明,所提出的行为标记语词典构建方法,能够较为准确地从大规模文本中挖掘行为标记语,用于用户交互意图识别。 2.基于词典自动标注语料与基于泛化特征的交互意图识别方法。为解决大规模语料标注的困难性,提出一种基于行为标记语词典自动标注语料的方法;在此基础上,从词项和短语中挖掘相关语法、语义及社交媒体特征,并结合学习算法对用户交互意图进行分类识别。实验表明,所提出的自动标注方法能有效提高大规模语料标注的精度,同时通过对所提炼特征的有效挖掘,能有效提升用户交互意图识别的效果。 3.基于对话序列的分层隐马尔可夫(Hidden Markov Model,HMM)交互意图识别模型。考虑到上下文信息对用户交互意图的影响,并结合句子和篇章不同层次的处理,提出一种基于分层HMM的交互意图识别模型,在句子级交互意图识别的基础上,建立对完整微博(包括原创帖子、转发和回复)表达中的主旨交互意图进行分析识别。实验表明,所提出的分层HMM交互意图识别模型,能有效结合不同层次的信息,在句子级和微博级,提升用户交互意图识别的效果。