论文部分内容阅读
随着Web2.0的飞速发展,网络社区累积了海量的用户生成内容(UserGenerated Content, UGC)。社区问答系统正是产生UGC的典型代表之一,海量的UGC资源对于促进问答技术的发展带来了新的机遇,同时也给网络社区问答资源的挖掘带来了新的挑战。因此,如何有效的从海量的用户生成内容中识别高质量的信息已经成为了社区问答系统研究中的一项极为重要的工作。本文以自动评价社区问答系统中用户生成答案的质量为目标,从社区问答系统中答案的文本信息和非文本信息的特征表示与融合两方面入手,针对社区问答系统中用户生成答案的质量评价方法展开研究。具体地,本文的研究内容主要包含如下3个方面。本文首先分析了社区问答系统文本信息的特点,在此基础上通过实验比较了两种不同粒度的文本特征。以表层语言学特征和社会化特征为基础的非文本特征已被广泛的应用于评价社区问答系统的答案质量。本文针对此类非文本特征,在大规模的问答语料中进行了详细地统计分析。在此基础上,采用逻辑斯蒂回归模型对各个特征在最佳答案识别的效用上进行了分析。本文将社区问答系统答案质量评价问题看做是一个分类问题。在分析了基于传统分类方法中的SVM模型和逻辑斯蒂回归模型等主流方法在答案质量评价问题中的不足之后,本文提出了分别基于随机特征子空间和基于内容结构与社会化信息的两种协同训练方法。实验结果表明本文提出的协同训练方法只需要少量的标注样本就能取得跟主流的有监督学习方法相当甚至更好的答案质量评价性能。社区问答系统的答案信息属于典型的短文本信息,词语频度统计的效力极为有限使得传统的基于词语共现关系的文本特征在答案质量评价问题中的表现很不理想。虽然融合被广泛使用的非文本特征对于提升答案质量评价的性能在一定程度上起了积极的作用,但是其提升能力极为有限。本文在分析了文本特征和非文本特征的特点以及当前主流的分类模型在统合不同特征的能力的局限性之后,提出了基于多模式深度学习的答案质量评价方法。在百度知道和Yahoo! Answers两个数据集上的实验结果表明,本文提出的深度学习方法能够有效的提高答案质量评价的性能。