用户生成答案质量评价中的特征表示及融合研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yanjiawei2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的飞速发展,网络社区累积了海量的用户生成内容(UserGenerated Content, UGC)。社区问答系统正是产生UGC的典型代表之一,海量的UGC资源对于促进问答技术的发展带来了新的机遇,同时也给网络社区问答资源的挖掘带来了新的挑战。因此,如何有效的从海量的用户生成内容中识别高质量的信息已经成为了社区问答系统研究中的一项极为重要的工作。本文以自动评价社区问答系统中用户生成答案的质量为目标,从社区问答系统中答案的文本信息和非文本信息的特征表示与融合两方面入手,针对社区问答系统中用户生成答案的质量评价方法展开研究。具体地,本文的研究内容主要包含如下3个方面。本文首先分析了社区问答系统文本信息的特点,在此基础上通过实验比较了两种不同粒度的文本特征。以表层语言学特征和社会化特征为基础的非文本特征已被广泛的应用于评价社区问答系统的答案质量。本文针对此类非文本特征,在大规模的问答语料中进行了详细地统计分析。在此基础上,采用逻辑斯蒂回归模型对各个特征在最佳答案识别的效用上进行了分析。本文将社区问答系统答案质量评价问题看做是一个分类问题。在分析了基于传统分类方法中的SVM模型和逻辑斯蒂回归模型等主流方法在答案质量评价问题中的不足之后,本文提出了分别基于随机特征子空间和基于内容结构与社会化信息的两种协同训练方法。实验结果表明本文提出的协同训练方法只需要少量的标注样本就能取得跟主流的有监督学习方法相当甚至更好的答案质量评价性能。社区问答系统的答案信息属于典型的短文本信息,词语频度统计的效力极为有限使得传统的基于词语共现关系的文本特征在答案质量评价问题中的表现很不理想。虽然融合被广泛使用的非文本特征对于提升答案质量评价的性能在一定程度上起了积极的作用,但是其提升能力极为有限。本文在分析了文本特征和非文本特征的特点以及当前主流的分类模型在统合不同特征的能力的局限性之后,提出了基于多模式深度学习的答案质量评价方法。在百度知道和Yahoo! Answers两个数据集上的实验结果表明,本文提出的深度学习方法能够有效的提高答案质量评价的性能。
其他文献
随着Web2.0的不断发展,用户之间的互动成为网络新的发展趋势。社区问答系统为用户的交互提供了便利的平台,这使得社区问答系统必须拥有庞大的知识数据库并能对新提交问题做出
随着云计算技术越来越多地应用到信息产业的各个领域,对云环境下多种异构资源进行监测和管理日益重要。云计算平台具有虚拟性、层次性以及动态性等特点,相比其它大规模分布式网
随着电子管理系统的高速发展,每天都有大量的商业经营数据产生,运用数据挖掘算法从这些经营数据中提取商业信息变得越来越有价值。  根据历史交易数据,将商品按照利润相关的某
随着信息技术的发展,多标记分类方法的应用也越来越广泛,现有的多标记算法一般没有充分学习标记之间的相关信息,而标记之间的信息对提高算法的分类性能很有帮助,所以有必要对
在预算资源有限且不需在计算机和网络硬件花费过多经费的条件下,为了对师生提供有效地学习和教学服务,云计算环境是教育机构开发教学和学习系统一个非常好的选择。同时,它也是当
机构的工作空间是机构伸缩,旋转,扭转等机构所能达到的空间范围,它的大小和形状反映了机构的工作能力。工作空间的研究不仅有助于评价机构运动学上的工作性能,也是衡量机构设计合
随着制造工艺和集成电路技术水平的提高,电子设备正在朝着小型化,轻型化发展。可穿戴计算机成为人们的新宠。传统的可穿戴计算机设计方法是基于COTS技术的,这样会造成可穿戴计算
随着计算机与互联网的迅速发展,Web信息呈指数型增长,其在为用户提供大量数据的同时,也给用户检索有用信息带来困难。因此,识别搜索引擎用户的检索意图已成为当前Web信息检索
文物是传承历史的重要符号,是不可再生的文化资源,是进行传统文化教育的重要载体,因此保护文物是社会发展必然的一个选择。而考古挖掘是为了科学研究,对古文化遗址、古墓葬进
计算机网络技术在最近几年得到了飞速发展,对网络服务质量的评价也成了人们关注的问题。有效的评价网络的性能,提高网络的保证性服务质量,满足用户日益增长的需求成为计算机