社区问答系统中非事实性问题的答案摘要算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:yishaphoto123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,我们可以看到,社区问答系统中的用户数量正呈现出高速增长的态势。社区问答系统给用户提供了一个发布问题以及寻找答案的平台,而这个广大的平台中所包含的海量的问题与答案对数据,也逐渐成为了国内外科研人员的新的研究热点。此前已经有很多论文关注了社区问答系统场景下的多个研究课题,而在本学位论文中,我们关注的主要任务是社区问答系统中的答案摘要问题。虽然大多数之前的研究工作主要关注的是事实性问题,在本学位论文中,我们的工作重点则是非事实性问题。在事实性社区问答系统中,问题通常是寻求一个确定的答案,而问题的答案大多数都是单独的句子,与之不同的是,非事实性问题往往是在寻求看法、观点、意见,因此,非事实性问题通常需要用多个句子、甚至是整篇文章来作为答案。传统的多文档摘要任务主要是针对新闻文章,与之相比,在非事实性社区问答系统中的答案摘要就面临着其独特的挑战:答案句子的简短性、稀疏性,以及答案内容的多样性。为了解决这些挑战,我们提出了一个包含了三个核心要素的、基于稀疏编码的答案摘要策略:答案句子的短文本扩充,句子的向量化表示,以及稀疏编码优化框架。具体来说,通过实体链接和基于问题答案句子排序的策略,我们把一个问题下的每一个答案句子扩展成包含了多个维基百科句子组成的更复杂的表示。在此基础之上,每个句子都通过一个基于短文本的卷积神经网络模型被表示成一个特征向量。之后我们利用这些句子的向量表示,提出了一个稀疏编码的优化框架,通过同时考虑候选答案句子以及辅助的维基百科句子,来评估所有候选句子的独特性得分。在得到了这些候选答案句子的独特性得分之后,基于最大边界相关性算法,我们抽取出得分最高的答案句子,来产生最终的答案摘要。我们在本学位论文中的主要贡献是,通过处理非事实性问题中答案句子的简短性和稀疏性,以及答案内容的多样性这三个问题,我们解决了社区问答系统中非事实性问题的答案摘要问题。另外,我们在一个公开的基准数据集上进行了实验,并与一些当下最新的基准实验方法进行了比较,以评估我们提出的非事实性社区问答系统中的答案摘要方法的性能。相关实验结果不仅证实了我们提出的方法的有效性,而且相较于最新的研究方法,我们提出的方法在ROUGE评价指标上有着显著提升。此外,进一步的实验结果分析,也说明了我们提出的算法具有良好的稳定性和扩展性。
其他文献
在竞争越来越激烈的知识经济时代,知识的有效管理和高效利用成为企业取得竞争优势的关键因素之一。如何管理和检索企业中存在的海量的非结构化知识,成为企业知识管理中亟待解决
当今在存储系统中,主流的存储器仍然是传统的磁盘和近几年广泛使用的基于FLASH的固态硬盘,磁盘因受限于内部的机械结构,读写性能较差,而固态硬盘虽然在性能上有了很大的改善,但写
属性基加密是近几年来密码学研究的热点问题之一,它是在模糊身份基加密的基础上发展起来的一种公钥加密机制,能够同时实现信息的私密性和访问控制的灵活性,它最大的优点是:特
随着国家对大力发展职业教育政策的出台,我国的职业教育蓬勃发展,中等职业教育也形成了良好的发展势头,学校规模不断扩大,学生人数逐渐增多,这给学校的教务管理工作带来了新
当前各个领域的多媒体和CG技术的快速发展,图像的渲染被广泛应用在电影里的动画设计制作、游戏画面静态及动态的特效上,而且随着越来越多有关图像形成方面的技术需求也越来越
并行磁共振成像(parallel magnetic resonance imaging,pMRI)技术是近十几年来MRI领域的一次革命,该技术利用放置在被检体周围的多个接收线圈来同步探测磁共振信号,并通过减少梯
目前国内外城市的公共交通均以地面交通为主,随着经济的快速发展,交通拥堵现象和日益增长的交通事故引起了国内外社会的广泛关注,为此越来越多的学者开始研究智能交通。智能交通
本文是以全国计算机信息高新技术考试(OSTA)为背景,开发相应的在线考试系统项目,结合办公自动化应用技能水平测试需要,利用教学单位现有教学资源,使用计算机技术和网络自主设
Web2.0的兴起吸引了越来越多的因特网用户,电子商务和论坛在这一平台上得到了长足的发展。在线购物网站和产品论坛中积累起海量的产品评论。产品的潜在用户希望从中获取有价
集合选择是分布式信息检索过程中的重要一环,其在尽量不影响检索效果的情况下,选择和查询相关度高的部分集合进行检索。目前大多数集合选择算法根据主要通过集合的静态统计信息