社区问答跨模态候选答案排序方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ssaifengchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中文社区问答的不断发展,中文社区问答(如知乎、百度知道等)中积累的问答对数目非常庞大,当有用户提问时,先在社区问答中检索与提问类似的问题,若该问题并没有在社区问答中出现过,则将这个新问题发布出去,若检索到类似的已经被回答了的问题,则将类似问题的问答对返回给用户。随着信息时代的发展,人们在回答问题时,不仅仅局限于使用文本进行描述,并且用图片、音视频等更加直观的方式进行进一步的解释说明或作以证明等等,形成了多模态数据相辅相成的表现形式,故现在的中文社区问答中答案大多包含文字、图片、音视频等多模态数据。由于当前社区问答跨模态答案中存在着大量的其他多模态数据没有被合理的利用,未发掘文字、图片、视频、音频等多模态数据之间的关联性,在进行跨模态答案排序问题时也未考虑其他多模态信息的特征,以至于有些问题的高质量答案没有被有效排列。如何为提问者提出的问题匹配到更合理的答案,提高社区问答用户获取高质量答案的效率,是中文社区问答需要解决的关键问题之一。本文主要是针对目前中文社区问答中答案存在多模态结合的表达方式情况下,即除了文本表示外,还包含有图片、视频、音频等其他模态的信息表达形式,通过提取问题的文本特征、答案的文本特征以及答案中的其他多模态信息(本文以图片信息为例)的特征,再分析文本特征与图片特征之间的关联性,通过不同模态数据之间的关联性分析,研究了如何利用回答中的多模态信息来调整答案的分值,并提出了社区问答的跨模态答案排序方法,从跨模态的角度来分析多模态结合的答案,解决答案排序问题,将高质量的答案更高效地返回给用户。本文的主要研究内容如下:(1)相关性问题检索。当用户提出一个新问题时,需要通过问题与问题的相似度计算来返回给用户相似问题的问答对,本文使用了基于Word2vec词向量和GRU神经网络进行问句编码的相关性问题检索方法。(2)问题与答案的跨模态检索模型构建。首先计算问题与答案中其他多模态信息(本文以图片信息为例)的关联度,然后计算答案中文本与其他多模态信息(本文以图片信息为例)的关联度。采用LDA方法来提取问题与答案中的中文文本特征,采用SIFT方法提取答案中的图片特征,再通过典型相关性分析(CCA)方法进行关联度分析,计算出了问题文本与答案中其他多模态信息的关联度以及答案文本与答案中其他多模态信息的关联度。将文本特征向量集和图像特征向量集映射到同一最大相关子空间中,当用户给定一个问题查询时,求出问题文本的特征投影与答案中的图像特征投影之间的距离,将距离值最小的图像作为与问题文本特征最匹配的检索图像,同理可以求出与答案文本最匹配的图像,从而实现文本和图像的跨模态检索,构建了文本和图像的跨模态检索模型。(3)基于跨模态检索的答案排序方法。本文通过问题相似度计算,解决了当用户提出一个新问题时,可以从社区问答的问答对库中找到与问题相似的一系列问答对,然后从这些相似问题的问答对中,找到与问题关联度较高的多模态信息,多模态信息是回答中所包含的多模态信息(例如图片等),再看该回答中的文本与回答中的多模态信息的关联度。最后利用问题相似度分值、答案中的多模态信息与答案中文本的关联度分值和答案中的多模态信息与问题的关联度分值对答案的质量进行评价并得到排序结果。综上所述,本文考虑了社区问答答案中的多模态数据,针对社区问答中的跨模态答案发掘不同模态数据之间的关联性,构建了问题与答案中图片以及答案中文本与图片的跨模态检索模型,在此基础上提出来社区问答跨模态候选答案的排序方法,与现有的答案排序方法作对比实验,证明了本文提出的排序方法的有效性。
其他文献
为实现各导航系统的兼容与互操作,需要对各导航系统间的时间偏差进行实时监测。目前,GNSS时差监测的主要方式是通过采用多模接收机接收空间信号,建立定位方程,通过参数估计的
作为一种应用广泛的非监督学习任务,聚类任务一直是热点研究问题。传统方法已经取得了不错的成绩,然而其在面对大规模高维数据时却力有不足。受到深度学习在分类问题中取得显
宫颈癌是最常见的女性恶性肿瘤之一。相关医学研究表明,可以通过早期病变筛查降低宫颈癌发病率和死亡率,因此,癌前病变的筛查成为宫颈癌预防的关键。阴道镜检查是宫颈病变筛
财务重述是上市公司针对以前发布的财务报表遗漏或者错误的信息,进行补充或更正的行为,本意是通过修正或提供更为准确的财务信息来保护投资者利益。可是近些年,财务重述在国
智能移动终端在现今移动信息时代中已经成为人们日常生活中必不可少的物品之一,同时随着移动终端和无线网络技术的飞速发展,人们的消费理念随着国民经济的持续增长渐渐的由物质需求向精神需求开始转变,网络娱乐类产业为满足人们对精神文化上的需求,以内容品质为突破口,追求卓越。这对娱乐产业来说是机遇也是挑战,如何在在线音乐产业这块红海中占据一席之地,对各音乐APP而言是不易的,目前随着整个音乐市场的高度集中化,用
与零带隙的石墨烯不同,二维(2D)过渡金属硫族化合物(TMDs)由于d电子相互作用而具有随厚度变化的可调谐带隙(1~2 e V),成为了新型电子和光电子器件应用领域的明星材料体系。其中,二硫
本文致力于短波直扩信号检测技术研究,重点研究低信噪比条件下直扩信号的检测与参数提取等技术难题。主要以典型短波扩频信号为研究对象,通过进行信号仿真,确定和提取信号特
目标在雷达高频区表现出明显的散射中心特性,目标散射中心的特征提取为雷达图像解译和目标的分类识别提供了有力支撑。基于电磁散射参数化模型的特征提取方法可以有效地从目
自啁啾脉冲放大技术被提出以来,超短超强激光得到了飞速发展,并且在物理学、化学、材料学、生物学、医学等诸多领域都有着广泛应用。这些学科的兴起也促进超短超强激光向着更
依存句法分析是自然语言处理的重要研究任务,由于缅甸语为资源稀缺语言,人工标注大规模的缅语依存句法分析数据存在较大困难。本文利用英语的依存标注数据,通过迁移学习方法