基于注意力机制的Stack Overflow问题相关性预测模型研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:sz_ydz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Stack Overflow是最流行的编程社区问答(PCQA)网站之一,近年来吸引了越来越多的用户。用户的增加使得网站上有大量的问题被提出,而这些问题之间可能存在相关性而未被识别。当用户在Stack Overflow提出或查询问题时,若能提供与该问题相关的问题有助于用户解决问题。此外,识别出重复问题能够更好地帮助网站进行维护,也减少了提出重复问题的用户的不必要等待时间。尽管已有大量研究方法致力于自动预测Stack Overflow上问题之间的相关性,但这些方法中,基于特征的方法未能充分利用问题中的语义信息,并且无法克服词汇间隙问题。而深度学习方法大多基于句子编码模型的结构进行构建,这类方法可能会丢失两个问题之间的语义交互信息。此外,由于问题内通常包含着较长的文本序列,该类模型也无法对文本进行合适的特征提取以及长距离依赖信息的有效捕获。针对上述问题,本文中提出了基于注意力的句子对交互模型(Attention-based Sentence Interaction Model)ASIM,用于自动预测Stack Overflow上问题之间的相关性。ASIM模型主要由(1)文本编码及特征提取框架和(2)交互信息提取与融合框架构成。在文本编码及特征提取框架中,本文通过预训练特定于软件工程领域的词嵌入,减少一般领域词嵌入在大量与软件工程无关的语料上训练带来的单词含义不准确问题,并基于自注意力机制对双向LSTM编码器的输出进行问题内交互信息的提取以及长距离依赖信息的捕获;在交互信息提取与融合框架中,本文采用软注意力机制对问题间交互信息进行提取,并通过与原始问题特征的融合,使得模型做出更稳定的匹配,进一步提升预测效果。实验结果表明,ASIM在Stack Overflow知识单元数据集上获得了超越其他模型的优秀性能,相较于此前效果最好的模型DOTBILSTM,在Micro-F1评估指标上有着6.9%的绝对性能提升,达到了81.91%的得分。此外,为验证模型的泛化性能,ASIM在软件工程领域的Ask Ubuntu重复问题检测数据集、一般领域中的Quora Question Pairs数据集、Sci Tail数据集以及Wiki QA数据集上进行了实验。ASIM同样保持了优越的性能,超越了众多现有方法,证明了该模型的泛化性以多领域预测能力,为模型的理论和设计提供了有力的支持。
其他文献
学术论文是科研成果的重要体现方式之一,是科学研究工作的结晶,具有很高的参考价值。随着科技的进步,新兴技术不断地应用在标准文献的研究上,论文分析正朝着更细粒度的方向发展。但越来越丰富的功能让开发者的压力也越来越大,学术论文分析往往需要不小的门槛,没有专业背景的开发人员与研究者的沟通障碍也会让双方的工作效率都会下降,同时,研究者日渐复杂和个性化的分析需求无法及时满足,也会影响到科研的效率。本文针对特定
学位
图数据描述个体与个体之间的关联关系,在我们的日常生活应用中广泛地出现。图数据潜藏着大量有意义的信息,近年来,图数据的分析和挖掘是人工智能领域的一个热点,而图节点分类是图数据挖掘中最重要的研究方向之一。图节点分类通过对现实中具体任务进行建模,挖掘图的节点特征信息和节点间的连接信息,实现对节点的标签分类。图神经网络在学习非欧里几得数据时具有明显的优势,是实现图节点分类任务有效的神经网络模型。然而,随着
学位
软件开发过程中,测试人员或者用户在发现软件异常后,会形成描述相关缺陷的软件缺陷报告提交到缺陷管理系统中,开发人员需要分析缺陷报告从代码文件库中找到缺陷所在位置并修复。为了以更少的成本完成生产环境中的软件缺陷定位,研究人员提出了多种自动化地解决软件缺陷定位的方法。基于信息检索的软件缺陷定位方法将缺陷定位视作检索任务,为每一份缺陷报告生成一份按照程序模块与缺陷相关性降序排序的列表。然而目前方法在性能上
学位
飞秒激光烧蚀在微纳加工等方面具有广阔的应用前景,飞秒脉冲宽度极短,能够在样品表面实现超精细的烧蚀及加工。脉冲整形技术能够对脉冲的各种性质进行调控,例如产生特定脉冲序列以及使脉冲时域结构发生变化,从而能够满足多种特殊物理过程的研究。本文在采用Sine位相的基础上,还使用了负三次位相及Alpha位相的整形脉冲对多晶Cu进行烧蚀,在组内之前着重研究能量通量对烧蚀形貌影响的基础上,创新性地以焦点位置为角度
学位
激光诱导击穿光谱技术(Laser-induced breakdown spectroscopy,简称LIBS)是一种物质元素分析技术,它能够实现待测元素的定性分析与定量分析,近年来凭借其独特的分析优势逐渐被人们关注。本文从国内外研究进展介绍这项技术的发展进程,并从等离子体的产生及辐射过程介绍这项技术的理论基础。在这个过程中了解到这项技术检测灵敏度相对较低的缺陷,并且这一问题制约LIBS技术的发展。
学位
强激光脉冲与物质的相互作用是科研人员们近些年来的一个热点研究方向。作为一种新的获取X射线光源的方法,高次谐波可以用来产生阿秒脉冲。利用阿秒时间尺度的脉冲来探测电子内部的运动规律,跟踪原子和分子的超快动力学过程,也是理论计算和实验中的重要研究课题。提高高次谐波平台区发射效率的方法及高次谐波发射的物理机制成为人们广泛关注的热点问题。相比于气体靶高次谐波,固体高次谐波因为具有高密度的特性而备受关注。我们
学位
粒子碰撞是研究物质相互作用的重要途径和手段之一,激光是人类调控物质的重要工具。激光技术自从20世纪60年代以来不断革新,啁啾脉冲放大技术的出现,使激光脉冲的峰值强度得到了极大提高,达到并超过了太瓦(1012W/cm~2)量级,脉冲持续时间也压缩到了飞秒(1015s)量级。这样的强激光的电场可以与原子核对电子的库仑作用相比拟,脉冲长度也与碰撞作用时间接近。因此,通过超快激光可以对粒子的碰撞过程产生重
学位
本文分别选用CH4分子和NH3分子与飞秒激光相互作用发生电离后产生的光电子速度成像实验研究分子阈上电离和振动激发效应。实验采取速度成像技术观察CH4分子或NH3分子发生电离产生的光电子,通过改变激光强度分析分子振动激发轨道演化和振动态在分子电离过程的贡献。我们提取了分子电离后有关中间态的光电子动能分布与角分布,目的是要通过分析逸出电子的角分布及动能分布,获取分子在激光场中电离过程的重要物理信息,为
学位
软件架构是指导软件系统进行开发和实现的决策模型。良好的软件架构是可理解性、可测试性、可扩展性和可重用性的前提。然而,在软件实现过程中无法保证构建的软件没有偏离预期的软件架构。另一方面,随着软件的发展,软件架构可能需要进一步调整和优化。软件架构异味是指不良的架构设计,是常用的设计决策,会对软件的质量产生负面影响。由于软件的架构异味隐藏在实现的代码中,人工难以直接从软件代码中观察到架构异味,因此许多架
学位
随着对高次谐波探索的不断深入,高次谐波的发展在一些领域已经取得了喜人的成绩,高次谐波其中一个最重要的应用就是来探测复杂的分子结构及动力学过程,这是由于高次谐波生成过程本身就来自于电子的超快运动,因此可作为探测分子和原子内部结构以及捕捉其内部电子运动过程的一种工具。利用高次谐波对分子轨道进行层析成像,也为研究分子的内部结构提供了前所未有的途径。本文首先利用Molpro量化软件获得较为准确的N2分子轨
学位