面向程序员问答论坛的高质量代码库自动挖掘与检索方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tcy789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件技术的迅速发展,软件规模越来越大,所涉及的知识领域也越来越多。如何有效提升软件开发效率成为程序开发人员必须面对的重要问题。发掘互联网上各类程序员在线问答网站上已有的高质量代码片段和对应的自然语言描述并利用它们构建代码仓库,不失为一种较为高效可行的方法。高质量代码片段指能够独立解决问题的代码片段。提供与代码问答系统相结合的高质量代码片段仓库,开发者便能在有需要时即时搜索相关代码片段并插入到自己的工程中使用。既缩短了编码时间,又提高了代码的可靠性。然而,构建高质量的代码仓库和代码问答系统也面临着诸多难题。其中核心的问题有两个,即高质量代码问答对的挖掘与问答系统相似问句的检索。在高质量代码挖掘方法上,目前多为人工进行筛选挖掘,这是一项费时费力的工作。在传统代码问答系统中,具有相同或相似的问句之间通常具有文本的不匹配。传统的基于文本匹配的检索难以满足我们检索语义相同的问题的要求。同时,基于语义匹配的算法效率通常低下。针对以上问题本文做出了以下工作。首先,我们收集了在线问答网站Stack Overflow上的Python语言的问题答案对,并提取了其中“How to do it”类型的问句及其Accepted Answer。并训练了一个基于GRU单元的双向循环神经网络的分层网络用于识别Accepted Answer中的高质量代码片段。我们使用这个分层网络对Stack Overflow上所有的Python语言“How to do it”类型的Accepted Answer中的代码片段进行挖掘,并获取了相当数量的高质量代码片段及其对应的问题。其次,我们研究了文本匹配级别与语义匹配级别的问句相似度计算,以及在语义级别上基于问句表示的相似度计算方法。然后我们将第一步挖掘到的高质量代码片段中的问句保留其与代码片段的映射关系进行存储,并根据问句相似度计算所需要的信息计算出问句库及单条问句的各项信息并保存。我们通过计算用户输入的问句与库中储存的问句信息快速计算输入问句与库中问句的相似度并返回满足要求的问题及其代码片段,以达到自动问答的目的。最后,我们根据上述理论设计并实现了高质量代码自动问答系统,并对这系统进行了测试。
其他文献
企业成长具有积极的社会意义,可以促进经济增长和增加就业。企业通过并购手段成长壮大已是世界经济发展过程中的一个普遍现象。这里所说的并购,就是通常意义上所指的战略性并购。战略性并购是相对财务性并购的一种并购形式。它是指并购的发起方依据自身的战略意图、产业发展的需要,结合自身资源禀赋,以强强联合或优势互补的方式同具有比较优势的被并购方进行合并,以达到优化资源配置,产生协同效应,最终增强并购方自身核心竞争
钙钛矿氧化物具有优异的氧化还原稳定性、热稳定性以及催化活性等优点被广泛用于中温固体氧化物燃料电池(IT-SOFC)的电极材料以及汽车尾气处理中。Sr2Fe1.5Mo0.5O6-δ(SFM)材料作
随着世界环境的不断污染和人口的不断增长,水资源的短缺成为亟待解决的问题。电容去离子技术(Capacitive Desalination,CDI)作为逐渐兴起的一种水处理技术,具有操作简单、低能耗、无二次污染、能循环使用等诸多优点,成为近代的研究热点。电极材料是电容除盐技术中的核心部分,电极材料的设计和制备直接影响着电容除盐效率、循环使用性能和应用工业化进程。因此,电极材料的选择和制备工艺是电容除盐
现场指纹是指犯罪现场中无意间留下的指纹。与常规指纹相比,现场指纹的图像质量较差、纹理不够清晰且常常被各种噪声所覆盖。因此在指纹特征匹配之前,需要先将现场指纹图像进
突发事件生成、演化和应对的复杂性,以及政府"单一"治理面临的挑战和协同治理面临的困难,使如何提升突发事件协同治理能力成为当代中国国家治理的一个重要问题。通过对突发事
伴随着公众消费模式、理念及渠道的改变,信贷需求迅速增长,作为现代化消费支付手段的信用卡得到了广泛的使用,信用卡业务已成为各银行发展的重点项目。信用卡是银行零售业务的核心,是银行服务和品牌的代言人,是信用卡营销银行将品牌做大,盈利增收,提升产品价值的重要手段,这也是提高核心竞争力、提升自身发展、转变经营方式、走向国际化的重要途径,因此各银行纷纷抢占这块中间业务。但是,随着商业银行数量和规模的不断壮大
为使序列密码和分组密码系统能够抵抗一些已知的和潜在的攻击方法,应用于密码系统中的布尔函数应当具有高的r阶非线性度。布尔函数的r阶非线性度在编码理论中也扮演着非常重要的角色,因为其最大值等于r阶Reed-Muller码的覆盖半径。到目前为止,对于变元个数较大且代数次数较高的布尔函数,要给出其r阶非线性度下界是一件非常困难的事情,即使是r=2。对r阶非线性度的研究主要是根据布尔函数微商的r-1阶非线性
随着互联网技术和数字多媒体技术的快速发展,每天都会产生海量的图像数据,由于人类的视觉系统具有快速定位图像中显著性目标的能力,进而对图像中的感兴趣区域进行快速处理。显著性目标检测就是模仿人类视觉系统的工作机制,对图像中的显著区域进行迅速定位,并作为后续高级任务的预处理步骤。因此,研究显著性目标检测受到越来越多研究学者的关注。针对于目前显著性目标检测方法存在的局限和不足,本文通过融合不同检测原理的弱显
本文主要研究随机干扰下环境污染对单种群密度的影响,并探讨几类随机传染病模型的动力学行为.本文通过对几类随机生态模型的定性分析,找到了随机生物种群绝灭与持久的充分性
氮杂环配体具有与过渡金属离子的强配位能力,与d10电子组态的亚铜离子形成的配合物不仅具有多样的结构而且在光致发光,光降解,光催化,生物制药,吸附和多相催化等方面有着重要的应用。本论文用亚铜盐与三种不同类型的氮杂环配体2-(2’-吡啶基)苯并恶唑(2-PBO),2-(4’-吡啶基)苯并恶唑(4-PBO),2,2’-(1,4-丁基)双-1,3-苯并恶唑(BBO)和一种硫配体(SPPh_3)反应,通过自