面向开源软件社区的标签自动构建与项目智能搜索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wwvicky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着软件与互联网产业的大规模发展,各种开源软件项目托管平台应运而生。这些平台不仅为软件开发者们提供方便的源代码管理工具,同时也为社区用户提供开源项目搜索服务。然而,多数开源软件项目中存在许多非结构化描述信息,用户为了找到合适的软件资源,通常需要耗费大量精力进行筛选。其次,目前大部分的搜索引擎只考虑了搜索内容与软件项目名称或描述文本之间的相关性,缺少对软件项目实际功能、应用环境等软件特征方面的考虑。用户在利用某些隐含的软件特征进行搜索时,通常无法得到满意的结果。针对上述问题,本文提出了一种为开源软件社区项目进行标签自动化构建的方法,对多个软件社区数据进行相关性分析,并利用机器学习方法在构建的图模型上完成标签传播。标签作为对描述内容的一种概括和抽象表示,能够帮助用户快速了解软件项目的特点。以构建好的标签为基础,本文提出了一种能够支持软件特征搜索的开源软件项目智能搜索方法。本文的主要贡献和创新点包括:1)研究提出了一种针对软件工程领域的跨开源社区自动化标签构建方法。该方法通过对多个软件工程社区网站数据的异构性和相似性进行观察,分析得到异构实体间的若干种相关性特征,并对异构数据对象进行相关性量化;通过对象的相关性构建相应的实体关系图模型,并应用了一种带重启随机游走的半监督机器学习方法,完成跨社区的标签传播。2)研究提出了一种针对用户请求的语义扩展方法。该方法结合了互联网知识、软件工程领域及通用领域的知识库,分析识别出原始搜索文本中的领域关键词;利用领域知识库对关键词和概念节点进行匹配,并对语义相关的同义词和上下位词进行语义扩展,生成语义扩展后的搜索词集合。3)研究提出了一种人工模型和机器学习模型融合的开源项目搜索方法。本文以软件项目为特定搜索对象,提出了包括项目文本语料、软件特征在内的多种相关度特征,其中软件特征是通过领域标签进行表达的;利用人工定义的相关度模型完成搜索结果的筛选,再应用排序学习模型对候选集的资源进行分析和排序;在人工模型保证一定搜索质量的情况下,还结合了用户对搜索结果的实际反馈。本文从StackOverflow和GitHub收集数据并进行了实验,为GitHub中的上万个软件项目构建了语义标签。该方法的F1-Measure值平均高于次优方法约11.52%,最优时能提升28.02%,相比于现有的标签构建方法具有更高的预测准确率和丰富度。基于标签进行了项目搜索,相比于同领域搜索引擎和通用搜索引擎具有更好的搜索效果,同时也能满足性能上的要求。
其他文献
随着互联网的日渐普及,信息检索成为当今生活中不可或缺的部分,其中与空间信息相关的地点检索更是用户日常检索中的重要组成部分。然而随着数据量的急剧增大,传统基于文本的
巡更巡检对企业、社区意义重大,而传统的巡更系统不具有便捷性和实时性、不能实时反馈上报巡更信息以及浪费资源。针对这些问题,电子巡更系统应运而生。智能手机的普及与NFC(
本文主要研究如下具次线性和超线性源项的四阶非线性双曲方程的初边值问题解的爆破性与初始能量之间的关系.首先,通过能量估计和凹方法给出方程解爆破时间的上界估计.进而,利
随着空间光通信技术的不断发展,信标光在空间光通信系统中的作用越来越重要,信标光光源对整个空间光通信系统具有举足轻重的作用。想要得到符合空间光通信要求的信标光,必须
随着金融衍生品在金融市场上的广泛应用,期权定价问题引起了人们越来越多的关注.由于能源的可存储性比较低,能源市场需要交付更加灵活的金融衍生品.摆动期权就是能源市场上应
在对航天器进行地面仿真的过程中,需要使用气浮台来提供微干扰力矩的动力学仿真实验环境。在这种航天器动力学闭环仿真实验中需要实时获取气浮台的位置和姿态信息,实现气浮台
本文用修正弱有限元方法(modified weak Galerkin finite element methods)来求解三种边值条件下二阶椭圆方程.该方法的主要思想是利用单元内部函数的平均来替代单元边界函数,
本文主要讨论了一个非线性偏微分方程:五阶(3+1)维Kadomtsev-Petviashvili Ⅱ(KP-Ⅱ)方程Cauchy问题解的惟一连续性.解的惟一连续性是可积系统的重要性质之一,证明非线性偏微
视觉惯性里程计(VIO)被广泛应用于无人机、无人驾驶、VR/AR等领域中,用于解决移动端在未知环境中实时定位的问题,具有重要的研究价值。为了提升位姿估计的准确性和鲁棒性,本
通常我们在处理一些数据问题时,会遇到传统计数统计模型无法解决的数据,例如在样本点0、1、2三处膨胀的数据样本.这样的数据在保险、心理学、经济学和生物医学都时有出现.这