基于群体参与的开源软件推荐方法研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:wagegea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提高软件的开发效率和质量是软件工程领域的一个巨大挑战,软件复用技术是解决这一问题的根本途径。开源软件的蓬勃发展,越来越多的软件发者、业余爱好者参与到开源软件开发中,分享自己的经验知识、发布自己开发的软件项目,从而在开源软件社区中积累了海量的软件资源。一方面,大规模的软件资源为软件复用提供了丰富的、可复用的开源资源。另一方面,开源软件资源规模巨大、分布广泛、增长快速的特点,使得开源软件在检索、跨社区资源定位和关联分析等方面面临巨大挑战。为了应对这一挑战,文本展开了以下工作:(1)提出了基于软件项目标注标签的推荐算法。在开源社区中,标注标签是软件项目的一类重要属性,它是对软件的主题、功能、特征等宏观方面的概括,具有良好的组织结构。本文从这一特性出发,对软件的标注标签展开了详细的分析和讨论,提出了基于项目标注标签的推荐算法,该算法是基于内容推荐的一个变种,能有效地通过软件的特性来反映软件之间的相似关系。通过与基于软件在线描述推荐的对比实验,该算法在准确率和正确率评价指标方面表现出了良好的效果。(2)提出了跨社区关联的开源软件推荐算法。在开源生态下,不同类型的软件资源往往分布在不同的社区。开发者在协同开发社区中开发和发布自己的软件项目,而用户则在知识分享社区中评论、咨询相关软件问题。两类社区的数据相对分散,没有有效关联,这给软件缺陷修复和软件资源定位带了巨大挑战。基于项目标注标签的推荐方法,虽然能在相似软件推荐方面缓解这一问题,但是其相关软件的推荐效果较差。本文通过对两类社区中的资源特性定性分析,提出了跨社区关联匹配的推荐算法。在与基于项目标注标签推荐算法的对比实验中,该算法在相关软件推荐方面表现得更突出。(3)设计并实现了开源软件推荐系统。为了能对推荐结果进行展示,本文基于OSSEAN平台设计并实现了开源软件推荐系统。目前,系统已为231542个开源软件项目生成了相应的推荐项目,并实现了跨社区的软件资源关联。
其他文献
流线可视化是流场可视化领域重要研究方法之一,具有简单直观、适合交互等特性,在工程实践中广泛应用。流线可视化可以归结为两方面的研究:一种是流线种子点分布算法;一种是流
万维网(World Wide Web)已成为人们获得信息、取得服务的重要渠道之一。但至今它主要作为文件媒体的集合,其上的大部分内容都是设计给人看的,而计算机却不能对其内容进行自动
随着移动通信技术的迅猛发展和多媒体压缩技术的不断提高,诸如手机电视,手机监控等移动流媒体应用日益受到人们的青睐。在分析移动流媒体传输特点和H.264视频编解码技术的基
神经网络发展迅速,经过各国学者多年的研究创新,许多具备不同信息处理能力的神经网络已被提出并应用于各种信息处理领域。其中以BP神经网络的应用最为广泛,据统计,80%-90%的神经网络模型采用了BP网络或者它的变化形式。已有理论证明,三层结构的BP网络可以逼近任意的非线性映射关系。但在实际的训练过程中,常会因为网络结构不合理或初始权值的选取不当导致训练精度达不到要求,引起网络的重新训练,降低了训练效率
“Self-NonSelf”(SNS)识别模型是传统人工免疫模型中的一个重要分支。美国免疫学教授Forrest基于SNS模型提出了否定选择算法,成功的模拟了免疫耐受的过程。然而Kim的研究表
移动目标视频跟踪是当前信息领域的前沿和热点方向,融合了计算机科学、自动控制、机器视觉、图像处理、模式识别、数学等多学科的先进技术。本文以智能视频监控作为主要线索,
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高。对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一,将语义计算
随着人类基因组测序工作的完成,蛋白质分子序列数据呈几何级数增长。通过对蛋白质的分子序列的折叠结构的研究和分析,可以预测蛋白质的功能。这对于生物学、医学的研究发展有
高性能计算在气象预报、航空航天等领域有着广阔的应用前景,MPI是当前高性能计算应用进程间消息传递事实上的标准,集合通信是影响高性能计算应用性能的重要因素之一。自由光
矢量线可视化法以其能表示矢量场的连续性,绘制效果直观而广泛应用在工程实践中,已成为流场可视化的重要方法。随着科学模拟精度不断提高,矢量场的数据规模不断增大,传统的矢