基于领域知识的开源软件标签层次自动构建与系统实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:TDM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着软件开发技术的发展,软件复用技术逐步成为提高软件开发质量和效率的非常重要的方法。同时,开源运动的蓬勃发展使得开源软件数量呈爆炸式增长,为软件复用带来了丰富的资源,但如何有效地组织开源软件并实现软件的准确、高效定位成为一个难题。层次化分类对于解决海量资源的管理和定位问题具有很好的效果。但作为层次化分类的重要元素,已有的分类层次已经难以适应开源的发展。目前分类层次构建工作已经分别从人工和自动化两个方向展开,前者分类层次质量高、代价大,后者构建速度快、代价小、质量低,当前实际场景中以人工分类层次为主。然而当前已有的人工构建的分类层次已经难以适应开源软件增长速度。本文围绕开源软件标签层次构建和基于领域知识的分类层次优化这两个问题展开研究。一些开源社区采用标签机制实现对软件资源你的管理和检索,但限制于标签的扁平化结构,标签中隐含的信息难以展现。标签间的同现关系蕴含着丰富的标签关系信息以及标签重要性信息,对于构建标签层次具有非常重要的利用价值。本文从标签同现关系入手,构造标签同现网络,据此网络度量最重要的标签的广义度与重要性,从而构建出开源软件标签层次。我们采用Openhub中的近19万个项目的近2万个标签进行实验,构造出了高质量的DAG形式的标签层次,与已有工作相比,提高了自动化构建分类层次的质量,为软件分类工作提供了良好的基础。人工构建的分类层次已经在一些社区中广泛使用,帮助缓解软件管理和定位危机。但是由于人工构建方式代价大、起点高、难以重构等特点,已经难以适应开源软件发展速度。由此而产生的自动化分类层次构建方法已经取得了一些研究成果,然而由于数据的噪声以及自动化方式本身难以理解概念等缺点,构建出的分类层次差强人意。两种构建方法分别具有各自的优缺点,并且它们可以形成优点互补。因此,本文基于人工构建的领域知识入手,研究融合两种方式的方法,进而利用领域知识实现对自动化构建的分类层次进行优化,以较高地效率进一步提高分类层次质量,推进自动化构建分类层次的应用工作。我们采用已有的Sourceforge中的分类层次,对上一步构建的标签层次进行优化,证明此优化方法的有效性,为软件分类工作奠定了更好的基础,进而为更高效的软件复用提供便利。
其他文献
夏秋季节鱼池只能追肥,不宜施基肥。 有机肥追施法:有机肥包括各种人畜粪便,每次每亩施100kg,7—10天施肥一次,可采取分小堆,堆放和全池泼洒的办法。还可采取搭架施肥,即用
肿瘤抑制基因p53是人类最常见的癌症灭活基因。组蛋白甲基转移酶(SMYD2)在赖氨酸残基370单甲基化p53(p53K370me1)后抑制p53抑制活性,在赖氨酸C末端甲基化p53后增强或抑制p53转录
目的:为有效治疗脑炎引发的继发性癫痫,临床探究托吡酯、卡马西平、丙戊酸钠疾病治疗效果。方法:选取某院2013年1月-2016年1月期间96例经诊断为脑炎继发癫痫入院治疗的患者,按
1947年3月,中国国民党在南京召开六届三中全会,讨论内外局势及国民党的对策。其时,国民党统治正面临严重危机,如何因应此等情势演进,稳固国民党的执政地位,为全会讨论的关键
社会经济的快速发展,使得环境破坏日益严重。随着低碳环保概念的不断深入,需要提高水工环地质勘察工作的效率。基于此,本文阐述了水工环地质勘察工作对环境破坏,对环境工程中
文章在介绍分析汽车制动控制技术的发展趋势上,介绍了ABS系统的工作原理和应用过程,提出了在使用和维修过程中的合理化建议。
教育实习是师范教育的有机组成部分,师范生可将所学习的相关教育理论付诸于实践,并提高自身的专业素养,是培养师范生和未来教师必不可少的途径。但传统的教育实习模式普遍存
一、抓紧做好养殖设施的加固和维修 网围区,应尽快整理木桩、修补网具,压实地脚,加固圩埂,堵实漏洞。常规塘口,应赶快排除积水,加固池埂,平整道路,修复好进出口水道及排灌系
秋冬季设施栽培蔬菜发生的很多病害都与设施内湿度过大紧密相关,如灰霉病、菌核病、细菌性溃疡病等。为较好控制病害,可采用以下几种降湿方法。1.合理浇水。浇水是导致棚室内