基于弱标记学习的开源软件自动标注研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:ccache
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开源软件在这些年快速发展,常见的开源软件库通常有数十万开源软件项目。软件工程师通常要搜索开源软件库以获得解决方案或者可重用的部件。为了便于开源软件的检索,目前多数开源软件库为软件提供多个描述其功能或特性的标注。软件标注现在使用的方法是人工标注软件。但是,人工的过程代价很大,并且很耗时。所以本文想要以自动化的方式来标注开源软件。在开源软件库中,很多开源软件项目具有缺失的标注,甚至有很大一部分开源软件不具有任何标注。本文基于弱标记学习对开源软件自动标注进行研究和分析,取得了如下创新结果:第一,开源软件库中不同标注的数量非常多,对于大多数标注而言,具有该标注的软件数量远少于不具有这个标注的软件数量。这种分布的不平衡性导致对大多数标注而言,具有该标注的开源软件概念信息很弱,传统多标记学习算法难以取得较好的效果。针对开源软件库中标注概念信息弱,本文提出了开源软件自动标注算法ML-CKNN,该方法通过在多标记学习算法中引入代价信息,让分类器对每个标注的正类更加敏感,有效缓解了标注数量过多带来的类别不平衡性。第二,在开源软件库中大量开源软件的标注是不完备的,即很多与开源软件相关的标注没有被标注上。这就导致开源软件完备性弱。许多多标记学习算法,通常有一个隐含的假设,即每一个样本的标注集合是完备的。在这种情况下,难以取得较好性能。针对开源软件项目标注完备性弱,本文提出了一种基于不完备标记学习的开源软件自动标注算法TagWell。该方法能够补齐开源软件库中软件项目缺失的标注。第三,不同开源软件项目的同一个功能可能使用不同的标注,比如同义词,或者同一个词的不同词型;不同的标注之间也有相互关系,但是这种关联信息很弱。目前,开源软件库尚未能利用到标注之间这种相互关系。针对开源软件标注关联性弱,本文提出了开源软件自动标注方法ML-RKNN,利用多源信息交互,有效学习到标注与标注之间相互关系,文本描述与标注之间的相互关系。从而,能够为开源软件项目提供给高质量的标注。
其他文献
自1991年碳纳米管(CNTs)被日本饭岛教授发现以来,CNTs及氮化硼纳米管(BNNTs)的制备和特性研究一直都是纳米材料的研究热点之一。现有对传统六元环CNTs和BNNTs的研究结果表明:
当代中国文化精神是在当代中国文化建设发展过程中,以马克思主义为指导,以中国特色社会主义先进文化为基调,在继承和发扬中华优秀传统文化和革命文化精粹基础上而形成的一种
构建和制造高功率和高能量密度、长寿命、绿色无污染的新型电化学能源系统对现代社会的发展具有重要意义。传统的储能设备主要包括电池和超级电容器,但是它们各自的缺陷限制了其进一步发展,例如电池的功率密度低和循环稳定性差,超级电容器的能量密度低。超级电容器-电池型混合超级电容器(SBHSC)是一种典型的由高倍率电容型电极和大容量电池型电极构成的储能器件,由于兼具电池和超级电容器的优点而受到广泛关注。水系锌离
随着现代医疗技术的发展,超声成像(US)、计算机X射线断层扫描(CT)、核磁共振成像(MRI)、X射线等影像学技术,成为当前医学影像诊断中最常用的手段。这些诊断手段具有不同的原
二十一世纪正是能源紧缺及环境污染严重的时代,所以提高能源利用率,降低由于不合理的机械设计而造成的能源浪费显得尤为迫切。搅拌机械广泛运用于工业工程领域,设计出高效能
我国正处于城市化快速发展中,其中大中城市主要分布在沿海地带及河流、湖泊的附近地区,地基土层以沉积的软土为主。这类软土抗剪强度低,透水性低,含水量高,孔隙比高,灵敏度高
随着我国养猪业规模化程度不断提高,利用信息技术来提升猪的养殖效率和健康管理水平已成为养猪业发展的必然趋势。计算机视觉技术作为一种能提升养殖业信息化水平的重要手段,
战略是企业在管理过程中必不可少的重要环节,它决定着一个企业的发展方向。企业战略是设立远景目标,并对实现目标的轨迹进行总体性、指导性的谋划,企业战略是指企业根据环境
伴随着城市化进程的不断加快,城市的规模也在随之不断扩大,那么人群的大规模聚集逐渐成为当代社会发展的一种普遍现象。人群聚集地一旦发生紧急情况,再加上断电、粉尘等意外
林子宗群火山岩是冈底斯岩浆岩岩带的重要组成部分,是印度-欧亚板块碰撞过程中岩浆作用的产物,记录了特提斯洋俯冲结束到印度-欧亚板块碰撞的信息。研究区位于冈底斯西段的措