面向软件仓库挖掘的数据驱动特征构建方法

被引量 : 0次 | 上传用户:lwhssg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件仓库挖掘是近几年软件工程研究中的重要领域。在软件仓库挖掘领域中,软件工程任务通常转换成为数据挖掘问题。领域特征作为联系软件工程任务数据与数据挖掘算法的关键内容,严重影响软件任务的解决效果。然而,如何根据特定任务从软件仓库数据中构建有价值的特征,在软件仓库挖掘领域尚缺乏系统的研究。本文通过问卷调查的形式总结已有的软件仓库挖掘领域的特征构建方法,并在此基础上提出面向软件仓库挖掘的数据驱动特征构建方法,它是一种基于多名志愿者辅助的全新数据驱动特征构建方法。对于给定的软件工程任务,该方法从任务的数据集中选取部分数据(如源代码,缺陷报告等),同时招募若干志愿者依据这部分数据人工完成软件工程任务,并要求志愿者说明在人工完成特定软件工程任务时所考虑的因素。研究者通过分析这些因素,构建软件工程任务所需的领域特征。本文以软件仓库挖掘的典型任务缺陷报告摘要为案例对该方法进行深入分析,实验结果表明,该方法能够高效的发现领域特征,并提升数据挖掘算法在摘要任务上的预测效果。在此基础上,我们发现一系列影响该方法性能的因素,如志愿者数量对该方法产生积极的影响,随着志愿者数量的增加,该方法能够辅助研究者从多角度构建更丰富的特征。而领域知识并不是招募志愿者的硬性要求,大量的无领域知识志愿者可以弥补缺少有领域知识志愿者的不足。最后我们从内部效度和外部效度两个方面分析影响该方法有效性的因素,并逐一介绍解决方法以及未来研究方向。
其他文献
当代同性恋小说多采用第一人称自我叙述的策略,主要表现为由"我"来讲述"我(们)"的故事。这种叙述方式在表达同性恋者的主体地位和个体本位上占有优势,易获得读者的同情,且特
目前,青少年的内外化问题行为因其普遍性与严重性日益受到关注,大量研究对青少年内、外化问题行为形成的外部环境因素研究较多,对自身内部因素以及二者的交互作用进行深入探索较少。因此,本研究从家庭、手机使用外部因素和自我建构内部因素及两者之间的交互作用深入探索对青少年内、外化问题行为的影响。家庭作为青少年在成长过程中最基础与最重要的外部环境因素,对青少年的心理发展和社会适应具有重要的意义。父母与孩子之间亲
目的对脑卒中后抑郁症的发病情况及其影响因素进行分析。方法 90例康复科和神经科住院的脑卒中患者 ,在患者意识清楚 ,病情平稳 ,检查合作状态下由专人采用脑卒中后抑郁症的
轨道不平顺会影响车辆平稳性和舒适性,并具有显著的随机性。当轨道不平顺超过一定限度时甚至会危害行车安全,因此实时地掌握轨道状态对铁路运营具有重要意义。本文在总结国内
目的:研究顺铂、紫杉醇分别对CIK细胞杀伤肺癌A549细胞的影响并初步探讨其可能的分子机制。方法:MTT法分别检测顺铂、紫杉醇处理A549细胞24 h的半数抑制浓度(IC50),LDH释放法
公安学历教育是一种特殊的职业教育,既有普通学历教育的共性,又有警察职业教育的特点。借鉴国外警察教育的经验,分析我国地方公安院校体制不同模式的利弊,立足于社会主义初级
我国在大学生就业信息平台建设方面取得了较快发展,各高校逐步建立了自己的就业信息平台,一些企业主办的网站也相继建立。通过调查,现有的平台仍存在一些不足,今后高校主办的
2001年,笔者提出了癌症的靶向基因-病毒治疗(cancer targeting gene-viro-therapy,CTGVT)的概念,即将一个抗癌基因插入到溶瘤病毒(oncolytic virus,OV)中,从而将基因治疗与溶
目前,我国国家级超算中心大多采用"地方政府投资、以市场为导向开展应用"的建设思路,地方政府更关心涉及本地企事业单位的高性能计算应用和服务,超算中心常被用于普通的应用,
危险化学品种类繁多,并且具有易燃、易爆、腐蚀、毒害等特性,尤其是在危险化学品的仓储管理环节,过快的工业发展使得危险化学品的使用量和存放量不断增大,导致传统的化学品仓