基于概率图模型的代码库数据挖掘

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yellow1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
源代码阅读是一项十分困难的工作,特别是对于那些有成百上千个文件的源代码工程而言,比如Linux和Gcc这样的开源代码库,我们很难能够在短时间内清楚一个源文件是在做什么。所以对源代码文件进行分析的自动化工具变得十分重要,例如一些可以自动分析软件结构、功能、调用关系、开发过程甚至是开发人员与代码之间的一些联系等等。一些传统的主题模型比如LDA模型可以利用概率关系从文本中挖掘其中包含的多种主题。但是源代码数据与普通文本有着显著的区别,它们的各部分结构不是“平等”的。一个代码文件中包含的数据有接近普通文本的注释,也有受到程序语言约束的代码。另外,非监督型主题模型只能够给出主题的词分布,而无法得到确切的分类名。而且目前并没有一个针对代码分类的标准分类系统。在这篇文章中,我们提出了一个新的针对源代码库设计的概率图模型,用来对源代码库进行主题挖掘。这个模型不是将代码文件当成普通文本处理,而是将不同的部分,包括代码、注释、以及提交记录信息,进行不同的处理并通过主题将他们结合起来。因此,这个模型在模拟源代码库的生成过程中,相比于其它的传统主题挖掘方法更加贴近源代码库的真实生成过程。这使得我们得到的主题分布将更加可靠。但是,如果只有这个概率图模型,我们仍然不能得到一个源代码文件的确切分类。所以我们选择建立一个针对与源代码库的分类系统。在本文中,我们选择了对来自于著名的程序问答网站Stack over?ow的数据进行处理,建立了一个多分枝的层次化分类系统。同时,我们采用了不同的映射方法将源代码文件最终映射到相应的分类系统中。
其他文献
近年来,随着我国城市化脚步的高速发展,原生态的环境越来越少,大多都是人工改建成的,使得人们对绿色植物的渴望变得迫切,而现代风景园林绿化是城市建设一个重要的组成部分。
德育考核的目的有两个:一是对学生的良好的思想品德的形成起着监督及导向作用;二是对学生的思想品德及行为进行评价。德育考核的方法有多种,但我觉得“量化”是实施德育考核
《中国教育改革和发展纲要》强调,要“改变政府包揽办学的格局,逐步建立以政府办学为主体、社会各界共同办学的体制”。为此,我们对企业转换经营机制后我市厂企办教育面临的
摘要我国是农业大国,但农村水利设施建设薄弱,制约着农业的发展。由此,就四川省营山县农田水利建设中存在的问题进行了分析并提出了相应的解决对策。  关键词农田水利建设;基础设施;水利工程  中图分类号:F323.213文献标志码:B文章编号:1673-890X(2014)06-053-02  农业是粮食生产和农村经济活动的基础,是国家最重要的生命线。水利是农业的命脉,是粮食安全和乡村社会稳定的有效保障
文章对常用750kV避雷器进行受力分析,并探究在极端条件下避雷器断裂的可能性。通过构建引下线、管型母线和避雷器的复合受力结构,核验了极端条件下避雷器能否承受荷载强度。
为牢固掌握医疗核心制度内容,进一步提高服务质量,10月23日,台儿庄区人民医院举办了医疗核心制度知识竞赛活动,9个临床科室参加了比赛,全体职工观看了比赛,经过激烈角逐,急诊科、内
陶行知是中国20世纪初叶的伟大教育家,他以其将近三十年的教育实践,从教育哲学思想到教育实验的理论和方法,不仅引进了西方的现代教育观和科学的教育实验理论与方法,而且立基
随着经济的高速发展,节约能源已作为国家的一项产业政策被各行业所重视。火用分析法是以热力学第二定律为基础理论的分析方法,它是从能量质和量结合的层面上来考察能量的利用
社会主义市场经济模式的确立,必然要求建立与之相适应的教育投入新体系。当前,国家对教育的投入虽然逐年有所增加,但远远不能适应教育发展的需求。教育投入不足与教育需求的
将苏格拉底教学法与案例教学法(CBL)有机地结合并且应用于口腔牙周病临床实习教学,实践证明苏格拉底教学联合CBL教学有助于提高学生的学习兴趣,培养学生自主学习以及分析和解