开源软件生态系统的健康状态度量研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:suny112233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪末,开源软件系统取得了巨大成功,这为软件开发提供了一种用户创新驱动、成本低、质量高的新思路。为利用开源软件及其开发的优势,越来越多的公司和组织参与到开源运动中,建立起了商业-开源混合项目。在这些项目中,软件工业界驱动、围绕开源软件技术或平台搭建各种业务模型,项目参与者(Stakeholders)之间相互协作、利益彼此关联,从而形成了各种“开源软件生态系统”。  目前,开源软件生态系统作为一种新的软件生产方式,逐步被人们接受。与传统软件项目主要关注进度、预算不同,开源软件生态系统更加关注自身的“状态”。学术上将开源软件生态系统的“状态”称为其健康状态(Health),并定义:一个软件生态系统的健康状态是生态系统持续发展并保持可变及高效的能力。事实上,在开源软件生态系统中,开源开发方法与传统的商业开发方法存在冲突,导致两者的结合会遇到问题,威胁到开源软件生态系统的健康状态。软件产业界和开源社区开始普遍关注:在商业和开源两种开发方式进行融合的环境中,如何度量开源软件生态系统的健康状态,从定量的角度提供决策支持?  当前研究主要关注在理解开源参与者活动的特点和规律、刻画开源社区的活跃情况等方面。这些工作有助于展示参与者活动的变化趋势。但在实践中,各个开源软件生态系统的差异性较大,仅从参与者活动的变化趋势难以提供统一的结论。本文认为,对于开源软件生态系统健康状态的度量,需要建立在对开源软件生态系统进一步理解、分析和分类的基础上。特别地,要考察不同混合模式形成的生态系统之间的差异,度量不同类型的开源软件生态系统在参与者活动方面的变化趋势。在研究方法上,分布于互联网上的大量开源软件项目信息为本文提供了丰富的可用数据,为分析开源软件生态系统及度量开源软件生态系统的健康状态提供了研究途径。  针对现有研究的不足,本文尝试基于互联网上的项目文本数据以及项目开发过程数据,研究按照商业-开源混合模式细分开源软件生态系统的方法,并建立开源软件生态系统健康状态的定量度量体系,以帮助商业和开发决策。本文的主要工作和特色包括:  第一,研究了基于互联网上项目文本数据对开源软件生态系统按照混合模式进行定性分类的方法,主要包括以下两个方面:(1)采用雪球采样数据收集机制,利用经典扎根理论的定性分析方法,通过对数据进行过滤、编码及归纳,提出了一种面向混合模式的开源软件生态系统类型的剖析框架及二维投影判定方法,通过剖析混合模式两个维度(控制机制和商业投入力度)上所采取的多方面措施,可为理解软件生态系统的项目上下文提供分析手段。(3)采用上述剖析框架,对三个实际项目的9个同构阶段进行了分析,提出了三种开源软件生态系统类型:主持型、支持型、合作型。  第二,研究了基于项目开发过程数据的、从商业投入力度的角度度量开源软件生态系统健康状态的方法,主要包括以下三个方面:(1)基于代码提交历史,提出开发者活动相关的四个堆度的健康状态度量方法,包括采用新外部人页进入率的回归分析度量项目吸引力、采用开发者贡献时间的生存分析度量项目持续性、采用代码贡献分布的组成分析度量团队多样性,和采用代码所有权的回归分析度量项目规范性。(2)基于问题报告记录,提出用户活动相关的两个雏度的健康状态度量方法,包括采用问题报告主体的回归分析度量用户参与度和采用问题报告的生存分析度量用户体验。最终,形成了一套以社区为中心开源软件生态系统的健康状态度量体系。(3)基于该度量框架,结合开源软件生态系统的类型分析,对三个实际项目的健康状态进行了度量,发现了一组参与者活动在不同类型开源生态秉统中的变化规律。这些结果都为开源软件生态系统实践提供了经验参考。  基于上述工作,本文设计并实现了一个健康状态度量工具,并为实现多数据源支撑的健康状态度量工具,建立了数据支撑方法中的远程开发过程库持续克隆机制和多数据源集成机制,为进一步研究开源软件生态系统奠定了技术基础。
其他文献
随着Internet的迅猛发展,从互联网中搜索自己需要的信息成为人们获取信息的主要方式.虽然网络搜索引擎为用户查找信息提供了极大的方便,但在智能化程度和反馈信息的组织上都
现代网络技术的快速发展,特别是Internet的日益普及,使得计算方式步入了以网络为中心的计算时代,传统的信息系统概念也发生了巨大的变化,而这些变化突出的表现在信息的存储、
随着计算机和计算机网络的飞速发展,信息系统安全成为当前研究的热点课题。作为信息系统核心的数据库的安全,尤其是网络环境中的数据库的安全则成为重中之重。而国内企事业单位
信息化建设的进程在教育行业迅速推进,“学校信息化”、“校园网”、“校校通”成为当前网络建设的热点。教务系统是校园数字化建设中的重要组成部分。随着系统需求不断复杂,迫
随着计算机系统的广泛应用和不断发展,计算机系统上的各类信息资源的安全性越来越受到人们的关注与重视。而一个系统中的信息的安全性,很大程度上取决于其所基于的安全模型和体
伴随着互联网的普及和网上信息的爆炸式增长,数据的规模呈指数增长.搜索引擎(Search Engine)的出现在一定程度上缓解了人们在网上搜索信息困难的矛盾,同时它已成为因特网信息
电子病历系统的建立是医院实施以病人为中心的新一代医院管理信息系统的核心,其根本目标之一是形成病人的电子病历,同时也是医疗信息系统的一个关键组成部分.可扩展标志语言
随着数字媒体(数字图像、数字视频、数字音频等)的广泛应用,其版权保护成为一个迫切需要解决的问题.传统的加密系统在数据传输过程中虽有保护作用,但数据一旦被接收并解密,其
作者作为项目的主要设计开发人员参与了西安交通大学图书馆跨库检索系统的开发工作.此系统的目标是为学校科研人员查询信息提供一个方便的、"一站式"的检索界面.用户在这个界
六面体网格是最理想的有限元体网格。但由于其存在强结构性约束,高质量六面体网格的自动生成仍然存在很多问题。到目前为止,仍然难以对复杂模型进行高质量的六面体网格自动生成