JAR包信息搜集和整理工具的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:lok119119119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件复用能够有效的减少软件开发中的重复劳动,是提高软件生产率和质量的有效途径。存在大量的可复用软件资源是软件复用的前提和基础。随着Internet和软件复用技术的发展,在Internet上出现了越来越多可以被利用的软件资源,如Web Services、JAR包等。收集、整理这些软件资源将极大地丰富软件资源库中资源的数量和种类,从而有力地推动软件复用的进一步发展。   基于上述目标,北京大学软件资源库管理系统研发了基于Internet的JAR包搜索子系统原型,该系统目前已经收集了大约六千个JAR包资源。   但是,上述工作还需要进一步的完善。一方面,准确的把握和理解资源是成功复用资源的前提和保证。当前资源库实现的JAR包搜索子系统仅仅将Internet上的JAR包下载到本地资源库中,缺乏与该JAR包相关的描述信息,这给复用者使用软件资源带来了一定的障碍;另一方面,某个JAR包可能已经被复用多次,存在着很多使用评论信息。这些使用评论信息将有助于用户进一步了解JAR包在功能、效率、安全等多方面的质量。因此,系统需要收集、整理JAR包的相关描述和使用评论信息以帮助用户理解、使用这些JAR包资源。   本文针对上述问题给出了相应的解决方案,并在北京大学软件资源库管理系统的基础上设计并实现了基于Internet的JAR包信息收集和整理工具,论文主要工作包括:   1)JAR包描述和使用评论信息收集:本文提出了一种借助Internet搜集与指定JAR相关的描述和使用评论信息的方法。该方法采用通用搜索引擎Google和特定站点抓取相结合的策略来实现相关信息的收集。对于通用搜索引擎,本文首先从JAR包中提取足够多的、能够唯一标识该JAR包的信息,通过计算这些信息与Google返回结果的文档相似度来提取与之相关的描述和使用评论信息。对于特定的JAR包发布和管理站点,由于其中包含的信息质量较高,我们可以直接从中提取所需的信息。通过将通用搜索引擎与特定站点抓取相结合的策略,最终达到了丰富JAR包描述和使用评论信息的目的。   2)JAR包描述和使用评论信息分离算法:在上一步骤中,针对Internet获得的JAR包相关的描述和使用评论信息。本文提出了一个基于机器学习的将描述和评论分离的方法。实现描述和评论信息分离的意义在于:一方面有助于复用者更有针对性的理解、使用收集到的信息,缩短复用时间,提高复用效率;另一方面综合JAR包的多个使用评论信息,将为资源的可信评估提供更多的可信证据。   经过收集和分析处理后的JAR包描述和使用评论信息,将会持久化在文件中,随同JAR包资源实体一同发布到资源库。这样,资源复用者在复用该JAR包资源时,可通过阅读相关文件中的描述和使用评论信息,从而达到进一步理解资源的目的。   基于上述解决方案,本文设计并实现了JAR包描述和使用评论信息收集和整理工具原型,并对于设计和实现中的详细技术点进行了较为详细的论述,对工具中的关键算法进行了实验验证。
其他文献
规则引擎是推理引擎的一种,它起源于基于规则的专家系统。近些年来,规则引擎被越来越广泛的应用在业务逻辑的处理过程中,它将业务决策从应用程序代码中分离出来,接收数据输入
勘探石油天然气主要有三种方法。地质法、物探方法和钻探法。在这三方法中,物探方法的地震勘探是现代最主流也是最有效的方法。地震勘探工作包括三个步骤。数据采集、数据处
随着高校信息化的蓬勃发展,许多高校已经建立了相当多数量的应用系统,然而由于开发平台、工具的异构性和紧耦合性导致了应用系统之间不能互通互联、资源共享与软件复用,从而
医学图像归档与通信系统(PACS)作为医院信息系统(HIS)的重要部分,在传输、存储和处理医学影像过程中起着非常重要的作用。由于远程会诊的出现,PACS系统必须适应大规模、开放式
软件开发者对于日趋复杂的软件系统的理解和控制越来越困难,传统软件工程正接近其复杂性和可扩展性的极限.复杂性使软件开发困难,质量难以保证。以较低的代价、在规定的时间
目前,兵器工业第59研究所自然环境试验中心对材料表面腐蚀特征进行评价分析主要是通过人工观测分析的方法。人工观测分析方法由于受人的差异和经验等因素的影响,一方面难以保
标签系统是一种新的信息分类方式,它可以让互联网的用户对网络上的某个资源,或者内容标注任意他们认为合适的词语,该词语是对这个资源或者内容的描述,因此可以帮助用户非常快速地
食品安全不仅是关乎民生的大事,也是食品行业相关企业赖以生存和发展的生命线。目前,运用冷藏运输的方式将易腐食品和生鲜食品在流通环节中控制在适度低温环境下,成为了食品
近年来,随着虚拟现实、CAD、多媒体娱乐等相关应用产业的发展,越来越多的三维模型被创建和使用,而互联网技术的飞速发展和广泛普及也极大地促进了多媒体信息的共享和交流。关于
在计算机图形学领域,体绘制是一门独立的渲染技术。因具备对三维数据场的完全描述能力,体绘制技术在医学成像、地质勘探、数字雕刻等众多领域中得到了广泛的应用。体数据通常是