面向开源软件的聚类搜索系统设计与实现

被引量 : 0次 | 上传用户:al035258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用开源软件来提高软件的开发效率和质量,已成为在软件工程领域的重要发展趋势。随着开源软件的快速发展和广泛应用,互联网上出现了大量面向开源软件开发和共享的开源社区。目前,种类繁多、数量巨大的开源软件广泛分布于互联网的众多开源社区,这对开源软件的搜索和选择带来严峻挑战。如何自动收集和检索互联网开源社区中的海量开源数据,并对检索到的数据结果进行聚类分析,为用户提供一种面向开源软件的跨社区聚类搜索服务,是具有重要研究和实践价值的课题。本文深入分析了搜索引擎和聚类搜索相关技术,针对开源软件数据在互联网上的分布规律和数据特点,设计了面向开源社区数据爬取、属性抽取与索引、搜索结果聚类分析的开源软件搜索系统Influx,能够有效支持开源软件的跨社区聚类搜索。本文的工作主要包括:首先,本文对搜索引擎和聚类搜索相关技术进行了比较分析,针对开源社区搜索系统的特殊需求,提出一种面向开源软件的聚类搜索系统体系结构Influx,将此类聚类搜索系统结构划分为数据存储、数据检索、数据分析和数据访问四个层次,具有良好可扩展性。其次,设计了开源软件聚类搜索系统的信息检索机制和聚类分析机制。其中,基于Heritrix和Lucene平台设计了高效的开源软件信息爬取、信息抽取和属性索引机制,基于K-means算法设计一种改良的搜索结果聚类机制,以供用户选择性的浏览搜索结果。最后,实现了面向开源软件的搜索系统Influx并进行了实验,对系统功能和性能进行了验证。实验结果表明,Influx搜索系统能够有效支持在互联网范围进行跨社区开源软件搜索和搜索结果的聚类分析。
其他文献
第二次工业革命以后,人类迈入了电气时代。从此开始,科学技术突飞猛进,发明创造层出不穷。随着技术的进步,人类对电力的消耗也在与日俱增。电力短缺、有限的自然资源和环境污
现象学教育学摒弃先在的理论成见和抽象的形而上学,倾注于个体真实的生活世界,力图发现教育的"意义"之所在。在现象学教育学的视野下,我国教学机智研究存在着诸多需要厘清的
<正>峨眉山风景名胜区管理委员会等编著巍巍大峨,从祖国四川西南地突兀而起,雄秀天下。在过去漫长的历史岁月中,峨眉山不仅孕育了绮丽的自然风光,更遗存了大量珍贵文物。《尚
研究了计算机控制小工具抛光(CCOP)加工中三种常用的磨盘材料对去除函数特性的影响,进一步完善材料去除模型,用以指导光学零件的加工。利用自行研制的AOCMT光学加工机床及接触式
归因理论认为学习者对其学业成就因果关系的认知极大影响了他的学习动机、学习期望、学习兴趣和热情以及学习行为的持续性。韦纳(Weiner,1972)归因理论把能力、努力、任务难
居住于兴安岭山麓的鄂伦春族自古以来一直从事狩猎生产,独特的物质生产方式蕴育了极具特点的民族传统文化,鄂伦春人在漫长的狩猎生产活动中创造出来的音乐文化,在物质生产方
一、研究背景《国家中长期教育改革和发展规划纲要(2010-2020年)》提出:“强化信息技术应用。提高教师应用信息技术水平,更新教学观念,改进教学方法,提高教学效果。”课程改
首先,日本开国晚于中国,可以中国为前车之鉴;而中国开国虽早,可用于发展经济、和平建设的时间却少于日本。其次,“内耗”使中国浪费了大量人力物力;这方面日本处理的较好。第三,在近
《记念刘和珍君》是鲁迅先生一篇非常优秀的写人记事散文,这篇文章无论是老教材还是新课标教材都被选入了。传统课堂上教师一般从宏观角度分析作者情感,最小的单位也只是到句
知道曹子建,曹植者,几无不知其《七步诗》者。甚至,很多人恐怕还是从《七步诗》而知曹植的。时下,人民教育出版社出版的小学六年级的语文课本中就选有曹植的《七步诗》。很多