论文部分内容阅读
当今世界web2.0几乎已经得到了突飞猛进的发展,信息资源在现阶段快速增长,网络数据急剧倍增。在这种形式下对数据的索引和查找的迫切性需求促进了各大互联网公司开发搜索引擎,然而大多数搜索引擎是针对网络中无差别数据的。垂直搜索引擎概念的提出使网络搜索变的更加快捷方便,大家搜索的范围已经从整个行业转变到某一特定的行业,从而实现数据的“精、准、快”的查找策略,然而各地相关搜索引擎没有统一的衡量标准,造成主题资源的浪费,同时,由于数据的存储方式是基于全文的,造成了最终数据的索引只是面向文章的定位不是很精确。数据碎片化的提出为垂直搜索引擎更准、更快、更精的查找提出了一个建设性的思路。所谓的数据碎片化就是对从论文库和从web资源中取得的数据进行一些处理,使原始数据根据一定的依据打破原来的格式,以自然段或者相邻自然段的集合的模式进行存储,这就是我们所定义的主题数据。由于数据的碎片化,使我们对于数据进行存储的时候可以基于文章的标题、段落、索引、摘要等,这样我们的查询可以直接定位到文件相应的段落。然而当今的碎片化的主要用途是用于在进行查找之后将相关文章进行切分,提取出相应的段落出来,这样每次我们针对同一文章进行n次相同的查找的时候我们都要进行相同的碎片化工作,这无疑加大了服务器的工作量增强的系统的负担,因此在碎片化之前对数据进行存储无疑有利于系统的快速构建和数据的提取,本文是在和北京市某系统研究中心的合作项目中提取出来的。在项目的一起工作中我们已经完成了对于格式化数据的碎片化和相应主题信息的提取因此在本文中我们主要做了如下工作:1)分析当前系统存在的问题和不足,提出了关于碎片化数据的概念以及使用优势。2)根据项目需求设计一个针对于碎片化数据进行存储和调度的系统模型,通过这种模型的建立,系统可以对海量的数据按照一定规则进行分布式存储;3)设计调度模型多处理器的调度的算法,从而充分利用多处理器协同工作来提高网页处理的效率,帮助索引机制可以更方便快捷的对数据的相关主题部分进行查找,从而找到主题相对应的信息,实现数据的快速查找。