一种基于主题数据的存取调度模型的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zlklovey365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今世界web2.0几乎已经得到了突飞猛进的发展,信息资源在现阶段快速增长,网络数据急剧倍增。在这种形式下对数据的索引和查找的迫切性需求促进了各大互联网公司开发搜索引擎,然而大多数搜索引擎是针对网络中无差别数据的。垂直搜索引擎概念的提出使网络搜索变的更加快捷方便,大家搜索的范围已经从整个行业转变到某一特定的行业,从而实现数据的“精、准、快”的查找策略,然而各地相关搜索引擎没有统一的衡量标准,造成主题资源的浪费,同时,由于数据的存储方式是基于全文的,造成了最终数据的索引只是面向文章的定位不是很精确。数据碎片化的提出为垂直搜索引擎更准、更快、更精的查找提出了一个建设性的思路。所谓的数据碎片化就是对从论文库和从web资源中取得的数据进行一些处理,使原始数据根据一定的依据打破原来的格式,以自然段或者相邻自然段的集合的模式进行存储,这就是我们所定义的主题数据。由于数据的碎片化,使我们对于数据进行存储的时候可以基于文章的标题、段落、索引、摘要等,这样我们的查询可以直接定位到文件相应的段落。然而当今的碎片化的主要用途是用于在进行查找之后将相关文章进行切分,提取出相应的段落出来,这样每次我们针对同一文章进行n次相同的查找的时候我们都要进行相同的碎片化工作,这无疑加大了服务器的工作量增强的系统的负担,因此在碎片化之前对数据进行存储无疑有利于系统的快速构建和数据的提取,本文是在和北京市某系统研究中心的合作项目中提取出来的。在项目的一起工作中我们已经完成了对于格式化数据的碎片化和相应主题信息的提取因此在本文中我们主要做了如下工作:1)分析当前系统存在的问题和不足,提出了关于碎片化数据的概念以及使用优势。2)根据项目需求设计一个针对于碎片化数据进行存储和调度的系统模型,通过这种模型的建立,系统可以对海量的数据按照一定规则进行分布式存储;3)设计调度模型多处理器的调度的算法,从而充分利用多处理器协同工作来提高网页处理的效率,帮助索引机制可以更方便快捷的对数据的相关主题部分进行查找,从而找到主题相对应的信息,实现数据的快速查找。
其他文献
智能网的基本思想是将传统交换机的交换功能和业务控制功能相分离,这样使网络可以快速、灵活、方便地产生各种新的电信业务。智能网技术特别是移动智能网技术的广泛应用极大
近年来,移动广告业务无论在业务规模还是在用户规模上都有了长足发展,随之而来的业务管理的需求量也日益增长,这就对移动广告管理平台提出了更高的要求。在当前的企业中,市场
随着计算机技术的飞速发展,软件的规模呈现爆炸式的增长,同时软件系统越来越大,系统内部模块越来越小,功能日趋复杂。这种情况下,模型驱动架构(Model Driven Architecture)应运而
目前移动通信网络中的核心网部分主要由电路交换域(CS)、IP多媒体子系统域(IMS)和演进的分组系统域(EPS)三个部分组成。这三个域在功能实体、业务提供以及数据存储方式等方面
贸易流程十分复杂,牵涉到很多部门、组织和公司等。快速而又准确的描述一个贸易流程可以极大的提高工作的效率,这时候就需要一个好的流程建模工具。本文的研究重点就是开发一
现代社会已经步入信息化社会,信息技术在经济发展、社会进步以及人民生活等各个方面起着至关重要的作用。随着移动通信和Internet的迅速发展,互联网与电信网之间的边界越来越
如何利用计算机对自然语言进行处理,以便分析、综合、翻译其内容,有着重要的理论与实用价值。在海量数据涌现的互联网时代,尤为重要。在自然语言处理中,以大量真实语料构建语
多媒体会议系统提供了一种远程视频会议的功能,包括基本的音视频功能和其他辅助功能。多媒体会议系统原本是在IPv4网络上进行设计的,只有IPv4的用户可以创建会议,加入会议,但
当今,随着网络复杂性的日益增长,通信网络面临着越来越多如何有效保障网络服务质量(Quality of Service, QoS)的挑战。为此,人们提出了认知网络(Cognitive Network, CN)作为
无线传感器网络由大量能量受限制的传感器节点通过自组织方式组成,节点之间协作完成网络的数据传输。然而由于节点体积和成本的限制,传感器节点通常在计算能力、通信能力和能