基于主动机制的广播数据快速过滤算法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:busyouweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据广播是近年来所兴起的信息服务的新领域,它整合了互联网和广播电视网,它可以取所有网站作信源,取数字电视做信道,把网站内容整体推送到家。它继承了前两种媒体的长处(信源丰富、传播广阔),又避免了各自的短处(传播信道拥挤、不能保存随时查看),是一种全新的文化工具。随着数据广播业务的开展、广播数据类型和数量的增长,需要有一个系统帮助用户从大量的信息中选择和抽取自己所需要的信息,本项目就是为满足这种需求所提出来的。 本项目的设计目标是研究和实现能够主动收集和处理广播数据的系统,本文首先利用组播和数据广播的原理实现了一个数据广播的模拟播出和接收系统,在这个系统的基础上,扩展了主动数据库的主动机制,使之能够灵活的嵌入到我们的系统中,最后设计了一个广播数据的快速过滤器,使用户能够快速的过滤掉无用的信息。 主动数据库能够自动对内部的或外部的状态变化进行反应,而无需用户干预,本文扩充了主动机制并把它用于广播数据接收系统的管理,设计了接收系统特有的一些事件、动作和规则,同时采用定义2层优先级的方法来处理规则的冲突。在主动机制的实现上,本文采用了把事件监测器封装到动态链接库的方法,大大提高了系统的可扩展能力。 文本过滤的主要方法包括扩展的检索模型和改造的分类模型。前者主要利用字符串匹配算法,速度快但是精度不高,而后者主要采用文本分类算法,精度高但是速度慢。本文提出了利用2层过滤的方法综合了上述两种方法的优点。第一层是数据包级别的过滤,使用字符串匹配Aho-Corasick算法进行过滤,第二层利用概念层次对整个文本进行过滤。基于概念层次的快速过滤算法是本文的创新点之一。 通过实验我们可以看出,利用概念层次树来进行快速过滤,能达到50%以上的过滤效果和97%以上的准确度。同时又能够保证过滤时间不会太长。
其他文献
当前,随着人们生活节奏的加快和工作压力的增加,心脏系统疾病发病率持续上升,且患者年轻化趋势越来越明显,它已经成为人类生命健康的主要威胁。医院现有的软硬件资源很难在短
1982年波兰学者Z.Pawlak提出了粗糙(Rough)集。它是一种处理不精确和不完备信息的数学工具,而且不依赖于数据集之外的任何附加信息。经历了近20年的发展,已经在理论和应用上取得
随着互联网技术的飞速发展,通过搜索引擎或者Web网络来获取信息,已经发展成为人们工作和生活的习惯。由于用户查询通常仅仅由若干个单词组成,导致查询不能清晰准确的表达用户
信息粒和粒计算是近几年国际上发展较迅速的一个学科,它在许多方面都有其特别的理论意义和应用价值。 本文详细分析研究了粒计算的基本理论与技术,并将其应用于模式识别特别
如今,数据空间中的信息呈现出多元化和高速化发展趋势,人们关注的焦点不再是信息的来源,而是获取信息的方式。但是,由于数据信息的海量性、异构性和分布性等特点,如何快速、
SAT问题是计算科学中最基础的问题之一,大部分组合逻辑问题都可以归约求解SAT问题上面来,是非常具有理论研究价值和实际应用潜力的问题。对于一个布尔公式,如果存在一组变量
信息产业的发展,把我们带入了一个数字化时代。大量的数字化信息在给人们带来方便的同时,也带来了一系列问题,比如敏感信息可能轻易地被窃取、篡改、非法复制和传播等等。因此必
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展主题搜索引擎已经成为趋势。由于主题搜索引擎搜索的内容只限于特定主题或专门领域,被通
随着计算机技术的飞速发展,软件系统的数量越来越多,规模越来越大,复杂程度越来越高。在一些大型、长生命周期的软件测试和维护过程中,手工分析已经变得越来越不可行,越来越
伴随着海量数据的不断涌现,“数据充沛,却信息匮乏”的矛盾日益突出。数据挖掘为我们从海量数据中提取或挖掘有用信息提供了有效的技术手段,其中作为数据挖掘重要方法的决策